ランキング(統計)

統計データを順位に変換する

統計学においてランキングとは、データを並べ替える際に数値または順序値を順位に置き換える データ変換ことです

例えば、数値データ 3.4、5.1、2.6、7.3 の順位は 2、3、1、4 です。

別の例として、順序データ hot、cold、warm は 3、1、2 に置き換えられます。これらの例では、ランクは昇順で値に割り当てられますが、降順のランクも使用できます。

ランクは、昇順に並べ替えられた元のデータセットで構成される 順序統計のインデックス付きリストに関連しています。

検定に使用

統計検定の中には、順位に基づく計算を採用するものがあります。例としては、以下のものがあります

値のスケールが大きく異なる場合、順位の降順で分布を解析することがしばしば重要になります。これは、都市の規模や単語の頻度などにおける順位規模分布(または順位頻度分布)と呼ばれます。これらはしばしばべき乗則に従います。

同順位データ値の場合、順位によっては整数以外の値を取ることがあります。例えば、同じデータ値が偶数個ある場合、同順位データの 小数点以下の統計順位は1/2で終わります。パーセンタイル順位は、統計順位の別の種類です。

計算

Microsoft Excelには、同点の場合に競争順位を割り当てるRank.EQ関数と、同点に小数点以下の順位を割り当てるRank.AVG関数の2つのランキング関数が用意されています。例えば、ランキング対象のデータが("5, 7, 7, 10")の場合、Rank.EQは("1, 2, 2, 4")を返しますが、Rank.AVGは("1, 2.5, 2.5, 4")を返します。Rank.AVG同点の場合に順位の合計を保持しますが、Rank.EQは保持しないことに注意してください。そのため、多くの統計アプリケーションでは後者は望ましくありません。これらの関数には順序引数[1]があり、デフォルトでは降順に設定されています。つまり、最大の数が順位1になります。これは、ランキングが通常昇順で最小の数が順位1になる統計では一般的に一般的ではありません

ランキングの比較

順位相関は、同じオブジェクトセットの2つのランキングを比較するために使用できます。例えば、スピアマンの順位相関係数は、 2つのトーナメントにおける選手のランキング間の統計的依存関係を測定するのに役立ちます。ケンドールの順位相関係数も別のアプローチです。あるいは、交差/重複に基づくアプローチは、さらなる柔軟性を提供します。一例として、「ランク-ランク超幾何オーバーラップ」アプローチ[2]があります。これは、発現差のある遺伝子の2つの順序付きリストの「トップ」にある遺伝子のランキングを比較するように設計されています。同様のアプローチは、「ランクバイアスオーバーラップ(RBO)」[3]でも採用されており、調整可能な確率pを実装して、ランキングの目的の深さに割り当てられる重みをカスタマイズします。これらのアプローチには、互いに素なセット、異なるサイズのセット、およびトップの重み付け(標準的な非重み付け順位相関アプローチでは無視される可能性のある絶対的なランキング位置を考慮)に 対処できるという利点があります

意味

確率変数の集合を仮定する。これらを順序付けすることで、順序統計量を定義する[4]。 X 1 X n {\displaystyle X_{1},..X_{n}}

X n 1 X n n {\displaystyle X_{n,(1)}\leq ...\leq X_{n,(n)}}

すべての値が一意である場合、変数番号 のランクは方程式 の一意の解となります。同点がある場合は、 となるすべての指標の平均として定義されるミッドランク(前述の「分数ランク」に相当)を使用するかによって定義されるアップランク(「修正競争ランキング」に相当)を使用します。 {\displaystyle i} R n {\displaystyle R_{n,i}} X X N R n {\displaystyle X_{i}=X_{N,(R_{n,i})}} {\displaystyle i} X j X N R n j {\displaystyle X_{j}=X_{N,(R_{n,j})}} j 1 n 1 { X j X } {\displaystyle \sum _{j=1}^{n}1\{X_{j}\leq X_{i}\}}

参考文献

  1. ^ 「Excel RANK.AVG ヘルプ」。Officeサポート。Microsoft 2021年1月21日閲覧
  2. ^ Plaisier, Seema B.; Taschereau, Richard; Wong, Justin A.; Graeber, Thomas G. (2010年9月). 「Rank-rank hypergeometric overlap: 遺伝子発現シグネチャー間の統計的に有意な重複の特定」. Nucleic Acids Research . 38 (17): e169. doi :10.1093/nar/gkq636. PMC 2943622. PMID 20660011  . 
  3. ^ ウェバー, ウィリアム; モファット, アリスター; ゾベル, ジャスティン (2010年11月). 「不定ランキングのための類似度尺度」. ACM Transactions on Information Systems . 28 (4): 1– 38. doi :10.1145/1852102.1852106. S2CID  16050561.
  4. ^ Vaart、AW van der (1998)。漸近統計。ケンブリッジ、英国: Cambridge University Press。ISBN 9780521784504
「https://en.wikipedia.org/w/index.php?title=ランキング統計&oldid=1294851829」より取得