ランキング（統計）

統計データを順位に変換する

統計学において、ランキングとは、データを並べ替える際に数値または順序値を順位に置き換えるデータ変換のことです。

例えば、数値データ 3.4、5.1、2.6、7.3 の順位は 2、3、1、4 です。

別の例として、順序データ hot、cold、warm は 3、1、2 に置き換えられます。これらの例では、ランクは昇順で値に割り当てられますが、降順のランクも使用できます。

ランクは、昇順に並べ替えられた元のデータセットで構成される順序統計のインデックス付きリストに関連しています。

検定に使用

統計検定の中には、順位に基づく計算を採用するものがあります。例としては、以下のものがあります

値のスケールが大きく異なる場合、順位の降順で分布を解析することがしばしば重要になります。これは、都市の規模や単語の頻度などにおける順位規模分布（または順位頻度分布）と呼ばれます。これらはしばしばべき乗則に従います。

同順位データ値の場合、順位によっては整数以外の値を取ることがあります。例えば、同じデータ値が偶数個ある場合、同順位データの小数点以下の統計順位は1/2で終わります。パーセンタイル順位は、統計順位の別の種類です。

計算

Microsoft Excelには、同点の場合に競争順位を割り当てるRank.EQ関数と、同点に小数点以下の順位を割り当てるRank.AVG関数の2つのランキング関数が用意されています。例えば、ランキング対象のデータが("5, 7, 7, 10")の場合、Rank.EQは("1, 2, 2, 4")を返しますが、Rank.AVGは("1, 2.5, 2.5, 4")を返します。Rank.AVGは同点の場合に順位の合計を保持しますが、Rank.EQは保持しないことに注意してください。そのため、多くの統計アプリケーションでは後者は望ましくありません。これらの関数には順序引数^[1]があり、デフォルトでは降順に設定されています。つまり、最大の数が順位1になります。これは、ランキングが通常昇順で最小の数が順位1になる統計では一般的に一般的ではありません

意味

確率変数の集合を仮定する。これらを順序付けすることで、順序統計量を定義する^[4]。 $X_{1},..X_{n}$

X_{n,(1)}\leq ...\leq X_{n,(n)}

すべての値が一意である場合、変数番号のランクは方程式の一意の解となります。同点がある場合は、となるすべての指標の平均として定義されるミッドランク（前述の「分数ランク」に相当）を使用するか、によって定義されるアップランク（「修正競争ランキング」に相当）を使用します。 $i$ $R_{n,i}$ $X_{i}=X_{N,(R_{n,i})}$ $i$ $X_{j}=X_{N,(R_{n,j})}$ $\sum _{j=1}^{n}1\{X_{j}\leq X_{i}\}$

参考文献

^ 「Excel RANK.AVG ヘルプ」。Officeサポート。Microsoft 。2021年1月21日閲覧
^ Plaisier, Seema B.; Taschereau, Richard; Wong, Justin A.; Graeber, Thomas G. (2010年9月). 「Rank-rank hypergeometric overlap: 遺伝子発現シグネチャー間の統計的に有意な重複の特定」. Nucleic Acids Research . 38 (17): e169. doi :10.1093/nar/gkq636. PMC 2943622. PMID 20660011 .
^ ウェバー, ウィリアム; モファット, アリスター; ゾベル, ジャスティン (2010年11月). 「不定ランキングのための類似度尺度」. ACM Transactions on Information Systems . 28 (4): 1– 38. doi :10.1145/1852102.1852106. S2CID 16050561.
^ Vaart、AW van der (1998)。漸近統計。ケンブリッジ、英国: Cambridge University Press。ISBN 9780521784504。

[rankavghelp-1] 「Excel RANK.AVG ヘルプ」。Officeサポート。Microsoft 。2021年1月21日閲覧

[2] Plaisier, Seema B.; Taschereau, Richard; Wong, Justin A.; Graeber, Thomas G. (2010年9月). 「Rank-rank hypergeometric overlap: 遺伝子発現シグネチャー間の統計的に有意な重複の特定」. Nucleic Acids Research . 38 (17): e169. doi :10.1093/nar/gkq636. PMC 2943622. PMID 20660011 .

[3] ウェバー, ウィリアム; モファット, アリスター; ゾベル, ジャスティン (2010年11月). 「不定ランキングのための類似度尺度」. ACM Transactions on Information Systems . 28 (4): 1– 38. doi :10.1145/1852102.1852106. S2CID 16050561.

[vaart1998-4] Vaart、AW van der (1998)。漸近統計。ケンブリッジ、英国: Cambridge University Press。ISBN 9780521784504。

ランキング（統計）

検定に使用

計算

ランキングの比較

意味

参考文献