パーセンタイル

統計学において、kパーセンタイルパーセンタイルスコアまたはセンタイルとも呼ばれる)とは、頻度分布において全スコアのkパーセントが特定のパーセンテージでその値より下に存在するスコア(データポイントなど)です(「排他的」定義)。あるいは、全スコアの特定のパーセンテージがその値以下存在するスコア(「包括的」定義)です。つまり、 kパーセンタイルのスコアは、そのセットの全スコアの約kパーセントより上になります。例えば、排他的定義では、97 パーセンタイルは、データポイントの 97 パーセントがその値より小さい値です。パーセンタイルは、スコアの配置方法によって異なります。

パーセンタイルは、100のグループに分割することで得られる分位値の一種です。25パーセンタイルは第1四分値(Q 1)、50パーセンタイルは中央値または第2四分位値(Q 2)、75パーセンタイルは第3四分位値(Q 3)とも呼ばれます。例えば、50パーセンタイル(中央値)は、分布内のスコアの50%がそれ以下のスコア(定義によっては またはもしくはそれ以下)であることを意味します。

パーセンタイルは、パーセントはなく、入力スコアと同じ測定単位で表されます。例えば、スコアが人間の体重を表す場合、対応するパーセンタイルはキログラムまたはポンドで表されます。サンプルサイズが無限の場合、パーセンタイルは累積分布関数の逆関数であるパー​​センタイル関数に近似します。

関連する数量は、パーセントで表される、与えられたスコアのパーセンタイル順位であり、分布におけるそのスコアより低いスコアの割合、つまり排他的定義を表します。パーセンタイルスコアとパーセンタイル順位は、規範参照テストテストスコアの報告でよく使用されますが、前述のように、これらは同じではありません。パーセンタイル順位の場合、スコアが指定され、パーセンタイルが計算されます。パーセンタイル順位は排他的です。つまり、指定されたスコアのパーセンタイル順位が 90% の場合、90% のスコアがより低いことになります。対照的に、パーセンタイルの場合、パーセンテージが指定され、対応するスコアが決定されます。このスコアは、排他的または包括的のいずれかになります。指定されたパーセンテージ (たとえば、90 番目) のスコアは、分布内の他のスコアがそのスコアより下 (排他的定義) にあるか、またはそのスコアと同じかそれより下 (包括的定義) にあるかを示します。

定義

パーセンタイルの標準的な定義はないが[ 1 ] [ 2 ] [ 3 ] 、観測数が非常に多く、確率分布が連続している場合、すべての定義で同様の結果が得られる。[ 4 ]極限では、サンプルサイズが無限大に近づくにつれて、100 p番目のパーセンタイル (0 < p <1) は、このようにして形成された累積分布関数(CDF)の逆関数に近似し、 pは CDF に近似するため、pで評価される。これは、グリベンコ・カンテリの定理の結果として見ることができる。パーセンタイルを計算するいくつかの方法を以下に示す。

正規分布では

3シグマルールの表現。濃い青色の領域は、平均値(μ)の両側に1標準偏差(σ)以内の観測値を表し、これは母集団の約68.3%を占めます。平均値から2標準偏差(濃い青と中程度の青)は約95.4%を占め、3標準偏差(濃い青、中程度の青、薄い青)は約99.7%を占めます。

計算方法のセクション(下記)で示されている方法は、小規模なサンプルの統計で使用するための近似値です。一般的に、正規分布に従う非常に大規模な母集団の場合、パーセンタイルは正規曲線プロットを参照して表されることがよくあります。正規分布は、標準偏差、またはシグマ()単位にスケールされた軸に沿ってプロットされます。数学的には、正規分布は左側が負の無限大まで、右側が正の無限大まで拡張されます。ただし、母集団内のごくわずかな個人のみが -3 σから +3 σ の範囲外になることに注意してください。たとえば、人間の身長で +3 σ の身長レベルを超える人はほとんどいません。 σ{\displaystyle \sigma }

パーセンタイルは正規曲線の下の面積を表し、左から右に向かって増加します。各標準偏差は固定されたパーセンタイルを表します。したがって、小数点以下2桁に丸めると、-3 σは0.13パーセンタイル、-2 σは2.28パーセンタイル、-1 σ は15.87パーセンタイル、0 σ は50パーセンタイル(分布の平均値と中央値の両方)、+1 σ は84.13パーセンタイル、+2 σ は97.72パーセンタイル、+3 σは99.87パーセンタイルとなります。これは、68-95-99.7ルールまたは3シグマルールに関連しています。理論上は0パーセンタイルは負の無限大、100パーセンタイルは正の無限大になりますが、テスト結果などの多くの実際のアプリケーションでは、自然な下限値または上限値が強制されます。

アプリケーション

インターネットサービスプロバイダーが「バースト可能な」インターネット帯域幅の料金を請求する際、通常、95パーセンタイルまたは98パーセンタイルは、各月の帯域幅ピークの上位5%または2%を除外し、最も近い料金で請求します。このようにして、頻度の低いピークは無視され、顧客への請求はより公平になります。この統計がデータスループットの測定に非常に役立つのは、帯域幅のコストを非常に正確に把握できるためです。95パーセンタイルとは、95%の時間で使用量がこの値を下回り、残りの5%の時間で使用量がこの値を上回ることを意味します。

医師は乳児や小児の体重と身長を、成長曲線にある全国平均やその他のパーセンタイルと比較して成長を評価する際によく使用します。

道路上の交通の85パーセンタイル速度は、速度制限を設定する際や、その制限が高すぎるか低すぎるかを評価する際のガイドラインとしてよく使用されます。[ 5 ] [ 6 ]

金融において、バリュー・アット・リスクとは、一定期間内にポートフォリオの価値が下回るとは予想されず、信頼度が与えられた場合に、その量を(モデルに依存した方法で)評価するための標準的な尺度です。

計算方法

10 スコア分布の補間パーセンタイルと最近傍順位パーセンタイル(排他的および包括的)
10 スコア分布の補間パーセンタイルと最近傍順位パーセンタイル(排他的および包括的)

パーセンタイルスコアには多くの公式やアルゴリズム[ 7 ]があります。HyndmanとFan [ 1 ]は9つの方法を特定し、ほとんどの統計ソフトウェアやスプレッドシートソフトウェアは彼らが説明した方法のいずれかを使用しています[ 8 ] 。アルゴリズムは、スコアセット内に存在するスコアの値を返すか(最近傍順位法)、既存のスコア間を補間するかのいずれかであり、排他的または包括的です。

最近似順位法(排他的/包括的)
PC: 指定されたパーセンタイル0.100.250.500.750.90
N: スコアの数1010101010
または: 順序ランク = PC × N12.557.59
ランク: >OR / ≥OR2/13/36/58/810月9日
ランク別スコア(増減)2/13/34/35/57/5

この図は10スコア分布を示し、これらの異なるアルゴリズムから得られるパーセンタイルスコアを示しています。また、後述の例への導入としても役立ちます。最も単純なのは、分布からスコアを返す最近傍順位法ですが、補間法と比較すると、結果がやや粗くなる場合があります。最近傍順位法の表には、排他的手法と包括的手法の計算手順が示されています。

補間法(排他的/包含的)
PC: 指定されたパーセンタイル0.100.250.500.750.90
N: スコアの数1010101010
または: PC×(N+1) / PC×(N−1)+11.1/1.92.75/3.255.5/5.58.25/7.759.9/9.1
LoRank: OR 切り捨て1/12/35/58月7日9月9日
HIRank: または切り上げ2/23/46/69月8日10/10
LoScore: LoRankでのスコア1/12/33/35/45/5
HiScore: HiRankでのスコア2/23/34/45/57月7日
差: ハイスコア − ロースコア1/11/01/10/12/2
Mod: OR の小数部分0.1/0.90.75/0.250.5/0.50.25/0.750.9/0.1
補間スコア(exc/inc)= LoScore + Mod × Difference1.1/1.92.75/33.5/3.55/4.756.8/5.2

補間法は、その名の通り、分布内のスコア間のスコアを返すことができます。統計プログラムで使用されるアルゴリズムでは、通常、補間法が用いられます。例えば、Microsoft Excelのpercentile.exc関数やpercentile.inc関数などがその例です。補間法の表に計算手順を示します。

最近接順位法

順序付きリスト{15, 20, 35, 40, 50}のパーセンタイル値

テキストでよく与えられるパーセンタイルの定義の 1 つは、N個の順序付けられた値 (最小から最大の順に並べ替え)のリストのP番目のパーセンタイルが、リスト内の最小値であり、データのPパーセント以上がその値より小さくなく、データの少なくともPパーセントがその値以下である、というものです。 0<P100{\displaystyle (0<P\leq 100)}

これは、まず順序順位を計算し、次にその順位に対応する値を順序付きリストから取得することによって計算されます。順序順位nは次の式で計算されます。

nP100×{\displaystyle n=\left\lceil {\frac {P}{100}}\times N\right\rceil .}
  • 100 個未満の異なる値を持つリストで最近接ランク方式を使用すると、複数のパーセンタイルに同じ値が使用される可能性があります。
  • 最近似順位法を使用して計算されたパーセンタイルは、常に元の順序付きリストのメンバーになります。
  • 100 パーセンタイルは、順序付けられたリスト内の最大値として定義されます。
  • この方法は「経験分布関数」法とも呼ばれる。[ 9 ]
  • この方法で計算された50パーセンタイルは、Nが奇数の場合は通常の中央値と等しくなりますが、Nが偶数の場合は等しくありません。[ 9 ]

CDF法

CDF法は、例えばLangfordによって説明されました。[ 9 ]

順序統計を考慮すると

{v12:v+1v121}{\displaystyle \{v_{(i)},i=1,2,\ldots,N:v_{(i+1)}\geq v_{(i)},\forall i=1,2,\ldots,N-1\},}

計算します。パーセンタイルは ×P100×{\displaystyle x={\frac {P}{100}}\times N}

v×{v1、 のために ×0v×、 のために ×{0121}v×+v×+12、 のために ×{121}{\displaystyle v(x)={\begin{cases}v_{(1)}{\text{, }}x=0,\\v_{(\lceil x\rceil )}{\text{, }}x\notin \{0,1,2,\ldots ,N-1\},\\{\frac {v_{(x)}+v_{(x+1)}}{2}}{\text{, }}x\in \{1,2,\ldots ,N-1\}.\end{cases}}}
  • この方法で計算された 50 パーセンタイルは、中央値の通常の値と等しくなります。
  • データを 2 倍にしても、計算されたパーセンタイル値は変わりません。

最も近い順位間の線形補間法

多くのアプリケーションで使用される丸めの代替として、隣接するランク間で 線形補間を使用する方法があります。

順序統計を考慮すると

{v12:v+1v121}{\displaystyle \{v_{(i)},i=1,2,\ldots,N:v_{(i+1)}\geq v_{(i)},\forall i=1,2,\ldots,N-1\},}

線形補間は単純に計算することによって達成される。

v×{v1、 のために ×1v、 のために ×v×+×モッド1v×+1v×、 のために 1<×<{\displaystyle v(x)={\begin{cases}v_{(1)}{\text{, }}x\leq 1 の場合、\\v_{(N)}{\text{, }}x=N の場合、\\v_{(\lfloor x\rfloor )}+(x{\bmod {1}})(v_{(\lfloor x\rfloor +1)}-v_{(\lfloor x\rfloor )}){\text{, }}1<x<N の場合、\end{cases}}}

ここで、 はfloor 関数を使用してxの整数部分を表しますが、 はmod 関数を使用してその小数部分 (1 で割った後の余り) を表します。 ×{\displaystyle \lfloor x\rfloor }×モッド1{\displaystyle x{\bmod {1}}}

こちらです、vv、 のために 12{\displaystyle v(i)=v_{(i)}{\text{, for }}i=1,2,\ldots ,N.}

ご覧のとおり、x は下付き文字iの連続バージョンであり、隣接するノード間で v を線形補間します。

バリアントアプローチには2つの違いがあります。1つ目は、順位xパーセント順位、そしてサンプルサイズNの関数である定数との間の線形関係です。 P100p{\displaystyle P=100p}

×fp+c1p+c2{\displaystyle x=f(p,N)=(N+c_{1})p+c_{2}.}

中央値に対応する範囲の中点は、次の場所に発生するという追加要件があります。 1{\displaystyle (1,N)}p0.5{\displaystyle p=0.5}

f0.5+c12+c2+122c2+c11{\displaystyle {\begin{aligned}f(0.5,N)&={\frac {N+c_{1}}{2}}+c_{2}={\frac {N+1}{2}}\\\したがって 2c_{2}+c_{1}&=1\end{aligned}},}

修正した関数の自由度は 1 になり、次のようになります。

×fp+12Cp+C{\displaystyle x=f(p,N)=(N+1-2C)p+C.}

変種間の2つ目の違いは、 pの範囲の端付近における関数の定義にあります。関数は範囲 内の結果を生成するか、または生成するように強制されるべきであり、これはより広い領域では1対1の対応が存在しないことを意味する可能性があります。ある著者は、 を選択することを提案しています。ここで、ξは一般化極値分布の形状であり、これは標本分布の極値極限です。 [01]{\displaystyle [0,1]}fp{\displaystyle f(p,N)}[1]{\displaystyle [1,N]}C121+ξ{\displaystyle C={\tfrac {1}{2}}(1+\xi )}

最初の変種、C = 1/2

順序付きリスト{15、20、35、40、50}の3つのバリアントをそれぞれ使用した場合の結果

(出典:Matlabの「prctile」関数、[ 10 ] [ 9 ]

×fp{p+12p[p1p]1p[0p1]p[p1]{\displaystyle x=f(p)={\begin{cases}Np+{\frac {1}{2}},\forall p\in \left[p_{1},p_{N}\right],\\1,\forall p\in \left[0,p_{1}\right],\\N,\forall p\in \left[p_{N},1\right].\end{cases}}}

どこ

p112[1]{\displaystyle p_{i}={\frac {1}{N}}\left(i-{\frac {1}{2}}\right),i\in [1,N]\cap \mathbb {N} }
p112p212{\displaystyle \therefore p_{1}={\frac {1}{2N}},p_{N}={\frac {2N-1}{2N}}.}

さらに、

P100p{\displaystyle P_{i}=100p_{i}.}

逆の関係はより狭い領域に制限されます。

p1×12×1R\displaystyle p={\frac {1}{N}}\left(x-{\frac {1}{2}}\right),x\in (1,N)\cap \mathbb {R} .}

2番目のバリエーション、C = 1

[出典: NumPy [ 11 ]Microsoft Excel [ 3 ] ( PERCENTILE.INC関数を使用したバージョン2013まで)などのソフトウェアパッケージ。NIST [ 8 ]によって代替手段として記載されている。]

×fpp1+1、 p[01]{\displaystyle x=f(p,N)=p(N-1)+1{\text{, }}p\in [0,1]}
p×11、 ×[1]{\displaystyle \therefore p={\frac {x-1}{N-1}}{\text{, }}x\in [1,N].}

3 つのバリアントのうち、この特性を持つのは のみであるため、関係は 1 対 1 であることに注意してください。そのため、 Excel 関数には、 を含むことを示す "INC" サフィックスが付きます。×p{\displaystyle x\leftrightarrow p}p[01]{\displaystyle p\in [0,1]}

3番目のバリエーション、C = 0

( NISTが推奨する主要なバリアント。[ 8 ] 2010年から PERCENTIL.EXC 関数によって Microsoft Excel に採用されています。ただし、「EXC」サフィックスが示すように、Excel バージョンはpの範囲の両端、つまり を除外しますが、2 番目のバリアントである「INC」バージョンは除外しません。実際、 より小さい数値も除外され、エラーが発生します。) p01{\displaystyle p\in (0,1)}1+1{\displaystyle {\frac {1}{N+1}}}

×fp{1、 p[01+1]p+1、 p1+1+1、 p[+11]{\displaystyle x=f(p,N)={\begin{cases}1{\text{, }}p\in \left[0,{\frac {1}{N+1}}\right]\\p(N+1){\text{, }}p\in \left({\frac {1}{N+1}},{\frac {N}{N+1}}\right)\\N{\text{, }}p\in \left[{\frac {N}{N+1}},1\right]\end{cases}}.}

逆はより狭い領域に制限されます。

p×+1、 ×0{\displaystyle p={\frac {x}{N+1}}{\text{, }}x\in (0,N).}

加重パーセンタイル法

パーセンタイル関数に加えて、重み付きパーセンタイル関数もあります。これは、総数ではなく、総重量に対する割合をカウントします。重み付きパーセンタイル関数の標準的な関数はありません。上記のアプローチを自然な形で拡張する方法が1つあります。

N個のソートされたサンプル値にそれぞれ正の重みが関連付けられていると仮定します。 123{\displaystyle w_{1},w_{2},w_{3},\dots ,w_{N}}

S1{\displaystyle S_{N}=\sum _{k=1}^{N}w_{k},}

重みの合計。そして、上記の式は次のように一般化される。

pn1SSnn2{\displaystyle p_{n}={\frac {1}{S_{N}}}\left(S_{n}-{\frac {w_{n}}{2}}\right)}いつ、C1/2{\displaystyle C=1/2}

または

pnSnCnS+12Cn{\displaystyle p_{n}={\frac {S_{n}-Cw_{n}}{S_{N}+(1-2C)w_{n}}}}一般向け、C{\displaystyle C}

そして

vv+Ppp+1pv+1v{\displaystyle v=v_{k}+{\frac {P-p_{k}}{p_{k+1}-p_{k}}}(v_{k+1}-v_{k})。}

50% 加重パーセンタイルは加重中央値として知られています。

参照

参考文献

  1. ^ a b Hyndman, Rob J. ; Fan, Yanan (1996年11月). 「統計パッケージにおけるサンプル・クォンタイル」 . American Statistician . 50 (4). American Statistical Association: 361–365 . doi : 10.2307/2684934 . JSTOR  2684934 .
  2. ^レーン、デイビッド. 「パーセンタイル」 . 2007年9月15日閲覧
  3. ^ a b Pottel, Hans. 「Excelの統計的欠陥」(PDF)2013年6月4日時点のオリジナル(PDF)からアーカイブ。 2013年3月25日閲覧
  4. ^ Schoonjans F, De Bacquer D, Schmid P (2011). 「人口パーセンタイルの推定」 .疫学. 22 (5): 750– 751. doi : 10.1097/EDE.0b013e318225c1de . PMC 3171208. PMID 21811118 .  
  5. ^ジョンソン、ロバート、クビー、パトリシア(2007年)「応用例2.15、85パーセンタイル速度制限:流れの85%に従う」初等統計学(第10版)、Cengage Learning、p. 102、ISBN 9781111802493
  6. ^ 「合理的な速度制限と85パーセンタイル速度」(PDF)lsp.orgルイジアナ州警察。2018年9月23日時点のオリジナル(PDF)からアーカイブ20181028日閲覧
  7. ^ Wessa, P (2021). 「無料統計ソフトウェアのパーセンタイル」 . 研究開発教育局. 2021年11月13日閲覧
  8. ^ a b c「エンジニアリング統計ハンドブック:パーセンタイル」NIST2009年2月18日閲覧
  9. ^ a b c d Langford, E. (2006). 「初等統計における四分位数」 .統計教育ジャーナル. 14 (3). doi : 10.1080/10691898.2006.11910589 .
  10. ^ 「Matlab Statistics Toolbox – Percentiles」 . 2006年9月15日閲覧これはここで説明した方法5と同等である。
  11. ^ 「NumPy 1.12ドキュメント」 . SciPy . 2017年3月19日閲覧。