四分位範囲

正規分布N(0,σ 2 )の箱ひげ図(四分位範囲付き)と確率密度関数(pdf)

記述統計において、四分位範囲IQR)は統計的散布度、つまりデータの広がりの尺度である。[ 1 ] IQRはミッドスプレッド中間50%第4スプレッド、またはHスプレッドと呼ばれることもある。これは、データの75パーセンタイルと25パーセンタイルの差として定義される。 [ 2 ] [ 3 ] [ 4 ] IQRを計算するために、データセットは線形補間によって四分位数、つまり4つのランク付けされた均等な部分に分割される。 [ 1 ]これらの四分位数は、 Q 1(下位四分位数とも呼ばれる)、Q 2中央値)、およびQ 3 (上位四分位数とも呼ばれる)で示される。下位四分位数は25パーセンタイルに相当し、上位四分位数は75パーセンタイルに相当するため、IQR = Q 3 −   Q 1 [ 1 ]となる。

IQRは、25%のトリミング範囲として定義されるトリミング推定量の一例であり、寄与度の低い外れ値を除外することでデータセット統計の精度を高めます。[ 5 ]また、尺度の堅牢な尺度としても使用されます。[ 5 ]ボックスプロット上のボックスで明確に視覚化できます。[ 1 ]

使用

全体範囲とは異なり、四分位範囲には25%の内訳点があるため[ 6 ]、全体範囲よりも好まれることが多いです。

IQR は、確率分布の単純なグラフ表現であるボックス プロットを作成するために使用されます。

IQR は企業において、収益率の指標として使用されます。

対称分布(中央値が中央ヒンジ、つまり第 1 四分位数と第 3 四分位数の平均に等しい)の場合、IQR の半分は中央絶対偏差(MAD) に等しくなります。

中央値は中心傾向に対応する尺度です。

IQRは外れ値を特定するために使用できます(下記参照)。また、IQRはデータセットの歪度を示すこともあります。 [ 1 ]

四分位偏差または半四分位範囲はIQRの半分として定義される。[ 7 ]

アルゴリズム

一連の値のIQRは、上位四分位数Q 3と下位四分位数Q 1の差として計算されます。各四分位数は中央値[ 8 ]であり、以下のように計算されます。

2n個の偶数または2n+1個の奇数の値 が与えられた場合

第1四分位数 Q 1 = n個の最小値の中央値
第3四分位数 Q 3 =最も大きいn個の値の中央値[ 8 ]

二四分位数Q2通常の中央値と同じである。[ 8 ]

テーブル内のデータセット

次の表には 13 行あり、奇数エントリのルールに従います。

x[i] 中央値 四分位数
1 7 Q 2 =87 (表全体の中央値) Q 1 =31 (1行目から6行目までの下半分の中央値)
2 7
3 31
4 31
5 47
6 75
7 87
8 115 Q 3 =119 (8行目から13行目までの上位半分の中央値)
9 116
10 119
11 119
12 155
13 177

この表のデータの場合、四分位範囲は IQR = Q 3 − Q 1 = 119 - 31 = 88 です。

プレーンテキストボックスプロット内のデータセット

 +−−−−−+−+ * |−−−−−−−−−−−| | |−−−−−−−−−−−−| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ 数直線 0 1 2 3 4 5 6 7 8 9 10 11 12 

このボックスプロットのデータ セットの場合:

  • 下位(第1)四分位数Q 1 = 7
  • 中央値(第2四分位)Q 2 = 8.5
  • 上位(第3)四分位数Q 3 = 9
  • 四分位範囲、IQR = Q 3 - Q 1 = 2
  • 下限 1.5 * IQR ヒゲ = Q 1 - 1.5 * IQR = 7 - 3 = 4。(4 にデータ ポイントがない場合、最低点は 4 より大きいです。)
  • 上側の 1.5 * IQR ヒゲ = Q 3 + 1.5 * IQR = 9 + 3 = 12。(12 にデータ ポイントがない場合、最高点は 12 未満になります。)
  • 最後の 2 つの箇条書きのパターン: 実際の四分位にデータ ポイントがない場合は、実際の四分位からわずかに「内陸」(中央値に近い) にあるデータ ポイントを使用します。

これは、1.5*IQRのヒゲの長さが不均一になる可能性があることを意味します。中央値、最小値、最大値、そして第1四分位値と第3四分位値は、5つの数値の要約を構成します。[ 9 ]

配布

連続分布の四分位範囲は、確率密度関数累積分布関数を算出します。CDFを計算する他の方法も使用できます)を積分することで計算できます。下限四分位数Q 1は、-∞からQ 1までのPDFの積分値が0.25となる数値です。上限四分位数Q 3は、-∞からQ 3までの積分値が0.75となる数値です。CDFの観点から、四分位数は次のように定義できます。

質問1CDF10.25{\displaystyle Q_{1}={\text{CDF}}^{-1}(0.25),}
質問3CDF10.75{\displaystyle Q_{3}={\text{CDF}}^{-1}(0.75),}

ここでCDF −1は分位関数です。

いくつかの一般的な分布の四分位範囲と中央値を以下に示します。

分布 中央値 IQR
普通μ 2 Φ −1 (0.75)σ ≈ 1.349σ ≈ (27/20)σ
ラプラスμ 2 b  ln(2) ≈ 1.386 b
コーシーμ

分布の正規性の四分位範囲検定

母集団PのIQR、平均値標準偏差は、Pが正規分布、つまりガウス分布に従うかどうかを判定する簡単な検定に使用できます。P正規分布する場合、第1四分位の標準得点z 1は-0.67、第3四分位の標準得点z 3は+0.67です。Pの平均 =  、標準偏差 =σとすると、 P正規分布する場合、第1四分位は P¯{\displaystyle {\bar {P}}}

質問1σz1+P¯{\displaystyle Q_{1}=(\sigma \,z_{1})+{\bar {P}}}

そして第3四分位

質問3σz3+P¯{\displaystyle Q_{3}=(\sigma \,z_{3})+{\bar {P}}}

第1四分位数または第3四分位数の実際の値が計算値と大きく異なる場合、Pは正規分布しません。しかし、正規分布は、Q1およびQ2の標準スコアをそれぞれ0.67および-0.67に維持するように簡単に摂動することができ、正規分布ではなくなります(そのため、上記の検定は偽陽性となります)。ここでは、Q-Qプロットなどのより適切な正規性検定を示します。

外れ値

軽度の外れ値4つと極度の外れ値1つを示す箱ひげ図。この図では、外れ値はQ3 + 1.5 IQRを超える軽度の外れ値とQ3 + 3 IQRを超える極度の外れ値と定義されています。

四分位範囲は、データ内の外れ値を見つけるためによく用いられます。ここでの外れ値は、Q1 − 1.5 IQRを下回るか、Q3 + 1.5 IQRを上回る観測値と定義されます。箱ひげ図では、この範囲内で発生する最高値と最低値が箱のひげ(多くの場合、ひげの端に追加のバーが付きます)で示され、外れ値は個々の点として示されます。

参照

参考文献

  1. ^ a b c d eデッキング、フレデリック・ミシェル;クライカンプ、コーネリス。ロプハー、ヘン・ポール。メースター、ルドルフ・アーウィン (2005)。確率と統計の最新入門。統計学におけるシュプリンガーのテキスト。ロンドン:スプリンガーロンドン。土井: 10.1007/1-84628-168-7ISBN 978-1-85233-896-1
  2. ^アプトン、グラハム、クック、イアン (1996). 『統計を理解する』オックスフォード大学出版局. p. 55. ISBN 0-19-914391-9
  3. ^ Zwillinger, D., Kokoska, S. (2000) CRC標準確率・統計表と公式、CRC Press. ISBN 1-58488-059-718ページ。
  4. ^ロス、シェルドン (2010).統計学入門. バーリントン、マサチューセッツ州: エルゼビア. pp.  103– 104. ISBN 978-0-12-374388-6
  5. ^ a bカルテンバッハ、ハンス=マイケル (2012)。統計に関する簡潔なガイド。ハイデルベルク:シュプリンガー。ISBN 978-3-642-23502-3. OCLC  763157853 .
  6. ^ Rousseeuw, Peter J.; Croux, Christophe (1992). Y. Dodge (編). 「高ブレークダウンポイントを持つ明示的尺度推定量」(PDF) . L1-統計分析と関連手法. アムステルダム: 北ホラント. pp.  77– 92.
  7. ^ユール、G. ウドニー (1911).統計理論入門. チャールズ・グリフィン・アンド・カンパニー. pp.  147–148 .
  8. ^ a b c Bertil., Westergren (1988).ベータ[ベータ]数学ハンドブック:概念、定理、方法、アルゴリズム、公式、グラフ、表. Studentlitteratur . p. 348. ISBN 9144250517. OCLC  18454776 .
  9. ^ Dekking、Kraaikamp、Lopuhaä & Meester、pp. 235–237
  • ウィキメディア・コモンズの四分位範囲に関連するメディア