
記述統計において、四分位範囲(IQR)は統計的散布度、つまりデータの広がりの尺度である。[ 1 ] IQRはミッドスプレッド、中間50%、第4スプレッド、またはHスプレッドと呼ばれることもある。これは、データの75パーセンタイルと25パーセンタイルの差として定義される。 [ 2 ] [ 3 ] [ 4 ] IQRを計算するために、データセットは線形補間によって四分位数、つまり4つのランク付けされた均等な部分に分割される。 [ 1 ]これらの四分位数は、 Q 1(下位四分位数とも呼ばれる)、Q 2(中央値)、およびQ 3 (上位四分位数とも呼ばれる)で示される。下位四分位数は25パーセンタイルに相当し、上位四分位数は75パーセンタイルに相当するため、IQR = Q 3 − Q 1 [ 1 ]となる。
IQRは、25%のトリミング範囲として定義されるトリミング推定量の一例であり、寄与度の低い外れ値を除外することでデータセット統計の精度を高めます。[ 5 ]また、尺度の堅牢な尺度としても使用されます。[ 5 ]ボックスプロット上のボックスで明確に視覚化できます。[ 1 ]
全体範囲とは異なり、四分位範囲には25%の内訳点があるため[ 6 ]、全体範囲よりも好まれることが多いです。
IQR は、確率分布の単純なグラフ表現であるボックス プロットを作成するために使用されます。
IQR は企業において、収益率の指標として使用されます。
対称分布(中央値が中央ヒンジ、つまり第 1 四分位数と第 3 四分位数の平均に等しい)の場合、IQR の半分は中央絶対偏差(MAD) に等しくなります。
IQRは外れ値を特定するために使用できます(下記参照)。また、IQRはデータセットの歪度を示すこともあります。 [ 1 ]
四分位偏差または半四分位範囲はIQRの半分として定義される。[ 7 ]
一連の値のIQRは、上位四分位数Q 3と下位四分位数Q 1の差として計算されます。各四分位数は中央値[ 8 ]であり、以下のように計算されます。
2n個の偶数または2n+1個の奇数の値 が与えられた場合
第二四分位数Q2は通常の中央値と同じである。[ 8 ]
次の表には 13 行あり、奇数エントリのルールに従います。
| 私 | x[i] | 中央値 | 四分位数 |
|---|---|---|---|
| 1 | 7 | Q 2 =87 (表全体の中央値) | Q 1 =31 (1行目から6行目までの下半分の中央値) |
| 2 | 7 | ||
| 3 | 31 | ||
| 4 | 31 | ||
| 5 | 47 | ||
| 6 | 75 | ||
| 7 | 87 | ||
| 8 | 115 | Q 3 =119 (8行目から13行目までの上位半分の中央値) | |
| 9 | 116 | ||
| 10 | 119 | ||
| 11 | 119 | ||
| 12 | 155 | ||
| 13 | 177 |
この表のデータの場合、四分位範囲は IQR = Q 3 − Q 1 = 119 - 31 = 88 です。
+−−−−−+−+ * |−−−−−−−−−−−| | |−−−−−−−−−−−−| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ 数直線 0 1 2 3 4 5 6 7 8 9 10 11 12
このボックスプロットのデータ セットの場合:
これは、1.5*IQRのヒゲの長さが不均一になる可能性があることを意味します。中央値、最小値、最大値、そして第1四分位値と第3四分位値は、5つの数値の要約を構成します。[ 9 ]
連続分布の四分位範囲は、確率密度関数(累積分布関数を算出します。CDFを計算する他の方法も使用できます)を積分することで計算できます。下限四分位数Q 1は、-∞からQ 1までのPDFの積分値が0.25となる数値です。上限四分位数Q 3は、-∞からQ 3までの積分値が0.75となる数値です。CDFの観点から、四分位数は次のように定義できます。
ここでCDF −1は分位関数です。
いくつかの一般的な分布の四分位範囲と中央値を以下に示します。
| 分布 | 中央値 | IQR |
|---|---|---|
| 普通 | μ | 2 Φ −1 (0.75)σ ≈ 1.349σ ≈ (27/20)σ |
| ラプラス | μ | 2 b ln(2) ≈ 1.386 b |
| コーシー | μ | 2γ |
母集団PのIQR、平均値、標準偏差は、Pが正規分布、つまりガウス分布に従うかどうかを判定する簡単な検定に使用できます。Pが正規分布する場合、第1四分位の標準得点z 1は-0.67、第3四分位の標準得点z 3は+0.67です。Pの平均 = 、標準偏差 =σとすると、 Pが正規分布する場合、第1四分位は
そして第3四分位
第1四分位数または第3四分位数の実際の値が計算値と大きく異なる場合、Pは正規分布しません。しかし、正規分布は、Q1およびQ2の標準スコアをそれぞれ0.67および-0.67に維持するように簡単に摂動することができ、正規分布ではなくなります(そのため、上記の検定は偽陽性となります)。ここでは、Q-Qプロットなどのより適切な正規性検定を示します。

四分位範囲は、データ内の外れ値を見つけるためによく用いられます。ここでの外れ値は、Q1 − 1.5 IQRを下回るか、Q3 + 1.5 IQRを上回る観測値と定義されます。箱ひげ図では、この範囲内で発生する最高値と最低値が箱のひげ(多くの場合、ひげの端に追加のバーが付きます)で示され、外れ値は個々の点として示されます。