中心傾向

統計学において、中心傾向(または中心傾向の尺度)とは、確率分布の中心値または典型的な値である。[ 1 ]

口語的には、中心傾向の尺度はしばしば平均と呼ばれます。中心傾向という用語は1920年代後半に遡ります。[ 2 ]

中心傾向の最も一般的な指標は、算術平均中央値最頻値です。中心傾向は、有限の値の集合、または正規分布などの理論的な分布に対して計算できます。著者は中心傾向を「定量データが中心値の周りに集まる傾向」を指すために使用することがあります。 [ 2 ] [ 3 ]

分布の中心傾向は、通常、その分散または変動性と対比されます。分散と中心傾向は、分布の特徴としてよく挙げられます。分析では、データの分散に基づいて、強い中心傾向を持つか弱い中心傾向を持つかを判断する場合があります。

尺度

以下は1次元データに適用できます。状況によっては、中心傾向を計算する前にデータを変換することが適切な場合があります。例としては、値を2乗したり、対数を計算したりすることが挙げられます。変換が適切かどうか、またどのような変換を行うべきかは、分析対象のデータに大きく依存します

算術平均または単に平均
すべての測定値の合計をデータセット内の観測数で割ったもの。
中央値
データセットの上位半分と下位半分を分ける中央の値。中央値と最頻値は、値が互いに相対的にランク付けされるものの絶対的に測定されない順序データに使用できる唯一の中心傾向の尺度です
最頻値
データセットの中で最も頻繁な値。これは、純粋に質的なカテゴリ割り当てを持つ名義データで使用できる唯一の中心傾向指標です
一般化平均
ピタゴラス平均を指数で一般化したもの
幾何平均
データ値の積のn乗根ここで、 n個あります。この尺度は、厳密に正の尺度で測定されたデータに対してのみ有効です
調和平均
データ値の逆数の算術平均の逆数。この指標は、厳密に正または負の尺度で測定されたデータに対してのみ有効です。
加重算術平均
特定のデータ要素に重み付けを加えた算術平均
切り捨て平均またはトリム平均
一定数または一定割合の最高および最低のデータ値を破棄した後のデータ値の算術平均。
四分位平均
四分位範囲内のデータに基づく切り捨て平均
ミッドレンジ
データセットの最大値と最小値の算術平均。
ミッドヒンジ
第 1 四分位数と第 3 四分位数の算術平均。
準算術平均
一般化平均の一般化であり、連続した単射関数によって指定されます
三分平均
中央値と2つの四分位値の加重算術平均。
ウィンザー化平均
極端な値が中央値に近い値に置き換えられた算術平均。

上記はいずれも多次元データの各次元に適用できますが、結果は多次元空間の回転に対して不変ではない可能性があります。

幾何中央値
標本点の集合までの距離の合計を最小化する点。これは1次元データに適用した場合の中央値と同じですが、各次元の中央値を独立に取るのとは異なります。異なる次元の異なる再尺度に対して不変ではありません
二次平均(二乗平均平方根とも呼ばれる)
工学分野では有用ですが、統計学ではあまり用いられません。これは、分布に負の値が含まれている場合、分布の中心を示すのに適切ではないためです。
単体深度
与えられた分布から頂点をランダムに選んだ単体が、与えられた中心を含む確率
テューキー中点
それを含むすべての半空間には多くの標本点も含まれるという性質を持つ点

変分問題の解

いくつかの中心傾向の尺度は、変分法の意味で変分問題を解くこと、すなわち中心からの分散を最小化するものとして特徴付けることができる。つまり、統計的分散の尺度が与えられた場合、分散を最小化する中心傾向の尺度、すなわち、中心のあらゆる選択肢の中で中心からの分散が最小となるような尺度を求める。「分散は位置に先立つ」という諺がある。これらの尺度は当初1次元で定義されるが、多次元に一般化することができる。この中心は一意である場合もそうでない場合もある。L p 空間の意味で対応関係は次のようになる

L p分散中心傾向
L 0変化率モード[ a ]
L 1平均絶対偏差中央値幾何中央値[ b ]
L 2標準偏差平均重心[ c ]
L 最大偏差中音域[ d ]

関連する関数はpノルムと呼ばれ、それぞれ0-「ノルム」、1-ノルム、2-ノルム、∞-ノルムと呼ばれます。L 0空間に対応する関数はノルムではないため、しばしば引用符で囲んで0-「ノルム」と呼ばれます。

方程式では、ベクトルx = ( x 1 ,…, x n )として考えられる特定の(有限の)データ セットXに対して、点cの周りの分散は、pノルム(点の数nで正規化)における定数ベクトルc = ( c ,…, c )への「距離」です。

fpc×cp:=1ni1n|×ic|p1/p{\displaystyle f_{p}(c)=\left\|\mathbf {x} -\mathbf {c} \right\|_{p}:={\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}\left|x_{i}-c\right|^{p}{\bigg )}^{1/p}}

p = 0およびp = ∞の場合、これらの関数はそれぞれp → 0およびp → ∞ の極限値をとることによって定義されます。p = 0の場合、極限値は0 0 = 0およびa ≠ 0の場合a 0 = 1となるため、差は単純に等しくなります。したがって、0ノルムは等しくない点の数を数えます。p = ∞の場合、最大の数支配的となるため、∞ノルムが最大の差となります。

一意性

平均値(L 2中心)と中間値(L 中心)は(存在する場合)一意ですが、中央値(L 1中心)と最頻値(L 0中心)は一般に一意ではありません。これは、関連する関数(強制関数) の凸性という観点から理解できます

2-ノルムと∞-ノルムは厳密に凸であるため、(凸最適化により)最小化関数は(もし存在するならば)唯一であり、有界分布に対しても存在する。したがって、平均値の標準偏差は他のどの点の標準偏差よりも小さく、中間値域の最大偏差は他のどの点の最大偏差よりも小さい。

1-ノルムは厳密に凸ではないが、最小化関数の一意性を保証するためには厳密な凸性が必要である。同様に、中央値(この意味での最小化)は一般に一意ではなく、実際、離散分布の2つの中心点の間の任意の点は平均絶対偏差を最小化する。

0-「ノルム」は凸ではありません(したがってノルムではありません)。したがって、最頻値は一意ではありません。例えば、一様分布では、任意点が最頻値となります。

クラスタリング

単一の中心点ではなく、複数の点を求めることで、これらの点からの変動が最小化されます。これはクラスター分析につながり、データセット内の各点は最も近い「中心」にクラスタリングされます。最も一般的な方法は、2ノルムを使用すると平均がk平均法クラスタリングに一般化され、1ノルムを使用すると(幾何)中央値がk中央値クラスタリングに一般化されます。0ノルムを使用すると、単に最頻値(最頻値)がk個の最も一般的な値を中心として 使用するように一般化されます

単一中心統計とは異なり、この多中心クラスタリングは一般に閉形式の式で計算することはできず、代わりに反復法によって計算または近似する必要があります。一般的なアプローチの 1 つは期待値最大化アルゴリズムです。

情報幾何学

変動を最小化する「中心」という概念は、情報幾何学において、データセットからの分散(一般化距離)を最小化する分布として一般化できます。最も一般的なケースは最尤推定です。最尤推定(MLE)は尤度を最大化(期待される驚きを最小化)し、これはエントロピーを用いて変動を測定することで幾何学的に解釈できます。MLEはクロスエントロピー(相対エントロピー、カルバック・ライブラー情報) を最小化します

この簡単な例として、名義データの中心が挙げられます。モード(唯一の単一値の「中心」)を使用する代わりに、多くの場合、経験的尺度頻度分布をサンプルサイズで割ったもの)を「中心」として使用します。たとえば、表か裏かという2値データが与えられ、データセットが表2つと裏1つで構成されている場合、モードは「表」ですが、経験的尺度は表2/3、裏1/3となり、データセットからのクロスエントロピー(総驚き)を最小化します。この観点は回帰分析でも使用され、最小二乗法はそこからの距離を最小化する解を見つけます。同様に、ロジスティック回帰では、最大尤度推定値によって驚き(情報距離)を最小化します。

平均値、中央値、最頻値の関係

単峰分布の場合、以下の境界が明確であることが知られている:[ 4 ]

|θμ|σ3{\displaystyle {\frac {|\theta -\mu |}{\sigma }}\leq {\sqrt {3}},}
|νμ|σ0.6{\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq {\sqrt {0.6}},}
|θν|σ3{\displaystyle {\frac {|\theta -\nu |}{\sigma }}\leq {\sqrt {3}},}

ここで、 μは平均、νは中央値、θは最頻値、σは標準偏差です。

あらゆる分布について、[ 5 ] [ 6 ]

|νμ|σ1.{\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq 1.}

参照

注記

  1. ^他の指標とは異なり、最頻値は集合上の幾何学的形状を必要としないため、1次元、複数次元、さらにはカテゴリ変数にも等しく適用されます
  2. ^中央値は 1 次元でのみ定義されますが、幾何中央値は多次元で一般化されます。
  3. ^平均は、1 次元のスカラーと同様に、多次元のベクトルに対しても定義できます。多次元形式は、しばしば重心と呼ばれます。
  4. ^多次元では、中間範囲は座標ごとに定義できます(各座標の中間範囲を取得します)が、これは一般的ではありません。

参考文献

  1. ^ Weisberg HF (1992)中心傾向と変動性、セージ大学社会科学における定量的応用に関する論文シリーズ、 ISBN 0-8039-4007-62ページ
  2. ^ a b Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics , OUP ISBN 978-0-19-954145-4(「中心傾向」の項目)
  3. ^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms , OUP for International Statistical Institute . ISBN 0-19-920613-9(「中心傾向」の項目)
  4. ^ Johnson NL, Rogers CA (1951)「単峰分布のモーメント問題」 Annals of Mathematical Statistics、22 (3) 433–439
  5. ^ Hotelling H, Solomons LM (1932) 歪度の測定の限界 Annals Math Stat 3, 141–114
  6. ^ Garver (1932) 歪度の測定の限界について. Ann Math Stats 3(4) 141–142