統計学において、中心傾向(または中心傾向の尺度)とは、確率分布の中心値または典型的な値である。[ 1 ]
口語的には、中心傾向の尺度はしばしば平均と呼ばれます。中心傾向という用語は1920年代後半に遡ります。[ 2 ]
中心傾向の最も一般的な指標は、算術平均、中央値、最頻値です。中心傾向は、有限の値の集合、または正規分布などの理論的な分布に対して計算できます。著者は中心傾向を「定量データが中心値の周りに集まる傾向」を指すために使用することがあります。 [ 2 ] [ 3 ]
分布の中心傾向は、通常、その分散または変動性と対比されます。分散と中心傾向は、分布の特徴としてよく挙げられます。分析では、データの分散に基づいて、強い中心傾向を持つか弱い中心傾向を持つかを判断する場合があります。
以下は1次元データに適用できます。状況によっては、中心傾向を計算する前にデータを変換することが適切な場合があります。例としては、値を2乗したり、対数を計算したりすることが挙げられます。変換が適切かどうか、またどのような変換を行うべきかは、分析対象のデータに大きく依存します
上記はいずれも多次元データの各次元に適用できますが、結果は多次元空間の回転に対して不変ではない可能性があります。
いくつかの中心傾向の尺度は、変分法の意味で変分問題を解くこと、すなわち中心からの分散を最小化するものとして特徴付けることができる。つまり、統計的分散の尺度が与えられた場合、分散を最小化する中心傾向の尺度、すなわち、中心のあらゆる選択肢の中で中心からの分散が最小となるような尺度を求める。「分散は位置に先立つ」という諺がある。これらの尺度は当初1次元で定義されるが、多次元に一般化することができる。この中心は一意である場合もそうでない場合もある。L p 空間の意味で、対応関係は次のようになる 。
| L p | 分散 | 中心傾向 |
|---|---|---|
| L 0 | 変化率 | モード[ a ] |
| L 1 | 平均絶対偏差 | 中央値(幾何中央値)[ b ] |
| L 2 | 標準偏差 | 平均(重心)[ c ] |
| L ∞ | 最大偏差 | 中音域[ d ] |
関連する関数はpノルムと呼ばれ、それぞれ0-「ノルム」、1-ノルム、2-ノルム、∞-ノルムと呼ばれます。L 0空間に対応する関数はノルムではないため、しばしば引用符で囲んで0-「ノルム」と呼ばれます。
方程式では、ベクトルx = ( x 1 ,…, x n )として考えられる特定の(有限の)データ セットXに対して、点cの周りの分散は、pノルム(点の数nで正規化)における定数ベクトルc = ( c ,…, c )への「距離」です。
p = 0およびp = ∞の場合、これらの関数はそれぞれp → 0およびp → ∞ の極限値をとることによって定義されます。p = 0の場合、極限値は0 0 = 0およびa ≠ 0の場合a 0 = 1となるため、差は単純に等しくなります。したがって、0ノルムは等しくない点の数を数えます。p = ∞の場合、最大の数が支配的となるため、∞ノルムが最大の差となります。
平均値(L 2中心)と中間値(L ∞中心)は(存在する場合)一意ですが、中央値(L 1中心)と最頻値(L 0中心)は一般に一意ではありません。これは、関連する関数(強制関数) の凸性という観点から理解できます
2-ノルムと∞-ノルムは厳密に凸であるため、(凸最適化により)最小化関数は(もし存在するならば)唯一であり、有界分布に対しても存在する。したがって、平均値の標準偏差は他のどの点の標準偏差よりも小さく、中間値域の最大偏差は他のどの点の最大偏差よりも小さい。
1-ノルムは厳密に凸ではないが、最小化関数の一意性を保証するためには厳密な凸性が必要である。同様に、中央値(この意味での最小化)は一般に一意ではなく、実際、離散分布の2つの中心点の間の任意の点は平均絶対偏差を最小化する。
0-「ノルム」は凸ではありません(したがってノルムではありません)。したがって、最頻値は一意ではありません。例えば、一様分布では、任意の点が最頻値となります。
単一の中心点ではなく、複数の点を求めることで、これらの点からの変動が最小化されます。これはクラスター分析につながり、データセット内の各点は最も近い「中心」にクラスタリングされます。最も一般的な方法は、2ノルムを使用すると平均がk平均法クラスタリングに一般化され、1ノルムを使用すると(幾何)中央値がk中央値クラスタリングに一般化されます。0ノルムを使用すると、単に最頻値(最頻値)がk個の最も一般的な値を中心として 使用するように一般化されます
単一中心統計とは異なり、この多中心クラスタリングは一般に閉形式の式で計算することはできず、代わりに反復法によって計算または近似する必要があります。一般的なアプローチの 1 つは期待値最大化アルゴリズムです。
変動を最小化する「中心」という概念は、情報幾何学において、データセットからの分散(一般化距離)を最小化する分布として一般化できます。最も一般的なケースは最尤推定です。最尤推定(MLE)は尤度を最大化(期待される驚きを最小化)し、これはエントロピーを用いて変動を測定することで幾何学的に解釈できます。MLEはクロスエントロピー(相対エントロピー、カルバック・ライブラー情報) を最小化します
この簡単な例として、名義データの中心が挙げられます。モード(唯一の単一値の「中心」)を使用する代わりに、多くの場合、経験的尺度(頻度分布をサンプルサイズで割ったもの)を「中心」として使用します。たとえば、表か裏かという2値データが与えられ、データセットが表2つと裏1つで構成されている場合、モードは「表」ですが、経験的尺度は表2/3、裏1/3となり、データセットからのクロスエントロピー(総驚き)を最小化します。この観点は回帰分析でも使用され、最小二乗法はそこからの距離を最小化する解を見つけます。同様に、ロジスティック回帰では、最大尤度推定値によって驚き(情報距離)を最小化します。
単峰分布の場合、以下の境界が明確であることが知られている:[ 4 ]
ここで、 μは平均、νは中央値、θは最頻値、σは標準偏差です。