中央研磨

中央値ポリッシュは、統計学者ジョン・テューキーによって提唱された、シンプルかつ堅牢な探索的データ分析手法です。中央値ポリッシュの目的は、二元配置表(通常は要因実験の結果)のデータに対し、「行効果 + 列効果 + 全体中央値」という形式の加法的適合モデルを見つけることです。

中央値研磨法は、二元表の行と列から得られた中央値を用いて、データに対する行効果と列効果を反復的に計算します。反復手順では平均値ではなく中央値を使用するため、結果は外れ値の影響を受けにくいものとなります。

二元表のモデル

ある実験において、変数Yが2つの変数の影響下にあるとします。このデータを、一方の変数が行方向に一定、もう一方の変数が列方向に一定となる2元表にまとめることができます。iとjは行と列の位置を表します(例えば、y ij はij列目のyの値を表します)。こうすることで、単純な線形回帰式が得られます。

yjb0+b1×+b2zj+εj{\displaystyle \mathbf {y} _{ij}=b_{0}+b_{1}x_{i}+b_{2}z_{j}+\varepsilon _{ij},}

ここで、 b 0b 1b 2は定数であり、x iz jはそれぞれ行と列に関連付けられた値です。

分析に x i 値z j値が存在しない場合は、式をさらに簡略化できます。

yjb0+c+dj+εj{\displaystyle \mathbf {y} _{ij}=b_{0}+c_{i}+d_{j}+\varepsilon _{ij},}

ここで cidjそれぞれ行効果と列効果を表します。

手順

中央研磨を行うには:

(1)各行の行中央値を求め、行中央値の中央値を求め、これを全体の効果として記録する。

(2)行内の各要素からその行の中央値を減算し、これをすべての行に対して行う。

(3)各行の中央値から 全体の効果を差し引く。

(4)各列に対して同じことを実行し、列操作による全体的な効果を行操作から生成された全体的な効果に追加します。

(5)行または列の中央値にほとんど変化がなくなるまで(1)~(4)を繰り返す

参考文献