多項式検定

多項式検定は、多項式分布のパラメータが指定された値に等しいという帰無仮説統計的検定であり、カテゴリデータに使用されます。[ 1 ]

それぞれのカテゴリに該当することが観察されたアイテムのサンプルから始めます。各セル内のアイテムの観察された数として定義することができます。したがって、  {\displaystyle ~N~}{\displaystyle k} ××1×2× {\displaystyle ~\mathbf {x} =(x_{1},x_{2},\dots,x_{k})~} 1× {\displaystyle ~\sum _{i=1}^{k}x_{i}=N~.}

次に、パラメータのベクトルを定義します。 これらは、帰無仮説 におけるパラメータ値です。  H0:ππ1π2π {\displaystyle ~H_{0}:{\boldsymbol {\pi }}=(\pi _{1},\pi _{2},\ldots ,\pi _{k})~,} 1π1 {\displaystyle ~\sum _{i=1}^{k}\pi _{i}=1~.}

帰無仮説のもとで 観測された配置の正確な確率は次のように与えられる。 × {\displaystyle ~\mathbf {x} ~}

 P×0!1π××! {\displaystyle ~\operatorname {\mathbb {P} } \left(\mathbf {x} \right)_{0}=N!\,\prod _{i=1}^{k}{\frac {\pi _{i}^{x_{i}}}{x_{i}!}}~.}

検定における有意確率とは、帰無仮説が真である場合に、観測されたデータセット、あるいは観測されたデータセットよりも確率が低いデータセットが出現する確率である。正確検定を用いると、これは次のように計算される 。

 p[sグラム]y:PyP×0Py {\displaystyle ~p_{\mathcal {[sig]}}=\sum _{\mathbf {y} \,:\;\operatorname {\mathbb {P} } \left(\mathbf {y} \right)\,\leq \,\operatorname {\mathbb {P} } \left(\mathbf {x} \right)_{0}}\operatorname {\mathbb {P} } \left(\mathbf {y} \right)~}

ここで、合計は観測された結果と同じかそれより低い確率で生じるすべての結果にわたって変動します。実際には、とが増加するにつれて計算が煩雑になるため、正確な検定を使用する価値があるのはおそらく小規模なサンプルの場合のみです。大規模なサンプルの場合、漸近近似は十分に正確で、計算も容易です。   {\displaystyle ~k~}  {\displaystyle ~N~}

これらの近似値の1つは尤度比である。対立仮説を定義し、その下では各値をその最大尤度推定値に置き換えることができる。対立仮説の下で観測される構成の正確な確率は次のように与えられる。  π {\displaystyle ~\pi _{i}~} p× {\displaystyle ~p_{i}={\frac {\;x_{i}\,}{N}}~.} × {\displaystyle ~\mathbf {x} ~}

 P×!1p××! {\displaystyle ~\operatorname {\mathbb {P} } \left(\mathbf {x} \right)_{A}=N!\;\prod _{i=1}^{k}{\frac {\;p_{i}^{x_{i}}\,}{x_{i}!}}~.}

これら2つの確率間の尤度比の自然対数に掛けたものが尤度比検定の統計量となる。 [LR] ,{\displaystyle ~[{\mathcal {LR}}]~,} 2 ,{\displaystyle ~-2~,}

 2ln([LR])=2i=1kxiln(πipi) .{\displaystyle ~-2\ln([{\mathcal {LR}}])=-2\;\sum _{i=1}^{k}x_{i}\ln \left({\frac {\pi _{i}}{p_{i}}}\right)~.}

(この係数は、同じアプリケーションで一般的に使用される一般的な統計と簡単に比較できるように、統計が漸近的にカイ 2 乗分布になるように選択されます。)  2 {\displaystyle ~-2~}

帰無仮説が真であれば、が増加するにつれて、の分布は自由度を持つカイ二乗分布に収束する。しかし、有限サンプルサイズの場合、のモーメントはカイ二乗のモーメントよりも大きくなり、第1種の誤り(偽陽性)の確率が高くなることは以前から知られていた(例えば、Lawley [ 2 ])。カイ二乗のモーメントと検定統計量のモーメントの差は、の関数である。Williams [ 3 ]は、検定統計量を次の係数で割った場合、 最初のモーメントは一致することを示した。 N {\displaystyle ~N~} 2ln([LR]) {\displaystyle ~-2\ln([{\mathcal {LR}}])~} k1 {\displaystyle ~k-1~} 2ln([LR]) {\displaystyle ~-2\ln([{\mathcal {LR}}])~} N1 .{\displaystyle ~N^{-1}~.} N2 {\displaystyle ~N^{-2}~}

 q1=1+i=1kπi116N(k1) .{\displaystyle ~q_{1}=1+{\frac {\;\sum _{i=1}^{k}\pi _{i}^{-1}\,-\,1\;}{6N(k-1)}}~.}

帰無仮説がすべての値が等しい(つまり一様分布を規定する)という特別なケースでは、これは次のように単純化される。 πi{\displaystyle \pi _{i}} 1/k {\displaystyle ~1/k~}

 q1=1+k+16N .{\displaystyle ~q_{1}=1+{\frac {\,k+1\,}{\,6N\,}}~.}

その後、スミス[ 4 ]は、この係数が等しい 場合、第一モーメントと一致する除算係数を導出した。 N3 .{\displaystyle ~N^{-3}~.} πi ,{\displaystyle ~\pi _{i}~,}

 q2=1+k+16N+k26N2 .{\displaystyle ~q_{2}=1+{\frac {\,k+1\,}{\,6N\,}}+{\frac {\;k^{2}\,}{\;6N^{2}\,}}~.}

帰無仮説はピアソンのカイ二乗検定によっても検定できる。

 χ2=i=1k(xiEi)2Ei {\displaystyle ~\chi ^{2}=\sum _{i=1}^{k}{\frac {\;(x_{i}-E_{i})^{2}\,}{E_{i}}}~}

ここで、は帰無仮説に基づくカテゴリ内の症例数の期待値です。この統計量も帰無仮説が正しい場合、自由度を持つカイ二乗分布に収束しますが、収束は のように上からではなく、いわば下からなので、小規模なサンプルでは の補正されていないバージョンよりも好ましい場合があります。  Ei=Nπi {\displaystyle ~E_{i}=N\pi _{i}~} i {\displaystyle ~i~} k1 {\displaystyle ~k-1~} 2ln([LR]) {\displaystyle ~-2\ln([{\mathcal {LR}}])~} 2ln([LR]) {\displaystyle ~-2\ln([{\mathcal {LR}}])~}

参考文献

  1. ^ Read, TRC; Cressie, NAC (1988).離散多変量データの適合度統計量ニューヨーク: Springer-Verlag. ISBN 0-387-96682-X
  2. ^ Lawley, DN (1956). 「尤度比基準の分布を近似する一般的な方法」. Biometrika . 43 : 295–303 . doi : 10.1093/biomet/43.3-4.295 .
  3. ^ Williams, DA (1976). 「完全な分割表のための改良尤度比検定」. Biometrika . 63 : 33–37 . doi : 10.1093/biomet/63.1.33 .
  4. ^ Smith, PJ; Rae, DS; Manderscheid, RW; Manderscheid, S. (1981). 「多項式適合度における尤度比統計量のモーメントと分布の近似」アメリカ統計学会誌. 76 (375). アメリカ統計学会誌: 737– 740. doi : 10.2307/2287541 . JSTOR 2287541 .