ベーレンス・フィッシャー分布

統計学において、ベーレンス・フィッシャー分布(ベーレンス・フィッシャーぶんさん、英: Behrens-Fisher distribution)は、ロナルド・フィッシャーとウォルター・ベーレンスにちなんで名付けられた、ベーレンス・フィッシャー問題の解から生じる、パラメータ化された確率分布族である。ベーレンス・フィッシャー問題とは、正規分布に従う2つの母集団の分散が不明な場合(特に、分散が等しいことが不明な場合)の、母集団の平均差に関する統計的推論の問題である。 [ 1 ]

定義

ベーレンス・フィッシャー分布は、次の形の 確率変数の分布です

T2cosθT1サインθ{\displaystyle T_{2}\cos \theta -T_{1}\sin \theta \,}

ここで、T 1T 2はそれぞれスチューデントのt分布に従う独立確率変数であり、自由度はそれぞれν 1  =  n 1  − 1 とν 2  =  n 2  − 1 であり、θは定数である。したがって、ベーレンス・フィッシャー分布族はν 1、  ν 2、および θによってパラメータ化される。

導出

2つの母分散が等しいことが分かっており、2つの母集団から n⁻¹n⁻²の標本が採取されると仮定します

X11X1n1i.i.d.Nμ1σ2X21X2n2i.i.d.Nμ2σ2.{\displaystyle {\begin{aligned}X_{1,1},\ldots ,X_{1,n_{1}}&\sim \operatorname {iid} N(\mu _{1},\sigma ^{2}),\\[6pt]X_{2,1},\ldots ,X_{2,n_{2}}&\sim \operatorname {iid} N(\mu _{2},\sigma ^{2}).\end{aligned}}}

ここで「iid」は独立かつ同一分布に従う確率変数であり、Nは正規分布を表す。2つの標本平均

X¯1X11X1n1n1X¯2X21X2n2n2{\displaystyle {\begin{aligned}{\bar {X}}_{1}&=(X_{1,1}+\cdots +X_{1,n_{1}})/n_{1}\\[6pt]{\bar {X}}_{2}&=(X_{2,1}+\cdots +X_{2,n_{2}})/n_{2}\end{aligned}}}

通常の「プールされた」共通分散σ 2の不偏推定値は、

Spooled2k1n1X1kX¯12k1n2X2kX¯22n1n22n11S12n21S22n1n22{\displaystyle S_{\mathrm {pooled} }^{2}={\frac {\sum _{k=1}^{n_{1}}(X_{1,k}-{\bar {X}}_{1})^{2}+\sum _{k=1}^{n_{2}}(X_{2,k}-{\bar {X}}_{2})^{2}}{n_{1}+n_{2}-2}}={\frac {(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}}}

ここで、S 1 2S 2 2は、2つの母分散の 通常の不偏(ベッセル補正)推定値です。

これらの仮定の下では、重要な量は

μ2μ1X¯2X¯1Spooled2n1Spooled2n2{\displaystyle {\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{\mathrm {pooled} }^{2}}{n_{1}}}+{\frac {S_{\mathrm {pooled} }^{2}}{n_{2}}}}}}}}

自由度n 1  +  n 2  −   2t分布に従う。 したがって端点

X¯2X1¯±ASpooled1n1+1n2,{\displaystyle {\bar {X}}_{2}-{\bar {X_{1}}}\pm A\cdot S_{\mathrm {pooled} }{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}},}

ここで、Aはt分布の適切な分位数です。

しかし、ベーレンス・フィッシャー問題では、2つの母分散が等しいとは限らず、またその比率も分かっていない。フィッシャーは、重要な量を

(μ2μ1)(X¯2X¯1)S12n1+S22n2.{\displaystyle {\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}.}

これは次のように書ける。

T2cosθT1sinθ,{\displaystyle T_{2}\cos \theta -T_{1}\sin \theta ,\,}

ここで

Ti=μiX¯iSi/ni for i=1,2{\displaystyle T_{i}={\frac {\mu _{i}-{\bar {X}}_{i}}{S_{i}/{\sqrt {n_{i}}}}}{\text{ for }}i=1,2\,}

は通常の1標本t統計量であり、

tanθ=S1/n1S2/n2{\displaystyle \tan \theta ={\frac {S_{1}/{\sqrt {n_{1}}}}{S_{2}/{\sqrt {n_{2}}}}}}

θは第1象限にあると します。代数的な詳細は次のとおりです

(μ2μ1)(X¯2X¯1)S12n1+S22n2=μ2X¯2S12n1+S22n2μ1X¯1S12n1+S22n2=μ2X¯2S2/n2This is T2(S2/n2S12n1+S22n2)This is cosθμ1X¯1S1/n1This is T1(S1/n1S12n1+S22n2)This is sinθ.(1){\displaystyle {\begin{aligned}{\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}&={\frac {\mu _{2}-{\bar {X}}_{2}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}-{\frac {\mu _{1}-{\bar {X}}_{1}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\\[10pt]&=\underbrace {\frac {\mu _{2}-{\bar {X}}_{2}}{S_{2}/{\sqrt {n_{2}}}}} _{{\text{This is }}T_{2}}\cdot \underbrace {\left({\frac {S_{2}/{\sqrt {n_{2}}}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\right)} _{{\text{This is }}\cos \theta }-\underbrace {\frac {\mu _{1}-{\bar {X}}_{1}}{S_{1}/{\sqrt {n_{1}}}}} _{{\text{This is }}T_{1}}\cdot \underbrace {\left({\frac {S_{1}/{\sqrt {n_{1}}}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\right)} _{{\text{This is }}\sin \theta }.\qquad \qquad \qquad (1)\end{aligned}}}

上記の括弧内の式の平方の合計が 1 であるという事実は、それらがある角度の二乗余弦と二乗正弦であることを意味します。

ベーレン・フィッシャー分布は、実際には、cos θとsin  θというラベルの付いた量の値 が与えられた場合の、上記量(1)の条件付き分布です。実質的には、補助情報に対するフィッシャー条件です

フィッシャーはその後、端点が

X¯2X¯1±AS12n1+S22n2{\displaystyle {\bar {X}}_{2}-{\bar {X}}_{1}\pm A{\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}

ここで、Aはベーレンス・フィッシャー分布の適切なパーセンテージポイントです。フィッシャーは、データ(最終的にはX )が与えられた場合に、 μ 2  −  μ 1がこの区間に含まれる確率は、ベーレンス・フィッシャー分布に従う確率変数が − Aと Aの間にある確率であると主張しました。

フィデューシャル区間と信頼区間

バートレットは、この「信頼区間」は一定の被覆率を持たないため、信頼区間ではないことを示しました。フィッシャーは、これを信頼区間の使用に対する説得力のある反論とは考えませんでした。

さらに詳しい参考文献

  • ケンドール、モーリス・G.、スチュアート、アラン(1973)『統計の高度理論 第2巻:推論と関係性』第3版、グリフィン、ISBN 0-85264-215-6(第21章)

参考文献

  1. ^ Kim, Seock-Ho; Cohen, Allan S. (1998年12月). 「ベーレンス・フィッシャー問題について:レビュー」 .教育行動統計ジャーナル. 23 (4): 356– 377. doi : 10.3102/10769986023004356 . ISSN 1076-9986 . S2CID 85462934