リービン検定

等群分散の統計的検定

統計学においてルヴィーンの検定は、 2つ以上のグループについて計算された変数の分散の等性を評価するために使用される推論統計量です。 [1]この検定が使用されるのは、いくつかの一般的な統計手法では、異なるサンプルが抽出された母集団の分散が等しいと仮定しているためです。ルヴィーンの検定では、この仮定を評価します。母集団の分散が等しいという帰無仮説を検定します(分散の等質性または等分散性と呼ばれます)。ルヴィーンの検定の結果のp値がある有意水準(通常0.05)未満の場合、得られたサンプル分散の差は、分散が等しい母集団からのランダムサンプリングに基づいて発生した可能性は低いです。したがって、等分散の帰無仮説は棄却され、母集団内の分散に差があると結論付けられます。

平均比較を行う以前には、Levene検定は、2標本検定ではプールt検定を使用するかWelchのt検定を使用するか、多水準検定では分散分析またはWelchの修正一元配置分散分析を使用するかを判断する際に役立てられてきました。しかし、このような2段階の手順はt検定で得られるタイプ1の誤差を著しく増大させる可能性があることが示されており、推奨されません。 [2]代わりに、すべてのケースでWelchの検定のみを使用するのが推奨されます。[2]

リーヴィーンの検定は、与えられた母集団内の2つのサブサンプルの分散が等しいか異なるかという独立した質問に答えるための主検定としても使用されることがある。[3]

レヴィーン検定は、アメリカの統計学者および遺伝学者であるハワード・レヴィーンによって開発され、その名にちなんで命名されました。

定義

リーヴン検定は、従属変数が得点とその得点が属する群の平均との差の絶対値(以下では と表記ある一元配置群間分散分析(ANOVA)と同等です。検定統計量 は、このようなANOVAによって生成される統計量と同等であり、次のように定義されます Z i j | Y i j Y ¯ i | {\displaystyle Z_{ij}=|Y_{ij}-{\bar {Y}}_{i\cdot}|} W {\displaystyle W} F {\displaystyle F}

W N k ) k 1 ) i 1 k N i Z i Z ) 2 i 1 k j 1 N i Z i j Z i ) 2 , {\displaystyle W={\frac {(Nk)}{(k-1)}}\cdot {\frac {\sum _{i=1}^{k}N_{i}(Z_{i\cdot }-Z_{\cdot \cdot })^{2}}{\sum _{i=1}^{k}\sum _{j=1}^{N_{i}}(Z_{ij}-Z_{i\cdot })^{2}}},}

ここで

  • k {\displaystyle k} は、サンプル採取された症例が属する異なるグループの数です。
  • N i {\displaystyle N_{i}} は、番目のグループに属する症例の数です i {\displaystyle i}
  • N {\displaystyle N} すべてのグループにおける症例の総数、
  • Y i j {\displaystyle Y_{ij}} は、番目のグループの番目のケースの測定変数の値であり、 j {\displaystyle j} i {\displaystyle i}
  • Z i j { | Y i j Y ¯ i | , Y ¯ i  は平均である  i 第i群 , | Y i j Y ~ i | , Y ~ i  は  i 第i群 の中央値です。 {\displaystyle Z_{ij}={\begin{cases}|Y_{ij}-{\bar {Y}}_{i\cdot }|,&{\bar {Y}}_{i\cdot }{\text{ は第i群の平均です。},\\|Y_{ij}-{\tilde {Y}}_{i\cdot }|,&{\tilde {Y}}_{i\cdot }{\text{ は第i群の中央値です。}.\end{cases}}}

(両方の定義が使用されていますが、厳密に言えば 2 番目の定義はブラウン・フォーサイス テストです。比較については以下を参照してください。)

  • Z i 1 N i j 1 N i Z i j {\displaystyle Z_{i\cdot }={\frac {1}{N_{i}}}\sum _{j=1}^{N_{i}}Z_{ij}} はグループの平均です Z i j {\displaystyle Z_{ij}} i {\displaystyle i}
  • Z 1 N i 1 k j 1 N i Z i j {\displaystyle Z_{\cdot \cdot }={\frac {1}{N}}\sum _{i=1}^{k}\sum _{j=1}^{N_{i}}Z_{ij}} はすべての平均です Z i j {\displaystyle Z_{ij}}

検定統計量は、自由度が と であるF 分布に近似しているため、に対して検定された結果の有意性となります。ここで、は自由度がである F 分布の分位数であり、 は選択された有意水準 (通常は 0.05 または 0.01) です。 W {\displaystyle W} k 1 {\displaystyle k-1} N k {\displaystyle Nk} w {\displaystyle w} W {\displaystyle W} F 1 α ; k 1 , N k ) {\displaystyle F(1-\alpha;k-1,Nk)} F {\displaystyle F} k 1 {\displaystyle k-1} N k {\displaystyle Nk} α {\displaystyle \alpha}

ブラウン・フォーサイス検定との比較

Brown –Forsythe 検定では、各グループ内の広がりを計算する際に平均値ではなく中央値を使用します (上記の に対して)。最適な選択は基礎となる分布によって異なりますが、中央値に基づく定義は、優れた統計的検出力を維持しながら多くの種類の非正規データに対して優れた堅牢性を提供する選択肢として推奨されます。[3]データの基礎となる分布に関する知識がある場合は、他の選択肢のいずれかを使用することをお勧めします。Brown と Forsythe はモンテ カルロ研究を行い、基礎となるデータがコーシー分布(裾が重い分布)に従う場合はトリム平均値を使用すると最も効果的であり、基礎となるデータが自由度 4 のカイ 2 乗分布(大きく歪んだ分布)に従う場合は中央値を使用すると最も効果的であることがわかりました。対称で裾が中程度の分布の場合、平均値を使用すると最も効果的な検出力が得られました。 Y ¯ {\displaystyle {\bar {Y}}} Y ~ {\displaystyle {\tilde {Y}}}

ソフトウェア実装

RPythonJuliaMATLABなどの多くのスプレッドシートプログラムや統計パッケージには、 Levene 検定の実装が含まれています。

言語/プログラム 関数 注記
Python scipy.stats.levene(group1, group2, group3) [1]を参照
MATLAB vartestn(data,groups,'TestType','LeveneAbsolute') [2]を参照
R leveneTest(lm(y ~ x, data=data)) [3]を参照
ジュリア HypothesisTests.LeveneTest(group1, group2, group3) [4]を参照

参照

参考文献

  1. ^ レヴィーン、ハワード (1960). 「分散の等しさに関するロバストな検定」.イングラム・オルキンハロルド・ホテリング他編.確率と統計への貢献:ハロルド・ホテリングに敬意を表したエッセイ集. スタンフォード大学出版局. 278–292ページ 
  2. ^ ab Zimmermann, Donald W. (2004). 「分散の等価性の予備的検定に関する注記」. British Journal of Mathematical and Statistical Psychology . 57 (1): 173– 81. doi :10.1348/000711004849222. PMID  15171807.
  3. ^ ab Derrick, B; Ruck, A; Toher, D; White, P (2018). 「対応のある観測値と独立した観測値の両方を含む2つの標本間の分散の等価性検定」(PDF) . Journal of Applied Quantitative Methods . 13 (2): 36– 47.
  • SPSSにおけるパラメトリックおよびノンパラメトリックLevene検定
  • http://www.itl.nist.gov/div898/handbook/eda/section3/eda35a.htm
「https://en.wikipedia.org/w/index.php?title=Levene%27s_test&oldid=1320501731」から取得