統計学において、スチューデント化範囲( qと表記)は、標本標準偏差で正規化された標本 内の最大データと最小データの差である。これは、ウィリアム・シーリー・ゴセット(「スチューデント」というペンネームで執筆活動を行っていた)にちなんで名付けられ、1927年に彼によって導入された。[ 1 ] この概念は後に、ニューマン(1939)、[ 2 ]キールズ(1952)、[ 3 ]およびジョン・テューキーによって未発表のノートで議論された。その統計的分布はスチューデント化範囲分布であり、これはシングルステップ手順であるテューキーの範囲検定、ニューマン・キールズ法、ダンカンのステップダウン手順などの多重比較手順や、データスヌーピングが行われた後でも有効な信頼区間を確立するために使用される。[ 4 ]
説明
スチューデント化範囲の値は、変数qによって最もよく表され、N (0, 1) 分布の数値からランダムに抽出された x 1 , ..., x n と、すべての x i から独立した別のランダム変数sに基づいて 定義できます。また、 νs 2は自由度νのχ 2分布に従います。
は、 n個のグループと自由度νのスチューデント化範囲分布に従う。応用上、x iは通常、各サンプルサイズmの平均、s 2はプールされた分散、自由度 ν = n ( m − 1 ) である。
qの臨界値は、次の 3 つの要因に基づいています。
分布
X 1 , ..., X n が正規分布に従う独立かつ同一分布の確率変数である場合、それらのスチューデント化範囲の確率分布は、通常、スチューデント化範囲分布と呼ばれます。qの定義は、サンプルが抽出される分布の期待値や標準偏差に依存しないため、その確率分布はこれらのパラメータに関わらず同じであることに注意してください。
学生化
一般的に、スチューデント化とは、変数の尺度が母標準偏差の推定値で除算されることによって調整されることを意味します(スチューデント化残差も参照)。標準偏差が母標準偏差ではなく標本標準偏差であり、したがってランダム標本ごとに異なるという事実は、スチューデント化データの定義と分布において不可欠です。標本標準偏差の値の変動は、計算値にさらなる不確実性をもたらします。これは、スチューデント化された統計量の確率分布を求める問題を複雑にします。
参照
参考文献
- ^ Student (1927). 「日常的な分析における誤り」Biometrika . 19 (1/2): 151– 164. doi : 10.2307/2332181 . JSTOR 2332181 .
- ^ Newman D. (1939). 「標準偏差の独立推定値を用いた正規母集団のサンプルにおける範囲分布」Biometrika . 31 ( 1– 2): 20– 30. doi : 10.1093/biomet/31.1-2.20 .
- ^ Keuls M. (1952). 「分散分析における「スチューデント化範囲」の利用」Euphytica . 1 (2): 112– 122. doi : 10.1007/bf01908269 . S2CID 19365087 .
- ^ John A. Rafter (2002). 「平均値の多重比較法」. SIAM Review . 44 (2): 259– 278. Bibcode : 2002SIAMR..44..259R . CiteSeerX 10.1.1.132.2976 . doi : 10.1137/s0036144501357233 .
さらに読む
- ピアソン, ES; ハートレー, HO (1970) 『統計学者のためのバイオメトリカ表』第1巻、第3版、ケンブリッジ大学出版局。ISBN 0-521-05920-8
- John Neter、Michael H. Kutner、Christopher J. Nachtsheim、William Wasserman (1996) 『応用線形統計モデル』、第 4 版、McGraw-Hill、726 ページ。
- John A. Rice (1995) 『数理統計とデータ分析』第2版、Duxbury Press、451〜452ページ。
- Douglas C. Montgomery (2013)「実験のデザインと分析」、第 8 版、Wiley、98 ページ。