| 検定統計量 | 検定の種類 |
|---|---|
| t統計量 | t検定 回帰検定 |
| F統計量 | 分散分析 多変量 分散分析 共分散分析 |
| z統計量 | z検定 |
| x2統計量 | カイ二乗検定 |
| 最も一般的な検定 統計量と、それに対応する 統計検定またはモデルの 一部 | |
統計的仮説検定は、データが特定の仮説を棄却するのに十分な証拠を提供しているかどうかを判断するために使用される統計的推論の方法です。統計的仮説検定では通常、検定統計量の計算が含まれます。次に、検定統計量を臨界値と比較するか、検定統計量から計算されたp値を評価することによって決定が下されます。約100種類の専門的な統計検定が使用されており、注目に値します。[1] [2]
歴史
仮説検定は20世紀初頭に普及しましたが、初期の形態は1700年代に使用されていました。最初の使用はジョン・アーバスノット(1710年)[3] 、続いてピエール=シモン・ラプラス(1770年代)が出生時の人間の性比の分析に使用されたとされています。「人間の性比」の項を参照してください。
帰無仮説の選択
ポール・ミールは、帰無仮説の選択の認識論的重要性がほとんど認識されていないと主張している。帰無仮説が理論によって予測される場合、より正確な実験は、その根底にある理論のより厳しい検証となる。帰無仮説が「差なし」または「効果なし」にデフォルト設定される場合、より正確な実験は、実験を実施する動機となった理論のより緩やかな検証となる。[4]したがって、後者の慣行の起源を検証することは有益かもしれない。
1778年: ピエール・ラプラスは、ヨーロッパの複数の都市における男女の出生率を比較した。彼は、「これらの可能性はほぼ同じ比率であると結論付けるのは自然である」と述べている。したがって、この場合の帰無仮説は、「常識」を前提とすれば、男女の出生率は等しいはずであるというものである。[5]
1900年: カール・ピアソンは、与えられた形式の頻度曲線が「与えられた母集団から抽出された標本を効果的に記述するかどうか」を判断するためのカイ2乗検定を開発しました。したがって、帰無仮説は、母集団が理論によって予測される何らかの分布によって記述されるというものです。彼は、ウェルドンのサイコロ投げデータにおける5と6の数を例として挙げています。[6]
1904年: カール・ピアソンは、結果が与えられたカテゴリ要因から独立しているかどうかを判断するために、 「偶発性」の概念を開発しました。ここでの帰無仮説は、デフォルトで、2つの事柄は無関係であるというものです(例:瘢痕形成と天然痘による死亡率)。 [7]この場合の帰無仮説は、もはや理論や通念によって予測されるものではなく、フィッシャーらが「逆確率」の使用を却下した無関心の原理です。[ 8 ]
近代における起源と初期の論争
現代の有意性検定は、カール・ピアソン(p値、ピアソンのカイ二乗検定)、ウィリアム・シーリー・ゴセット(スチューデントのt分布)、そしてロナルド・フィッシャー(「帰無仮説」、分散分析、「有意性検定」)の成果である。一方、仮説検定はイェジー・ネイマンとエゴン・ピアソン(カールの息子)によって開発された。ロナルド・フィッシャーはベイジアンとして統計学の道を歩み始めた(Zabell 1992)。しかし、フィッシャーはすぐにその主観性(特に事前確率の決定における無差別原理の使用)に幻滅し、帰納的推論に対してより「客観的」なアプローチを提供しようとした。[9]
フィッシャーは、ガウス分布を仮定し、少数の標本から結果を抽出するための厳密な実験設計と方法を重視しました。ネイマン(若いピアソンとチームを組んだ)は、多くの標本とより広い範囲の分布からより多くの結果を得るための数学的な厳密さと方法を重視しました。現代の仮説検定は、20世紀初頭に開発されたフィッシャー対ネイマン/ピアソンの定式化、方法、用語の矛盾した融合です。
フィッシャーは「有意性検定」を普及させました。彼は帰無仮説(母集団頻度分布に対応)と標本を必要としました。彼の(今ではおなじみの)計算は、帰無仮説を棄却するかどうかを決定しました。有意性検定では対立仮説を利用しなかったため、第2種の誤り(偽陰性) の概念はありませんでした
p値は、研究者が(他の知識に基づいて)将来の実験を修正するか、帰無仮説への信頼を強化するかを判断するのに役立つ、非公式ながらも客観的な指標として考案されました。 [10]仮説検定(および第I種/II種の過誤)は、フィッシャーのp値のより客観的な代替手段としてネイマンとピアソンによって考案され、研究者の行動を決定することを目的としていますが、研究者による帰納的推論を必要としません。 [11] [12]
ネイマンとピアソンは、フィッシャーとは異なる問題(彼らは「仮説検定」と呼びました)を検討しました。彼らは最初に2つの単純な仮説(どちらも頻度分布を持つ)を検討しました。彼らは2つの確率を計算し、通常はより高い確率に関連する仮説(サンプルを生成した可能性が高い仮説)を選択しました。彼らの方法は常に仮説を選択しました。また、両方のタイプの誤り確率を計算することもできました
フィッシャーとネイマン/ピアソンは激しく衝突した。ネイマン/ピアソンは、自分たちの定式化を有意性検定の改良された一般化とみなしていた(定義づけとなる論文[11]は抽象的であったが、数学者は数十年にわたって理論を一般化し、洗練させてきた[13])。フィッシャーは、実験の過程で帰無仮説に関する初期の仮定が予期せぬ誤差源のために疑わしいことが判明することがよくあるため、これは科学研究には適用できないと考えていた。彼は、データ収集前に策定されたモデルに基づく厳格な棄却/採択の決定は、科学者が直面するこの一般的なシナリオと相容れず、この方法を科学研究に適用しようとすると大混乱につながると信じていた[14] 。
フィッシャーとネイマン=ピアソンの間の論争は哲学的な根拠に基づいて繰り広げられ、ある哲学者によって統計的推論におけるモデルの適切な役割をめぐる論争として特徴づけられた[15]
出来事が起こりました。ネイマンは1938年にカリフォルニア大学バークレー校の職に就き、ピアソンとのパートナーシップを解消し、同じ建物に住んでいた論争者を分離しました。第二次世界大戦により、論争は中断されました。フィッシャーとネイマンの論争は、1962年にフィッシャーが亡くなったことで(27年後も未解決のまま)終結しました。ネイマンは高く評価された弔辞を書きました。[16]ネイマンの後期の出版物の中には、p値と有意水準が報告されているものもあります。[17]
帰無仮説有意性検定(NHST)
現代版の仮説検定は、一般的に帰無仮説有意性検定(NHST)[18]と呼ばれ、フィッシャーアプローチとネイマン・ピアソンアプローチを組み合わせたものです。2000年、レイモンド・S・ニッカーソンは、NHSTは(当時)「心理学実験で収集されたデータの分析において、おそらく最も広く使用されている方法であり、約70年間そうであった」と同時に「非常に物議を醸していた」と述べた論文を執筆しました。[18]
この融合は、1940年代に始まった統計教科書の執筆者による混乱(フィッシャーの予測通り)から生じたものです[19](しかし、例えば信号検出では依然としてネイマン/ピアソンの定式化が使用されています)。上記に加えて、大きな概念の違いと多くの注意点が無視されました。ネイマンとピアソンはより強力な用語、より厳密な数学、そしてより一貫した哲学を提供しましたが、今日の入門統計学で教えられている主題は、彼らのものよりもフィッシャーの方法との類似点が多いのです[20]
1940年頃、[19]統計教科書の著者たちは、検定統計量(またはデータ) の代わりにp値を用いてネイマン・ピアソンの「有意水準」を検定することで、2つのアプローチを組み合わせ始めました。
| # | フィッシャーの帰無仮説検定 | ネイマン・ピアソン決定理論 |
|---|---|---|
| 1 | 統計的帰無仮説を設定します。帰無仮説は、無仮説(つまり、差がゼロ)である必要はありません。 | 2つの統計的仮説、H1とH2を設定し、実験前に主観的な費用便益に基づいてα、β、およびサンプルサイズを決定します。これらによって、各仮説の棄却域が定義されます。 |
| 2 | 有意水準を正確に報告します(例:p = 0.051またはp = 0.049)。仮説を「受け入れる」または「拒否する」とは言及しないでください。結果が「有意ではない」場合は、結論を導き出さず、決定も行わず、さらなるデータが得られるまで判断を保留します。 | データがH1の棄却域に該当する場合はH2を受け入れ、そうでない場合はH1を受け入れます。仮説を受け入れるということは、それを信じるということではなく、あたかもそれが真実であるかのように行動するということだけです。 |
| 3 | この手順は、手元の問題についてほとんど何もわかっていない場合にのみ使用し、実験状況を理解しようとする試みの中で暫定的な結論を導き出す場合にのみ使用してください。 | この手順の有用性は、仮説の論理和が成り立つ場合(例えば、μ1 = 8またはμ2 = 10のいずれかが真)、およびアルファとベータの選択に関して意味のある費用便益のトレードオフを行うことができる場合に限られます。 |
哲学
仮説検定と哲学は交差しています。仮説検定を含む推論統計は応用確率です。確率とその応用はどちらも哲学と絡み合っています。哲学者デイヴィッド・ヒュームは、「すべての知識は確率に退化する」と書いています。確率の競合する実際的な定義は、哲学的な違いを反映しています。仮説検定の最も一般的な応用は、実験データの科学的解釈であり、これは当然のことながら科学哲学によって研究されています。
フィッシャーとネイマンは確率の主観性に反対しました。彼らの見解は客観的な定義に貢献しました。彼らの歴史的な意見の相違の核心は哲学的なものでした
仮説検定に対する哲学的な批判の多くは、統計学者によって他の文脈で議論されており、特に相関は因果関係を意味しないことや実験計画などについて議論されています。仮説検定は哲学者にとって継続的な関心事です。[15] [21]
教育
学校で統計学を教える機会が増えており、仮説検定もその要素の一つとなっている。[22] [23]世論調査から医学研究まで、一般の新聞で報じられる結論の多くは、統計に基づいている。この種の統計分析により、大量のデータを伴う問題について明確に考えることができるようになる、また、そのデータから得られる傾向や推論を効果的に報告できるようになると述べる筆者もいるが、広く一般向けの筆者は用語や概念を正しく使用するために、その分野をしっかりと理解しておく必要があると警告している。[24] [25]大学の統計学入門クラスでは、仮説検定にかなり重点が置かれており、おそらく授業の半分を占めるほどである。文学や神学などの分野では、統計分析に基づく知見が得られる(Bible Analyzer を参照)。統計学入門クラスでは、仮説検定を手軽な手法として教える。大学院レベルでも仮説検定は教えられている。統計学者は、優れた統計的検定手順(z検定、スチューデントのt検定、F検定、カイ2乗検定など)を作成する方法を学ぶ。統計的仮説検定は統計学の中で成熟した分野と考えられていますが[26]、限られた範囲の開発が続いています。
ある学術研究によると、入門統計学の教え方における教科書的な方法では、歴史、哲学、論争に時間を割くことができません。仮説検定は、統一された一般的な方法として教えられてきました。調査によると、このクラスの卒業生は(統計的推論のあらゆる側面に関する)哲学的な誤解に満ちており、それが教師の間で根強く残っていました。[27]この問題は10年以上前に対処されましたが[28]、教育改革を求める声は続いていますが[29] 、学生は依然として仮説検定に関する根本的な誤解を抱いて統計学の授業を卒業しています。[30]仮説検定の指導を改善するためのアイデアとしては、学生に出版された論文の統計的誤りを探すように促すこと、統計学の歴史を教えること、そして一般的に退屈なテーマにおける論争を強調することなどが挙げられます。[31]
レイモンド・S・ニッカーソンは次のようにコメントしています
NHSTに関する議論は、現代のアプローチの基礎となっている推論統計理論の発展に大きく貢献した人々の間で未解決の意見の相違があることに端を発しています。Gigerenzerら(1989)は、RA FisherとJerzy NeymanおよびEgon Pearsonの間の論争、そしてこれら2つの見解とThomas Bayesの支持者との間の意見の相違について、かなり詳細にレビューしました。彼らは、NHSTを潜在的な利用者に教えるために使用されるほとんどの教科書には、歴史的かつ進行中の論争のヒントがほとんど見当たらないという注目すべき事実を指摘しました。結果として生じる正確な歴史的視点と、統計的推論への様々なアプローチの複雑さ、そして時には物議を醸す哲学的基礎に対する理解の欠如は、統計的検定が誤用され、誤解されるのがいかに容易であるかを説明するのに大いに役立つかもしれません。[18]
頻度主義仮説検定の実践
頻度主義仮説検定を実際に実施する際の典型的な手順は次のとおりです
- 仮説(データを用いて検証可能な主張)を定義する。
- 関連する検定統計量 Tを持つ適切な統計的検定を選択する。
- 仮定から帰無仮説の下での検定統計量の分布を導出する。標準的なケースでは、これはよく知られた結果となる。例えば、検定統計量は、自由度が既知のスチューデントのt分布、または平均と分散が既知の正規分布に従う可能性がある。
- 有意水準(α)、つまり許容可能な最大偽陽性率を選択する。一般的な値は5%と1%である。
- 観測値から検定統計量Tの観測値t obsを計算する。
- 対立仮説を支持して帰無仮説を棄却するか、棄却しないかを決定する。ネイマン・ピアソンの決定則は、観測値t obsが臨界領域内にある場合は帰無仮説H 0を棄却し、そうでない場合は帰無仮説を棄却しないことである。[32]
実例
放射性スーツケースの例(以下)に適用される2つのプロセスの違い:
- 「ガイガーカウンターの測定値は10です。限界値は9です。スーツケースを確認してください。」
- 「ガイガーカウンターの測定値は高くなっています。安全なスーツケースの97%はより低い測定値を示しています。限界値は95%です。スーツケースを確認してください。」
前者のレポートは適切ですが、後者はデータとスーツケースがチェックされている理由についてより詳細な説明を提供します。
帰無仮説を棄却しないことは、帰無仮説自体が「受け入れられた」ことを意味するものではありません(ただし、ネイマンとピアソンは原著でその言葉を使用しています。解釈のセクションを参照してください)。
ここで説明したプロセスは計算には十分適切です。しかし、実験計画法の考慮が著しく無視されています。[33] [34]
実験を実施する前に適切なサンプルサイズを推定することが特に重要です。
「有意差検定」という用語は、統計学者ロナルド・フィッシャーによって造られました。[35]
解釈
帰無仮説が真であり、統計的仮定が満たされている場合、p値が有意水準以下になる確率は最大です。これにより、仮説検定は指定された偽陽性率を維持することが保証されます(統計的仮定が満たされている場合)。[36]
p値とは、得られた検定統計量と少なくとも同程度に極端な検定統計量が帰無仮説の下で発生する確率です。有意水準0.05では、公平なコインは平均して20回の検定のうち1回で帰無仮説(それが公平であるという)を(誤って)棄却すると予想されます。p値は、帰無仮説またはその反証が正しい確率(よくある混乱の原因)を提供するものではありません。[37]
p値が選択された有意性閾値未満の場合(つまり、観測された検定統計量が臨界領域内にある場合)、選択された有意水準で帰無仮説は棄却されます。p値が選択された有意性閾値以上である場合(つまり、観測された検定統計量が臨界領域外にある場合)、選択された有意水準で帰無仮説は棄却されません
「お茶を味わう女性」の例(下記)において、フィッシャーは、結果が偶然の結果である可能性は低いという結論を正当化するために、女性にすべてのお茶を適切に分類することを要求しました。彼の検定では、女性が事実上ランダムに推測していた場合(帰無仮説)、観察された結果(完璧に整列したお茶)が発生する確率は1.4%であることが明らかになりました。
用途と重要性
統計は、ほとんどのデータ集合の分析に役立ちます。これは仮説検定にも同様に当てはまり、科学的理論が存在しない場合でも結論を正当化できます。お茶を飲んでいた女性の例では、(紅茶にミルクを注いだもの)と(紅茶にミルクを注いだもの)の間に違いがないことは「明白」でした。しかし、データはその「明白」な事実に反していました。
仮説検定の現実世界での応用には以下が含まれます。[38]
- 悪夢に悩まされる男性は女性よりも多いかどうかを検定する
- 文書の著者を特定する
- 満月が行動に与える影響を評価する
- コウモリがエコーで昆虫を検出できる範囲を決定する
- 病院のカーペットが感染症の増加につながるかどうかを判断する
- 禁煙するための最良の方法を選択する
- バンパーステッカーが車の所有者の行動を反映しているかどうかを確認する
- 筆跡分析者の主張を検定する
統計的仮説検定は、統計全体と統計的推論において重要な役割を果たします。例えば、レーマン(1992)は、ネイマンとピアソン(1933)の基礎論文のレビューの中で次のように述べています。「しかしながら、欠点はあるものの、1933年の論文で定式化された新しいパラダイムと、その枠組みの中で行われた多くの発展は、統計の理論と実践の両方において中心的な役割を果たし続けており、近い将来においてもそうすることが期待されます。」
有意性検定は、一部の実験社会科学において好まれる統計ツールとなっています(1990年代初頭のJournal of Applied Psychology誌の記事の90%以上)。 [39]他の分野では、パラメータ(例:効果量)の推定が好まれています。有意性検定は、科学的方法の中核である予測値と実験結果の従来の比較の代替として使用されます。理論が関係性の符号しか予測できない場合、統計的に有意な結果のみが理論を支持するように、方向性(片側)仮説検定を設定できます。この形式の理論評価は、仮説検定の最も批判されている応用です。
注意事項
「政府が統計的手続きに薬のような警告ラベルを貼ることを義務付ければ、ほとんどの推論方法は確かに長いラベルを貼ることになるだろう。」[40]この注意は、仮説検定とその代替手段に適用されます。
仮説検定の成功は、確率と第1種過誤率と関連しています。結論は間違っている 可能性があります
テストの結論は、その根拠となるサンプルの確固たる証拠となります。実験の設計は非常に重要です。次のような予期せぬ効果がいくつか観察されています。
- 賢いハンス効果。馬は簡単な計算ができるように見えました
- ホーソン効果。工業労働者は、照明が良いほど生産性が高く、照明が悪いほど生産性が最高でした。
- プラセボ効果。医療的に有効な成分を含まない錠剤は、驚くほど効果的でした
誤解を招くデータの統計分析は、誤解を招く結論を生み出します。データ品質の問題はより微妙な場合があります。例えば 予測においては、予測精度の尺度について合意が得られていません。コンセンサスのある測定法がなければ、測定に基づく決定は論争を呼ぶでしょう。
出版バイアス:統計的に有意でない結果は出版される可能性が低く、文献にバイアスをかける可能性があります。
多重検定:調整なしで複数の真の帰無仮説検定を一度に実施した場合、第1種の誤りの全体的な確率は名目αレベルよりも高くなります。[41]
仮説検定の結果に基づいて重要な決定を下す人は、結論だけでなく詳細にも目を向けるのが賢明です。物理科学では、ほとんどの結果は独立して確認された場合にのみ完全に受け入れられます。統計に関する一般的なアドバイスは、「数字は決して嘘をつかないが、嘘つきは数字を作る」(匿名)です。
用語の定義
以下の定義は、主にレーマンとロマーノの著書の説明に基づいています。[36]
- 統計的仮説:母集団(標本ではない)を記述するパラメータに関する記述。
- 検定統計量:未知のパラメータのない標本から計算された値。多くの場合、比較のために標本を要約するために使用されます。
- 単純仮説:母集団の分布を完全に特定する仮説。
- 複合仮説:母集団の分布を完全に特定しない仮説。
- 帰無仮説(H 0)
- 正データ:研究者が帰無仮説を棄却できるデータ。
- 対立仮説(H 1)

- 統計的検定の臨界値とは、検定の許容領域の境界です。[42]許容領域とは、帰無仮説が棄却されない検定統計量の値の集合です。許容領域の形状に応じて、1つまたは複数の臨界値が存在する場合があります。
- 棄却領域/臨界領域:帰無仮説を棄却する検定統計量の値の集合。
- 検定の検出力(1 − β )
- 大きさ:単純仮説の場合、これは検定が帰無仮説を誤って棄却する確率です。偽陽性率。複合仮説の場合、これは帰無仮説がカバーするすべてのケースにおいて帰無仮説を棄却する確率の上限です。偽陽性率の補数は、生物統計学では特異度と呼ばれます。(「これは特異的な検査です。結果が陽性であるため、患者はこの状態にあると自信を持って言えます。」)包括的な定義については、感度と特異度、および第I種過誤と第II種過誤を参照してください。
- 検定の有意水準( α)
- p値
- 統計的有意性検定:統計的仮説検定の前身(起源のセクションを参照)。サンプルが(帰無)仮説と十分に矛盾する場合、実験結果は統計的に有意で。これは、常識、意味のある実験結果を識別するための実用的なヒューリスティック、統計的証拠の閾値を確立する慣習、データから結論を導き出す方法など、様々な考え方がありました。統計的仮説検定は、対立仮説を明示的にすることで、概念に数学的な厳密さと哲学的な一貫性を加えました。この用語は、現在統計的仮説検定の一部となっている現代版を指すために緩く使用されています。
- 保守的検定:与えられた名義有意水準で構築された場合、帰無仮説を誤って棄却する真の確率が名義水準よりも大きくなることがない検定は、保守的である。
- 正確検定
統計的仮説検定は、検定統計量(例えばzまたはt)を閾値と比較します。検定統計量(下の表にある式)は最適性に基づいています。タイプIの誤り率が一定レベルの場合、これらの統計量を使用するとタイプIIの誤り率が最小化されます(検出力の最大化に相当)。以下の用語は、このような最適性の観点から検定を表します。
- 最も検出力の高い検定:与えられたサイズまたは有意水準において、対立仮説に含まれる検定対象のパラメータの与えられた値に対して、最も検出力(棄却確率)の高い検定。
- 一様最も検出力の高い検定(UMP)
ノンパラメトリックブートストラップ仮説検定
ブートストラップに基づく再標本抽出法は、帰無仮説検定に使用できます。ブートストラップ法は、帰無仮説が正しいと仮定して、元の結合標本データをランダムに再標本抽出(復元抽出)することにより、多数の模擬標本を作成します。ブートストラップ法は分布に依存せず、制限的なパラメトリック仮定に依存せず、漸近的な保証を持つ経験的近似法に依存するため、非常に汎用性があります。従来のパラメトリック仮説検定は計算効率が高いですが、より強い構造的仮定に基づいています。帰無仮説の下での検定統計量の確率を計算することが困難または不可能な状況(不便さや基礎分布に関する知識の欠如などにより)では、ブートストラップ法は統計的推論のための実行可能な方法を提供します。[43] [44] [45] [46]
例
人間の性比
統計的仮説検定の最も初期の使用は、一般的に、男児と女児の出生確率が等しいかどうか(帰無仮説)という問題であるとされており、これは1700年代にジョン・アーバスノット(1710年)[47]によって、後にピエール=シモン・ラプラス(1770年代)によって取り上げられました。[48]
アーバスノットは1629年から1710年までの82年間、ロンドンの出生記録を調べ、単純なノンパラメトリック検定である符号検定を適用しました。[49] [50] [51]毎年、ロンドンで生まれた男性の数は女性の数を上回っていました。男性の出生数が多いか女性の出生数が多いかが同じ確率であると仮定すると、観察された結果の確率は0.5 82、つまり約4,836,000,000,000,000,000,000,000分の1となります。現代の言葉で言えば、これはp値です。アーバスノットは、これは偶然によるには小さすぎ、神の摂理によるに違いないと結論付けました。「そこから、支配するのは偶然ではなく、芸術であるという結論が導き出されます。」現代の言葉で言えば、彼はp = 1/2 82の有意水準で、 男性と女性の出生が同確率であるという帰無仮説を棄却しました
ラプラスは約50万件の出生統計を検討しました。統計は、女の子に比べて男の子の出生数が過剰であることを示しました。[5]彼はp値の計算により、この過剰は現実のものだが説明できない効果であると結論付けました。[52]
お茶を味わう貴婦人
仮説検定の有名な例である「お茶を味わう貴婦人」[53]で、フィッシャーの同僚であるミュリエル・ブリストル博士は、カップに紅茶とミルクのどちらが先に入れられたかを判断できると主張しました。フィッシャーは、彼女に8種類のカップをランダムな順序で4杯ずつ渡すことを提案しました。すると、彼女が正解した数を得る確率はどれくらいか、しかしそれは単なる偶然であるかどうかが問われます。帰無仮説は、貴婦人にはそのような能力がないというものでした。検定統計量は、4つのカップを選ぶ際の成功回数を単純に数えることでした。臨界領域は、従来の確率基準(< 5%)に基づいて、4つの可能性のうち4つが成功する唯一のケースでした。4つの成功のパターンは、70通りの組み合わせのうち1つに対応します(p≈1.4%)。フィッシャーは、対立仮説は(決して)必要ではないと主張しました。貴婦人はすべてのカップを正しく識別しました[54]。これは統計的に有意な結果と見なされます。
法廷裁判
統計的検定手順は刑事裁判に似ています。被告人は、有罪が証明されない限り無罪とみなされます。検察官は被告人の有罪を証明しようとします。起訴に十分な証拠がある場合にのみ、被告人は有罪判決を受けます。
手続きの開始時には、「被告人は無罪である」と「被告人は有罪である」という2つの仮説があります。最初の仮説は帰無仮説と呼ばれます。2番目の仮説は対立仮説と呼ばれます。対立仮説は、支持したい対立仮説です。
無実の被告人を有罪にしたくないため、誤りが非常に起こりにくい場合にのみ無罪の仮説は棄却されます。このような誤りは第一種の誤り(つまり、無実の人の有罪判決)と呼ばれ、この誤りの発生はまれになるように制御されます。この非対称的な動作の結果として、第二種の誤り(犯罪を犯した人を無罪とする)がより一般的です
| H 0は真。 真に無罪 |
H 1は真。 真に有罪 | |
|---|---|---|
帰 無仮説を棄却しない。無罪 |
正しい判定 | 誤った 判定。第2種の誤り |
| 帰無仮説を棄却する。有罪 |
誤った判定。第1種の誤り |
正しい判定 |
刑事裁判は、有罪か無罪か、証拠か閾値(「合理的な疑いの余地がない」)かという2つの意思決定プロセスのいずれか、あるいは両方と見なすことができます。一方の見方では被告人が判断され、もう一方の見方では(立証責任を負う)検察側の行動が判断されます。仮説検定は、仮説の判断または証拠の判断のいずれかと見なすことができます。
透視カードゲーム
ある人物(被験者)が透視能力のテストを受けます。被験者は、ランダムに選ばれたトランプの裏面を25回見せられ、4つのスートのうちどのスートに属するかを尋ねられます。ヒット数、つまり正解の数はXと呼ばれます。
透視能力の証拠を見つけようとする中で、当面の帰無仮説は、その人物は透視能力を持っていないというものです。[55]代替仮説は、その人物は(多かれ少なかれ)透視能力を持っているというものです
帰無仮説が正しい場合、被験者ができることは推測することだけです。すべてのカードについて、単一のスートが出現する確率(相対頻度)は1/4です。対立仮説が正しい場合、被験者は1/4を超える確率でスートを正しく予測します。正しく推測する確率をpと呼びます。したがって、仮説は以下のとおりです。
- 帰無仮説 (単なる推測)
および
- 対立仮説 (真の千里眼)
被験者が25枚のカードすべてを正しく予測した場合、彼らを千里眼と見なし、帰無仮説を棄却します。24回または23回のヒットの場合も同様です。一方、5回または6回しか予測できなかった場合、千里眼と見なす理由はありません。しかし、12回または17回ヒットした場合はどうなるでしょうか?被験者が千里眼であると見なす臨界ヒット数cはいくつでしょうか?臨界値cはどのように決定するのでしょうか? c = 25(つまり、すべてのカードが正しく予測された場合にのみ千里眼を認める)を選択した場合、c = 10の場合よりも臨界値が高くなります。前者の場合、ほとんどすべての被験者が千里眼であると認識されませんが、後者の場合、一定数の被験者がテストに合格します。実際には、どの程度臨界値にするかを決定します。つまり、第一種の誤り、つまり偽陽性、または第1種の誤りをどのくらいの頻度で受け入れるかを決定します。c = 25の場合、そのような誤りの確率は次のとおり です
- 、
したがって、非常に小さいです。偽陽性の確率は、ランダムに25回すべて正しく推測する確率です
c = 10 と、それほど重要ではなくなるため、次のようになります。
- 。
したがって、c = 10 では偽陽性の確率が大幅に高くなります
実際にテストを実行する前に、タイプIの誤りの最大許容確率(α)が決定されます。通常、1%から5%の範囲の値が選択されます。(最大許容誤り率がゼロの場合、無限数の正しい推測が必要になります。)このタイプIの誤り率に応じて、臨界値cが計算されます。たとえば、誤り率を1%に選択した場合、cは次のように計算されます。
- 。
この特性を持つすべての数値cから、タイプIIの誤り(偽陰性)の確率を最小化するために、最小のものを選択します。上記の例では、次のように選択します。
バリエーションとサブクラス
統計的仮説検定は、頻度論的推論とベイズ推論の両方の重要な手法ですが、2つの推論には顕著な違いがあります。統計的仮説検定は、デフォルトの立場(帰無仮説)が間違っていると誤って判断する確率を制御(固定)する手順を定義します。この手順は、帰無仮説が正しい場合に、一連の観測値が発生する可能性に基づいています。この誤った判断を行う確率は、帰無仮説が正しい確率でも、特定の対立仮説が正しいかどうかの確率でもありません。これは、帰無仮説と対立仮説がより平等に扱われる 意思決定理論の他の手法とは対照的です
仮説検定におけるナイーブベイズ的アプローチの一つは、事後確率に基づいて意思決定を行うことですが[56] [57] 、これは点仮説と連続仮説を比較する際には失敗します。ベイズ決定理論などの他の意思決定アプローチは、単一の帰無仮説に集中するのではなく、すべての可能性にわたって誤った意思決定の結果のバランスを取ろうとします。データに基づいて意思決定に至るための他の多くのアプローチは、意思決定理論と最適決定を通じて利用可能であり、その中には望ましい特性を持つものもあります。しかし、仮説検定は多くの科学分野におけるデータ分析における主要なアプローチです。仮説検定理論の拡張には、検定力、つまり帰無仮説が偽である場合にそれを正しく棄却する確率の研究が含まれます。このような考慮事項は、データ収集前の サンプルサイズ決定の目的で使用できます。
ネイマン・ピアソン仮説検定
ネイマン・ピアソン仮説検定(または帰無仮説の統計的有意性検定)の例は、放射性スーツケースの例を変更することで作成できます。「スーツケース」が実際には放射性物質を輸送するための遮蔽容器である場合、放射性源が存在しない、1つ存在する、2つ(すべて)存在するという3つの仮説から選択するための検定が使用される可能性があります。この検定は安全性のために必要であり、それぞれのケースで必要な措置が講じられる可能性があります。ネイマン・ピアソン仮説検定の補題によれば、仮説を選択するための適切な基準は、それらの確率の比(尤度比)です。簡単な方法は、観測されたガイガーカウントに対して最も高い確率を持つ仮説を選択することです。典型的な結果は直感と一致します。カウント数が少ない場合は放射性源が存在しないことを、カウント数が多い場合は2つの放射性源が存在することを、中程度のカウント数の場合は1つの放射性源が存在することを示唆します。また、通常、否定の を証明することは困難であることにも注意してください。帰無仮説は、少なくとも反証可能である必要があります。
ネイマン・ピアソン理論は、事前確率と意思決定から生じる行動のコストの両方を扱うことができます。[58]前者は、各検定で以前の検定の結果を考慮することができます(フィッシャーの有意性検定とは異なります)。後者は、確率だけでなく、例えば経済問題を考慮することができます。尤度比は、仮説を選択するための優れた基準です。
仮説検定の2つの形式は、異なる問題の定式化に基づいています。元の検定は真偽の質問に類似していますが、ネイマン・ピアソン検定は多肢選択式に近いものです。Tukey [59]の見解では、前者は強力な証拠のみに基づいて結論を導き出すのに対し、後者は利用可能な証拠に基づいて決定を導き出します。2つの検定は数学的にも哲学的にも全く異なるように見えますが、後の発展により、逆の主張につながっています。多くの微小な放射性源を考えてみましょう。仮説は0、1、2、3…粒の放射性砂になります放射能が全くないか多少ある場合(フィッシャー法)と、放射性砂が全くない場合と全ての選択肢がある場合(ネイマン=ピアソン法)の間には、ほとんど違いがありません。1933年のネイマン=ピアソンの主要な論文[11]では、複合仮説(分布に未知のパラメータが含まれる仮説)も検討されています。ある例では、(スチューデントの)t検定の最適性が証明されており、「検討中の仮説に対してこれより優れた検定法は存在しない」(p 321)とされています。ネイマン=ピアソン理論は、その誕生当初からフィッシャー法の最適性を証明していました。
フィッシャーの有意性検定は、数学的な成長の可能性は少ないものの、応用においては人気のある柔軟な統計ツールであることが証明されています。ネイマン・ピアソン仮説検定は数理統計学の柱であると主張されており、[60]この分野に新たなパラダイムを生み出しました。また、統計的プロセス制御、検出理論、意思決定理論、ゲーム理論における新たな応用を刺激しました。どちらの定式化も成功していますが、その成功は異なる性質のものでした。
定式化をめぐる論争は未解決です。科学では主に、入門統計学で教えられているフィッシャーの(わずかに修正された)定式化を使用しています。統計学者は大学院でネイマン・ピアソン理論を学びます。数学者はこれらの定式化を統合したことを誇りに思っています。哲学者はそれらを別々に検討します。学者の意見では、これらの定式化は競合的(フィッシャー対ネイマン)、両立しない(9) 、補完的(13)など様々です。ベイズ推論が尊重されるようになって以来、この論争はより複雑になっています
用語に一貫性がありません。仮説検定とは、時間とともに変化する2つの定式化の任意の組み合わせを意味します。有意性検定と仮説検定の議論は、二重に混乱を招きやすいです。
フィッシャーは、仮説検定は産業品質管理を行うための有用な戦略であると考えましたが、仮説検定が科学者にとって有用であるという考えには強く反対しました。[10] 仮説検定は、有意性検定で使用される検定統計量を見つける手段を提供します。[13]検出力の概念は、有意水準を調整することの結果を説明するのに役立ち、サンプルサイズの決定に頻繁に使用されます。2つの方法は哲学的に異なるままです。[15]通常(常にではありませんが)同じ数学的答えが得られます。好ましい答えは状況に依存します。[13]フィッシャー理論とネイマン・ピアソン理論の既存の統合は激しく批判されてきましたが、ベイズ統計の目標を達成するために統合を修正することが検討されてきました。[61]
批判
統計的仮説検定に対する批判の多くは、以下の点に要約できます
- p値の解釈は、停止規則と多重比較の定義に依存します。前者は研究の過程でしばしば変化し、後者は必然的に曖昧になります。(つまり、「p値は、観察された(データ)と、観察された可能性があったが観察されなかった可能性のある他の(データ)の両方に依存する」ということです。[62]
- 概念的に異なるフィッシャーとネイマン・ピアソンの方法を組み合わせた結果、混乱が生じました。[59]
- 統計的有意性を重視し、推定や繰り返し実験による確認を排除する。[63]
- 統計的有意性を出版の基準として厳格に要求することで、出版バイアスが生じる。[64]批判のほとんどは間接的なものである。統計的仮説検定は間違っているのではなく、誤解され、過剰に使用され、誤用されている。
- グループ間に差があるかどうかを検出するために使用される場合、パラドックスが生じる。実験設計が改善されるにつれて(例:測定精度やサンプルサイズの増加)、検定はより寛容になる。データ内のすべてのノイズ源が完全に打ち消されるという不合理な仮定を受け入れない限り、どちらの方向でも統計的有意性を見つける可能性は100%に近づく。[65]しかし、2つのグループ間の平均差がゼロになることはないというこの不合理な仮定は、IIDランダム変量の任意の2つのサブグループ間の期待差がゼロであるため、データが独立かつ同一に分布している(IID)ことはできないことを意味する。したがって、IID仮定も不合理である
- 哲学的な懸念の層。統計的有意性の確率は、実験者/分析者による決定の関数である。[66]決定が慣習に基づいている場合、それは恣意的または無思慮であると呼ばれ[67]、そうでない場合は主観的であると呼ばれる。第2種の誤りを最小限に抑えるためには、大規模なサンプルが推奨される。心理学では、十分に大きなサンプルに対して実質的にすべての帰無仮説が誤りであると主張されているため、「…帰無仮説を棄却することのみを目的として実験を行うことは通常無意味である」。 [68]心理学では、「統計的に有意な結果はしばしば誤解を招く」 。 [69]統計的有意性は実用的な有意性を意味するものではなく、相関は因果関係を意味するものではない。したがって、帰無仮説に疑問を投げかけることは、研究仮説を直接支持することからは程遠い。
- 「それは私たちが知りたいことを教えてくれない」。[70]数十の苦情のリストが利用可能である。[71] [18] [72]
批判者と支持者は、帰無仮説有意性検定(NHST)の特性に関して、事実上ほぼ一致しています。NHSTは重要な情報を提供できるものの、統計分析の唯一のツールとしては不十分です。帰無仮説を棄却できたとしても、研究仮説を裏付けるものにはならない可能性があります。継続的な論争は、既存の慣行を前提として、近い将来に最適な統計慣行を選択することに関するものです。しかし、適切な研究デザインによってこの問題を最小限に抑えることができます。批判者はNHSTを完全に禁止し、それらの慣行からの完全な離脱を強制することを望んでいますが[73]、支持者はそれほど絶対的な変化ではないことを提案しています。[要出典]
有意性検定、特に出版バイアスへの影響に関する論争は、いくつかの結果を生み出しました。アメリカ心理学会はレビュー後に統計報告要件を強化し、[74] 医学雑誌の出版社は出版バイアスに対抗するために統計的に有意ではない結果を発表する義務を認識し、[75]そのような結果のみを発表するジャーナル(Journal of Articles in Support of the Null Hypothesis)が設立されました[76]教科書にはいくつかの注意事項が追加され、[77]有意な結果を生み出すために必要なサンプルサイズを推定するために必要なツールの解説範囲が拡大しました。有意性検定の使用を放棄した主要組織はほとんどありませんが、一部の組織ではそうすることを検討しています。[74]例えば、2023年にJournal of Physiologyの編集者は、「The Journalに論文を発表する者には推定手法の使用を強く推奨します」(効果量の大きさ(読者が知見が実用的、生理学的、または臨床的に関連性があるかどうかを判断できるようにするため)と、その推定値の精度を伝えるための信頼区間を意味します)と述べ、「最終的には、The Journal of Physiologyに論文を発表する者が最も懸念すべきは、統計的有意性ではなく、データの生理学的重要性です。」と述べています。 [78]
p値はランダム変数です[79]。したがって、統計的検定の決定はランダム変数です。その安定性を理解するために、次のようなアプローチが提案されています。
- 「再現確率」のブートストラッピング[80]
- p値の標本分布のブートストラップ法[81]
代替案
批評家の統一的な立場は、統計は受理か不受理かの結論や決定ではなく、区間推定による推定値に導くべきであるというものです。このデータ分析の考え方は、広く推定統計と呼ばれています。推定統計は、頻度主義[82]またはベイズ法[83] [84]のいずれかで行うことができます。
有意性検定の批評家は、推論をp値ではなく、効果量の重要性の信頼区間、信頼度の予測区間、再現性の反復と拡張、一般性のメタアナリシスに基づかせることを提唱しています。[85]しかし、これらの提案された代替案はどれも本質的に決定を生み出すものではありません。レーマンは、仮説検定理論は結論/決定、確率、または信頼区間の観点から提示できると述べています。「…アプローチの違いは、主に報告と解釈の違いです。」[26]
ベイズ推論は、有意性検定の代替案として提案されている方法の一つです。(ニッカーソンは、ロゼブーム(1960)を含む10の文献を引用しています。)[18]例えば、ベイズパラメータ推定は、十分なデータが利用可能な場合、結果に最小限の影響しか及ぼさない不確実な事前分布を使用しながら、研究者が推論を導き出すためのデータに関する豊富な情報を提供できます。心理学者のジョン・K・クルシュケは、 t検定の代替としてベイズ推定を提案し[83]、帰無値を評価するためのベイズ推定と仮説検定のためのベイズモデル比較を対比しています。[84] 2つの競合するモデル/仮説は、ベイズ因子を用いて比較できます。[86]ベイズ法は、有意性検定が最も頻繁に使用される場合にはほとんど入手できない情報を必要とするという批判を受ける可能性があります。対立仮説における検定統計量の事前確率も確率分布も、社会科学ではほとんど入手できません。[18]
ベイズ的アプローチの支持者は、研究者の目標は、収集したデータに基づいて仮説が真である確率を客観的に評価することであると主張することがあります。 [87] [88]フィッシャーの有意性検定も ネイマン・ピアソン仮説検定も、この情報を提供することはできず、また提供できると主張していません。仮説が真である確率は、ベイズの定理を用いることでのみ導き出すことができますが、ベイズの定理は、事前確率という形で主観性を明示的に用いているため、フィッシャー陣営とネイマン・ピアソン陣営の両方にとって満足のいくものではありませんでした。[11] [89]フィッシャーの戦略は、p値(データのみに基づく客観的な指標)に続いて帰納的推論を行うことでこれを回避することですが、ネイマン・ピアソンは帰納的行動という独自のアプローチを考案しました。
参照
参考文献
- ^ Lewis, Nancy D.; Lewis, Nigel Da Costa; Lewis, ND (2013). 100 Statistical Tests in R: What to Choose, how to Esily Calculate, with Over 300 Illustrations and Examples. Heather Hills Press. ISBN 978-1-4840-5299-0。
- ^ カンジ、ゴパル・K.(2006年7月18日). 100 Statistical Tests. SAGE. ISBN 978-1-4462-2250-8。
- ^ Bellhouse, P. (2001)、「John Arbuthnot」、C.C. HeydeとE. Seneta著『Statisticians of the Centuries』、Springer、 39~ 42ページ、ISBN 978-0-387-95329-8
- ^ Meehl, P. (1990). 「理論の評価と修正:ラカトス防衛の戦略とそれを正当化する2つの原則」(PDF) . Psychological Inquiry . 1 (2): 108– 141. doi :10.1207/s15327965pli0102_1.
- ^ ab Laplace, P. (1778). 「確率に関する回想録」.パリ王立科学アカデミー紀要: 227– 332ラプラス、P.(1878–1912)『確率に関する回想録(XIX、XX)』。ラプラス全集。第9巻。ゴーティエ=ヴィラール。383–488ページ。 英訳: ラプラス、P.(2010年8月21日)『確率に関する回想録』(PDF) 。リチャード・J・パルスカムによる翻訳。 2015年4月27日時点のオリジナル(PDF)からのアーカイブ
- ^ ピアソン、K (1900). 「相関変数システムの場合における、確率からの偏差の与えられたシステムが、ランダムサンプリングから生じたと合理的に想定できるという基準について」(PDF) .ロンドン、エディンバラ、ダブリン哲学雑誌・科学ジャーナル. 5 (50): 157– 175. doi :10.1080/14786440009463897.
- ^ ピアソン、K (1904). 「偶然性理論と、それと関連および正規相関との関係について」.ドレイパーズ社研究メモワール バイオメトリックシリーズ. 1 : 1– 35
- ^ Zabell, S (1989). 「RAフィッシャーによる逆確率の歴史」.統計科学. 4 (3): 247–256 . doi : 10.1214/ss/1177012488 . JSTOR 2245634.
- ^ ab Raymond Hubbard, MJ Bayarri , P値は誤り確率ではない。2013年9月4日アーカイブ、Wayback Machineにて。フィッシャーの証拠的p値とネイマン・ピアソンのタイプI誤り率の違いを説明するワーキングペーパー
- ^ ab Fisher, R (1955). 「統計的手法と科学的帰納法」(PDF) . Journal of the Royal Statistical Society, Series B. 17 ( 1): 69– 78. doi :10.1111/j.2517-6161.1955.tb00180.x.
- ^ abcd Neyman, J; Pearson, ES (1933年1月1日). 「統計的仮説の最も効率的な検定の問題について」. Philosophical Transactions of the Royal Society A. 231 ( 694– 706 ): 289– 337. Bibcode :1933RSPTA.231..289N. doi : 10.1098/ rsta.1933.0009
- ^ Goodman, SN (1999年6月15日). 「エビデンスに基づく医療統計に向けて 1: P値の誤り」. Ann Intern Med . 130 (12): 995–1004 . doi :10.7326/0003-4819-130-12-199906150-00008. PMID 10383371. S2CID 7534212.
- ^ abcd Lehmann, EL (1993年12月). 「フィッシャー、ネイマン、ピアソンの仮説検定理論:1つの理論か2つの理論か?」アメリカ統計学会誌. 88 (424): 1242– 1249. doi :10.1080/01621459.1993.10476404
- ^ フィッシャー、RN (1958). 「確率の性質」(PDF) .センテニアル・レビュー. 2 : 261–274 .
高度な訓練を受け、非常に知的な若者を、誤った数字の表を脇に抱え、本来頭脳があるべき場所に濃い霧を垂らした状態で世に送り出すという、極めて危険な状況に陥っています。もちろん、今世紀においては、彼らは誘導ミサイルの開発に携わり、医療専門家に疾病管理について助言することになるでしょう。そして、彼らがあらゆる種類の国家努力を妨害する可能性には限界がありません
- ^ abc レンハード、ヨハネス (2006). 「モデルと統計的推論:フィッシャーとネイマン=ピアソンの論争」. Br. J. Philos. Sci . 57 : 69–91 . doi :10.1093/bjps/axi152. S2CID 14136146.
- ^ ネイマン、イェルジー (1967). 「RAフィッシャー(1890—1962):評価」. Science . 156 (3781): 1456–1460 . Bibcode :1967Sci...156.1456N. doi :10.1126/science.156.3781.1456. PMID 17741062. S2CID 44708120
- ^ Losavich, JL; Neyman, J.; Scott, EL; Wells, MA (1971). 「ホワイトトップ実験におけるクラウドシーディングの負の見かけの効果に関する仮説的説明」.米国科学アカデミー紀要. 68 (11): 2643–2646 .書誌コード: 1971PNAS...68.2643L. doi : 10.1073 / pnas.68.11.2643 . PMC 389491. PMID 16591951
- ^ abcdef Nickerson, Raymond S. (2000). 「帰無仮説有意性検定:古くから続く論争のレビュー」(PDF) . Psychological Methods . 5 (2): 241– 301. doi :10.1037/1082-989X.5.2.241. PMID 10937333. S2CID 28340967. 2000年2月23日時点のオリジナルよりアーカイブ。
- ^ ab Halpin, PF; Stam, HJ (2006年冬). 「帰納的推論か帰納的行動か:フィッシャーとネイマン:心理学研究における統計的検定へのピアソンアプローチ(1940~1960年)」.アメリカ心理学会誌. 119 (4): 625– 653. doi :10.2307/20445367. JSTOR 20445367. PMID 17286092.
- ^ ギーゲレンツァー、ゲルト、ゼノ・スワイティンク、セオドア・ポーター、ロレイン・ダストン、ジョン・ビーティ、ローレンツ・クルーガー (1989). 「第3部:推論の専門家」. 『偶然の帝国:確率は科学と日常生活をいかに変えたか』. ケンブリッジ大学出版局. pp. 70– 122. ISBN 978-0-521-39838-1。
- ^ Mayo, DG; Spanos, A. (2006). 「ネイマン=ピアソン帰納法の哲学における基本概念としての厳密なテスト」.英国科学哲学ジャーナル. 57 (2): 323– 357. CiteSeerX 10.1.1.130.8131 . doi :10.1093/bjps/axl003. S2CID 7176653.
- ^ 数学 > 高校:統計と確率 > 序論 2012年7月28日アーカイブ、archive.todayコモン・コア州基準イニシアチブ(米国の生徒に関連)
- ^ カレッジボードテスト > AP:科目 > 統計学 カレッジボード(米国の生徒に関連)
- ^ ハフ、ダレル (1993). 統計で嘘をつく方法. ニューヨーク:ノートン. 8ページ. ISBN 978-0-393-31072-6。「社会経済の動向、景気動向、「世論」調査、国勢調査といった大量のデータを報告するには、統計的手法と統計用語が不可欠です。しかし、言葉を誠実に使う筆者と、その意味を理解する読者がいなければ、結果は意味論的に無意味なものにしかなりません。」
- ^ Snedecor, George W.; Cochran, William G. (1967). Statistical Methods (6 ed.). Ames, Iowa: Iowa State University Press. p. 3.「…統計学の基本的な考え方は、問題について明確に考えるのに役立ち、健全な推論を行うために満たさなければならない条件についての指針を提供し、論理的根拠のない多くの推論を検出することを可能にします。」
- ^ ab EL Lehmann (1997). 「統計的仮説の検証:ある本の物語」.統計科学. 12 (1): 48– 52. doi : 10.1214/ss/1029963261 .
- ^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2007). 「統計的推論に関する学生の誤解:統計教育研究から得られた実証的証拠のレビュー」(PDF) .教育研究レビュー. 2 (2): 98– 113. doi : 10.1016/j.edurev.2007.04.001
- ^ Moore, David S. (1997). 「新しい教育法と新しい内容:統計学の事例」(PDF) . International Statistical Review . 65 (2): 123– 165. doi :10.2307/1403333. JSTOR 1403333.
- ^ Hubbard, Raymond; Armstrong, J. Scott (2006). 「なぜ統計的有意性の意味を本当に理解していないのか:教育者への示唆」. Journal of Marketing Education . 28 (2): 114– 120. doi :10.1177/0273475306288399. hdl : 2092/413 . S2CID 34729227
- ^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2009). 「学生は仮説検定についての誤解にどれほど自信を持っているか?」. Journal of Statistics Education . 17 (2). doi : 10.1080/10691898.2009.11889514 .
- ^ Gigerenzer, G. (2004). 「ヌル儀式:有意検定についてずっと知りたかったが、聞くのが怖かったこと」(PDF) . The SAGE Handbook of Quantitative Methodology for the Social Sciences . pp. 391– 408. doi : 10.4135/9781412986311. ISBN 9780761923596。
- ^ 「統計的仮説の検定」 Springer Texts in Statistics . 2005. doi :10.1007/0-387-27605-x. ISBN 978-0-387-98864-1. ISSN 1431-875X.
- ^ ヒンケルマン、クラウス;ケンプソーン、オスカー(2008年)『実験計画法と分析』第1巻と第2巻(第2版)Wiley. ISBN 978-0-470-38551-7。
- ^ モンゴメリー、ダグラス(2009年)『実験のデザインと分析』ホーボーケン、ニュージャージー州:ワイリー。ISBN 978-0-470-12866-4。
- ^ RAフィッシャー(1925年)『研究者のための統計的手法』エディンバラ:オリバー&ボイド社、1925年、43ページ
- ^ ab Lehmann, EL; Romano, Joseph P. (2005).統計的仮説の検定(第3版). ニューヨーク:Springer. ISBN 978-0-387-98864-1。
- ^ Nuzzo, Regina (2014). 「科学的手法:統計的誤差」. Nature . 506 (7487): 150– 152. Bibcode :2014Natur.506..150N. doi : 10.1038/506150a . hdl : 11573/685222 . PMID 24522584
- ^ Richard J. Larsen; Donna Fox Stroup (1976). 『現実世界の統計:事例集』 . Macmillan. ISBN 978-0023677205.
- ^ ハバード, R.; パーサ, AR; ルーシー, MR (1997). 「心理学における統計的有意性検定の普及:応用心理学ジャーナルの事例」.理論と心理学. 7 (4): 545– 554. doi :10.1177/0959354397074006. S2CID 145576828.
- ^ Moore, David (2003). Introduction to the Practice of Statistics. New York: W.H. Freeman and Co. p. 426. ISBN 9780716796572.
- ^ Ranganathan, Priya; Pramesh, C. S; Buyse, Marc (April–June 2016). "Common pitfalls in statistical analysis: The perils of multiple testing". Perspect Clin Res. 7 (2): 106–107. doi:10.4103/2229-3485.179436. PMC 4840791. PMID 27141478.
- ^ Hughes, Ann J.; Grawoig, Dennis E. (1971). Statistics: A Foundation for Analysis. Reading, Mass.: Addison-Wesley. p. 191. ISBN 0-201-03021-7.
- ^ Hall, P. and Wilson, S.R., 1991. Two guidelines for bootstrap hypothesis testing. Biometrics, pp.757-762.
- ^ Tibshirani, R.J. and Efron, B., 1993. An introduction to the bootstrap. Monographs on statistics and applied probability, 57(1).
- ^ Martin, M.A., 2007. Bootstrap hypothesis testing for some common statistical problems: A critical evaluation of size and power properties. Computational Statistics & Data Analysis, 51(12), pp.6321-6342.
- ^ Horowitz, J.L., 2019. Bootstrap methods in econometrics. Annual Review of Economics, 11, pp.193-224. I'm
- ^ ジョン・アーバスノット (1710). 「男女の出生に見られる一定の規則性からみた神の摂理の論拠」(PDF) .ロンドン王立協会哲学論文集. 27 ( 325–336 ): 186–190 . doi : 10.1098 /rstl.1710.0011 . S2CID 186209819.
- ^ ブライアン、エリック;ジェイソン、マリー (2007). 「物理神学と数学 (1710–1794)」.出生時の人間の性比の変遷. シュプリンガー・サイエンス&ビジネス・メディア. pp. 1–25. ISBN 978-1-4020-6036-6。
- ^ Conover, WJ (1999)、「第3.4章 符号検定」、実用ノンパラメトリック統計(第3版)、Wiley、 157~ 176ページ、ISBN 978-0-471-16068-7
- ^ Sprent, P. (1989)、応用ノンパラメトリック統計手法(第2版)、Chapman & Hall、ISBN 978-0-412-44980-2
- ^ Stigler, Stephen M. (1986)、『統計の歴史:1900年以前の不確実性の測定』、ハーバード大学出版局、225~226ページ、ISBN 978-0-67440341-3。
- ^ スティグラー、スティーブン・M. (1986). 『統計の歴史:1900年以前の不確実性の測定』ケンブリッジ、マサチューセッツ州:ハーバード大学出版局ベルナップ・プレス、134ページ。ISBN 978-0-674-40340-6。
- ^ フィッシャー、サー・ロナルド・A. (2000) [1935]. 「お茶を味わう貴婦人の数学」ジェームズ・ロイ・ニューマン編『数学の世界』第3巻[実験計画法]所収。クーリエ・ドーバー出版。ISBN 978-0-486-41151-4。フィッシャーの著書『実験計画法』より。
- ^ ボックス、ジョーン・フィッシャー (1978). R.A. フィッシャー『科学者の人生』ニューヨーク:ワイリー、134ページ。ISBN 978-0-471-09300-8。
- ^ Jaynes, ET (2007).確率論:科学の論理(第5刷). Cambridge [ua]: Cambridge Univ. Press. ISBN 978-0-521-59271-0。
- ^ Schervish, M (1996)統計理論、p. 218. Springer ISBN 0-387-94546-6
- ^ Kaye, David H.; Freedman, David A. (2011). 「統計リファレンスガイド」. 『科学的証拠に関するリファレンスマニュアル(第3版)』. イーガン、ミネソタ州; ワシントンD.C.: West National Academies Press. p. 259. ISBN 978-0-309-21421-6。
- ^ Ash, Robert (1970).基礎確率論. ニューヨーク: Wiley. ISBN 978-0471034506。第8.2節
- ^ ab Tukey, John W. (1960). 「結論 vs 決定」. Technometrics . 26 (4): 423– 433. doi :10.1080/00401706.1960.10489909.「仮説検定の説明を精査し、[ネイマン-ピアソン]の決定要素と[フィッシャー]の結論要素を区別するまで、異なる要素の密接な混合は継続的な混乱の原因となるだろう。」…「『最善を尽くす』ことと『確かなことだけを言う』ことはどちらも必要だが、それぞれの場合において、どちらが行われているか、どちらが行われるべきかの両方を知ることが重要である。」
- ^ スティグラー、スティーブン・M. (1996年8月). 「1933年の統計史」.統計科学. 11 (3): 244–252 . doi : 10.1214/ss/1032280216 . JSTOR 2246117.
- ^ バーガー、ジェームズ・O. (2003). 「フィッシャー、ジェフリーズ、ネイマンは検定について合意できたか?」.統計科学. 18 (1 ) : 1–32 . doi : 10.1214/ss/1056397485
- ^ コーンフィールド、ジェローム (1976). 「臨床試験への最近の方法論的貢献」(PDF) . American Journal of Epidemiology . 104 (4): 408– 421. doi :10.1093/oxfordjournals.aje.a112313. PMID 788503.
- ^ イェーツ、フランク (1951). 「研究者のための統計的手法が統計科学の発展に及ぼす影響」. Journal of the American Statistical Association . 46 (253): 19– 34. doi :10.1080/01621459.1951.10500764「[RAフィッシャーの]統計手法全体を通して、正式な有意性検定に重点が置かれているため…科学研究者は、データ、特に実験から得られたデータに対して行う有意性検定の結果に過度の注意を払い、調査している効果の大きさの推定値にはあまり注意を払っていない。」…「有意性検定の重視と各実験の結果を個別に検討することは、科学者が実験における有意性検定の実行を最終的な目的と見なすという残念な結果をもたらしてきた。」
- ^ ベッグ、コリン・B.;ベルリン、ジェシー・A. (1988). 「出版バイアス:医療データの解釈における問題」.王立統計学会誌、シリーズA. 151 ( 3): 419– 463. doi :10.2307/2982993. JSTOR 2982993. S2CID 121054702.
- ^ ミール、ポール・E. (1967). 「心理学と物理学における理論検証:方法論的パラドックス」(PDF) .科学哲学. 34 (2): 103– 115. doi :10.1086/288135. S2CID 96422880. 2013年12月3日時点の オリジナル(PDF)からのアーカイブ30年後、Meehlは統計的有意性理論が数学的に健全であることを認めつつも、帰無仮説のデフォルトの選択に疑問を呈し続け、「問題は統計ではなく認識論である:有意性検定を信頼区間に置き換え、危険な数値予測の精度を定量化する」(Harlow (1997)第14章)の中で、「社会科学者が理論と事実の論理的関係を理解していないこと」を非難した
- ^ Bakan, David (1966). 「心理学研究における有意性検定」. Psychological Bulletin . 66 (6): 423– 437. doi :10.1037/h0020412. PMID 5974619
- ^ ギゲレンツァー、G(2004年11月)「無知な統計」『社会経済学ジャーナル』33 (5): 587–606 . doi :10.1016/j.socec.2004.09.033.
- ^ ナナリー、ジュム(1960)「心理学における統計の位置」『教育心理測定』20 (4): 641–650 . doi :10.1177/001316446002000401. S2CID 144813784.
- ^ Lykken, David T. (1991). "What's wrong with psychology, anyway?". Thinking Clearly About Psychology. 1: 3–39.
- ^ Jacob Cohen (December 1994). "The Earth Is Round (p < .05)". American Psychologist. 49 (12): 997–1003. doi:10.1037/0003-066X.49.12.997. S2CID 380942. This paper lead to the review of statistical practices by the APA. Cohen was a member of the Task Force that did the review.
- ^ Kline, Rex (2004).有意性検定を超えて:行動研究におけるデータ分析手法の改革. ワシントンD.C.:アメリカ心理学会. ISBN 9781591471189。
- ^ Branch, Mark (2014). 「帰無仮説有意性検定の悪性副作用」. Theory & Psychology . 24 (2): 256– 277. doi :10.1177/0959354314525282. S2CID 40712136
- ^ ハンター、ジョン・E.(1997年1月)「必要:有意性検定の禁止」心理科学. 8 (1): 3– 7. doi :10.1111/j.1467-9280.1997.tb00534.x. S2CID 145422959.
- ^ ウィルキンソン、リーランド(1999年)「心理学ジャーナルにおける統計的手法:ガイドラインと説明」アメリカ心理学会. 54 (8): 594– 604. doi :10.1037/0003-066X.54.8.594. S2CID 428023「仮説検定。実際のp値、あるいはさらに良い信頼区間を報告するよりも、二値的な採否判定の方が良い状況を想像するのは難しい。」(p 599)。委員会は、心理学の報道における仮説検定の禁止に反対する決定を説明する際に、「寛容」という警告的な用語を使用した。(p 603)
- ^ 「ICMJE:否定的研究の出版義務」。2012年7月16日時点のオリジナルからアーカイブ。 2012年9月3日閲覧。
編集者は、読者にとって重要な疑問について、主要なアウトカムまたは追加のアウトカムの結果が統計的に有意であるかどうかにかかわらず、慎重に行われた研究の出版を真剣に検討すべきである。統計的有意性の欠如のために研究結果を提出または出版しないことは、出版バイアスの重要な原因である。
- ^ 帰無仮説を支持する論文ジャーナルのウェブサイト:JASNHホームページ。第1巻第1号は2002年に発行され、すべての論文は心理学関連の主題に関するものである
- ^ ハウエル、デイビッド (2002). 心理学のための統計的手法(第5版). ダックスベリー. p.94. ISBN 978-0-534-37770-0。
- ^ Williams, S.; Carson, R.; Tóth, K. (2023年10月10日). 「The Journal of PhysiologyにおけるP値を超えて:効果量と信頼区間の価値に関する入門書」. J Physiol . 601 (23): 5131– 5133. doi : 10.1113/JP285575 . PMID 37815959. S2CID 263827430.
- ^ p値はランダム変数である Duncan J. Murdoch、Yu-Ling Tsai、James Adcock、The American Statistician、2008年、https://www.jstor.org/stable/27644033
- ^ Binhimd、Sulafah、Bashair Almalki。「ブートストラップ法と再現確率」アメリカ工学技術科学研究ジャーナル(ASRJETS)59.1(2019年):76-80
- ^ Boos、Dennis D; Stefanski、Leonard A.「p値の精度と再現性」The American Statistician . doi :10.1198/tas.2011.10129
- ^ Ho, Joses; Tumkaya, Tayfun; Aryal, Sameer; Choi, Hyungwon; Claridge-Chang, Adam (2019年6月19日). 「P値を超えて:推定グラフを用いたデータ分析」 . Nature Methods . 16 (7): 565–566 . doi :10.1038/s41592-019-0470-3. ISSN 1548-7091
- ^ ab Kruschke, JK (2012年7月9日). 「ベイズ推定はT検定に取って代わる」(PDF) . Journal of Experimental Psychology: General . 142 (2): 573–603 . doi :10.1037/a0029146. PMID 22774788. S2CID 5610231.
- ^ ab Kruschke, JK (2018年5月8日). 「ベイズ推定におけるパラメータ値の棄却または承認」(PDF) . Advances in Methods and Practices in Psychological Science . 1 (2): 270–280 . doi :10.1177/2515245918771304. S2CID 125788648
- ^ Armstrong, J. Scott (2007). 「有意性検定は予測の進歩を阻害する」. International Journal of Forecasting . 23 (2): 321– 327. CiteSeerX 10.1.1.343.9516 . doi :10.1016/j.ijforecast.2007.03.004. S2CID 1550979.
- ^ Kass, RE (1993). ベイズ因子とモデルの不確実性(PDF) (報告書). ワシントン大学統計学部
- ^ ロゼブーム、ウィリアム・W (1960). 「帰無仮説検定の誤謬」(PDF) .心理学速報. 57 (5): 416–428 . CiteSeerX 10.1.1.398.9002 . doi :10.1037/h0042040. PMID 13744252 「…統計学を科学的推論に適切に適用するには、逆確率(別名ベイズ確率
- ^ Berger, James (2006). 「客観的ベイズ分析の事例」. Bayesian Analysis . 1 (3): 385– 402. doi : 10.1214/06-ba115 . 「客観的」ベイズ分析の競合する定義を列挙する中で、「統計学(実際は科学)の主要な目標は、データから学習するための完全に首尾一貫した客観的ベイズ法を見つけることである」と述べられています。著者は、この目標は「達成不可能」であるという見解を表明しています
- ^ Aldrich, J (2008). 「RA Fisherによるベイズとベイズの定理について」. Bayesian Analysis . 3 (1): 161– 170. doi : 10.1214/08-BA306 .
参考文献
- Lehmann EL (1992) 「Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses」への序論. Breakthroughs in Statistics, Volume 1 , (Eds Kotz, S., Johnson, NL), Springer-Verlag. ISBN 0-387-94037-5(論文の再掲載に続きます)
- ネイマン、J.; ピアソン、ES (1933). 「統計的仮説の最も効率的な検定の問題について」.王立協会哲学論文集 A. 231 ( 694–706 ) : 289–337 .書誌コード:1933RSPTA.231..289N. doi : 10.1098/rsta.1933.0009 .
外部リンク
- 「統計的仮説、その検証」、数学百科事典、EMSプレス、2001 [1994]
- 古典的仮説検定に対するベイズ批判
- 統計学者の長年の懸念を浮き彫りにする、古典的な仮説検定の批判
- 統計検定の概要:正しい統計検定の選び方
- [1] 生物学的知識の発見における統計分析に基づく仮説検定法;Md. Naseef-Ur-Rahman Chowdhury、Suvankar Paul、Kazi Zakia Sultana
オンライン計算機
- p値と仮説検定の計算機