2群間比率Z検定(2標本比率Z検定とも呼ばれる)は、 2つのグループ間で二値結果の割合が偶然性を超えた有意差をもって異なるかどうかを評価するための統計的仮説検定です。例えば、臨床試験で治療と対照群に反応を示す患者の割合、 2つの生産ラインにおける品質管理における欠陥率、2つの代替ウェブページデザインを比較するA/Bテストにおけるクリックスルー率などです。
この検定は、各観測値が他の観測値から独立しており、成功または失敗として分類でき(ベルヌーイ試行)、サンプルサイズが十分に大きく、各サンプル割合の標本分布が中心極限定理によって十分に近似される場合に適しています。これらの条件下では、観測されたサンプル割合の差は、標準化されたz 統計量に変換し(プールされた標準誤差を使用)、標準正規分布と比較してp 値を取得したり、割合の差の信頼区間を形成したりできます。この記事では、z 統計量とプールされた分散とプールされていない分散の選択について説明し、信頼区間とサンプルサイズ/最小検出効果の計算について述べ、一般的な代替検定と注意点(たとえば、小さなサンプルの場合のピアソンのカイ 2 乗検定またはフィッシャーの正確検定、対応のある 2 値データの場合のマクネマーの検定)を示します。
意味
2比率Z検定または2標本比率Z検定は、二項分布から得られる2つのグループの割合の差が統計的に有意かどうかを判断するために使用される統計手法です。 [1]このアプローチは、(十分に大きな標本の場合)標本割合が中心極限定理の下で正規分布に従うという観察に依存しており、仮説検定と信頼区間推定のためのZ検定の構築を可能にします。[2]これは、さまざまな分野で、異なるグループ間の成功率、応答率、またはその他の割合を比較するために使用されます。
仮説検定
2つの割合を比較するためのZ検定は、2つの独立した標本が、ある2値結果に対して異なる母集団割合を持つかどうかを評価するために使用される頻度主義統計仮説検定です。軽度の正則性条件(十分に大きな標本サイズと独立した標本抽出)の下では、標本割合(ベルヌーイ分布から得られる観測値の平均)は中心極限定理の下でほぼ 正規分布し、標本割合の差と推定標準誤差から構成されるZ統計量を使用することができます。[2]
このテストには、次の 2 つの競合する仮説が含まれます。
- 帰無仮説(H0 ):2つの母集団の割合は等しい、すなわち、
- 対立仮説(H 1):2つの母集団の割合は等しくない、すなわち、(両側)または/ (片側)である。
2 つの割合を比較するための Z 統計量は、次式を使用して計算されます。[3] [4] [5] [2] : 10.6.2 ここで、およびはそれぞれ 1 番目と 2 番目のサンプルのサンプル割合、およびはそれぞれ 1 番目と 2 番目のサンプルのサイズ、はプールされた割合で、次のように計算されます。ここで、およびは 2 つのサンプルの成功数です。プールされた割合は、帰無仮説の下での成功の共有確率を推定するために使用され、標準誤差は 2 つのサンプル間の変動を考慮します。
z検定は、算出されたz統計量を臨界値と比較することで統計的有意性を判定します。例えば、有意水準が の場合、 であれば帰無仮説を棄却します(両側検定の場合)。あるいは、p値を計算し、 であれば帰無仮説を棄却します。
信頼区間
上記の定義に基づくと、2つの割合の差の信頼区間は次のようになります。[ 5 ] [2] : 10.6.3 ここで、は標準正規分布の臨界値です(たとえば、95%信頼水準の場合は1.96)。
この間隔は、母集団の割合間の実際の差の妥当な値の範囲を提供します。
仮説検定と信頼区間では、分散推定方法が異なることに注意してください。前者は帰無仮説に基づくプール分散を用いますが、後者は各標本を個別に用いて分散を推定する必要があります(信頼区間が割合の差を許容できるようにするため)。この違いにより、仮説検定法の代わりに信頼区間を用いた場合、結果が若干異なる可能性があります。
サンプルサイズの決定と最小検出効果
標本サイズの決定とは、統計検定を実行するために各グループに含める観測値の数を選択することです。2比率Z検定の場合、これは最小検出効果の決定と密接に関連しています。
必要なサンプルサイズを見つけるために(効果サイズ、検出力、タイプIエラーが与えられた場合)、次のように定義します(κ = 1のとき、各グループのサンプルサイズは等しいと仮定します)。[6] [7]
最小検出効果(MDE)とは、選択された第1種過誤水準()、統計的検出力( ) 、およびサンプルサイズ(および)において、統計的検定によって検出できる2つの割合(および)間の最小の差です。これは、サンプルサイズが、有意な差を検出するのに十分な感度を持つ検定を可能にするかどうかを判断するために、研究デザインにおいて一般的に使用されます。
2つの割合を比較するために(両側)z検定式を使用する場合のMDEは、およびの臨界値と割合の標準誤差を組み込んでいます。[8] [9]ここで、は有意水準の臨界値、は望ましい検出力の分位値、そして帰無仮説が正しいと仮定した場合です。
MDEは、サンプルサイズ、ベースライン比率()、および検定パラメータに依存します。ベースライン比率が不明な場合は、仮定するか、小規模な研究から概算する必要があります。サンプル数が多いほど、または検出力要件が小さいほどMDEは小さくなり、検定はより小さな差異に対してより敏感になります。研究者は、研究を実施する前に、MDEを使用して有意な差異を検出できる可能性を評価することができます。
最小検出効果(MDE)は、仮説検定における 2 つの重要な基準を満たす、 と表される最小の差です。
- 帰無仮説()は指定された有意水準()で棄却されます。
- 対立仮説( )の下では統計的検出力( )が達成される。
帰無仮説と対立仮説の下で分布が正規分布であるとすると、2 つの基準が満たされるためには、 の距離が、帰無仮説を棄却するための臨界値 ( ) が、帰無仮説の下でこの値を超える確率が ( ) である位置にちょうどあるような値であること、また、対立仮説の下でこの値を超える確率が であることが必要です。
最初の基準は、帰無仮説を棄却するために必要な臨界値を確立する。2番目の基準は、対立仮説の下でその臨界値を超える確率が少なくとも となるように、対立分布が からどれだけ離れている必要があるかを指定する。[10] [11]
条件1: 拒否
帰無仮説の場合、検定統計量はプールされた標準誤差()に基づきます。
推定される可能性があります(上記のとおり)。
を棄却するには、観測された差が適切に標準誤差まで拡大された後に 臨界閾値( )を超える必要があります。
MDEを としてのみ定義した場合、代替分布は閾値を中心に対称となるため、統計的検出力はわずか50%にしかなりません。より高い検出力レベルを達成するには、MDE計算に追加の要素が必要です。
条件2:権力を獲得する
対立仮説の下では、標準誤差は( )です。これは、対立分布が何らかの値(例えば)を中心としている場合、対立仮説の下で差を検出する確率が少なくとも となるためには、最小値は少なくとも よりも大きくなければならないことを意味します。
条件の組み合わせ
両方の条件を満たすために、検出可能な差の合計には帰無分布と対立分布の両方の要素が含まれます。MDEは次のように定義されます。
MDE では、帰無仮説からの重要な閾値を合計し、それに代替分布からの関連する分位数を追加することで、有意水準で棄却し、少なくとも の統計的検出力を達成するという 2 つの要件をテストが満たすことを保証します。
前提と条件
有効な結果を確実に得るには、次の仮定を満たす必要があります。
- 独立したランダム サンプル: サンプルは、対象となる母集団から独立して抽出される必要があります。
- 大規模なサンプルサイズ:通常、20を超える必要があります。[12] : 48
- 成功または失敗の条件: [13] [2] : 10.6.1
- そして
- そして
z テストは、サンプル サイズが大きく、すべての仮定が満たされている場合に最も信頼性が高くなります。
他の統計手法との関係
仮説検定にZ検定信頼区間を使用すると、2行2列の分割表のカイ2乗検定と同じ結果が得られます。[14] : 216–7 [15] : 875 フィッシャーの正確検定は、サンプルサイズが小さい場合に適しています。
2行2列の分割表の扱いについては19世紀初頭から研究されており[16] 、 20世紀にもさらに研究が進められました[17] 。
説明した漸近法の代替法としては、連続性補正やウィルソンスコア間隔に類似した修正法などがある。[18]
次の点に注意してください。
- 1つまたは複数のセル数が少ない場合(例:5未満[12] :48 )、正確な検定(例:フィッシャーの正確な検定)または正確な信頼区間を優先します。
- ペアまたはマッチングされたバイナリ データの場合は、2 サンプル z 検定ではなくMcNemar 検定を使用します。
- プールされた分散とプールされていない分散の選択は重要です。プールされた分散は等式()の仮説検定に適していますが、プールされていない分散は信頼区間に使用されます。
- 多重検定、選択効果、非ランダムサンプリングにより p 値と CI が無効になる可能性があるため、これらの設計上の問題は研究方法で対処する必要があります。
ベイズ推論の文脈では、割合はベータ分布を用いてモデル化できます。2つの割合に平行なz検定は、2つのベータ分布の差を用いて同様の推論を行います。[19]
例
グループ1は1000回の試行のうち120回成功し()、グループ2は1000回の試行のうち150回成功した()と仮定する。プールされた割合は である。プールされた標準誤差は
Z統計量は、両側p値が約0.0497(0.05をわずかに下回る)を示しています。プールされていない標準誤差を用いた差の概算95%信頼区間は、95%信頼区間が(かろうじて)0を除外し、p値が≈0.0497であるため、通常の大規模サンプル基準では、差は5%水準で統計的に有意です(ただし、境界値であるため、結論は研究の背景と多重検定(該当する場合)を考慮する必要があります)。
ソフトウェア実装
多くの統計環境で実装が可能です。いくつかの一般的な言語での実装の詳細については、以下を参照してください。SPSS [20] 、 SAS [21] 、Minitab [5]向けの実装も存在します。
R
連続性補正を無効にして使用するprop.test():
prop.test ( x = c ( 120 , 150 ), n = c ( 1000 , 1000 ),正解= FALSE )
出力には、Z検定と同等の結果(カイ二乗統計、p値、信頼区間)が含まれます。
連続性補正なしの2標本比率の均等性検定
データ: c(1000, 1000) のうち c(120, 150)
Xの2乗 = 3.8536、自由度 = 1、p値 = 0.04964
対立仮説:両側
95パーセント信頼区間:
-5.992397e-02 -7.602882e-05
サンプル見積もり:
プロップ1 プロップ2
0.12 0.15
パイソン
統計モデルからの使用proportions_ztest: [22]
from statsmodels.stats.proportion import proportions_ztest z , p = proportions_ztest ([ 120 , 150 ], [ 1000 , 1000 ], 0 ) # CIの場合: from statsmodels.stats.proportion import proportions_diff_confint_indep
SQL
上記の式をPresto形式のSQLを使って直接実装する(VALUES、[23] inverse_normal_cdf、[24] normal_cdf [25]を使用)
input_dataをAS ( SELECT * 、(( n_1 * p_1 + n_2 * p_2 ) / ( n_1 + n_2 )) AS p_pooledとし、VALUES ( 1000 、1000 、0 . 12 、0 . 15 ) ) AS t ( n_1 、n_2 、p_1 、p_2 ) )、stats_computed をAS ( SELECT n_1 、n_2 、p_1 、p_2 、p_2 - p_1とし、p2_minus_p1をSQRT ( ( p_1 * ( 1 - p_1 ) / n_1 ) + ( p_2 * ( 1 - p_2 ) / n_2 ) ) AS se_p2_minus_p1をSQRT ( p_pooled * ( 1 - p_pooled ) )とします。 * ( 1 . 0 / n_1 + 1 . 0 / n_2 ) ) AS pooled_se 、inverse_normal_cdf ( 0 、1 、0 . 975 ) AS z_975 -- 95% CI (1.96) FROM input_data ) SELECT n_1 、n_2 、ROUND ( p_1 、3 ) AS p_1 、ROUND ( p_2 、3 ) AS p_2 、ROUND ( p2_minus_p1 、3 ) AS p2_minus_p1 、ROUND ( se_p2_minus_p1 、3 ) AS se_p2_minus_p1 、ROUND ( p2_minus_p1 - z_975 *
se_p2_minus_p1、3 ) AS p2_minus_p1_ci_lower 、ROUND ( p2_minus_p1 + z_975 * se_p2_minus_p1、3 ) AS p2_minus_p1_ci_upper 、ROUND ( 2 * ( 1 - normal_cdf ( 0、1 、ABS ( p2_minus_p1 ) / pooled_se ) ) 、3 ) AS p_value FROM stats_computed ;
参照
参考文献
- ^ 仮説検定:割合の差
- ^ abcde Su, Wanhua (2024). 「応用統計入門(10.6 二つの人口割合の推論)」. MacEwan University Open Textbooks.
- ^ 「§10.3 2つの独立した母集団比率の比較」。統計入門第2版。OpenStax。2023年。
- ^ Guthrie, William F. (2012). 「§7.3.3 2つのプロセスで不良品の発生率が同じかどうかをどのようにして判断できるか?」. 統計手法の電子ハンドブック. NIST/SEMATECH. doi :10.18434/M32189.
- ^ abc Kiernan, D. (2014). 「4. 2つの集団の差異に関する推論 — セクション4」.天然資源バイオメトリクス. Milne Publishing (SUNY Geneseo).
- ^ Kim HY (2016年5月). 「臨床研究者のための統計ノート:サンプルサイズの計算 2. 2つの独立した割合の比較」. Restor Dent Endod . 41 (2): 154–6 . doi :10.5395/rde.2016.41.2.154. PMC 4868880. PMID 27200285 .
- ^ Wang, H.; Chow, S.-C. (2008). 「割合を比較するためのサンプルサイズの計算」. Wiley Encyclopedia of Clinical Trials . ISBN 978-1-78034-239-9。
- ^ COOLSerdash (https://stats.stackexchange.com/users/21054/coolserdash)、2つの割合のサンプルサイズの計算、URL (バージョン: 2023-04-14): https://stats.stackexchange.com/q/612894
- ^ Chow, SC; Shao, J; Wang, H; Lokhnygina, Y (2018). 臨床研究におけるサンプルサイズの計算. CRC Biostatistics (第3版). CRC Press. ISBN 978-1-351-72712-9。
- ^ A/Bテストのサンプルサイズの計算
- ^ A/B テストにおける検出力、最小検出効果、バケット サイズの推定 (トレードオフを示すわかりやすい図がいくつかあります)
- ^ ab VanVoorhis, CR Wilson; Morgan, Betsy L. (2007). 「サンプルサイズを決定するための検出力と経験則を理解する」(PDF) .心理学のための定量的手法チュートリアル. 3 (2): 43– 50. doi :10.20982/tqmp.03.2.p043.
- ^ STAT 200: 初等統計学のコースノート。9.1 - 2つの独立した割合、ペンシルベニア州立大学統計学部
- ^ 「2つの割合の差の信頼区間」(PDF) PASSサンプルサイズソフトウェアNCSS.com。
- ^ Newcombe RG (1998年4月). 「独立割合間の差の区間推定:11手法の比較」. Stat Med . 17 (8): 873–90 . doi :10.1002/(sici)1097-0258(19980430)17:8<873::aid-sim779>3.0.co;2-i. PMID 9595617.
- ^ スティグラー、スティーブン M. (2002)。 「分割表の失われた初期の歴史」。トゥールーズ科学学部年報: 数学。11 (4): 563–573 . doi :10.5802/afst.1039 (2025 年 10 月 15 日に非アクティブ)。
{{cite journal}}: CS1 maint: DOI inactive as of October 2025 (link) - ^ ヒッチコック、デイビッド・B. (2009). 「イェーツと分割表:75年後」(PDF) . 確率統計史電子ジャーナル.
- ^ Newcombe, RG (1998). 「独立割合間の差の区間推定:11手法の比較」. Statist. Med . 17 : 873–890 . doi :10.1002/(SICI)1097-0258(19980430)17:8<873::AID-SIM779>3.0.CO;2-I.
- ^ Chen, Y., & Luo, S. (2011). NadarajahとKotzによる「2つの割合の差の統計的分布」に関する若干の考察, Statistics in Medicine 2007; 26 (18): 3518-3523. Statistics in Medicine, 30(15), 1913-1915.
- ^ 2つの独立した割合のZ検定 – クイックチュートリアル
- ^ 使用上の注意 22561: 独立したサンプルから2つ以上の割合の等価性をテストする
- ^ 統計モデル.統計.割合.割合_zテスト
- ^ Presto 0.295 ドキュメント - 値
- ^ 数学関数と演算子 - 確率関数: inverse_cdf
- ^ 数学関数と演算子 - 確率関数: cdf
外部リンク
- 2標本の独立比率検定計算機
- サンプルサイズ/検出力オンライン計算機:
- 2つの割合の比較 - サンプルサイズ
- 割合の推論:2つの独立したサンプルの比較