調査研究において、デザイン効果とは、特定の指標(平均値など)において、ある標本がより大きな集団をどの程度代表しているかを示す数値です。これは、標本が単純無作為標本を用いて単純に人々を抽出した場合とは異なるサンプリング方法によって得られた場合に重要です。
設計効果は正の実数で、記号 で表されます。 の場合、標本はランダムに抽出された場合と同程度に正確に抽出されたことになります。 の場合、収集されたデータからの推論は、ランダムに抽出された場合ほど正確ではありません。
研究者が複雑な手法を用いてサンプルを選定する場合、デザイン効果を用いて結果を確認し調整します。また、研究計画を立てる際にサンプルサイズを決定する際にも、デザイン効果は用いられることがあります。
導入
調査方法論において、デザイン効果(一般に、、、またはと表記される)は、標本抽出デザインが母集団のあるパラメータの推定値の分散に及ぼすと予想される影響の尺度である。これは、(多くの場合)複雑な標本抽出デザインによる標本に基づく推定値の分散と、同じ数の要素の単純無作為標本(SRS)に基づく代替推定値の分散の比として計算される。 [1] :258 (推定されたものでも、事前にわかっているものでも)は、標本が単純無作為標本抽出を使用して抽出されていない場合に、推定値の分散を評価するために使用できる。これは、標本サイズの計算[2]や、さまざまな標本抽出デザインで収集された標本の代表性を定量化するのに 役立つこともある。
設計効果は、あるパラメータの推定値の分散の膨張 ( ) または収縮 ( )を示す正の実数で、これは研究が SRS を使用していないことに起因します (分散が同一の場合 )。[3] : 53, 54 サンプリング プロセス中に利用できる何らかの事前知識がある場合、直感的に が得られます(これはあまり一般的ではありません)。また、対照的に、データ収集能力の何らかの制限を補正する必要がある場合 (より一般的)、 が得られることがよくあります。一般に 1 を超える可能性があるサンプリング設計には、クラスター サンプリング(観測値間に相関がある場合など)、層別サンプリング(層のサイズに不均衡な割り当て)、クラスター ランダム化比較試験、不均衡 (不等確率) サンプリング (ポアソン サンプリングなど)、非カバーまたは無回答データの統計的調整などがあります。層別サンプリングでは、層のサイズに比例配分(層のサイズが事前に分かっており、関心のある結果と相関している場合)または最適配分(層間で分散が異なり、事前に分かっている場合)を使用すると、1より小さい値が得られることがあります。[要出典]
文献では、既知のサンプリング設計が関心のある推定値の分散にどのように影響し、それを増加または減少させるかについて、多くの計算(および推定値)が提案されています。一般的に、設計効果は、合計平均や比率平均など、関心のあるさまざまな統計量によって異なります。また、サンプリング設計が関心のある結果と相関しているかどうかも重要です。例えば、サンプル内の各要素が異なる確率で選択されるようなサンプリング設計が考えられます。このような場合、要素の選択確率とその測定された結果との相関レベルは、その後の設計効果に直接影響を与える可能性があります。最後に、設計効果は結果自体の分布によって影響を受ける可能性があります。実際に設計効果を推定および使用する場合、これらすべての要因を考慮する必要があります。[4] : 13
歴史
「デザイン効果」という用語は、レスリー・キッシュが1965年に著した「Survey Sampling」の中で作った造語です。[1] : 88, 258 この本の中で、キッシュはデザイン効果の一般的な定義[a]と、クラスターサンプリング(級内相関を含む)のデザイン効果の公式[1] : 162 、そして不等確率サンプリングの有名なデザイン効果の公式[1] : 427 を提案しました。これらは「キッシュのデザイン効果」と呼ばれることが多く、後に1つの公式に統合されました。
1995年の論文[5] : 73 で、キッシュは「レキシス比」と呼ばれる同様の概念が19世紀末に記述されていたと述べています。密接に関連するクラス内相関はフィッシャーによって1950年に記述され、分散比の計算はキッシュらによって1940年代後半から1950年代にかけて既に発表されていました。キッシュの定義の前身の一つは、1951年にコーンフィールドによって行われた研究です。[6] [4]
1995年の論文で、キッシュは、一定期間に実施された複数の調査から得られた同一の測定量を平均化する際に、設計効果を考慮する必要があると提案した。[5] : 57–62 また、単純な統計量(例えば平均値)の誤差からより複雑な統計量(例えば回帰係数)に外挿する際にも、設計効果を考慮する必要があると示唆した。しかし、調査データを用いてモデルを適合させるなど、データを分析する際には、調査データ解析専用のソフトウェアが利用できるようになった今日では、標準誤差はあまり役に立たなくなっている。多くの種類の設計や推定値の標準誤差を計算するソフトウェアが開発される以前は、分析者は、データセット内のすべてのレコードがiidであると仮定したソフトウェアによって生成された標準誤差を、a (下記のDeftの定義を参照)を乗じて調整していた。[要出典]
定義
表記
| シンボル | 説明 |
|---|---|
| 与えられたサンプリング設計における 推定値の分散 | |
| 単純無作為抽出法(SRSWOR)による 推定値の分散 | |
| 単純ランダムサンプリングによる 推定値の分散(SRSWR) | |
| 、 | 設計効果は、単純無作為抽出法(SRSWOR)と比較した、サンプリング設計が推定値の分散に与える影響の尺度である。 |
| 、 | 設計効果係数、特定のサンプリング設計と置換法によるSRS(SRSWR)における分散比の平方根、 |
| サンプルサイズ | |
| 人口規模 | |
| 有効サンプルサイズ、与えられたサンプリング設計と同じ分散を達成するために必要なSRSでのサンプルサイズ、 | |
| -番目のユニット の重量 | |
| 層のサンプルサイズ | |
| 層の人口規模 | |
| 地層の重量 | |
| 地層の総数 | |
| 、 | 平均クラスターサイズ |
| クラスターの総数 | |
| クラスターのサンプルサイズ | |
| クラスターサンプリングのクラス内相関係数(ICC) | |
| 、、 | 変動係数(CV)の二乗(相対分散)を用いた重量の変動の測定 |
| 結果変数と選択確率の間の推定相関 | |
| 結果変数と選択確率の線形回帰における推定切片 | |
| 結果変数の推定標準偏差 | |
| 、 | 重みと選択確率の 変動係数 |
| サンプリング分数、 | |
| 結果変数の母分散 | |
| 、 | -番目のユニット の選択確率 |
| -番目のユニット の包含確率 |
デフ
設計効果は、一般的に(または追加の添え字が付く場合もある)で表され、あるパラメータ()の推定値に対する2つの理論的分散の比である。 [1] [7]
- 分子は、与えられたサンプリング設計におけるパラメータ()の推定値の実際の分散を表します。
- 分母は、同じサンプルサイズを想定して、サンプルが置換なしの単純ランダムサンプリングの推定値を使用して取得された場合の分散を表します( )。
となることによって:
言い換えれば、は、標本が特定の標本設計(例えば、重み付けやその他の尺度を用いて)に従って抽出・調整された結果、単純無作為標本(非復元標本)から抽出された場合と比較して、分散がどの程度増加したか(あるいは場合によっては減少したか)を測る指標です。の定義が、しばしば未知であり、直接推定することが難しい母集団のパラメータに基づいていることに注目してください。具体的には、実際には単一の標本設計のみが使用されるにもかかわらず、この定義には2つの異なる標本設計における推定値の分散が含まれています。[要出典]
例えば、母平均を推定する場合、(あるサンプリング設計pの場合)は[4] :4 [3] :54 [b]となる。
ここで、は標本サイズ、は母集団から標本が占める割合、は(二乗)有限母集団補正(FPC)、は不偏標本分散、は標本設計における平均値の分散の推定値です。上記の式の問題は、ほとんどの研究が単一の標本設計のみに依存しているため、2つの異なる標本設計における推定平均値の分散を直接推定できることは極めて稀であるということです。
計算方法は数多くあり、対象となるパラメータ(例:母集団合計、母集団平均、分位数、数量比など)、使用する推定量、サンプリング設計(例:クラスターサンプリング、層別サンプリング、後層別化、多段階サンプリングなど)によって異なります。[8] :98 特定の設計の推定プロセスについては、次のセクションで説明します。
器用な
1995年にキッシュによって提案されたに関連する量は設計効果係数であり、 (または)と略される。 [5] : 56 [4]これは、分散比の平方根として定義され、分母には非置換( SRSWOR)ではなく置換ありの単純ランダム標本(SRSWR)を使用する。
この後者の定義(1965年ではなく1995年に提案)において、キッシュはいくつかの理由から の使用を支持した。「無置換」SRS(分散に正の影響を与える)は、サンプリング設計の一部であるため、設計効果の定義における分母部分に取り込むべきだと主張された。また、因子は信頼区間( )で使用されることが多いため、と書くよりも を使用する方が簡単だと主張した。また、母集団が非常に大きい場合、多くの場合、は( )の(ほぼ)平方根であるため、有限母集団補正(FPC)を正確に計算するよりも使用しやすいとも言われている。[要出典] [c]
それでも、さまざまなケースでは、研究者は、正確でなくても、SRS 非復元 (SRSWOR) ではなく SRS 復元 (SRSWR) を仮定して分子の分散を計算することで近似することがあります。たとえば、特定の方法 (各 PSU の世帯数など) でソートされたリストから、何らかの大きさの尺度に比例する確率で一次サンプリング単位 (PSU) を体系的に選択する多段階設計を考えます。また、いくつかの人口統計変数の合計を一致させるためにレーキングを使用する推定量と組み合わせるとします。このような設計では、非復元分散推定量に必要な PSU の結合選択確率は、PSU のいくつかのペアで 0 になります。これは、正確な設計ベース (つまり、繰り返しサンプリング) の分散推定量が存在しないことを意味します。別の例としては、政府機関が発行した公的使用ファイルを分析に使用する場合が挙げられます。このような場合、第一段階ユニットの同時選択確率に関する情報はほとんど公開されません。その結果、分析者はたとえ望んだとしても、分子の置換分散を推定することができません。標準的な回避策は、PSUが置換選択されているかのように分散推定値を計算することです。これは、Stata、R Surveyパッケージ、SAS Surveyプロシージャなどのソフトウェアパッケージのデフォルトの選択です。[要出典]
有効サンプルサイズ
1965年にキッシュによって定義された有効サンプルサイズは、元のサンプルサイズを設計効果で割ることによって計算されます。[1] :162、259 [9] :190、192 すなわち:
この量は、サンプル設計(および関連するパラメータ推定値)が単純ランダムサンプルに基づいている場合、既存の設計で推定値(あるパラメータについて)の現在の分散を達成するために必要なサンプルサイズがどれくらいになるかを反映しています。[10]
関連する量は有効サンプルサイズ比(ESSR)であり、これは(つまり)の逆数を取るだけで計算できます。
たとえば、あるサンプリング設計に基づいて母集団の平均を推定するための設計効果を 2 とします。サンプル サイズが 1,000 の場合、有効なサンプル サイズは 500 になります。つまり、 1,000 サンプルに基づく加重平均の分散は、単純ランダム サンプルを使用して取得された 500 サンプルに基づく単純平均の分散と同じになります。
よく知られたサンプリング設計における設計効果
設計効果はサンプリング設計と統計的調整に依存する
異なるサンプリング設計と統計的調整は、推定値(平均値など)の偏りと分散に大きく異なる影響を及ぼす可能性がある。[引用が必要]
単純無作為抽出法と比較して推定効率を高める設計例として、層別抽出法が挙げられます。この効率性は、母集団の構成に関する情報を活用することで得られます。例えば、性別が関心のある結果と相関関係にあり、またある母集団の男女比が(例えば)50%対50%であることが分かっている場合、男女それぞれからちょうど半分のサンプルを抽出すれば、結果の推定値の分散を減らすことができます。同様に、特定の母集団に特に関心がある場合、その母集団から意図的に過剰にサンプリングすることで、その母集団に関する推定値の分散を減らすことができます。[要出典]
分散効率の改善は、利便性やコストのために犠牲にされる場合がある。例えば、クラスターサンプリングの場合、各ユニットの選択確率は、クラス内相関(および推定値の分散を増加させるという悪影響)に関わらず、等しい場合もあれば不等な場合もある。(実際的な理由から)各世帯(すなわち、サンプルクラスター)から2人だけから回答を収集すると決定するかもしれないが、これは不等な選択確率に対処するための、より複雑なサンプリング後の調整につながる可能性がある。また、このような決定は、クラスターから一定の割合の回答を単に収集するよりも、効率の低い推定値につながる可能性がある。[要出典]
サンプリング設計が事前に設定されておらず、手持ちのデータから判断する必要がある場合、加重推定値の分散とバイアスの両方が増加する可能性があります。これは、未カバー、無回答、または初期サンプリング段階では利用できなかった母集団の予期しない層分割などの問題を調整するときに発生する可能性があります。このような場合、事後層別化、レーキング、逆傾向スコア加重(傾向スコアが推定される)などの統計手順を使用することがあります。これらの方法を使用するには、初期設計モデルに関する仮定が必要です。たとえば、年齢と性別に基づいて事後層別化を使用する場合、これらの変数がサンプルのバイアスのかなりの部分を説明できると想定されます。これらの推定値の品質は、追加情報の品質と、推定時に使用したランダム欠損の仮定に密接に関連しています。いずれにしても、推定量(傾向スコアモデルなど)がサンプリング設計の大部分をうまく捉えている場合でも、重みを使用すると、特定のデータセットに応じて、小さな違いが生じたり、大きな違いが生じたりする可能性があります。[引用が必要]
サンプリング設計には多様性があり(不均等な選択確率への影響の有無にかかわらず)、潜在的な設計効果を捉えるため、またサンプリング設計を考慮した推定値の分散を推定するために、様々な公式が開発されてきた。[11]場合によっては、これらの異なる設計効果が複合的に作用することもある(不均等な選択確率とクラスターサンプリングの場合など。詳細は後述)。これらの公式を使用するか、あるいはSRSを仮定するかは、バイアスの低減効果の期待値と推定値の分散の増加(および方法論的・技術的複雑さのオーバーヘッド)の程度によって決まる。[1] : 426
| 数式名 | 方程式 | 説明 |
|---|---|---|
| 不均等な重みに対するキッシュの設計効果 | 不均等な重みによる精度の低下を測定します。ここで、は - 番目のユニットの重みです。 | |
| クラスターサンプリングにおけるキッシュの設計効果 | クラスター サンプリングによる精度の低下を測定します。 は平均クラスター サイズ、 はクラス内相関です。 | |
| キッシュの複合デザイン効果 | 不均等な重みとクラスター サンプリングの組み合わせ効果を測定します。ここで、 と はそれぞれ、 番目の層のサンプル サイズと重みです。 | |
| スペンサーの設計効果の推定合計 | 結果と選択確率の間に相関関係がある場合に合計を推定するための設計効果を測定します。ここで、は推定相関、は重みの相対分散、は推定切片、は結果の推定標準偏差です。 | |
| パークとリーの推定比率平均に対する設計効果 | 結果と選択確率の間に相関関係がある場合に、比率平均を推定するための設計効果を測定します。ここで、およびは、それぞれ重みと選択確率の変動係数です。 | |
| ヘンリーの較正重み付け設計効果 | キッシュの設計効果を拡張して、単段サンプルの較正重み付けを含める | 結果とキャリブレーション変数間の相関関係を考慮し、キャリブレーション重み付けを使用した単一段階サンプリングのためのモデル支援設計効果測定を提案します。 |
| 回帰傾きに対するローアの設計効果 | クラスターサンプリングにおける OLS および GLS 回帰傾き推定値の設計効果式を提供します。 | ランダム係数モデルを使用して、クラスター サンプリングのコンテキストで、通常最小二乗法 (OLS) と一般化最小二乗法 (GLS) の回帰勾配推定値の設計効果式を示します。 |
不平等な選択確率
不平等な選択確率の原因
| ソース | 説明 | 例 | サンプリング確率への影響 |
|---|---|---|---|
| 不均衡サンプリング | 特定のサブグループまたはクラスターを意図的に過剰/不足にサンプリングする | - 層別サンプリングにおける最適な割り当て - 比較のために小さなグループをオーバーサンプリング - クラスターサイズが異なるクラスターサンプリング |
設計により不平等な選択確率につながる |
| 非適用範囲 | 対象集団のすべての要素をサンプリングフレームに含めなかった | - 不完全なリスト(電話帳など)に基づくサンプリング - 調査参加者を募集するための広告 |
サンプリング確率に影響するが、その影響を測定し調整することは難しい |
| 非回答 | 測定対象としていたサンプルユニットから測定値が得られなかった | - ユニットの無回答(例:拒否、不在) - 項目の無回答(例:デリケートな質問) - 回答不能(例:言語の壁、病気) |
非回答率がサブグループ間で異なる可能性があるため、不平等な選択確率につながる |
| 統計調整 | 既知の母集団特性を考慮したり、非カバーや非回答バイアスを軽減するためのサンプル重みの事後調整 | - 事後層別化 - レーキング - 傾向スコア重み付け - 較正重み付け |
代表性を高めるために不均等な重み付けを導入するが、分散が増加する可能性がある |
各ユニットの選択確率が全く同じになるようにユニットをサンプリングする方法は様々です。このような方法は等確率サンプリング(EPSEM) 法と呼ばれます。より基本的な方法には、単純ランダムサンプリング(SRS、復元ありまたは復元なし) と固定サンプルサイズを得るための系統的サンプリングがあります。ランダムサンプルサイズのベルヌーイサンプリングもあります。層別サンプリングやクラスターサンプリングなどのより高度な手法も EPSEM 用に設計できます。たとえば、クラスターサンプリングでは、各クラスター (サイズが異なっていてもよい) を等確率でサンプリングし、次に第 2 段階で SRS を使用して各クラスターから固定割合でサンプリングする 2 段階サンプリングを使用できます (例: クラスターの半分をサンプリングする、クラスター全体をサンプリングするなど)。この方法は EPSEM をもたらしますが、最終的に得られる要素の具体的な数は確率的 (つまり非決定的) になります。[d] [12] : 3–8 EPSEMにつながるクラスターサンプリングのもう1つの戦略は、クラスターのサイズに比例する方法でクラスターをサンプリングし、次に各クラスター内の固定数の要素をサンプリングすることです。[e]
キッシュらは、その研究の中で、不平等な選択確率につながるいくつかの既知の理由を強調している。[1] : 425 [9] : 185 [5] : 69 [13] : 50, 395 [14] : 306
- 選択枠または手続きによる不均衡なサンプリング。これは、研究者が特定のサブ母集団またはクラスターを意図的に過剰または過少にサンプリングした場合に発生します。例えば、
- 層別サンプリングでは、ある層のユニットの分散が他の層よりも大きいことが分かっています。このような場合、研究者の意図は、層間の分散に関するこの事前知識を使用して、関心のある何らかの母集団レベルのパラメータ(たとえば、平均)の推定値の全体的な分散を減らすことです。これは、標準偏差が高くサンプリング費用が低いほど比例して層が過剰にサンプリングされる最適割り当てと呼ばれる戦略によって実現できます(つまり、 、ここでは における結果の標準偏差、から 1 つの要素を募集する費用に関連します)。最適割り当ての例としては、各層から人々を募集するための費用が固定されている場合のNeyman の最適割り当てがあります。この合計はすべての層で次のようになります。nは合計サンプル サイズ、は層hのサンプル サイズ、は全体の母集団Nと比較した層hの相対的なサイズです。は層hにおける標準誤差である。[15]最適計画に関連する概念は最適実験計画である。
- 2つの層(例えば、特定の2つの社会人口統計グループ、または2つの地域の人々など)を比較することに関心がある場合、より小さなグループを過剰にサンプリングすることがあります。これにより、2つのグループを比較する推定値の分散が低減されます。
- クラスター サンプリングでは、異なるサイズのクラスターが存在する可能性がありますが、この手順ではSRSを使用してすべてのクラスターからサンプリングが行われ、クラスター内のすべての要素が測定されます (たとえば、サンプリングの段階でクラスターのサイズが事前にわかっていない場合など)。
- 2段階クラスターサンプリングでは、クラスターサイズに基づいてサンプリングが行われる場合があります。例えば、第1段階でクラスターが推定サイズに比例してサンプリングされ(PPS:サイズ比例確率)、第2段階で一定の割合の要素(例えば、クラスター内の要素の半分またはすべて)が選択される場合、異なるクラスターの要素の選択確率は異なります。同様のケースとして、第1段階でPPSを用いてクラスターをサンプリングし、第2段階では各クラスターの要素数を固定するケースが挙げられますが、第1段階のサンプリングに使用されたクラスターサイズが不正確であった場合(そのため、一部の小さなクラスターが本来よりも高い確率で選択される可能性があります。また、大きなクラスターがサンプリングされる確率が小さすぎる場合も同様です)が挙げられます。このような場合、第1段階で使用されたサンプリング確率の誤差が大きいほど、各要素の選択確率の不均等性が大きくなります。[8] : 109 [f]
- サンプリングに使用したフレームに一部の項目の重複が含まれており、一部の項目が他の項目よりもサンプリングされる確率が高くなる場合(例:サンプリングフレームが複数のリストをマージして作成された場合、または複数の広告チャネルからユーザーをリクルートする場合で、一部のユーザーは複数のチャネルからリクルート可能で、他のユーザーは1つのチャネルからのみリクルート可能である場合)、異なるユニットで異なるサンプリング確率を持つことになり、このサンプリング手順はEPSEMではなくなります。[12] : 3–8 [9] : 186
- 複数の異なるサンプル/フレームを組み合わせる場合。例えば、回答者を募集するために異なる広告キャンペーンを実施する場合や、異なる研究者や異なる時期に行われた複数の研究の結果を組み合わせる場合(メタアナリシスなど)など。[9] : 188
- サンプリング設計上の決定により不均衡サンプリングが発生した場合、研究者は(場合によっては)その決定を遡及し、正確な包含確率を計算できることがあります。選択確率の遡及が困難な場合は、傾向スコアモデルと補助変数(年齢、性別など)の情報を組み合わせて推定することがあります。
- 非カバー範囲。[1] : 527, 528 これは、たとえば、母集団のすべての人々が含まれていない事前定義されたリスト (電話帳や調査への参加者を募集するための広告の使用など) に基づいて人々がサンプリングされる場合に発生します。これらの欠落した単位は、一部の人々 (未成年者、投票できない人など) を意図的に除外したことではなく、サンプリング フレームの作成に失敗したために欠落しています。非カバー範囲がサンプリング確率に与える影響は、強力な仮定を行わない限り、さまざまな調査状況で測定 (および調整) することが難しいと考えられています。関連する共変量が調整に使用されていない場合、非カバー範囲の調整は不適切な重み付けにつながる可能性があります。非カバー範囲を補正するために使用できる共変量がある場合、それらは不均等な調査の重み付けにつながることが予想されます。
- 非回答。これは、測定対象とされた標本単位について、測定結果が得られなかったことを指します。非回答の理由は多様であり、状況によって異なります。例えば、電話調査の際に電話に出られないなど、一時的に回答できない場合があります。また、様々な理由により、回答を拒否する場合もあります。例えば、民族/人口統計/社会経済的グループによって回答傾向が異なる場合、時間をかけたりデータを共有したりするインセンティブが不十分な場合、調査を実施している機関の身元、回答できないこと(例えば、病気、読み書きができない、言語の壁など)、回答者が見つからない場合(例えば、引っ越した場合)、回答がエンコードまたは送信中に紛失/破損した場合(つまり、測定エラー)などが挙げられます。調査においては、これらの理由は、調査全体への回答、または特定の質問への回答に関係する場合があります。[1] : 532 [9] : 186
- 統計的調整。これには、事後層化、レーキング、傾向スコア(推定)モデルなどの手法が含まれる場合があります。これらは、サンプルを既知の(または推定された)層サイズに調整するために使用されます。これらの調整は、既知のサンプリング設計による不均衡を考慮することを目的とした設計重み付けに加えて行われます。このような手順は、サンプリング誤差、サンプリングフレームのカバー率不足、無回答など、サンプリングにおける問題を軽減するために使用されます。[16] : 45 [17]例えば、これらの手法は、サンプルをいくつかの対象となる「コントロール」(つまり、対象集団)に近づけるために使用できます。このプロセスは「標準化」とも呼ばれます。[9] : 187 このような場合、これらの調整は偏りのない推定値を提供するのに役立ちます(多くの場合、以下のセクションで説明するように、分散の増加というコストを伴います)。元のサンプルが非確率サンプルである場合、事後層化調整は割当サンプリングとほぼ同じです。[9] : 188, 189 単純無作為標本を使用する場合、事後層別化(何らかの補助情報を使用)では、重み付けされていない推定値のみよりも一様に優れた推定値が得られないことに注意する必要がある。しかし、より「堅牢な」推定値と見なすこともできる。[18]あるいは、標本抽出設計が完全に分かっている場合(層hの何らかの要素が選択される確率がいくらか生じる)、かつ無回答が測定可能(すなわち、層 h で回答された観測値のみが層hで回答されたことが分かっている)であれば、層hの各要素iについて、正確に分かっている逆確率重みを次のように計算することができる。[9] : 186 [g]選択確率の推定には、事後層別化やレーキングなどの統計的調整が使用される場合がある。例えば、対照群とのマッチングとも呼ばれる、同じ対象集団を持つ標本を比較する場合などである。推定プロセスは、既存の母集団を代替母集団に調整することのみに焦点が当てられる場合がある(例えば、複数の地域から抽出されたパネルから国全体に外挿しようとする場合)。このような場合、調整は何らかの較正係数に焦点が当てられ、重みは次のように計算される。[9] : 187 しかし、他の場合には、カバー率不足と無回答の両方が統計的調整の一部としてモデル化され、全体の標本抽出確率の推定につながる(例えば、)。このような場合、重みは単純に となります。統計的調整が使用される場合、はモデルに基づいて推定されることが多いことに注意してください。以降のセクションの定式化では、これが既知であると仮定していますが、統計的調整の場合は当てはまりません( しかないため)。ただし、 の推定誤差が非常に小さいと仮定すると、以降のセクションは、 が既知であるかのように使用できます。この仮定が正しいかどうかは、モデリングに使用されるサンプルのサイズに依存し、分析中に念頭に置いておく価値があります。選択確率が異なる可能性があり、サンプルサイズがランダムで、ペアワイズ選択確率が独立している場合、これをポアソンサンプリングと呼びます。[19]
推定量の特性を記述するための「設計ベース」と「モデルベース」
「個別事例重み付け」(例えば逆確率重み付け)によって不均等な確率選択を調整することで、関心のある数量に対する様々なタイプの推定値が得られる。Horvitz -Thompson推定値のような推定値は、選択確率が実際に既知であるか、または近似的に既知である場合、全体および母集団の平均について、不偏推定値を生成する。DevilleとSärndal(1992)は、重みの合計が母集団の規模に等しいなど、ある条件を満たす重みを用いる推定値に対して「較正推定値」という用語を造語した。より一般的には、重みの加重和が補助変数のある数量に等しいこと(例えば、被調査者の加重年齢の合計が各年齢層の母集団の規模に等しいこと)も推定値に含まれる。[20] [17] : 132 [21] : 1
較正推定量の性質について議論する主な方法は2つある: [17] : 133–134 [22]
- ランダム化ベース(または、サンプリング設計ベース) - この場合、サンプルで測定される対象の結果の重み( )と値はすべて既知のものとして扱われます。 このフレームワークでは、結果( Y)の(既知の)値にはばらつきがあります。 ただし、ランダム性は、母集団のどの要素がサンプルに選択されたかによってのみ決まります( と表され、要素がサンプル内にある場合は 1 を、そうでない場合は 0 を取得します)。単純ランダム サンプルの場合、それぞれは何らかのパラメータ を持つIIDベルヌーイ分布になります。 一般的な EPSEM(等確率サンプリング) の場合も、何らかのパラメータ を持つベルヌーイ分布になりますが、独立したランダム変数ではなくなる可能性があります。 つまり、サンプルが EPSEM であることは、選択の限界的に等しい確率が維持されることを意味しますが、選択の結合確率についてはわかりません。事後層化のような場合、各層の要素数は、ある層に属する各要素の包含確率が異なる多項分布としてモデル化できます。このような場合、サンプルサイズ自体は確率変数となり得ます。
- モデルベース- この場合、標本と重みは固定ですが、関心のある結果はランダム変数として扱われます。例えば、事後層別化の場合、結果は線形回帰関数としてモデル化できます。この場合、独立変数は各観測値を関連する層にマッピングする指標変数であり、変動は誤差項に含まれます。
後述するように、文献における証明の中にはランダム化に基づく枠組みに依拠しているものもあれば、モデルに基づく観点に重点を置いたものもあります。平均から加重平均に移行すると、より複雑性が増します。例えば、調査方法論の文脈では、母集団サイズ自体が推定される未知数とみなされることがよくあります。そのため、加重平均の計算は実際には比率推定量に基づいており、分子には全体の推定値、分母には母集団サイズの推定値が使用されます(分散計算がより複雑になります)。[23] [3] : 182
一般的な重量の種類
| 重量タイプ | 説明 | 解釈 |
|---|---|---|
| 頻度重み | 各重みはサンプル内の項目の絶対頻度を示す整数である。 | 特定の値は絶対的な意味を持ち、重みはデータセット内の情報量を表す |
| 逆分散重み | 各要素には、その既知の分散の逆数となる重みが割り当てられる。 | すべての要素が同じ期待値を持つ場合、そのような重みを加重平均に使用すると、分散は最も小さくなります。 |
| 正規化された(凸)重み | 重みは凸結合を形成します(合計は1になります)。サンプルサイズ(n)の合計に正規化できます。 | 重みの合計がnになる要素は相対的な解釈を持ちます。重みが1より大きい要素は平均よりも「まれ」であり、(例えば)平均に大きな影響を与えますが、重みが1より小さい要素はより「一般的」であり、影響は小さくなります。 |
| 逆確率重み | 各要素には選択確率の逆数に比例した重みが与えられる | 重みは、各要素が対象集団内で「代表する」項目の数を表します。重みの合計は対象集団のサイズに等しくなります。 |
重みには多くの種類(およびサブタイプ)があり、それぞれ使用方法や解釈方法が異なります。重みによっては、その絶対値が重要な意味を持つものもあれば、重み同士の相対的な値が重要な意味を持つものもあります。このセクションでは、後続のセクションで参照できるように、より一般的な重みの種類をいくつか紹介します。
- 頻度重み[24]は、統計学入門コースで紹介される基本的な重み付け手法です。この重みは、サンプル内の項目の絶対頻度を示す整数値です。これらは繰り返し重み(または出現重み)と呼ばれることもあります。特定の値は絶対的な意味を持ちますが、スケーリングなど重みが変換されると意味は失われます。例えば、10と20という数値があり、頻度重みがそれぞれ2と3の場合、データを「拡散」すると、10,10,20,20,20(各項目の重みはそれぞれ1)となります。頻度重みはデータセットに含まれる情報量を考慮しているため、ベッセル補正を用いた偏りのない重み付き分散推定などが可能になります。データセット内の各値から得られる項目の具体的な数はランダムであるため、このような重みは多くの場合ランダム変数であることに注意してください。
- 逆分散加重法(分析的加重法とも呼ばれる)[24]は、各要素にその(既知の)分散の逆数となる重みを割り当てる方法です。 [25] [9] : 187 すべての要素の期待値が同じ場合、このような重みを用いて加重平均を計算すると、すべての加重平均の中で分散が最小になります。一般的な定式化では、これらの重みは既知であり、ランダムではありません。
- 正規化された(凸)重みは、凸の組み合わせを形成する重みのセットです。つまり、各重みは 0 から 1 までの数値で、すべての重みの合計は 1 になります。任意の(負でない)重みのセットは、各重みをすべての重みの合計で割ることで正規化された重みに変換でき、これらの重みは合計が 1 になるように正規化されます。
- 関連する形式として、サンプルサイズ(n)に合計が正規化された重みがあります。これらの(非負の)重みの合計はサンプルサイズ(n)となり、平均は1です。任意の重みセットは、各重みをすべての重みの平均で割ることで、サンプルサイズに正規化できます。これらの重みには適切な相対的な解釈があり、重みが1より大きい要素は平均観測値よりも「影響力」が強い(例えば、加重平均への相対的な影響という意味で)のに対し、重みが1より小さい要素は平均観測値よりも「影響力」が弱いとされます。
- 逆確率重み付け、または単に確率重み付け[24]とは、各要素に、その要素を選択する確率の逆数に比例する重みを与えることです。例えば、 を使用します。 [9] : 185 逆確率重み付けを用いることで、各要素が対象集団において「代表する」項目の数を知ることができます。したがって、これらの重みの合計は、対象となる対象集団のサイズを返します。逆確率重み付けは、合計が1になるように正規化することも、サンプルサイズ(n)になるように正規化することもでき、以下のセクションで説明する計算の多くは同じ結果をもたらします。
- 標本がEPSEMである場合、すべての確率は等しく、選択確率の逆数は互いに等しい重み(すべて に等しい。ここでは標本サイズ、は母集団サイズである)を生成する。このような標本は自己重み付け標本と呼ばれる。[9] : 193
「重み付け」調整を適用する間接的な方法もあります。例えば、既存のケースを複製し、欠損値(例えば無回答)を代入し、多重代入法などの手法を用いて分散を推定する方法があります。別の方法としては、一部のケースを削除する(重みを0にする)というものがあります。例えば、ある分析にとってそれほど重要でない過剰サンプル群の影響を減らしたい場合などです。どちらのケースも本質的には逆確率重み付けに似ていますが、実際には重み列を追加するのではなく、データ行数を増やしたり減らしたりすることで、ソフトウェア実装において入力データの使用がよりシンプルになる可能性があります。しかしながら、このような実装の結果は、重みのみを使用する場合と同様です。したがって、観測値を削除する場合は一般的なソフトウェア実装でデータを容易に処理できますが、行を追加する場合は不確実性推定のために特別な調整が必要になります。そうしないと、誤った結論に至る可能性があります(つまり、根本的な問題の代替表現を使用する場合、無料のランチはありません)。[9] : 189, 190
キッシュによって造られた「無作為な重み」という用語は、不均等な選択確率に対応する重みを指すために使用されるが、選択された要素の期待値や分散とは関係のない重みを指す。[9] : 190, 191
推定比平均による無作為重み - キッシュの設計効果
式
要素の無制限のサンプルを採取する場合、これらの要素をランダムにばらばらの層に分割し、各層にあるサイズの要素を とすることができます。各層のすべての要素には、何らかの(既知の)非負の重みが割り当てられています()。重みは、各層の要素の何らかの不均等な選択確率の逆数によって生成できます(つまり、事後層別化などの手順に続く逆確率重み付け)。この設定では、このデザイン(重みに反映)によるサンプルの重み付き平均の分散の増加に対するキッシュのデザイン効果と、何らかの結果変数 y のSRS(重みと結果に相関がない場合、つまり無作為な重み)との関係は次のとおりです。[1] : 427 [9] : 191(4.2)
キッシュ(1992年)は、各項目を独自の層から来たものとして扱い、上記の式を(よく知られた)次のバージョンに簡略化した:[9] :191(4.3) [26] :318 [4] :8
この式の適用は、1つの層から複数の観測値が抽出された場合(つまり、それぞれの観測値が同じ重みを持つ場合)、または複数の層からそれぞれ1つの観測値が抽出され、そのうちのいくつかの選択確率が同じである場合に有効です。解釈は若干異なりますが、2つのシナリオの計算結果は同じになります。
キッシュの不均等な重み付けに対する設計効果を使用する場合、「キッシュの有効サンプルサイズ」の次の簡略化された式を使用できます[27] [1] : 162, 259
仮定と証明
キッシュによる上記の式は、 「無作為な」重み付けに基づく加重平均の分散の増加を示しています。これは以下の式でも表すことができます。ここで、yは不均等な選択確率を用いて選択された観測値(クラスター内相関はなく、結果測定の期待値や分散とは関係ありません)です[9] 。190, 191 、y'は単純無作為標本から得られたであろう観測値です。
モデルに基づく視点を用いることで、分散比の式はキッシュの式に簡略化できることが示される。[28]この式では、キッシュの式は、n個の観測値()がすべて(少なくとも近似的に)無相関( )であり、関心のある応答変数(y)の分散( )が同じである場合に成立する。また、重み自体はランダム変数ではなく、既知の定数(例えば、事前に決定された既知のサンプリング設計における選択確率の逆数)であると仮定する必要がある。 [要出典]
以下は、クラスターが存在せず(つまり、サンプルの要素間にクラス内相関がない場合)、各層に1つの観測値のみが含まれる場合の簡略化された証明である。[28]
トランジション:
- 加重平均の定義より。
- 正規化された(凸)重み定義(合計が 1 になる重み)を使用します。
- 相関のないランダム変数の合計。
- 重みが定数である場合(分散の基本的な性質から)。言い換えれば、重みは各観測値iについて事前に分かっているということです。つまり、実際に計算しているのは
- すべての観測値が同じ分散()を持つ場合。
- 代数の一部:左に移動して、 の乗算項を追加し、開き直ります。
- 定義に戻ります。
y の条件は、y 個の観測値が同じ期待値と分散 を持つIIDである場合に自明に満たされます。このような場合、、およびを使用して推定できます。[9] [29] y の期待値がすべて同じではない場合、推定分散を計算に使用することはできません。これは、その推定ではすべてのs が同じ期待値を持つと仮定しているためです。具体的には、重みと結果変数 y の間に相関がある場合、y の期待値はすべての観測値で同じではなく、各観測値の特定の重み値に依存することを意味します。このような場合、設計効果の式は依然として正しい可能性がありますが (他の条件が満たされている場合)、加重平均の分散については異なる推定量が必要になります。たとえば、加重分散推定量 を使用する方がよい場合があります。[引用が必要]
異なるs値が異なる分散を持つ場合、加重分散は正しい母集団レベルの分散を捉えることができますが、設計効果に関するキッシュの式はもはや正しくない可能性があります。[引用が必要]
サンプルに何らかの相関構造がある場合(クラスターサンプリングを使用する場合など)にも同様の問題が発生します。[要引用]
変動係数との関係
キッシュによる設計効果の定義は、重みの変動係数(キッシュはこれを相対分散または略してrelvar [h]とも呼ぶ)と密接に結びついていることに注意されたい(推定に補正されていない(母集団レベルの)標本標準偏差を用いる場合)。これは文献においていくつかの表記法で示されている:[9] : 191 [13] : 396
- 。
ここで、 は の母分散、は平均です。重みを標本サイズに正規化すると(つまり、重みの合計が n に等しく、平均が 1 に等しくなるように)、 となり、式は に簡約されます。重みは固定であると仮定するのは事実ですが、その分散は、重みの集合から1つの重みを(等確率で)サンプリングすることによって定義される経験分布の分散と考えることができます(単回帰における x と y の相関関係を考えるのと同様です)。[要出典]
不均衡層化抽出法との関係
キッシュの当初の定義は、ある標本設計における分散と、単純無作為標本によって得られる分散を比較するものでした。いくつかの文献では、キッシュの設計効果について、次のような代替定義が提示されています。「すべての層単位の分散が等しい場合、不均衡層化標本における加重調査平均値の分散と、比例層化標本における分散の比」。 [26] : 318 [13] : 396 これを踏まえ、パークとリー(2006)は、「[...][キッシュの]導出の背後にある理論的根拠は、無作為な不均等な加重による[加重平均値]の精度の低下は、不均衡層化標本における分散と比例層化標本における分散の比で近似できるということである」と述べています。 [4] : 8
この代替定義は近似値に過ぎないことに留意してください。分母が「比例層化抽出法」(層化抽出法によって得られる)に基づく場合、そのような抽出法では単純無作為抽出法と比較して分散が小さくなります。これは、層化抽出法では、SRS法と同様に、層ごとの要素数の変動がいくらか除去されるためです。[要出典]
関連して、コクラン(1977)は、最適配分からの逸脱による分散の比例増加(キッシュの式ではLと呼ばれるもの)の式を提供している。[3] :116
代替命名規則
初期の論文では「不均等な重み付け効果」という用語が使用されていました。[9] : 192 設計効果の定義が増えるにつれて、不均等な選択確率に対するキッシュの設計効果は(または)あるいは単に「不均等な重み付け効果」と表記されるようになりました。[4] : 8 [13] : 396 [26] : 318 キッシュの設計効果は、2002年にLiuらによって「不均等な重み付け効果」(または単にUWE)とも呼ばれています。[30] : 2124
結果が選択確率と相関する場合
スペンサーのデフ推定合計
合計の推定値は「p展開復元」推定値(別名:pwr推定値、またはHansen and Hurwitz)である。これは、N個の母集団からn個の項目( )を抽出した単純無作為標本(復元あり、SIRと表記)に基づく。 [i]各項目が1回の抽出で(1からNまでのk)個の項目が抽出される確率は である(、つまり多項分布)。特定の項目が標本に出現する確率はである。「p展開復元」値はであり、期待値は である。したがって、pwr推定値は であり、yの合計の不偏推定値である。[3] :51
2000年にブルース・D・スペンサーは、要素の選択確率と関心のある結果変数との間に相関関係がある場合、ある量()の合計(平均ではない)を推定する際の分散に対する設計効果を推定する式を提案した。 [31]
この設定では、サイズNの母集団からサイズnの標本が(復元抽出により)抽出されます。各項目は確率(ここで、つまり多項分布)で抽出されます。選択確率は、正規化された(凸)重みを定義するために使用されます。ランダムなn項目のセットでは、重みの合計が 1 に等しくなるのは期待値( )によってのみであり、その周囲に合計が多少変動することがあります(つまり、ポアソン二項分布の要素の合計)。 と の関係は、次の(母集団)単回帰によって定義されます。
ここで、 は要素iの結果であり、 は切片と傾きで に線形依存します。近似直線からの残差は です。また、結果と残差の母分散を および と定義することもできます。との相関はです。[要出典]
スペンサーの(近似)設計効果はyの合計を推定するために次のように表される:[31] :138 [32] :4 [13] :401
どこ:
- 推定値
- 傾斜を推定する
- 母分散を推定し、
- L は重みの相対分散であり、Kish の式で定義されます。
これは、回帰モデルが適切に適合し、選択確率と残差が独立していることを前提としています。これは、残差と二乗残差が重みと無相関になること、つまり、およびとなるためです。[31] :138
個体群サイズ(N)が非常に大きい場合、式は次のように表される:[26] : 319
( なので、)
この近似は、 Pとyの間に線形関係が成り立つことを仮定しています。また、重みと誤差の相関、および誤差の二乗がともにゼロであることも仮定しています。つまり、および。[32] :4
の場合には(つまりyの平均)となることに注意する。この場合、式は次のように簡約される。
yの分散がその平均値よりもはるかに大きい場合にのみ、右端の項は0に近くなり(すなわち、)、スペンサーの設計効果(推定値全体に対して)がキッシュの設計効果(比率平均値に対して)と等しくなります:[32] : 5 。それ以外の場合、2つの式は異なる結果をもたらし、全体の設計効果と平均値の設計効果の違いを示します。
推定比平均に対するParkとLeeのDeff
2001年、パークとリーはスペンサーの公式を比率平均(すなわち、全体の推定値を母集団サイズの推定値で割ることによって平均を推定する)の場合に拡張した。それは以下の通りである:[32] : 4
どこ:
- 選択確率の(推定された)二乗変動係数です。
ParkとLeeの式は、 の場合にはKishの式と全く同じです。どちらの式もyの平均の設計効果に関係していますが、Spencerの式は母集団全体の推定に関係しています。
一般的に、が小さい場合、合計( )の は比率平均()の よりも効率が低くなる傾向があります。そして一般的に、 は両方の設計効果の効率に影響を与えます。[4] : 8
クラスターサンプリング
クラスター サンプリングを使用して収集されたデータについては、次の構造を想定します。
- 各クラスターとK個のクラスター内の観測値、および合計観測値。
- 観測値にはブロック対角相関行列があり、同じクラスターのすべての観測値ペアはクラス内相関で相関しているのに対し、異なるクラスターのすべてのペアは相関していません。[33]つまり、すべての観測値ペア、およびについて、それらが同じクラスター に属する場合、 が得られます。また、2つの異なるクラスターからの2つの項目は相関していません。
- どのクラスターの要素も同じ分散を持つものと想定されます。
クラスターがすべて同じサイズである場合、 1965年にキッシュによって提案された(後に他の人によって再検討された)設計効果Deffは次のように与えられる: [1] :162 [13] :399 [4] :9 [34] [35] [14] :241
と表記されることもある。[30] : 2124
様々な論文では、クラスターサイズが等しくない場合、上記の式は平均クラスターサイズ(と表記されることもある)としても使用されている。[36] [28] : 105 このような場合、キッシュの式(平均クラスター重みを使用)は、正確な設計効果の保守的な(上限)値として機能する。[28] : 106
異なるクラスターサイズに対しては代替の公式が存在する。[1] : 193 フォローアップ研究では、様々な仮定のもとで平均クラスターサイズを使用することの感度について議論した。[37]
複雑なデザインに対するデザイン効果
不均等選択確率×クラスターサンプリング
1987年の論文で、キッシュは、不均等な選択確率を考慮した重み付けとクラスターサンプリングの両方の効果を組み込んだ複合設計効果を提案した。[36] : 16 [28] : 105 [38] : 4 [32] : 2
上記は本論文で使用されている表記法と同様の表記法を使用している(1987年の原著では異なる表記法が使用されていた)。[j]この式のモデルに基づく根拠はGablerらによって提供された。[28]
層別サンプリング×不等選択確率×クラスターサンプリング
2000年、LiuとAragonは、層化サンプリングにおける異なる層における不均等な選択確率の設計効果の分解を提案した。[39] 2002年、Liuらはこの研究を拡張し、各層に不均等な選択確率の重み付けが設定された層化サンプルを考慮した。クラスターサンプリングは、全体または層ごとに行われる。[30]同様の研究は、2003年にParkらによっても行われた。[40]
Chen-Rust Deff: 層別化を伴う2段階および3段階デザインへのデザイン効果
Chen-Rust法は、Gablerら[28]が提案した1987年のKishの設計効果に関する式をモデルベースで正当化する手法を拡張し、第1段階で層別化を行う2段階設計と、層別化を行わない3段階設計に適用するものである。[41]この修正式は、調査重みと母集団のクラスター内相関を用いて、全体的な設計効果を定義する。これらの式は、様々な情報源からの設計効果の洞察に満ちた解釈を可能にし、完了した調査におけるクラスター内相関を推定したり、将来の調査における設計効果を予測したりすることができる。[要出典]
ヘンリーのDeff:単段サンプルにおける較正重み付けの設計効果尺度
Henryら[26]は、 (共変量のベクトル、モデル誤差は独立、母集団合計の推定値はSärndal、Swensson、Wretman(1992) [3]の一般回帰推定値(GREG)である)の場合について、単一段階サンプリングとキャリブレーション重み調整のための拡張モデル支援重み付け設計効果尺度を提案している。この新しい尺度は、非EPSEMサンプリング設計、キャリブレーション調整による不均等な重み、および分析変数とキャリブレーションで使用される補助変数との相関の複合効果を考慮している。
ローアのDeff: クラスターサンプルにおける回帰勾配の設計効果
Lohr [42]は、ランダム係数回帰モデルを用いたクラスターサンプリングにおける通常最小二乗法(OLS)および一般化最小二乗法(GLS)推定値に関するものである。Lohrは、回帰傾きのGLS推定値の計画効果が1未満となる条件を提示し、より高い効率性を示している。しかし、GLS推定値の設計効果はモデルの仕様に非常に敏感である。基礎となるランダム係数モデルがランダム切片モデルとして誤って指定されると、設計効果が大幅に過小評価される可能性がある。対照的に、回帰傾きのOLS推定値と設計に基づく観点から計算された設計効果は、分散構造の誤指定に対してロバストであり、モデルの仕様が正確でない可能性がある状況において、より信頼性が高い。[要出典]
用途
将来のデータ収集を計画する際に、また診断ツールとしても使用できる。[14] : 85
- 将来のデータ収集を計画する際に、サンプリング効率を評価するために用いられる場合があります。例えば、サンプリング設計上の決定によって分散が「過度に」増加する可能性がある場合や、代替的な(経済的に実現可能な)設計の方が効率的である場合などです。これはサンプルサイズ(全体、層ごと、クラスターごとなど)にも影響を与えます。サンプルサイズを計画する際には、インタビュアー効果(測定誤差)とサンプリング設計がサンプリング分散に与える影響を分離するために、設計の影響を修正する作業が行われる場合があります。[43]
- 診断ツールとして-事後重み付け分析における潜在的な問題(例えば、無回答調整など)の評価に役立つ可能性があります。[8]例えば、値が特に高い場合、サンプリングまたは重み付け方式に問題があることを示している可能性があります。これは、重みに何らかの操作(例えば、重みのトリミング)を行う際にも役立ちます。設計効果を用いて、操作が有効サンプルサイズに与える影響を評価することができます。[44]また、データまたはその分析における明らかな問題(例えば、誤りから外れ値の存在まで)を特定することもできます。[9] : 191 一部 の文献では、設計効果の値が「高すぎる」と判断される普遍的な経験則はありません。値の実際的な考慮事項は、多くの場合、状況に依存します。[原著研究? ]
[5] : 57–62 のように、母集団がIIDに近い場合、またはデータの標本設計が単純無作為標本として抽出された場合、設計効果を考慮する必要はありません。また、標本サイズが比較的小さい場合(少なくとも実用上の理由から部分的に小さい場合)、設計効果を考慮することはあまり有用ではありません。[原著研究? ]
キッシュは当初、設計効果がデータの分布、標本確率、それらの相関関係、そして関心のある統計量に可能な限り依存しないようにすることを望んでいましたが、その後の研究では、これらが設計効果に影響を与えることが示されました。したがって、どの計算方法を使用するか、そしてどのように使用するかを決定する際には、これらの特性を慎重に考慮する必要があります。[4] : 13 [32] : 6
信頼区間を構築する際、設計効果が適用されることは稀です。理想的には、特定のパラメータの推定値について、単純無作為標本(SRS)を用いた復元抽出法による分散と設計効果(分散を変化させるサンプリング設計のすべての要素を考慮)の両方を決定できるはずです。このようなシナリオでは、基本分散と設計効果を乗じて、特定の設計に対する推定値の分散を計算できます。[1] : 259 この計算値を使用して信頼区間を形成できます。しかし、実際のアプリケーションでは、両方の値を同時に推定することは稀です。そのため、他の方法が好まれます。例えば、テイラー線形化は、加重平均の分散に基づいて信頼区間を構築するために使用されます。より広義には、複製重みとも呼ばれるブートストラップ法が、さまざまな加重統計量に適用されます。[要出典]
ソフトウェア実装
Kish の設計効果は、さまざまな統計ソフトウェア パッケージに実装されています。
- Python :balanceパッケージのdesign_effect。[45]
- R : surveyパッケージのsurveysummary。[46]これは他のRパッケージ(例えば、pewmethods、[47]やsamplesize4surveys [48])にも実装されています。
- SAS: Proc Surveymeansを使用する。[49]
- Stata: svy: meanコマンドの後にestat事後推定コマンドを使用する。[50]
- スーダーン。[51]
- WESVAR: キッシュの設計効果(SRSWR)を計算します。[52]
注記
- ^ つまり、デザイン効果は、2つの推定値の分散比であり、1つは何らかのデザインを持つサンプルから、もう1つは単純ランダムサンプルから得られる。
- ^ (平均ではなく)合計値を推定することによる(理論的な)デザイン効果の一般的な公式は、Cochran 1977に示されている。[3] : 54
- ^ キッシュの に対する当初の意図は、「サンプル設計の効果を要素的な変動性を超えて表現し、測定単位とサンプルサイズの両方を不要なパラメータとして取り除く」ことだった。その期待は、設計効果が、同じ調査内(さらには調査間)の多くの統計量と変数に一般化可能(関連)になることだった。[5] : 55 しかし、その後の研究で、設計効果は特定のサンプリング設計、結果、および関心のある統計量(例:母集団全体と平均値)に依存することが示された。特に、 は特定の結果と特定の設計の関係(例:と選択確率 の相関)に依存する。[4] : 5 そのため、現在の文献は、多くの統計量と結果指標にわたるの一般化可能性を支持していない。
- ^ これを簡単に説明すると、異なるサイズのクラスターがあり、そのうちの1つのクラスターのみを(SRSを用いて)サンプリングし、そのクラスター内のすべての要素を測定するとします。これはEPSEMに繋がりますが、得られる観測値の数はクラスターのサイズに依存します。
- ^ より正確に言うと、 はクラスター のサイズの尺度であると仮定します。PPS (サイズに比例する確率) サンプリングの一般的な方法の 1 つは、次のようにサイズに比例する選択確率で各クラスターをサンプリングすることです。ここで、 はサンプリングするクラスターの数、はクラスターをサンプリングするために使用されるフレームです。各サンプル クラスター内で同数の要素を何らかの等確率法を使用してサブサンプリングし、 がクラスター 内の正しい要素数である場合、要素(あるクラスター 内)の選択確率は、すべてのクラスターのすべての要素に対して同じになります (つまり、EPSEM)。 が 正しいサイズでないことが判明した場合でも、 のレートでサンプリングすると、依然として EPSEM (等確率選択法) が生成されます。サンプル クラスター内のすべてのユニットを列挙 ( の測定値を取得) すると (何らかの固定数、または固定割合ではなく)、クラスター 内の各ユニットはクラスター の選択確率を持ち、これにより異なるクラスターの要素間での選択確率が不均等になります (つまり)。
- ^ 例えば、各クラスターのサイズをと仮定すると、以下の選択確率でクラスターをサンプリングできます。そして、各クラスターから一定数の要素を取り出します。このような場合、実際のクラスターサイズを とすると、クラスター から取り出される各要素の選択確率はとなります。これは、サンプリング段階で各クラスターから の割合でサンプリングすれば緩和できることに注意してください。その場合、選択確率は EPSEM となります(実際のクラスターサイズは であり、ではないにもかかわらず)。
- ^ この式は、層hで等確率サンプルが選択され、各要素の回答確率が同じである場合にのみ適用されます。
- ^ 相対分散という別の用語があることに注意してください。これは分散と平均の比であり、キッシュの相対分散は分散と平均の二乗の比です。
- ^ 文献では、標本数と母集団の数はそれぞれnとN、あるいはmとMと表記されることがあります。本稿ではnとNを使用しました。
- ^
キッシュのデザイン効果の式(元の表記法を使用): [36] : 16
参照
参考文献
この記事は2023年にWikiJournal of Scienceに外部学術査読のために提出されました(査読者レポート)。更新されたコンテンツは、CC-BY-SA-3.0ライセンス( 2024年)に基づきWikipediaページに再統合されました。査読済み版は、
Tal Galili; et al. (5 May 2024). "Design effect" (PDF) . WikiJournal of Science . 7 (1): 4. doi : 10.15347/WJS/2024.004 . ISSN 2470-6345. Wikidata Q116768211. です。
- ^ abcdefghijklmno キッシュ、レスリー(1965年)『サーベイ・サンプリング』ニューヨーク:ジョン・ワイリー・アンド・サンズ社ISBN 0-471-10949-5。
- ^ Heo, Moonseong; Kim, Yongman; Xue, Xiaonan; Kim, Mimi Y. (2010). 「縦断的クラスターランダム化試験における追跡調査終了時の介入効果検出に必要なサンプルサイズ」. Statistics in Medicine . 29 (3): 382– 390. doi :10.1002/sim.3806. ISSN 1097-0258. PMID 20014353. S2CID 30001378. 2013年1月5日時点のオリジナルよりアーカイブ。
- ^ abcdefg サーンダル、カール=エリック;ベングト・スウェンソン。レットマン、1 月 (1992 年)。モデル支援調査サンプリング。スプリンガー。doi :10.1007/978-1-4612-4378-6 (2025 年 7 月 11 日に非アクティブ)。ISBN 9780387975283。
{{cite book}}: CS1 maint: DOI inactive as of July 2025 (link) - ^ abcdefghijk Park, Inho; Lee, Hyunshik (2004). 「複雑な調査サンプリングにおける加重平均推定値と合計推定値のデザイン効果」(PDF) .調査方法論. 30 (2): 183– 193. ISSN 1492-0921.
- ^ abcdef Kish, Leslie (1995). 「デザイン効果の測定法」(PDF) . Journal of Official Statistics . 11 (1): 55. ISSN 0282-423X.
- ^ Cochran, William G. (1951年6月). 「サンプル選択における一般原則」. American Journal of Public Health and the Nation's Health . 41 (6): 647– 653. doi :10.2105/AJPH.41.6.647. ISSN 0090-0036. PMC 1525569. PMID 14838186 .
- ^ エヴェリット, BS (2002). 『ケンブリッジ統計辞典(第2版)』ケンブリッジ大学出版局. ISBN 0-521-81099-X。
- ^ abc Kalton, Graham; Brick, J. Michael; Lȇ, Thanh (2005). サンプルデザインにおけるデザイン効果の構成要素の推定(PDF) .開発途上国および移行国における世帯サンプル調査(報告書). ニューヨーク: 国連経済社会局統計部. pp. 95– 121. ISBN 92-1-161481-3. ST/ESA/STAT/SER.F/96.
- ^ abcdefghijklmnopqrstu キッシュ、レスリー (1992). 「不等円周率の重み付け」(PDF) .公式統計ジャーナル. 8 (2): 183– 200. ISSN 0282-423X.
- ^ Leinster, Tom (2014年12月18日). 「有効なサンプルサイズ」. nカテゴリーカフェ.
- ^ Wolter, Kirk M. (2007).分散推定入門. 社会科学と行動科学のための統計学(第2版). Springer. doi :10.1007/978-0-387-35099-8. ISBN 978-0387329178。
- ^ ab Frerichs, RR (2004). 「等確率の選択」 Rapid Surveys (PDF) . 未発表.
- ^ abcdefg ヴァリアント, リチャード; デヴァー, ジル A.; クロイター, フラウケ (2013).調査サンプルの設計と重み付けのための実用ツール. ニューヨーク: シュプリンガー. doi :10.1007/978-1-4614-6449-5. ISBN 978-1-4899-9381-6。
- ^ abc Cochran, WG (1977).サンプリングテクニック(第3版). ナッシュビル, テネシー州: John Wiley & Sons. ISBN 978-0-471-16240-7。
- ^ネイマン、ジェルジ ( 1934)「代表法の二つの異なる側面について:層化標本抽出法と目的選択法」 王立統計学会誌、97(4):558-625。doi:10.2307/2342192。ISSN 0952-8385。JSTOR 2342192 。
- ^ Dever, Jill A.; Valliant, Richard (2010). 「層別化後の分散推定値と推定されたコントロール合計値の比較」(PDF) .調査方法論. 36 (1): 45– 56. ISSN 1492-0921.
- ^ abc Kott, Phillip S. (2006). 「非回答とカバレッジエラーを調整するためのキャリブレーション重み付けの使用」(PDF) .調査方法論. 32 (2): 133. ISSN 1492-0921.
- ^ Holt, D.; Smith, TMF (1979). 「Post Stratification」. Journal of the Royal Statistical Society. Series A (General) . 142 (1): 33– 46. doi :10.2307/2344652. ISSN 0035-9238. JSTOR 2344652.
- ^ Ghosh, Dhiren; Vogt, Andrew (2002). 「ベルヌーイ・ポアソンサンプリングに関連するサンプリング手法」(PDF) .調査研究手法セクション議事録. 2002 : 3569–3570 . ISSN 0733-5830.
- ^ Deville, Jean-Claude; Särndal, Carl-Erik (1992). 「調査サンプリングにおけるキャリブレーション推定量」アメリカ統計学会誌. 87 (418): 376– 382. doi :10.1080/01621459.1992.10475217. ISSN 0162-1459.
- ^ ブリック、J. マイケル、モンタキラ、ジル、ロス、シェリー (2003). 「レーキング推定量の問題点の特定」(PDF) .調査研究方法部会紀要. 2003 : 710–717 . ISSN 0733-5830.
- ^ Keiding, Niels; Clayton, David (2014). 「観察研究における交絡の標準化と制御:歴史的視点」.統計科学. 29 (4): 529– 558. arXiv : 1503.02853 . doi :10.1214/13-STS453. ISSN 0883-4237.
- ^ Lumley, Thomas (2021年5月25日). 「加重平均の(近似)分散を推定する方法は?」Stack Exchange .
- ^ abc 「SAS、Stata、SPSSはどのような種類の重みをサポートしていますか?」UCLA統計コンサルティンググループ。2021年。2023年9月2日時点のオリジナルよりアーカイブ。 2023年9月2日閲覧。
- ^ カルトン、グラハム (1968). 「標準化:外的変数を制御するための手法」.英国王立統計学会誌. シリーズC (応用統計) . 17 (2): 118– 136. doi :10.2307/2985676. ISSN 0035-9254. JSTOR 2985676.
- ^ abcde Henry, Kimberly A.; Valliant, Richard (2015). 「単段階サンプルにおける較正重み付けのための設計効果測定」(PDF) .調査方法論. 41 (2): 315– 331. ISSN 1492-0921.
- ^ Bock, Tim (2017年3月24日). 「デザイン効果と有効サンプルサイズ」. Displayr .
- ^ abcdefg Gabler, Siegfried; Häder, Sabine; Lahiri, Partha (1999). 「重み付けとクラスタリングにおける設計効果に関するKishの公式のモデルに基づく妥当性」(PDF) . Survey Methodology . 25 : 105–106 . ISSN 1492-0921.
- ^ リトル、ロデリック・J.;ヴァーティヴァリアン、ソニア(2005年)「無回答の重み付けは調査平均値の分散を増加させるか?」(PDF)『調査方法論』31(2):161。ISSN 1492-0921 。
- ^ abc Liu, Jun; Iannacchione, Vince; Byron, Margie (2002). 「層別サンプリングにおける設計効果の分解」(PDF) .調査研究方法部会議事録. 2002 : 2124–2126 . ISSN 0733-5830.
- ^ abc Spencer, Bruce D. (2000). 「測定値が選択確率と相関する場合の不均等重み付けの近似設計効果」(PDF) .調査方法論. 26 : 137–138 . ISSN 1492-0921.
- ^ abcdef Park, Inho; Lee, Hyunshik (2001). 「デザイン効果:私たちはそれをすべて知っているのか」(PDF) . Proceedings of Section on Survey Research Methods . 2001. ISSN 0733-5830.
- ^ Rowe, Alexander K.; Lama, Marcel; Onikpo, Faustin; Deming, Michael S. (2002). 「ベナンにおける医療施設クラスター調査における設計効果とクラス内相関係数」. International Journal for Quality in Health Care . 14 (6): 521– 523. doi :10.1093/intqhc/14.6.521. ISSN 1353-4505. PMID 12515339.
- ^ ブランド、マイケル(2005年)「医学文献におけるクラスターランダム化試験」ヨーク大学。
- ^ Ahmed, Saifuddin (2009). 「サンプル調査の方法」(PDF) . ジョンズ・ホプキンス大学ブルームバーグ公衆衛生大学院. pp. 5– 6. 2013年9月28日時点のオリジナル(PDF)からのアーカイブ。
- ^ abc キッシュ、レスリー (1987). 「質問と回答」(PDF) . The Survey Statistician . 第17巻. pp. 13– 17. ISSN 0214-3240.
- ^ Lynn, Peter; Gabler, Siegfried (2005). 「クラスタリングによる設計効果の予測におけるb*の近似値」(PDF) . Survey Methodology . 31 (1): 101– 104. ISSN 1492-0921.
- ^ Gabler, Siegfried; Hader, Sabine; Lynn, Peter (2005). 「複数のデザインサンプルのデザイン効果」(PDF) .調査方法論. 32 (1): 115– 120. ISSN 1492-0921.
- ^ Liu, Jun; Aragon, Elvessa (2000). 「縦断調査におけるサブサンプリング戦略」(PDF) .調査研究方法部会紀要. 2000 : 307–312 . ISSN 0733-5830.
- ^ Park, Inho; Winglee, Marianne; Clark, Jay; Rust, Keith; Sedlak, Andrea; Morganstein, David (2003). 「デザイン効果と調査計画」(PDF) .調査研究方法部会紀要. 2003 : 3179– 3186. ISSN 0733-5830.
- ^ Chen, Sixia; Rust, Keith (2017). 「キッシュの設計効果に関する公式の階層化を伴う2段階および3段階設計への拡張」. Journal of Survey Statistics and Methodology . 5 (2): 111– 130. doi :10.1093/jssam/smw036. ISSN 2325-0984. PMC 10426793. PMID 37583392 .
- ^ Lohr, Sharon L. (2014). 「クラスターサンプルにおける回帰傾きのデザイン効果」. Journal of Survey Statistics and Methodology . 2 (2): 97– 125. doi :10.1093/jssam/smu003. ISSN 2325-0984.
- ^ Zins, Stefan; Burgard, Jan Pablo (2020). 「サンプルサイズを計画する際のインタビュアーとデザインの影響の考慮」.調査方法論. 46 (1): 93– 119. ISSN 1492-0921.
- ^ ポッター、フランク;ジェン、ユーホン(2015)「サンプル調査における極端な重み付けの調整方法と問題点」(PDF )調査研究方法部会議事録。2015年:2707-2719。ISSN 0733-5830 。
- ^ Sarig, Tal; Galili, Tal; Eilat, Roee (2023). 「balance -- 偏りのあるデータサンプルのバランスをとるためのPythonパッケージ」. arXiv : 2307.06024 [stat.CO].
- ^ Lumley, Thomas (2004). 「複雑な調査サンプルの分析」. Journal of Statistical Software . 9 (1): 1– 19. doi : 10.18637/jss.v009.i08 . ISSN 1548-7660.
Rパッケージバージョン2.2
- ^ Pew Research Center. 「pewmethods」. GitHub . 2023年11月28日閲覧。
- ^ Gutierrez Rojas, Hugo Andres (2020年1月17日). "samplesize4surveys". The Comprehensive R Archive Network (CRAN) . 2023年11月28日閲覧。
- ^ Buskirk, Trent D. (2011). Estimating Design Effects for Means, Proportions and Totals from Complex Sample Survey Data Using SAS® Proc Surveymeans (PDF) . Midwest SAS Users Group Conference 2011. Saint Louis, MO: Saint Louis University School of Public Health. pp. 1– 13. 2015年5月11日時点のオリジナル(PDF)からのアーカイブ。 2023年11月28日閲覧。
- ^ 「Stata 17における調査データ分析」UCLA統計コンサルティンググループ、2021年。2023年6月7日時点のオリジナルよりアーカイブ。 2023年11月28日閲覧。
- ^ 「DESCRIPT 例 1」(PDF) . RTI International . 2023年11月28日閲覧。
- ^ Choudhry, G. Hussain; Valliant, Richard (2002). WesVar: 複雑な調査データ分析のためのソフトウェア(PDF) . カナダ統計局シンポジウム. オタワ: カナダ統計局. 2023年11月28日閲覧。