統計学において、クラスターサンプリングとは、統計的母集団において相互に均質でありながら内部的に異質な集団が見られる場合に用いられるサンプリング計画である。マーケティング調査でよく用いられる。
このサンプリング計画では、母集団全体をこれらのグループ(クラスターと呼ばれる)に分割し、各グループから単純無作為標本を選択します。次に、各クラスター内の要素をサンプリングします。サンプリングされた各クラスター内のすべての要素をサンプリングする場合、これは「1段階」クラスターサンプリング計画と呼ばれます。各グループ内の要素の単純無作為サブサンプルを選択する場合、これは「2段階」クラスターサンプリング計画と呼ばれます。クラスターサンプリングの一般的な目的は、必要な精度を前提として、インタビューの総数とコストを削減することです。サンプルサイズが固定されている場合、母集団内の変動の大部分がグループ間ではなくグループ内に存在する場合、 予想されるランダム誤差は小さくなります。
クラスター内の母集団は、理想的には可能な限り異質であるべきですが、クラスター間には均質性も必要です。各クラスターは、母集団全体の小規模な代表である必要があります。クラスターは相互に排他的であり、全体として網羅的である必要があります。その後、関連するクラスターに対してランダムサンプリング手法を適用し、研究に含めるクラスターを選択します。一段階クラスターサンプリングでは、選択された各クラスターのすべての要素がサンプリングされます。二段階クラスターサンプリングでは、選択された各クラスターの要素に対してランダムサンプリング手法が適用されます。
クラスターサンプリングと層別サンプリングの主な違いは、クラスターサンプリングではクラスターがサンプリング単位として扱われるため、(少なくとも第一段階では)クラスターの母集団に対してサンプリングが行われる点です。層別サンプリングでは、各層内の要素に対してサンプリングが行われます。層別サンプリングでは各層からランダムサンプルが抽出されるのに対し、クラスターサンプリングでは選択されたクラスターのみがサンプリングされます。クラスターサンプリングの一般的な目的は、サンプリング効率を高めてコストを削減することです。これは、精度の向上を目的とする層別サンプリングとは対照的です。
多段階クラスターサンプリングもあり、クラスターから要素を選択する際に少なくとも 2 つの段階が実行されます。
推定パラメータを変更せずに、クラスターがほぼ同じサイズであれば、クラスターサンプリングはバイアスなしとなります。この場合、選択されたすべてのクラスターを結合することでパラメータが計算されます。クラスターのサイズが異なる場合は、いくつかの選択肢があります。
一つの方法は、クラスターをサンプリングし、そのクラスター内のすべての要素を調査することです。もう一つの方法は、選択された各クラスター内から一定の割合(コストを考慮して5%、50%、あるいは他の数値)のユニットをサンプリングする2段階法です。これらの方法から抽出されたサンプルに頼ることで、偏りのない推定値が得られます。しかし、サンプルサイズは事前に固定されなくなります。これにより、推定値の標準誤差の計算式がより複雑になり、研究計画の視点にも問題が生じます(検出力分析とコスト推定は特定のサンプルサイズに関連することが多いため)。
3つ目の解決策は、サイズに比例した確率サンプリングを用いることです。このサンプリング計画では、クラスターを選択する確率はそのサイズに比例するため、大きなクラスターは小さなクラスターよりも選択確率が高くなります。この方法の利点は、サイズに比例した確率でクラスターを選択する場合、各サンプルクラスターで同じ数のインタビューを実施することで、各サンプルユニットの選択確率が等しくなることです。
クラスターサンプリングの一例としては、エリアサンプリングまたは地理的クラスターサンプリングが挙げられます。各クラスターとは、エリアサンプリングフレーム内の地理的領域を指します。地理的に分散した母集団を調査するには費用がかかる場合があるため、同一地域内の複数の回答者をクラスターにグループ化することで、単純無作為抽出よりも経済的な調査が可能になります。通常、推定値の精度を同等にするには、サンプルサイズ全体を増やす必要がありますが、コスト削減によってサンプルサイズを増やすことが実現可能になる場合もあります。
人口センサスを組織する上で、最初のステップは通常、現地調査を組織するために、地理的領域全体を調査区または国勢調査区域に分割することです。調査区は、多くの種類の調査におけるクラスターサンプリングの第一段階の単位としても有用です。人口センサスが古くなっている場合、個人リストを社会経済調査のサンプリングフレームとして直接使用すべきではありません。国勢調査全体を更新することは経済的に不可能です。良い代替案としては、都市郊外などの非常に変化の激しい地域では一部の更新のみを行い、古い調査区を維持し、サンプルとして調査区を選択し、選択された調査区の個人または世帯のリストを更新することが考えられます。[ 1 ]
クラスターサンプリングは、戦争、飢饉、自然災害などの場合に死亡率が低いことを推定するために使用されます。[ 2 ]
個体群から魚を単純無作為標本として抽出することはほぼ不可能であり、そのためには個体を個別に無作為に捕獲する必要がある。 [ 3 ]これは、漁具が魚をグループ(またはクラスター)で捕獲するためである。
商業漁業におけるサンプリングでは、海上での操業コストが大きすぎるため、漁獲物を個別にランダムに選択することは難しい場合が多い。そのため、観察結果は船舶または漁獲航海ごとにさらにクラスター化される。
世界銀行は、適応型クラスターサンプリングを用いて、コスト効率の高い方法で開発途上国のインフォーマル企業を調査している。これは、インフォーマルセクターが公式記録に記録されておらず、単純無作為抽出法で調査するには費用がかかりすぎるためである。[ 4 ]この手法は2段階のサンプリングから成り、適応型クラスターサンプリングを用いて営業中のインフォーマル企業の母集団の推定値を生成し、第2段階でそれらの企業の特性に関する無作為標本を取得する。
主な用途: すべての要素のサンプリング フレームが利用できない場合は、クラスター サンプリングのみに頼ることができます。
2 段階クラスターサンプリングは、多段階サンプリングの単純な例であり、第 1 段階でクラスターサンプルを選択し、次にサンプルされたすべてのクラスターから要素のサンプルを選択することによって得られます。合計N個のクラスターの母集団を考えます。第 1 段階では、通常のクラスターサンプリング方法を使用してn 個のクラスターが選択されます。第 2 段階では、通常、単純ランダムサンプリングが使用されます。[ 6 ]これはすべてのクラスターで個別に使用され、異なるクラスターから選択される要素の数は必ずしも等しくありません。クラスターの合計数N、選択されたクラスターの数n、および選択されたクラスターからの要素の数は、調査設計者が事前に決定する必要があります。2 段階クラスターサンプリングは、調査コストを最小限に抑えると同時に、対象の推定値に関連する不確実性を制御することを目的としています。[ 7 ]この方法は、健康科学や社会科学で使用できます。たとえば、研究者は 2 段階クラスターサンプリングを使用して、イラク人の代表サンプルを生成し、死亡率調査を実施しました。[ 8 ]この方法によるサンプリングは他の方法よりも迅速かつ信頼性が高いため、現在ではこの方法が頻繁に使用されています。
クラスターサンプリング法は、少数のクラスターを扱う際に大きなバイアスをもたらす可能性がある。例えば、州や都市といった小さく固定された単位でクラスターを分類する必要がある場合がある。パネルデータに対するミクロ計量経済学の手法では、しばしば短いパネルが用いられるが、これはクラスターあたりの観測値が少なく、クラスター数が多いことに類似している。小規模クラスターの問題は、付随的なパラメータ問題とみなすことができる。[ 9 ]点推定値は比較的正確に推定できるが、クラスターあたりの観測値が十分に多い場合、漸近解析が作用するにはクラスター数が必要となる。クラスター数が少ない場合、推定共分散行列は下方にバイアスされる可能性がある。[ 10 ]
クラスター数が少ないことは、シリアル相関がある場合、あるいはモールトンの文脈のようにクラス内相関がある場合にリスクとなる。クラスター数が少ない場合、ランダムショックが発生した際に観測値間のシリアル相関を過小評価する傾向があり、またモールトンの文脈ではクラス内相関を過小評価する傾向がある。[ 11 ]いくつかの研究はシリアル相関の影響を強調し、小規模クラスター問題を強調している。[ 12 ] [ 13 ]
モールトン因子の枠組みにおいて、小規模クラスター問題の直感的な説明は、モールトン因子の式から導き出すことができます。ここでは、簡略化のため、クラスターあたりの観測値はnに固定されているものとします。以下では、はクラスタリングを考慮した共分散行列、 はクラスタリングを考慮していない共分散行列、ρ はクラス内相関を表します。
左側の比率は、調整されていないシナリオが精度をどれだけ過大評価しているかを示しています。したがって、数値が高いということは、推定された共分散行列に強い下方バイアスがあることを意味します。クラスター数が小さい問題は、nが大きいと解釈できます。つまり、データが固定され、クラスター数が少ない場合、クラスター内のデータ数は多くなる可能性があります。したがって、クラスター数が少ない場合、推論は正しいカバレッジを得られないことになります。[ 11 ]
小規模クラスター問題に対する解決策はいくつか提案されている。バイアス補正されたクラスターロバスト分散行列の使用、T分布の調整、あるいはパーセンタイルt法やワイルドブートストラップ法といった漸近的改良を加えたブートストラップ法を用いることで、有限サンプル推論の改善につながる可能性がある。[ 10 ] Cameron、Gelbach、Miller (2008) は、様々な手法のミクロシミュレーションを行い、ワイルドブートストラップ法が少数のクラスターに対して良好なパフォーマンスを示すことを明らかにしている。[ 14 ]