調査方法論とは、「調査方法の研究」です。 [ 1 ]応用統計学 の一分野として、人間を対象とした調査に重点を置き、母集団から個々のサンプルを抽出し、それに関連する調査データ収集技術(例えば、質問票の作成方法や、調査への回答数と回答精度を向上させる方法など)を研究します。調査方法論は、回答の有無にかかわらず、1つ以上の質問をする調査機器や手順を対象とします。
研究者は、調査対象となる集団に関する 統計的推論を行うことを目的として統計調査を実施します。こうした推論は、調査に用いられる質問に大きく依存します。世論調査、公衆衛生調査、市場調査、政府調査、国勢調査などは、いずれも、調査手法を用いて集団に関する質問に答える定量的研究の典型例です。国勢調査には「サンプル」は含まれませんが、アンケート、インタビュアー、無回答者追跡調査といった、調査手法の他の側面は含まれています。調査は、マーケティングリサーチ、心理学、交通研究(人や物がどのように空間を移動するかを研究する研究)、医療提供、社会学など、あらゆる公共情報・研究分野にとって重要な情報を提供します。
1 回の調査は、少なくとも 1 つのサンプル (国勢調査の場合は全母集団)、データ収集方法 (アンケートなど)、および統計的に分析できるデータとなる個別の質問または項目から構成されます。1 回の調査では、その目的に応じて、好み (大統領候補に対する好みなど)、意見 (中絶は合法化されるべきか)、行動 (喫煙や飲酒)、事実情報 (収入など) など、さまざまな種類のトピックに焦点を当てることができます。調査研究はほぼ常に母集団のサンプルに基づいているため、研究の成功は、研究者の関心のある対象母集団に対するサンプルの代表性に依存します。その対象母集団は、特定の国の一般人口から、その国内の特定のグループの人、専門組織の会員リスト、学校システムに在籍する生徒のリストまで多岐にわたります (サンプリング (統計)および調査サンプリングも参照)。調査に回答する人は回答者と呼ばれ、質問内容に応じて、回答者は個人、世帯、雇用主、または代表する他の組織を名乗る場合があります。
調査方法論は科学分野として、標本設計、データ収集機器、データの統計的調整、データ処理、最終的なデータ分析に関する、体系的およびランダムな調査誤差を生み出す可能性のある原理を特定しようと努める。調査誤差は調査費用との関連で分析されることもある。費用制約は、費用制約内で品質を向上させること、あるいは一定の品質レベルで費用を削減することとして捉えられることもある。調査方法論は科学分野であると同時に専門職でもあるため、この分野の専門家の中には、調査誤差を経験的に重視する専門家もいれば、誤差を減らすように調査を設計する専門家もいる。調査設計者にとって、調査を改善するために、調査の何千もの個々の特徴について、膨大な数の意思決定を行うことが業務に含まれる。[ 2 ]
調査方法論者にとって最も重要な方法論的課題には、以下の方法を決定することが含まれる。[ 2 ]
サンプルはサンプリングフレーム(通常は人口単位のリスト)から選択されますが、エリアサンプリングではフレームは地理的な単位を示す地図で構成されることもあります。[ 3 ] [ 4 ]
調査の目的は、サンプルではなく、より大きな母集団を記述することです。この一般化能力は、前述のように、サンプルの代表性に依存します。母集団の各メンバーは要素と呼ばれます。代表的なサンプルを選択する際には、頻繁に困難に遭遇します。結果として生じる一般的なエラーの 1 つは、選択バイアスです。選択バイアスは、サンプルを選択するために使用した手順によって、母集団の重要な側面が過剰に代表されたり、十分に代表されなかったりした場合に発生します。たとえば、対象の母集団が女性 75%、男性 25% で構成され、サンプルが女性 40%、男性 60% で構成されている場合、女性は十分に代表されておらず、男性は過剰に代表されています。選択バイアスを最小限に抑えるために、層別ランダム サンプリングがよく使用されます。これは、母集団を層と呼ばれるサブ母集団に分割し、各層からランダム サンプルを抽出するか、サンプルに対して比例ベースで要素を抽出する方法です。
調査を実施する方法はいくつかあります。実施方法の選択は、以下のようないくつかの要因によって左右されます。
調査方法によってモード効果が生まれ、回答者の回答方法に変化が生じます。また、調査方法によって利点も異なります。最も一般的な調査方法は、以下のようにまとめることができます。[ 5 ]
調査研究には、様々なデザイン、あるいは全体構造が用いられます。一般的には、横断研究、連続独立標本研究、縦断研究の3つのタイプがあります。[ 4 ]
横断研究では、関連する集団から1つのサンプル(または複数のサンプル)が抽出され、1回だけ調査されます。[ 4 ]横断研究は、その集団の特定の時点における特徴を記述しますが、予測的かつ相関的なデザインであるため、集団の特徴の原因については一切の洞察を提供することはできません。
逐次独立標本法では、母集団から1回または複数回にわたり複数の無作為標本を抽出します。[ 4 ] この法では母集団内の変化を調査できますが、個人内の変化は調査できません。なぜなら、同じ個人が複数回調査されることはないからです。したがって、このような研究では、必ずしも経時的な変化の原因を特定できるわけではありません。逐次独立標本法が効果的であるためには、標本は同じ母集団から抽出され、母集団を均等に代表するものでなければなりません。標本が比較できない場合、標本間の変化は時間ではなく人口統計学的特性によるものである可能性があります。さらに、回答を直接比較できるように、質問は同じ方法で行う必要があります。
縦断的研究は、複数の時点で同一の無作為標本を測定します。[ 4 ] 逐次独立標本設計とは異なり、この設計では、個々の参加者の回答の経時的な変化を測定します。つまり、研究者は回答者の経験の違いを評価することで、回答の変化の理由を評価できる可能性があります。 [ 6 ]縦断的研究は、離婚など、実験的に検証できない自然発生的な出来事の影響を評価する最も簡単な方法です。
しかし、縦断的研究は費用がかかり、実施も困難です。15分のインタビューよりも数か月または数年に及ぶ研究に参加してくれるサンプルを見つけるのは難しく、参加者は最終評価の前に研究から離れることも少なくありません。さらに、このような研究ではデータ収集を機密または匿名で行う必要がある場合があり、参加者の回答を経時的にリンクすることがさらに困難になります。 1つの潜在的な解決策は、自己生成識別コード(SGIC)の使用です。[ 7 ]これらのコードは通常、「誕生月」や「母親のミドルネームの頭文字」などの要素から作成されます。最近の匿名SGICアプローチには、個人データの使用をさらに最小限に抑え、「最初に飼ったペットの名前」などの質問を使用するものもあります。[ 8 ] [ 9 ] 使用するアプローチによっては、サンプルの一部を一致させる能力が失われる可能性があります。
さらに、参加者の全体的な脱落はランダムではないため、評価を繰り返すにつれてサンプルの代表性が低下する可能性があります。これを考慮するため、研究者は調査から離脱した回答者と離脱しなかった回答者を比較し、統計的に異なる母集団であるかどうかを確認することができます。また、回答者は、調査の回答内容が変更されたにもかかわらず、自己一貫性を保とうとする場合もあります。

アンケートは調査研究において最も一般的に用いられるツールです。しかし、アンケートが適切に作成されていない場合、特定の調査結果は無価値となります。[ 4 ]アンケートは、有効かつ信頼性の高い人口統計学的変数指標を生成する必要があり、また、自己申告尺度によって生成される有効かつ信頼性の高い個人差も生み出す必要があります。[ 4 ]
調査研究で測定されることが多い変数カテゴリーに人口統計学的変数があり、これはサンプルで調査対象となった人々の特性を表すために使用されます。[ 4 ]人口統計学的変数には、民族、社会経済的地位、人種、年齢などの尺度が含まれます。[ 4 ]調査では個人の嗜好や態度を評価することが多く、尺度上に提示されたさまざまな項目に対する人々の意見や判断を測定するために自己報告尺度を採用するものが多くあります。[ 4 ]自己報告尺度は、尺度項目に関する人々の格差を調べるためにも使用されます。[ 4 ]これらの自己報告尺度は通常、質問票の形式で提示され、心理学で最もよく使用される手段の 1 つであるため、尺度は信頼性と妥当性を備えながら、慎重に構築することが重要です。[ 4 ]
自己報告の信頼できる尺度は、その一貫性によって定義されます。[ 4 ]したがって、信頼できる自己報告尺度は、実行されるたびに一貫した結果を生成します。[ 4 ]テストの信頼性はいくつかの方法で測定できます。[ 4 ]まず、再テスト信頼性を計算できます。[ 4 ]再テスト信頼性では、同じアンケートを 2 つの異なる時点で大規模なサンプルに実施します。[ 4 ]アンケートが信頼できると見なされるためには、サンプル内の人々が各テストで同じスコアを獲得する必要はありませんが、スコア分布における位置がテストと再テストの両方で同様である必要があります。[ 4 ]自己報告尺度は、一般的に、構成概念を測定する項目が多いほど信頼性が高くなります。 [ 4 ]さらに、測定される因子がサンプル内のテストされる個人間でより変動が大きいほど、測定値の信頼性が高くなります。[ 4 [ 4 ]対照的に、アンケートは、測定対象が当初測定しようとしていたものと一致している場合に妥当である。[ 4 ]測定尺度の構成妥当性とは、当初測定しようとしていた理論的構成をどの程度測定しているかのことである。[ 4 ]
信頼性と妥当性のある結果を生み出すアンケートを作成するには、6つのステップがあります。[ 4 ]まず、どのような情報を収集するかを決定します。[ 4 ]次に、アンケートの実施方法を決定します。[ 4 ] 3番目に、アンケートの初稿を作成します。[ 4 ] 4番目に、アンケートを修正します。[ 4 ]次に、アンケートを事前テストします。[ 4 ]最後に、アンケートを編集し、その使用手順を指定します。[ 4 ]
質問の言い回しは、調査参加者が質問にどう答えるかに大きな影響を与える可能性があります。[ 4 ]そのため、調査研究者は調査の質問を書く際には言葉遣いを意識する必要があります。[ 4 ]個人、文化、サブカルチャーによって特定の単語やフレーズの解釈が異なり得ることを研究者が念頭に置くことが重要です。[ 4 ]調査研究者がアンケートを書く際に使用する質問には、自由回答式の質問と選択式の質問の 2 種類があります。[ 4 ]自由回答式の質問は自由回答形式ですが、選択式の質問は通常は複数選択です。[ 4 ]自由回答式の質問は、回答者に大きな柔軟性を与えるという利点がありますが、記録や採点が非常に難しく、膨大なコーディングが必要になります。[ 4 ]対照的に、選択式の質問は採点やコーディングが簡単ですが、回答者の表現力や自発性が低下します。[ 4 ]一般に、質問の語彙は非常に単純かつ直接的なもので、ほとんどが 20 語未満であるべきです。[ 4 ] 各質問は「読みやすさ」を考慮して編集し、誘導的な質問や誘導的な質問は避けるべきである。[ 4 ]最後に、1つの概念を測定するために複数の項目が使用されている場合は、回答バイアスを回避するために、一部の項目の文言を逆方向に変更する必要がある。[ 4 ]
自由回答形式の質問に対する回答は、後から回答尺度にコード化したり、[ 5 ]より定性的な方法を用いて分析したりすることができる。
調査研究者は、アンケートの質問の順序を慎重に構築する必要があります。[ 4 ]自己記入式のアンケートの場合、回答者の注意を引くために最も興味深い質問をアンケートの冒頭に配置し、人口統計に関する質問は末尾近くに配置する必要があり[ 4 ]ます。対照的に、電話または直接対面で調査を実施する場合は、回答者の自信を高めるために、人口統計に関する質問をインタビューの冒頭で行う必要があります。[ 4 ]質問の順序を意識するもう 1 つの理由は、プライミングの結果として、1 つの質問が後続の質問への回答に影響を与える可能性がある、調査回答効果を引き起こす可能性があることです。
比較可能な調査データを収集するには、翻訳が不可欠です。アンケートは、英語からスペイン語とドイツ語への翻訳のように、原言語から1つ以上の対象言語に翻訳されます。翻訳プロセスでは、翻訳者、分野別専門家、そしてプロセスを支援する関係者を含むチームアプローチが推奨されます。[ 10 ] [ 11 ]
調査翻訳のベストプラクティスには、対訳、チームディスカッション、そして実社会の人々を対象とした事前テストが含まれます。[ 12 ] [ 13 ]これは機械的な単語配置プロセスではありません。TRAPD(Translation, Review, Adjudication, Pretest, and Documentation)モデルは、もともとヨーロッパ社会調査のために開発されたものですが、現在では「世界中の調査研究コミュニティで広く使用されていますが、必ずしもそのようにラベル付けされたり、完全な形で実装されているわけではありません」。[ 14 ] [ 15 ] [ 10 ]例えば、社会言語学はアンケート翻訳の理論的枠組みを提供し、TRAPDを補完します。このアプローチは、アンケート翻訳が元の言語と同等のコミュニケーション効果を達成するためには、翻訳は対象言語の社会的慣習や文化的規範を取り入れつつ、言語的に適切でなければならないと述べています。[ 16 ]
電話調査や対面調査における無回答率の低減には、次のような方法が推奨されている[ 17 ] 。 [ 18 ]
簡潔さも回答率を高める要因としてしばしば挙げられます。1996年の文献レビューでは、書面調査と口頭調査の両方においてこの主張を裏付ける証拠が複数見つかり、他の要因の方が重要である場合が多いという結論に達しました。[ 20 ] 2010年に10万件のオンライン調査を調査した研究では、回答率が10問で約3%、20問で約6%低下し、低下のペースは緩やかになりました(例えば、40問ではわずか10%の減少)。[ 21 ] 他の研究では、長い調査では回答の質が終盤に向かって低下することが示されています。[ 22 ]
一部の研究者は、受信者の役割や職業が、無回答への対応に影響を与える可能性のある要因として議論しています。例えば、ファックスは調査票の配布にはあまり使用されていませんが、最近の研究では、薬剤師がファックスを好むケースもありました。薬剤師は職場で処方箋をファックスで受け取ることが多いものの、必ずしも宛先が明記された郵便物にアクセスできるとは限らないためです。[ 23 ]
調査方法論者は、インタビュー対象者の回答がインタビュー担当者の身体的特徴によってどの程度影響を受けるかを判断することに多大な努力を払ってきた。調査の回答に影響を与えることが実証されている主なインタビュー担当者の特性は、人種、[ 24 ]性別、[ 25 ] および相対的な体重(BMI)[ 26 ]である。 これらのインタビュー担当者効果は、質問がインタビュー担当者の特性に関連している場合に特に顕著になる。したがって、インタビュー担当者の人種は、人種的態度に関する尺度への回答、[ 27 ] 性別の問題を含む質問に対するインタビュー担当者の性別の回答、[ 28 ] 食事とダイエット関連の質問に対するインタビュー担当者のBMIの回答に影響を与えることがわかっている。[ 29 ] インタビュー担当者効果は、主に対面調査について調査されてきたが、電話調査やビデオを強化したウェブ調査など、視覚的な接触がないインタビュー形式でも存在することが明らかになっている。インタビュアー効果について一般的に説明されるのは、社会的望ましさバイアスです。つまり、調査参加者は、質問をするインタビュアーに帰属する規範に従おうと、肯定的な自己イメージを投影しようとする可能性があります。インタビュアー効果は、調査回答効果の一例です。
2018年以来、調査方法論者は、ビッグデータがどのように調査方法を補完して、研究者や実務者が調査統計の作成とその品質を改善できるかを検討し始めました。ビッグデータはデータポイントあたりのコストが低く、機械学習とデータマイニングによる分析手法を適用し、レジスター、ソーシャルメディア、アプリ、その他の形式のデジタルデータなど、多様で新しいデータソースが含まれます。2018年、2020年、2023年の3回のBig Data Meets Survey Science (BigSurv)会議が開催され、2025年には会議が予定されています。[ 30 ] Social Science Computer Reviewの特別号、[ 31 ] Journal of the Royal Statistical Societyの特別号、[ 32 ] EP J Data Scienceの特別号、[ 33 ] Craig A. Hillと他の5人のアメリカ統計協会フェローが編集したBig Data Meets Social Sciences [ 34 ]という書籍もあります。
[...] 調査方法論とは、調査方法に関する研究です。調査における誤差の原因を研究し、調査によって得られる数値を可能な限り正確にする方法を研究します。