統計学において、確認的因子分析(CFA )は因子分析の特殊な形式であり、社会科学研究で最も一般的に使用されています。[ 1 ]これは、構成概念の測定値が、その構成概念(または因子)の性質に関する研究者の理解と一致しているかどうかをテストするために使用されます。したがって、確認的因子分析の目的は、データが仮説的な測定モデルに適合するかどうかをテストすることです。この仮説モデルは、理論および/または以前の分析研究に基づいています。[ 2 ] CFAは、Jöreskog(1969)[ 3 ]によって最初に開発され、Campbell&Fiske(1959)で説明されているMTMMマトリックスなどの構成妥当性を分析する古い方法に基づいて構築され、置き換えられました。[ 4 ]
検証的因子分析では、研究者はまず、使用する尺度の根底にあると考えられる因子について仮説を立てます(例えば、「うつ病」はベックうつ病評価尺度(Beck Depression Inventory )とハミルトンうつ病評価尺度(Hamilton Rating Scale for Depression )の根底にある因子です)。そして、これらの事前仮説に基づいてモデルに制約を課すことがあります。これらの制約を課すことで、研究者はモデルを自らの理論と整合させることになります。例えば、尺度の共分散を説明する因子が2つあり、これらの因子は互いに無関係であると仮定した場合、研究者は因子Aと因子Bの相関がゼロに制限されるモデルを作成できます。その後、モデル適合度指標を取得し、提案されたモデルがモデル内のすべての項目または尺度間の共分散をどの程度正確に捉えているかを評価することができます。研究者がモデルに課した制約が標本データと矛盾する場合、モデル適合度の統計的検定の結果は適合度が低いことを示し、モデルは棄却されます。適合度が低い場合は、一部の項目が複数の因子を測定していることが原因と考えられます。また、ある要因内の一部の項目は、他の項目よりも相互に関連している可能性もあります。
一部の応用においては、「ゼロ負荷」(特定の因子に負荷をかけない指標)という要件は厳しすぎると考えられてきました。新たに開発された分析手法「探索的構造方程式モデリング」は、観測された指標とその主要な潜在因子(想定されるもの)との関係に関する仮説を特定しつつ、他の潜在因子への負荷の推定も可能にします。[ 5 ]
検証的因子分析において、研究者は通常、観測可能な確率変数のp ×1ベクトルに対する応答を用いて、1つ以上の観測されない変数に値を割り当てることができる程度を研究することに関心を寄せます。この研究は、主に、観測されない潜在変数の側面を把握するために用いられる各項目の負荷量を推定・評価することによって達成されます。つまり、y[i]は観測されない潜在変数によって予測される観測された応答のベクトルであり、以下のように定義されます。
、
ここで、は観測された確率変数のp x 1ベクトル、は観測されない潜在変数、は潜在変数の数に等しいkを持つp x k行列である。 [ 6 ]はの不完全な尺度であるため、モデルは誤差も含む。最大尤度(ML)の場合の推定値は、適合関数を反復的に最小化することによって生成される。
ここで、は提案された因子分析モデルによって暗示される分散共分散行列であり、は観測された分散共分散行列である。[ 6 ]つまり、モデルによって暗示される分散共分散行列と観測された分散共分散行列の差を最小化する自由モデルパラメータの値が求められる。
CFAモデルの推定には数多くのアルゴリズムが用いられてきたが、最尤推定(ML)は依然として主要な推定手法である。[ 7 ]とはいえ、CFAモデルは、有効なML推定のための正規理論の要件から逸脱するデータ条件に適用されることが多い。例えば、社会科学者は、非正規データや離散順序カテゴリを用いて尺度化された指標を用いてCFAモデルを推定することが多い。[ 8 ]そのため、研究者が遭遇する多様なデータ条件に対応する代替アルゴリズムが開発されてきた。代替推定量は、一般的に(1)ロバスト推定量と(2)限定情報推定量の2種類に分類される。[ 9 ]
正規理論の仮定から逸脱したデータを用いてMLを実装すると、CFAモデルは偏ったパラメータ推定値と誤解を招く結論を生成する可能性がある。[ 10 ]ロバスト推定では通常、正規理論モデルのχ2と標準誤差を調整することでこの問題を修正しようとする。 [ 9 ]例えば 、SatorraとBentler(1994)は、通常の方法でML推定を使用し、その後、モデルχ2を多変量尖度の度合いで割ることを推奨している。[ 11 ]ロバストML推定量のもう一つの利点は、一般的なSEMソフトウェア(例:LAVAAN)で利用できることである。[ 12 ]
残念ながら、ロバストなML推定量は、一般的なデータ条件下では維持できなくなる可能性があります。特に、指標が少数の回答カテゴリ(例えば、反対、中立、賛成)を使用して尺度化されている場合、ロバストなML推定量のパフォーマンスは低下する傾向があります。[ 10 ]加重最小二乗法(WLS)などの限定情報推定量は、顕在指標が順序指標の形をとる場合に適した選択肢となる可能性があります。[ 13 ]一般的に、限定情報推定量は、ポリコリック相関を用いてCFAモデルを適合させることで順序指標に注目します。[ 14 ]ポリコリック相関は、2つの潜在変数の分類された形式のみが観測される場合に、それらの間の共分散を捉えます。これは主に閾値パラメータの推定によって達成されます。[ 15 ]
探索的因子分析(EFA)と検証的因子分析(CFA)はどちらも、測定変数の共通分散のうち、因子または潜在的構成概念に起因すると考えられるものを理解するために用いられます。しかし、このような類似点があるにもかかわらず、EFAとCFAは概念的にも統計的にも異なる分析です。
EFA の目標は、データに基づいて因子を識別し、説明される分散の量を最大化することである。[ 16 ]研究者は、いくつの因子が出現するか、これらの因子はどのような項目または変数で構成されるかについて、特定の仮説を持つ必要はない。これらの仮説が存在する場合、統計分析の結果には組み込まれず、影響も及ぼさない。対照的に、CFA は事前仮説を評価し、主に理論によって駆動される。CFA 分析では、研究者は事前に、因子の数、これらの因子が相関しているかどうか、どの項目/尺度がどの因子に負荷され、どの因子を反映するかについて仮説を立てる必要がある。[ 17 ]そのため、すべての負荷量が自由に変更できる探索的因子分析とは対照的に、CFA では、特定の負荷量がゼロであるという明示的な制約が許容される。
EFAは尺度開発の初期段階ではCFAよりも適切であると考えられることが多い。これは、CFAでは仮説外因子への項目の負荷がどの程度であるかが示されないためである。[ 18 ] EFAを初期段階で使用するもう一つの強力な根拠は、尺度開発の初期段階における因子数の誤指定は、通常、確認的因子分析では検出されないということである。尺度開発の後期段階では、確認的手法によって競合する因子構造の明確な対比によって、より多くの情報が得られる可能性がある。[ 18 ]
EFAは、CFAの方がより適切な統計的アプローチである場合でも、研究で報告されることがあります。[ 19 ] CFAは探索的に使用される場合、制約が多く不適切になる可能性があると主張されてきました。[ 20 ]しかし、CFAが単なる「確認的」分析であるという考えは、CFAで使用される修正指標が本質的に探索的であるため、誤解を招く可能性があります。修正指標は、特定の係数が制約されなくなった場合のモデル適合の改善を示します。[ 21 ]同様に、EFAとCFAは相互に排他的な分析である必要はありません。EFAは、適合度の低いCFAモデルの妥当なフォローアップであると主張されてきました。[ 22 ]
構造方程式モデリングソフトウェアは、通常、確認的因子分析を実行するために使用されます。LISREL [ 23 ]、EQS [ 24 ]、AMOS [ 25 ] 、 Mplus [ 26 ]、Jamovi [ 27 ]、およびRのLAVAANパッケージ[ 28 ]は、人気のあるソフトウェアプログラムです。Pythonパッケージsemopy 2もあります。[ 29 ] CFAは、構造方程式モデルで提案された測定モデルを評価するための最初のステップとしても頻繁に使用されます。構造方程式モデリングにおけるモデルの適合性の評価とモデル修正に関する解釈規則の多くは、 CFAにも同様に適用されます。CFAは、潜在因子間に有向矢印がないという点で、構造方程式モデリングと区別されます。言い換えると、CFAでは因子が直接互いの原因であるとは推定されませんが、SEMは特定の因子と変数が本質的に因果関係にあると指定することがよくあります。 SEM の文脈では、CFA はしばしば「測定モデル」と呼ばれ、潜在変数間の関係(有向矢印付き) は「構造モデル」と呼ばれます。
CFA では、モデルがデータにどの程度適合するかを判断するために、いくつかの統計的検定が使用されます。[ 16 ]モデルとデータの適合度が高いということは、モデルが「正しい」ことや、共分散の大部分を説明できることを意味しないことに注意してください。「モデルの適合度が高い」とは、モデルが妥当であることを示すだけです。[ 30 ]確認的因子分析の結果を報告する際には、次の事項を報告することが推奨されます。a) 提案されたモデル、b) 行われた変更、c) 各潜在変数を識別する尺度、d) 潜在変数間の相関、e) 制約が使用されているかどうかなどのその他の関連情報。[ 31 ]報告するモデル適合統計量を選択する際には、最も適合度が高いと推定される統計量を単純に報告するべきではありません (そうしたくなるかもしれませんが)。様々な意見があるものの、Kline(2010)はカイ二乗検定、近似値の二乗平均平方根誤差(RMSEA)、比較適合指数(CFI)、標準化二乗平均平方根残差(SRMR)を報告することを推奨している。[ 1 ]
絶対適合指標は、事前モデルがどの程度データに適合しているか、つまりデータを再現しているかを決定します。[ 32 ]絶対適合指標には、カイ2乗検定、RMSEA、GFI、AGFI、RMR、SRMRなどが含まれますが、これらに限定されません。[ 33 ]
カイ二乗検定は、観測共分散行列と期待共分散行列の差を示します。値がゼロに近いほど適合度が高く、期待共分散行列と観測共分散行列の差が小さいことを示します。[ 21 ]カイ二乗統計は、ネストされたモデルの適合度をデータに直接比較するためにも使用できます。しかし、カイ二乗検定によるモデル適合度の難しさの1つは、研究者が小さなサンプルサイズでは不適切なモデルを棄却できず、大きなサンプルサイズでは適切なモデルを棄却してしまう可能性があることです。[ 21 ]その結果、適合度を測る他の指標が開発されました。
近似値の二乗平均平方根誤差(RMSEA)は、最適に選択されたパラメータ推定値を持つ仮説モデルと母集団共分散行列との間の乖離を分析することで、サンプルサイズの問題を回避します。[ 33 ] RMSEAは0から1の範囲で、値が小さいほどモデルの適合度が高いことを示します。値が0.06以下の場合、モデルの適合度は許容範囲内です。[ 34 ] [ 35 ]
平均二乗根残差(RMR)と標準化平均二乗根残差(SRMR)は、標本共分散行列とモデル共分散行列の乖離度の平方根です。[ 33 ]ただし、RMR の範囲はモデル内の指標の尺度に基づいているため、解釈がやや難しい場合があります(尺度が異なる複数の指標がある場合、たとえば 2 つのアンケートがあり、1 つは 0~10 尺度、もう 1 つは 1~3 尺度の場合など、これは難しくなります)。[ 1 ]標準化平均二乗根残差は、この解釈の難しさを取り除き、0 から 1 の範囲をとり、値が .08 以下の場合は許容可能なモデルであることを示します。[ 34 ]
適合度指数(GFI)は、仮説モデルと観測された共分散行列の適合度を測る指標です。調整適合度指数(AGFI)は、各潜在変数の指標の数によって影響を受けるGFIを補正します。GFIとAGFIは0から1の範囲をとり、0.9を超える値は一般的にモデルの適合度が許容範囲内であることを示します。[ 36 ]
相対適合指数(「増分適合指数」[ 37 ]や「比較適合指数」[ 38 ]とも呼ばれる)は、仮説モデルのカイ二乗を「ヌル」または「ベースライン」モデルのカイ二乗と比較します。[ 32 ]このヌルモデルには、ほとんどの場合、すべての変数が相関していないモデルが含まれており、その結果、カイ二乗が非常に大きくなります(適合度が低いことを示します)。[ 33 ]相対適合指数には、標準化適合指数と比較適合指数があります。
正規化適合指数(NFI)は、仮説モデルのカイ二乗値と帰無モデルのカイ二乗値の乖離を分析します。[ 39 ]しかし、NFIは負に偏る傾向があります。[ 38 ]非正規化適合指数(NNFI; タッカーとルイスが1973年に作成した指数に基づいて構築されたため、タッカー–ルイス指数とも呼ばれます[ 40 ])は、負のバイアスの問題の一部は解決しますが、NNFI値が0〜1の範囲を超える場合があります。[ 38 ] NFIとNNFIの両方の値は0〜1の範囲で、カットオフ値が0.95以上であればモデルの適合性が良好であることを示します。[ 41 ]
比較適合指数(CFI)は、データと仮説モデルとの相違点を調べることでモデルの適合性を解析し、カイ二乗検定[ 21 ]と標準化適合指数[ 38 ]に固有のサンプルサイズの問題を調整します。CFI値の範囲は0から1で、値が大きいほど適合性が高いことを示します。以前は、CFI値が0.90以上であれば、モデルの適合性が許容範囲内であると考えられていました。[ 41 ]しかし、1999年の研究では、誤って指定されたモデルが許容範囲外であるとみなされないようにするためには、0.90を超える値が必要であることが示されました。[ 41 ]したがって、現在ではCFI値が0.95以上であれば、適合性が良好であることを示す指標として受け入れられています。
モデルのパラメータを推定するには、モデルが適切に識別されている必要がある。つまり、推定された(未知の)パラメータの数(q)は、測定変数間の固有の分散と共分散の数(p = p + 1)/2以下でなければならない。この式は「tルール」として知られている。パラメータ推定の根拠となる情報が少なすぎる場合、モデルは識別不足とされ、モデルパラメータを適切に推定することができない。[ 42 ]