統計学において、潜在クラスモデル(LCM )は、多変量離散データをクラスタリングする ためのモデルです。このモデルでは、データが離散分布の混合から生じ、それぞれの分布内で変数が独立していると仮定します。各データポイントが属するクラスが観測されない(潜在的である)ため、潜在クラスモデルと呼ばれます。
潜在クラス分析(LCA )は、多変量カテゴリデータにおける事例のグループまたはサブタイプを見つけるために使用される構造方程式モデリングのサブセットです。これらの事例のグループまたはサブタイプは「潜在クラス」と呼ばれます。[ 1 ] [ 2 ]
次のような状況に直面した場合、研究者はデータをより深く理解するために LCA を使用することを選択するかもしれません:病気 X、Y、Z と診断されたさまざまな患者で症状a、b、c、d が記録されています。病気X は症状 a、b、c と関連しており、病気 Y は症状 b、c、d にリンクしており、病気 Z は症状 a、c、d に接続しています。
この文脈において、LCAは潜在クラス(すなわち疾患実体)の存在を検出し、症状における関連パターンを作成しようとします。因子分析と同様に、LCAは最大尤度クラス所属確率に基づいて症例を分類するためにも使用できます。 [ 1 ] [ 3 ]
LCAを解決するための重要な基準は、観察された症状の関連性が実質的に無効化される潜在クラスを特定することです。これは、各クラス内で、症状の原因となる疾患が依存関係の構造を形成するためです。その結果、症状は条件付き独立となり、症例が属するクラスを前提とすれば、症状はもはや互いに関連しなくなります。[ 1 ]
各潜在クラス内において、観測変数は統計的に独立しています。これは潜在クラスモデリングの重要な側面です。通常、観測変数は統計的に従属関係にあります。潜在変数を導入することで、クラス内で変数が独立しているという意味で独立性が回復されます(局所独立性)。したがって、観測変数間の関連性は、潜在変数のクラスによって説明されます(McCutcheon, 1987)。
ある形式では、LCMは次のように記述されます。
ここで、は潜在クラスの数であり、は合計が 1 になる、いわゆる採用確率または無条件確率です。は周辺確率または条件付き確率です。
双方向潜在クラスモデルの場合、形式は次のようになる。
この双方向モデルは、確率的潜在意味解析と非負値行列分解に関連しています。
LCAで使用される確率モデルは、ナイーブベイズ分類器と密接に関連しています。主な違いは、LCAでは個体のクラス所属が潜在変数であるのに対し、ナイーブベイズ分類器ではクラス所属が観測ラベルである点です。
共通の関係を共有する、異なる名前と用途を持つ多くの手法があります。クラスター分析は、LCA と同様に、データ内の分類群のようなケースのグループを発見するために使用されます。多変量混合推定(MME) は連続データに適用でき、男性と女性の混合から生じる身長のセットなど、分布の混合からデータが生じたと想定します。多変量混合推定が、各分布内で測定値が無相関でなければならないという制約がある場合、潜在プロファイル分析と呼ばれます。離散データに対応できるように変更されたこの制約分析は、LCA として知られています。離散潜在特性モデルは、クラスが単一の次元のセグメントから形成されるようにさらに制約し、その次元に基づいてメンバーをクラスに割り当てます。例としては、能力やメリットに基づいてケースを社会階級に割り当てることが挙げられます。
実際の例としては、変数は政治に関するアンケートの多肢選択式項目である可能性があります。この場合、データは複数の回答者による項目への回答を含むN元分割表で構成されます。この例では、潜在変数は政治的意見、潜在クラスは政治団体を表します。団体への所属が与えられた場合、条件付き確率は特定の回答が選択される確率を指定します。
LCAは、協調フィルタリング[ 4 ] 、行動遺伝学[ 5 ]、診断テストの評価[ 6 ]など、多くの分野で使用することができます。
{{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク){{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク)