対数線形分析

対数線形分析は、統計学において2つ以上のカテゴリ変数間の関係性を分析する手法です。この手法は仮説検定とモデル構築の両方に用いられます。どちらの場合も、観測頻度の分散を最もよく説明する最も簡潔な（つまり、最も複雑でない）モデルを見つけるためにモデルを検定します。（対数線形分析の代わりにピアソンのカイ二乗検定を用いることもできますが、この手法では一度に2つの変数しか比較できません。^{[ 1 ]}）

フィッティング基準

対数線形分析では、サンプルサイズが大きい場合に近似的にカイ二乗分布を示す尤度比統計量を使用する： ^[²^] $\mathrm {X} ^{2}$

\mathrm {X} ^{2}=2\sum O_{ij}\ln {\frac {O_{ij}}{E_{ij}}},

どこ

\ln =

自然対数;

O_{ij}=

_セルijの観測頻度（i = 行、j = 列）

E_{ij}=

_セルijの予想頻度。

\mathrm {X} ^{2}=

モデル^の逸脱[ ^{3 ]}

仮定

対数線形分析には3つの仮定がある: ^{[ 2 ]}

1. 観測結果は独立かつランダムである。

2. 観測頻度は、繰り返しサンプル全体にわたって期待頻度の周囲に正規分布する。これは、(a) 期待頻度がカテゴリーの80%以上で5以上であり、かつ (b) すべての期待頻度が1より大きい場合、良好な近似値である。この仮定に反する場合には、検出力が大幅に低下する。この仮定に反する場合には、変数を削除する、1つの変数の水準を結合する（例：男性と女性を一緒にする）、またはより多くのデータを収集することが推奨される。

3. 応答変数の期待値の対数は、説明変数の線形結合である。この仮定は非常に基本的なため、ほとんど言及されないが、線形性の仮定の多くと同様に、正確であることは稀であり、扱いやすいモデルを得るために単純に仮定されていることが多い。

さらに、データは常にカテゴリカルである必要があります。連続データは、ある程度の情報損失を伴いますが、まずカテゴリカルデータに変換できます。連続データとカテゴリカルデータの両方を使用する場合、ロジスティック回帰を使用するのが最適です。（対数線形分析で分析されたデータは、ロジスティック回帰でも分析できます。選択する手法は、研究課題によって異なります。）

変数

対数線形分析では、どの変数が独立変数でどの変数が従属変数であるかを明確に区別することはできません。どちらの変数も同じように扱われます。しかし、多くの場合、変数の理論的背景によっては、独立変数または従属変数のいずれかとして解釈されることがあります。^{[ 1 ]}

モデル

対数線形分析の目的は、データを最もよく説明するためにどのモデル構成要素を保持する必要があるかを判断することです。モデル構成要素とは、モデル内の主効果と交互作用の数です。例えば、変数A、変数B、変数Cの3つの変数の関係を調べる場合、飽和モデルには7つのモデル構成要素があります。3つの主効果（A、B、C）、3つの2元交互作用（AB、AC、BC）、そして1つの3元交互作用（ABC）が、7つのモデル構成要素となります。

対数線型モデルは、最も単純なモデルと飽和モデルという2つの極を持つ連続体であると考えることができる。最も単純なモデルとは、すべての期待度数が等しいモデルである。これは、変数に関連がない場合に当てはまる。飽和モデルとは、すべてのモデル要素を含むモデルである。このモデルは常にデータを最もよく説明するが、すべてが含まれているため最も簡潔ではない。このモデルでは、観測度数は期待度数に等しいため、尤度比カイ2乗統計量では、比率ととなる。この結果、尤度比カイ2乗統計量は0に等しくなり、これが最も適合したモデルとなる。^[²^]その他の考えられるモデルとしては、条件付き等確率モデルと相互依存モデルがある。^[¹^] ${\frac {O_{ij}}{E_{ij}}}=1$ $\ln(1)=0$

それぞれの対数線形モデルは対数線形方程式として表すことができます。例えば、3つの変数（A、B、C）を持つ飽和モデルは、以下の対数線形方程式を持ちます。^{[ 1 ]}

\ln(F_{ijk})=\lambda +\lambda _{i}^{A}+\lambda _{j}^{B}+\lambda _{k}^{C}+\lambda _{ij}^{AB}+\lambda _{ik}^{AC}+\lambda _{jk}^{BC}+\lambda _{ijk}^{ABC},\,

どこ

F_{ijk}=

_セルijk内の期待頻度;

\lambda =

各変数の相対的な重み。

階層モデル

対数線型分析モデルは、階層型と非階層型があります。階層型モデルが最も一般的です。これらのモデルには、検討対象となるすべての低次の交互作用と、その交互作用の主効果が含まれます。^{[ 1 ]}

グラフィカルモデル

対数線形モデルがグラフィカルであるとは、モデルが高次の交互作用によって生成されたすべての2因子項を含む場合、その高次の交互作用も含むことを意味する。^{[ 4 ]}グラフィカルモデルは、その直接的な帰結として階層的である。さらに、グラフィカルモデルは2因子項によって完全に決定されるため、無向グラフで表すことができる。グラフの頂点は変数を表し、辺はモデルに含まれる2因子項を表す。

分解可能なモデル

対数線形モデルは、グラフィカルであり、対応するグラフが弦である場合に分解可能です。

モデルの適合

残差（すなわち、観測頻度と期待頻度の比）が0に近い場合、モデルの適合度は良好です。つまり、観測頻度が期待頻度に近いほど、モデルの適合度は良好です。尤度比カイ二乗統計量が有意でない場合、モデルの適合度は良好です（すなわち、計算された期待頻度は観測頻度に近いです）。尤度比カイ二乗統計量が有意である場合、モデルの適合度は良好ではありません（すなわち、計算された期待頻度は観測頻度に近くありません）。

後方消去法は、データを最もよく説明するためにどのモデル要素を保持する必要があるかを決定するために使用されます。対数線形分析は飽和モデルから開始し、モデルがデータに正確に適合しなくなるまで、最も高次の交互作用を除去します。具体的には、各段階で最も高次の交互作用を除去した後、尤度比カイ二乗統計量が計算され、モデルがデータにどの程度適合しているかを測定します。尤度比カイ二乗統計量が有意になった時点で、最も高次の交互作用は除去されなくなります。^{[ 2 ]}

モデルの比較

2つのモデルがネストされている場合、カイ二乗差検定を用いてモデルを比較することもできます。カイ二乗差検定は、比較対象となる2つのモデルの尤度比カイ二乗統計量を差し引くことで計算されます。この値は、自由度の差におけるカイ二乗臨界値と比較されます。カイ二乗差がカイ二乗臨界値よりも小さい場合、新しいモデルはデータに有意によく適合しており、そのモデルが優先されます。カイ二乗差が臨界値よりも大きい場合、より簡素なモデルが優先されます。^{[ 1 ]}

フォローアップテスト

最も適合度の高いモデルが決定されたら、変数の1つについて異なる水準でカイ二乗分析を行い、最も高い次の交互作用を検証する。カイ二乗分析を行うには、モデルを2×2または2×1の分割表に分解する必要がある。^{[ 2 ]}

たとえば、4 つの変数間の関係を調べていて、最も適合するモデルに 3 元相互作用の 1 つが含まれている場合、3 番目の変数のさまざまなレベルでの単純な 2 元相互作用を調べることになります。

効果サイズ

変数間の相互作用の効果量を比較するために、オッズ比が用いられる。オッズ比はカイ二乗統計よりも好まれるが、その主な理由は以下の2つである。^{[ 1 ]}

1. オッズ比はサンプルサイズに依存しません。

2. オッズ比は不等周辺分布の影響を受けません。

ソフトウェア

少数の変数を持つデータセットの場合 - 一般的な対数線形モデル

MASSパッケージのloglm関数を使用したR（チュートリアルを参照）
GENLOGプロシージャを使用したIBM SPSS Statistics (使用方法)

数百の変数を持つデータセットの場合 – 分解可能なモデル

脊索解離^{[ 5 ]}

参照

参考文献

^ ^a ^b ^c ^d ^e ^f ^gハウエル, DC (2009).心理学のための統計的手法（第7版） . ベルモット, カリフォルニア州: Cengage Learning . pp. 630– 655.
^ ^a ^b ^c ^d ^e Field, A. (2005). Discovering Statistics using SPSS (第2版) . Thousand Oaks, CA: SAGE Publications . pp. 695–718 . ISBN 9780761944515。
^アグレスティ, アラン (2007). 『カテゴリーデータ分析入門（第2版）』ホーボーケン, ニュージャージー:ワイリー・インターサイエンス. p. 212. doi : 10.1002/0470114754 . ISBN 978-0-471-22618-5。
^ Christensen, R. (1997).対数線形モデルとロジスティック回帰（第2版） . Springer.
^ Petitjean, F.; Webb, GI; Nicholson, AE (2013).高次元データへの対数線形分析のスケーリング(PDF) . 国際データマイニング会議. ダラス, テキサス州, 米国: IEEE. pp. 597– 606.

さらに読む

対数線形モデル
Simkiss, D.; Ebrahim, GJ; Waterston, AJR (編)「第14章カテゴリカルデータの分析：対数線形解析」。Journal of Tropical Pediatrics 、オンライン版のみ、「研究方法 II：多変量解析」（pp. 144–153）。2012年5月、http://www.oxfordjournals.org/tropej/online/ma_chap14.pdfより取得。
Pugh, MD (1983). 「寄与的過失と強姦の有罪判決：被害者非難のための対数線形モデル」社会心理学季刊誌、 46、233-242。JSTOR 3033794
Tabachnick, BG, Fidell, LS (2007). 『多変量統計の利用』（第5版）.ニューヨーク：Allyn and Bacon.

[Howell-1] ^ ^a ^b ^c ^d ^e ^f ^gハウエル, DC (2009).心理学のための統計的手法（第7版） . ベルモット, カリフォルニア州: Cengage Learning . pp. 630– 655.

[Field-2] Field, A. (2005). Discovering Statistics using SPSS (第2版) . Thousand Oaks, CA: SAGE Publications . pp. 695–718 . ISBN 9780761944515。

[Agresti-3] アグレスティ, アラン (2007). 『カテゴリーデータ分析入門（第2版）』ホーボーケン, ニュージャージー:ワイリー・インターサイエンス. p. 212. doi : 10.1002/0470114754 . ISBN 978-0-471-22618-5。

[Christensen-4] Christensen, R. (1997).対数線形モデルとロジスティック回帰（第2版） . Springer.

[Petitjean-5] Petitjean, F.; Webb, GI; Nicholson, AE (2013).高次元データへの対数線形分析のスケーリング(PDF) . 国際データマイニング会議. ダラス, テキサス州, 米国: IEEE. pp. 597– 606.

[ 1 ]

[

の

[ 4 ]

[ 5 ]