周辺尤度

周辺尤度は、パラメータ空間にわたって積分された尤度関数です。ベイズ統計学では、パラメータのあらゆる可能な値に対して観測サンプルが生成される確率を表します。これはモデル自体の確率として理解できるため、モデルの証拠、あるいは単に証拠と呼ばれることもあります。

パラメータ空間での積分のため、周辺尤度はパラメータに直接依存しません。モデル比較に焦点を合わせない場合、周辺尤度は単に事後分布が適切な確率であることを保証する正規化定数です。これは統計力学における分配関数と関連しています。^{[ 1 ]}

コンセプト

によってパラメータ化された確率分布に従う、独立した同一に分布するデータポイントの集合が与えられます。ここで、それ自体は分布によって記述されるランダム変数です。つまり、一般に周辺尤度は、確率が何であるかを尋ねます。ここで、は周辺化（統合）されています。 $\mathbf {X} =(x_{1},\ldots,x_{n}),$ $x_{i}\sim p(x|\theta )$ $\theta$ $\theta$ $\theta \sim p(\theta \mid \alpha ),$ $p(\mathbf {X} \mid \alpha )$ $\theta$

p(\mathbf {X} \mid \alpha )=\int _{\theta }p(\mathbf {X} \mid \theta )\,p(\theta \mid \alpha )\ \operatorname {d} \!\theta

上記の定義はベイズ統計学の文脈で表現されており、この場合、は事前密度、は尤度と呼ばれます。周辺尤度はベイズ事後密度の正規化定数であることを考慮すると、別の表現も成り立ちます^[²^] $p(\theta \mid \alpha )$ $p(\mathbf {X} \mid \theta )$ $p(\theta \mid \mathbf {X} ,\alpha )$

p(\mathbf {X} \mid \alpha )={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha )}{p(\theta \mid \mathbf {X} ,\alpha )}}

これはにおける恒等式である。周辺尤度は、データと事前分布の一致を、de Carvalho et al. (2019) で明確にされた幾何学的な意味で定量化する。古典的（頻度主義的）統計学では、周辺尤度の概念は、代わりに結合パラメータの文脈で用いられる。ここで、は実際に関心のあるパラメータであり、は関心のない迷惑パラメータである。の確率分布が存在する場合、を周辺化することにより、についてのみ尤度関数を考えることが望ましい場合が多い。 $\theta$ $\theta =(\psi,\lambda)$ $\psi$ $\lambda$ $\lambda$ $\psi$ $\lambda$

{\mathcal {L}}(\psi ;\mathbf {X} )=p(\mathbf {X} \mid \psi )=\int _{\lambda }p(\mathbf {X} \mid \lambda ,\psi )\,p(\lambda \mid \psi )\ \operatorname {d} \!\lambda

残念ながら、周辺尤度は一般的に計算が困難です。厳密な解は、特に周辺化パラメータがデータの分布の共役事前分布である場合、限られた分布のクラスに対してのみ得られます。それ以外の場合には、ガウス積分やモンテカルロ法などの一般的な手法、あるいはラプラス近似、ギブス/メトロポリスサンプリング、EMアルゴリズムなどの統計問題に特化した手法など、何らかの数値積分法が必要になります。

上記の考察を、観測値の集合ではなく、単一の確率変数（データポイント）に適用することも可能です。ベイズ統計の文脈では、これはデータポイントの事前予測分布に相当します。 $x$

アプリケーション

ベイズモデルの比較

ベイズモデルの比較において、周辺化変数は特定の種類のモデルのパラメータであり、残りの変数はモデル自体のアイデンティティです。この場合、周辺化尤度は、特定のモデルパラメータを仮定せずに、モデルの種類を与えられたデータの確率です。モデルパラメータについて書くと、モデルMの周辺尤度は次のようになります。 $\theta$ $M$ $\theta$

p(\mathbf {X} \mid M)=\int p(\mathbf {X} \mid \theta ,M)\,p(\theta \mid M)\,\operatorname {d} \!\theta

この文脈において、「モデル証拠」という用語が通常用いられます。この量は、モデルM ₁と別のモデルM _{2の事後オッズ比が}ベイズ係数と呼ばれる周辺尤度の比を含むため重要です。

{\frac {p(M_{1}\mid \mathbf {X} )}{p(M_{2}\mid \mathbf {X} )}}={\frac {p(M_{1})}{p(M_{2})}}\,{\frac {p(\mathbf {X} \mid M_{1})}{p(\mathbf {X} \mid M_{2})}

これは概略的に次のように述べられる。

事後オッズ= 事前オッズ ×ベイズ係数

参照

参考文献

^ Šmídl, Václav; Quinn, Anthony (2006). 「ベイズ理論」.信号処理における変分ベイズ法. Springer. pp. 13– 23. doi : 10.1007/3-540-28820-1_2 .
^ Chib, Siddhartha (1995). 「ギブス出力からの周辺尤度」アメリカ統計学会誌. 90 (432): 1313– 1321. doi : 10.1080/01621459.1995.10476635 .

さらに読む

Charles S. Bos. 「周辺尤度計算手法の比較」 W. HärdleおよびB. Ronz編『COMPSTAT 2002: Proceedings in Computational Statistics』pp. 111–117. 2002. ( SSRN 332860でプレプリントとして入手可能)
de Carvalho, Miguel; Page, Garritt; Barney, Bradley (2019). 「ベイズ推論の幾何学について」ベイズ分析. 14 (4): 1013‒1036. (プレプリントとしてウェブ上で入手可能: [1] )
ランバート、ベン (2018). 「悪魔は分母の中にいる」ベイズ統計学学生ガイド. Sage. pp. 109– 120. ISBN 978-1-4739-1636-4。
オンライン教科書: David JC MacKay著『情報理論、推論、学習アルゴリズム』。

[1] Šmídl, Václav; Quinn, Anthony (2006). 「ベイズ理論」.信号処理における変分ベイズ法. Springer. pp. 13– 23. doi : 10.1007/3-540-28820-1_2 .

[2] Chib, Siddhartha (1995). 「ギブス出力からの周辺尤度」アメリカ統計学会誌. 90 (432): 1313– 1321. doi : 10.1080/01621459.1995.10476635 .

[ 1 ]

[