ベイズ情報量基準

統計学において、ベイズ情報量基準BIC)またはシュワルツ情報量基準SICSBCSBICとも呼ばれる)は、有限のモデル集合からモデルを選択するための基準であり、一般的にBICが低いモデルが好まれる。これは尤度関数に一部基づいており、赤池情報量基準(AIC)と密接に関連している。

モデルをフィッティングする際に、パラメータを追加することで最大尤度を高めることは可能ですが、過剰適合を引き起こす可能性があります。BICとAICはどちらも、モデル内のパラメータ数に対するペナルティ項を導入することでこの問題を解決しようとします。サンプルサイズが7を超える場合、BICのペナルティ項はAICよりも大きくなります。[ 1 ]

BICはギデオン・E・シュワルツによって開発され、ベイズ係数の大規模サンプル近似として1978年の論文[ 2 ]で発表されました。

意味

BICは正式には次のように定義される[ 3 ] [ a ]

BClnn2lnL^ {\displaystyle \mathrm {BIC} =k\ln(n)-2\ln({\widehat {L}}).\ }

どこ

  • L^{\displaystyle {\hat {L}}}=モデルの尤度関数の最大値、すなわち、ここで は尤度関数を最大化するパラメータ値であり、は観測データである。M{\displaystyle M}L^p×θ^M{\displaystyle {\hat {L}}=p(x\mid {\widehat {\theta }},M)}{θ^}{\displaystyle \{{\widehat {\theta }}\}}×{\displaystyle x}
  • n{\displaystyle n}= のデータポイントの数、観測値の数、またはそれと同等のサンプルサイズ。×{\displaystyle x}
  • {\displaystyle k}= モデルによって推定されるパラメータの数。例えば、重回帰分析では、推定されるパラメータは切片、傾きパラメータ、および誤差の定数分散であるため、 となります。q{\displaystyle q}q+2{\displaystyle k=q+2}

導出

BICは、以下のモデルの証拠から始めて、ラプラス法を用いてモデルのパラメータを積分することによって導くことができる:[ 5 ] [ 6 ]:217

p×Mp×θMπθMdθ{\displaystyle p(x\mid M)=\int p(x\mid \theta ,M)\pi (\theta \mid M)\,d\theta }

ここで、 はモデルの事前分布です。 πθM{\displaystyle \pi (\theta \mid M)}θ{\displaystyle \theta}M{\displaystyle M}

次に、対数尤度 は、次のように2回微分可能であると仮定して、 MLEに関する2次テイラー級数に展開されます。lnp×θM{\displaystyle \ln(p(x\mid \theta ,M))}θ^{\displaystyle {\ワイドハット {\シータ }}}

lnp×θMlnL^n2θθ^Tθ^θθ^+R×θ{\displaystyle \ln(p(x\mid \theta ,M))=\ln({\widehat {L}})-{\frac {n}{2}}(\theta -{\widehat {\theta }})^{\operatorname {T} }{\mathcal {I}}({\widehat {\theta }})(\theta -{\widehat {\theta }})+R(x,\theta ),}

ここで、は観測値 あたりの平均観測情報であり、は残差項を表します。が無視でき、付近で比較的線形である限り、 を積分して以下の式を得ることができます。 θ{\displaystyle {\mathcal {I}}(\theta )}R×θ{\displaystyle R(x,\theta )}R×θ{\displaystyle R(x,\theta )}πθM{\displaystyle \pi (\theta \mid M)}θ^{\displaystyle {\ワイドハット {\シータ }}}θ{\displaystyle \theta}

p×ML^2πn2|θ^|12πθ^{\displaystyle p(x\mid M)\approx {\hat {L}}{\left({\frac {2\pi}{n}}\right)}^{\frac {k}{2}}|{\mathcal {I}}({\widehat {\theta }})|^{-{\frac {1}{2}}}\pi ({\widehat {\theta }})}

が増加するにつれて、とは無視できる。したがって、 n{\displaystyle n}|θ^|{\displaystyle |{\mathcal {I}}({\widehat {\theta }})|}πθ^{\displaystyle \pi ({\widehat {\theta }})}1{\displaystyle O(1)}

p×M経験lnL^2lnn+1経験BC2+1{\displaystyle p(x\mid M)=\exp \left(\ln {\widehat {L}}-{\frac {k}{2}}\ln(n)+O(1)\right)=\exp \left(-{\frac {\mathrm {BIC} }{2}}+O(1)\right),}

ここで、BICは上記のように定義され、(a)はベイズ事後分布モード、または(b)は最尤推定値を使用し、かつ事前分布は最尤推定値において非ゼロの傾きを持つ。この場合、事後分布は L^{\displaystyle {\widehat {L}}}π(θM){\displaystyle \pi (\theta \mid M)}

p(Mx)p(xM)p(M)exp(BIC2)p(M){\displaystyle p(M\mid x)\propto p(x\mid M)p(M)\approx \exp \left(-{\frac {\mathrm {BIC} }{2}}\right)p(M)}

使用

複数のモデルから選択する場合、一般的にBIC値の低いモデルが優先されます。BICは誤差分散の増加関数であり、かつkの増加関数です。つまり、従属変数および説明変数の数に説明できない変動があると、BIC値は増加します。しかし、BICが低いからといって、必ずしもあるモデルが他のモデルよりも優れているとは限りません。BICは近似値を含むため、単なるヒューリスティックです。特に、BICの差は、変換されたベイズ係数のように扱うべきではありません。 σe2{\displaystyle \sigma _{e}^{2}}

BICは、従属変数[ b ]の数値が比較対象となるすべてのモデルで同一である場合にのみ、推定モデルの比較に使用できることに留意することが重要です。F検定尤度比検定を用いてモデルを比較する場合とは異なり、比較対象となるモデルは入れ子構造である必要はありません。

プロパティ

制限事項

BICには2つの主な限界がある[ 7 ]

  1. 上記の近似は、モデル内のパラメータの数よりもはるかに大きいサンプル サイズの場合にのみ有効です。n{\displaystyle n}k{\displaystyle k}
  2. BICは高次元の変数選択(または特徴選択)問題のような複雑なモデルの集合を扱うことができない。 [ 7 ]

ガウスの特殊ケース

モデルの誤差や擾乱が独立しており、正規分布に従って同一に分布し、真の分散に関する対数尤度の微分がゼロであるという境界条件の下では、これは次のようになる(加法定数まで、これはnのみに依存し、モデルには依存しない):[ 8 ]

BIC=nln(σe2^)+kln(n) {\displaystyle \mathrm {BIC} =n\ln({\widehat {\sigma _{e}^{2}}})+k\ln(n)\ }

ここで、誤差分散である。この場合の誤差分散は次のように定義される。 σe2^{\displaystyle {\widehat {\sigma _{e}^{2}}}}

σe2^=1ni=1n(xix^i)2.{\displaystyle {\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\widehat {x}}_{i})^{2}.}

これは真の分散に対する偏った推定値です

残差平方和(RSS)の観点から見ると、BICは

BIC=nln(RSS/n)+kln(n) {\displaystyle \mathrm {BIC} =n\ln({\text{RSS}}/n)+k\ln(n)\ }

複数の線形モデルを飽和モデルに対してテストする場合、BICは 逸脱の観点 から次のように書き直すことができる。[ 9 ]χ2{\displaystyle \chi ^{2}}

BIC=χ2+kln(n){\displaystyle \mathrm {BIC} =\chi ^{2}+k\ln(n)}

ここで、テスト内のモデルパラメータの数です。 k{\displaystyle k}

参照

注記

  1. ^ ClaeskensとHjort [ 4 ]によって定義されたAIC、AICc、BICは、この記事や他のほとんどの標準的な参考文献で定義されているものの逆です。
  2. ^従属変数は応答変数または結果変数とも呼ばれます。回帰分析を参照してください。

参考文献

  1. ^レビュー論文を参照: Stoica, P.; Selen, Y. (2004)、「モデル順序選択: 情報基準ルールのレビュー」、IEEE Signal Processing Magazine (7月): 36– 47、doi : 10.1109/MSP.2004.1311138S2CID  17338979
  2. ^ Schwarz, Gideon E. (1978)、「モデルの次元の推定」、Annals of Statistics6 (2): 461– 464、doi : 10.1214/aos/1176344136MR 0468014 
  3. ^ウィット、エルンスト;エドウィン・ファン・デン・フーベル。ジャン=ウィレム・ロミン(2012)。「『すべてのモデルは間違っている...』:モデル不確実性への入門」(PDF)。Statistica Neerlandica。66(3):217– 236。doi :10.1111/j.1467-9574.2012.00530.x。S2CID 7793470。 2020年7月26日にオリジナル(PDF)からアーカイブ。 2019年12月11閲覧 
  4. ^ Claeskens, G. ; Hjort, NL (2008)、「モデル選択とモデル平均化」ケンブリッジ大学出版局
  5. ^ Raftery, AE (1995). 「社会調査におけるベイズモデル選択」.社会学的方法論. 25 : 111–196 . doi : 10.2307/271063 . JSTOR 271063 . 
  6. ^小西貞則;北川源四郎(2008)。情報基準と統計モデリング。スプリンガー。ISBN 978-0-387-71886-6
  7. ^ a b Giraud, C. (2015).高次元統計入門. Chapman & Hall/CRC. ISBN 9781482237948
  8. ^プリーストリー、MB(1981年)『スペクトル解析と時系列アカデミック・プレスISBN 978-0-12-564922-3(375ページ)。
  9. ^ Kass, Robert E.; Raftery, Adrian E. (1995)、「ベイズ係数」、アメリカ統計学会誌90 (430): 773– 795、doi : 10.2307/2291091ISSN 0162-1459JSTOR 2291091  

さらに読む