ベイズ情報量基準

統計学において、ベイズ情報量基準（BIC）またはシュワルツ情報量基準（SIC、SBC、SBICとも呼ばれる）は、有限のモデル集合からモデルを選択するための基準であり、一般的にBICが低いモデルが好まれる。これは尤度関数に一部基づいており、赤池情報量基準（AIC）と密接に関連している。

モデルをフィッティングする際に、パラメータを追加することで最大尤度を高めることは可能ですが、過剰適合を引き起こす可能性があります。BICとAICはどちらも、モデル内のパラメータ数に対するペナルティ項を導入することでこの問題を解決しようとします。サンプルサイズが7を超える場合、BICのペナルティ項はAICよりも大きくなります。^{[ 1 ]}

BICはギデオン・E・シュワルツによって開発され、ベイズ係数の大規模サンプル近似として1978年の論文^{[ 2 ]}で発表されました。

意味

BICは正式には次のように定義される^{[ 3 ]}^{[ a ]}

\mathrm {BIC} =k\ln(n)-2\ln({\widehat {L}}).\

どこ

${\hat {L}}$ =モデルの尤度関数の最大値、すなわち、ここでは尤度関数を最大化するパラメータ値であり、は観測データです。 $M$ ${\hat {L}}=p(x\mid {\widehat {\theta }},M)$ $\{{\widehat {\theta }}\}$ $x$
$n$ = のデータポイントの数、観測値の数、またはそれと同等のサンプルサイズ。 $x$
$k$ = モデルによって推定されるパラメータの数。例えば、重回帰分析では、推定されるパラメータは切片、傾きパラメータ、および誤差の定数分散であるため、となります。 $q$ $k=q+2$

導出

BICは、以下のモデルの証拠から始めて、ラプラス法を用いてモデルのパラメータを積分することによって導くことができる：^[⁵^]^[⁶^]^：217

p(x\mid M)=\int p(x\mid \theta ,M)\pi (\theta \mid M)\,d\theta

ここで、はモデルの事前分布です。 $\pi (\theta \mid M)$ $\theta$ $M$

次に、対数尤度は、次のように2回微分可能であると仮定して、 MLEに関する2次テイラー級数に展開されます。 $\ln(p(x\mid \theta ,M))$ ${\ワイドハット {\シータ }}$

\ln(p(x\mid \theta ,M))=\ln({\widehat {L}})-{\frac {n}{2}}(\theta -{\widehat {\theta }})^{\operatorname {T} }{\mathcal {I}}({\widehat {\theta }})(\theta -{\widehat {\theta }})+R(x,\theta ),

ここで、は観測値あたりの平均観測情報であり、は残差項を表します。が無視でき、付近で比較的線形である限り、を積分して以下の式を得ることができます。 ${\mathcal {I}}(\theta )$ $R(x,\theta )$ $R(x,\theta )$ $\pi (\theta \mid M)$ ${\ワイドハット {\シータ }}$ $\theta$

p(x\mid M)\approx {\hat {L}}{\left({\frac {2\pi}{n}}\right)}^{\frac {k}{2}}|{\mathcal {I}}({\widehat {\theta }})|^{-{\frac {1}{2}}}\pi ({\widehat {\theta }})

が増加するにつれて、とは無視できる。したがって、 $n$ $|{\mathcal {I}}({\widehat {\theta }})|$ $\pi ({\widehat {\theta }})$ $O(1)$

p(x\mid M)=\exp \left(\ln {\widehat {L}}-{\frac {k}{2}}\ln(n)+O(1)\right)=\exp \left(-{\frac {\mathrm {BIC} }{2}}+O(1)\right),

ここで、BICは上記のように定義され、(a)はベイズ事後分布モード、または(b)は最尤推定値を使用し、かつ事前分布は最尤推定値において非ゼロの傾きを持つ。この場合、事後分布は ${\widehat {L}}$ $\pi (\theta \mid M)$

p(M\mid x)\propto p(x\mid M)p(M)\approx \exp \left(-{\frac {\mathrm {BIC} }{2}}\right)p(M)

使用

複数のモデルから選択する場合、一般的にBIC値の低いモデルが優先されます。BICは誤差分散の増加関数であり、かつkの増加関数です。つまり、従属変数および説明変数の数に説明できない変動があると、BIC値は増加します。しかし、BICが低いからといって、必ずしもあるモデルが他のモデルよりも優れているとは限りません。BICは近似値を含むため、単なるヒューリスティックです。特に、BICの差は、変換されたベイズ係数のように扱うべきではありません。 $\sigma _{e}^{2}$

^{BICは、従属変数[ b ]}の数値が比較対象となるすべてのモデルで同一である場合にのみ、推定モデルの比較に使用できることに留意することが重要です。F検定や尤度比検定を用いてモデルを比較する場合とは異なり、比較対象となるモデルは入れ子構造である必要はありません。

プロパティ

BIC は一般に、赤池情報量基準よりも自由パラメータに対してより強いペナルティを課しますが、これはnのサイズとnと kの相対的な大きさに依存します。
それは事前のものから独立しています。
データの予測という観点から、パラメータ化されたモデルの効率を測定できます。
これはモデルの複雑さにペナルティを課します。複雑さはモデル内のパラメータの数を指します。
これは、最小記述長基準とほぼ等しくなりますが、負の符号が付きます。
特定のデータセットに存在する固有の複雑さに応じてクラスターの数を選択するために使用できます。
これは、逸脱情報量基準や赤池情報量基準などの他のペナルティ付き尤度基準と密接に関連しています。

制限事項

BICには2つの主な限界がある^{[ 7 ]}

上記の近似は、モデル内のパラメータの数よりもはるかに大きいサンプルサイズの場合にのみ有効です。 $n$ $k$
BICは高次元の変数選択（または特徴選択）問題のような複雑なモデルの集合を扱うことができない。 ^{[ 7 ]}

ガウスの特殊ケース

モデルの誤差や擾乱が独立しており、正規分布に従って同一に分布し、真の分散に関する対数尤度の微分がゼロであるという境界条件の下では、これは次のようになる（加法定数まで、これはnのみに依存し、モデルには依存しない）：^{[ 8 ]}

\mathrm {BIC} =n\ln({\widehat {\sigma _{e}^{2}}})+k\ln(n)\

ここで、誤差分散である。この場合の誤差分散は次のように定義される。 ${\widehat {\sigma _{e}^{2}}}$

{\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\widehat {x}}_{i})^{2}.

これは真の分散に対する偏った推定値です。

残差平方和（RSS）の観点から見ると、BICは

\mathrm {BIC} =n\ln({\text{RSS}}/n)+k\ln(n)\

複数の線形モデルを飽和モデルに対してテストする場合、BICは逸脱の観点から次のように書き直すことができる。^[⁹^] $\chi ^{2}$

\mathrm {BIC} =\chi ^{2}+k\ln(n)

ここで、テスト内のモデルパラメータの数です。 $k$

参照

注記

^ ClaeskensとHjort ^[⁴^]によって定義されたAIC、AICc、BICは、この記事や他のほとんどの標準的な参考文献で定義されているものの逆です。
^従属変数は応答変数または結果変数とも呼ばれます。回帰分析を参照してください。

参考文献

^レビュー論文を参照: Stoica, P.; Selen, Y. (2004)、「モデル順序選択: 情報基準ルールのレビュー」、IEEE Signal Processing Magazine (7月): 36– 47、doi : 10.1109/MSP.2004.1311138、S2CID 17338979。
^ Schwarz, Gideon E. (1978)、「モデルの次元の推定」、Annals of Statistics、6 (2): 461– 464、doi : 10.1214/aos/1176344136、MR 0468014 。
^ウィット、エルンスト;エドウィン・ファン・デン・フーベル。ジャン＝ウィレム・ロミン（2012）。」「『すべてのモデルは間違っている...』：モデルの不確実性への入門」（PDF）。Statistica Neerlandica。66（3）：217– 236。doi ：10.1111/j.1467-9574.2012.00530.x。S2CID 7793470。 2020年7月26日にオリジナル（PDF）からアーカイブ。 2019年12月11 日閲覧。
^ Claeskens, G. ; Hjort, NL (2008)、「モデル選択とモデル平均化」、ケンブリッジ大学出版局
^ Raftery, AE (1995). 「社会調査におけるベイズモデル選択」.社会学的方法論. 25 : 111–196 . doi : 10.2307/271063 . JSTOR 271063 .
^小西貞則;北川源四郎（2008）。情報基準と統計モデリング。スプリンガー。ISBN 978-0-387-71886-6。
^ ^a ^b Giraud, C. (2015).高次元統計入門. Chapman & Hall/CRC. ISBN 9781482237948。
^プリーストリー、MB（1981年）『スペクトル解析と時系列』アカデミック・プレス、ISBN 978-0-12-564922-3。（375ページ）。
^ Kass, Robert E.; Raftery, Adrian E. (1995)、「ベイズ係数」、アメリカ統計学会誌、90 (430): 773– 795、doi : 10.2307/2291091、ISSN 0162-1459、JSTOR 2291091 。

さらに読む

Bhat, HS; Kumar, N (2010). 「ベイズ情報量基準の導出について」(PDF) . 2012年3月28日時点のオリジナル(PDF)からアーカイブ。
Findley, DF (1991). 「簡約性とBICに対する反例」.統計数学研究所紀要. 43 (3): 505– 514. doi : 10.1007/BF00053369 . S2CID 58910242 .
Kass, RE; Wasserman, L. (1995). 「入れ子仮説に対するベイズ検定の参照法とシュワルツ基準との関係」アメリカ統計学会誌. 90 (431): 928– 934. doi : 10.2307/2291327 . JSTOR 2291327 .
Liddle, AR (2007). 「天体物理学的モデル選択のための情報基準」 .王立天文学会月報. 377 (1): L74– L78. arXiv : astro-ph/0701113 . Bibcode : 2007MNRAS.377L..74L . doi : 10.1111/j.1745-3933.2007.00306.x . S2CID 2884450 .
McQuarrie, ADR; Tsai, C.-L. (1998).回帰と時系列モデルの選択. World Scientific .

外部リンク

スパースベクトル自己回帰モデリング

[5] ^ ClaeskensとHjort ^[⁴^]によって定義されたAIC、AICc、BICは、この記事や他のほとんどの標準的な参考文献で定義されているものの逆です。

[8] 従属変数は応答変数または結果変数とも呼ばれます。回帰分析を参照してください。

[1] レビュー論文を参照: Stoica, P.; Selen, Y. (2004)、「モデル順序選択: 情報基準ルールのレビュー」、IEEE Signal Processing Magazine (7月): 36– 47、doi : 10.1109/MSP.2004.1311138、S2CID 17338979。

[2] Schwarz, Gideon E. (1978)、「モデルの次元の推定」、Annals of Statistics、6 (2): 461– 464、doi : 10.1214/aos/1176344136、MR 0468014 。

[3] ウィット、エルンスト;エドウィン・ファン・デン・フーベル。ジャン＝ウィレム・ロミン（2012）。」「『すべてのモデルは間違っている...』：モデルの不確実性への入門」（PDF）。Statistica Neerlandica。66（3）：217– 236。doi ：10.1111/j.1467-9574.2012.00530.x。S2CID 7793470。 2020年7月26日にオリジナル（PDF）からアーカイブ。 2019年12月11 日閲覧。

[4] Claeskens, G. ; Hjort, NL (2008)、「モデル選択とモデル平均化」、ケンブリッジ大学出版局

[6] Raftery, AE (1995). 「社会調査におけるベイズモデル選択」.社会学的方法論. 25 : 111–196 . doi : 10.2307/271063 . JSTOR 271063 .

[7] 小西貞則;北川源四郎（2008）。情報基準と統計モデリング。スプリンガー。ISBN 978-0-387-71886-6。

[Giraud-9] Giraud, C. (2015).高次元統計入門. Chapman & Hall/CRC. ISBN 9781482237948。

[Priestley-10] プリーストリー、MB（1981年）『スペクトル解析と時系列』アカデミック・プレス、ISBN 978-0-12-564922-3。（375ページ）。

[Raftery1995-11] Kass, Robert E.; Raftery, Adrian E. (1995)、「ベイズ係数」、アメリカ統計学会誌、90 (430): 773– 795、doi : 10.2307/2291091、ISSN 0162-1459、JSTOR 2291091 。

[ 1 ]

[ 2 ]

[ 3 ]

[ a ]

[

[

BICは、従属変数[ b ]

[ 7 ]

[ 8 ]

[

[