統計学において、ベイズ情報量基準(BIC)またはシュワルツ情報量基準(SIC、SBC、SBICとも呼ばれる)は、有限のモデル集合からモデルを選択するための基準であり、一般的にBICが低いモデルが好まれる。これは尤度関数に一部基づいており、赤池情報量基準(AIC)と密接に関連している。
モデルをフィッティングする際に、パラメータを追加することで最大尤度を高めることは可能ですが、過剰適合を引き起こす可能性があります。BICとAICはどちらも、モデル内のパラメータ数に対するペナルティ項を導入することでこの問題を解決しようとします。サンプルサイズが7を超える場合、BICのペナルティ項はAICよりも大きくなります。[ 1 ]
BICはギデオン・E・シュワルツによって開発され、ベイズ係数の大規模サンプル近似として1978年の論文[ 2 ]で発表されました。
意味
BICは正式には次のように定義される[ 3 ] [ a ]

どこ
=モデルの尤度関数の最大値、すなわち、ここで は尤度関数を最大化するパラメータ値であり、は観測データである。



= のデータポイントの数、観測値の数、またはそれと同等のサンプルサイズ。
= モデルによって推定されるパラメータの数。例えば、重回帰分析では、推定されるパラメータは切片、傾きパラメータ、および誤差の定数分散であるため、 となります。

導出
BICは、以下のモデルの証拠から始めて、ラプラス法を用いてモデルのパラメータを積分することによって導くことができる:[ 5 ] [ 6 ]:217

ここで、 はモデルの事前分布です。 


次に、対数尤度 は、次のように2回微分可能であると仮定して、 MLEに関する2次テイラー級数に展開されます。


ここで、は観測値 あたりの平均観測情報であり、は残差項を表します。が無視でき、付近で比較的線形である限り、 を積分して以下の式を得ることができます。 






が増加するにつれて、とは無視できる。したがって、 




ここで、BICは上記のように定義され、(a)はベイズ事後分布モード、または(b)は最尤推定値を使用し、かつ事前分布は最尤推定値において非ゼロの傾きを持つ。この場合、事後分布は 


使用
複数のモデルから選択する場合、一般的にBIC値の低いモデルが優先されます。BICは誤差分散の増加関数であり、かつkの増加関数です。つまり、従属変数および説明変数の数に説明できない変動があると、BIC値は増加します。しかし、BICが低いからといって、必ずしもあるモデルが他のモデルよりも優れているとは限りません。BICは近似値を含むため、単なるヒューリスティックです。特に、BICの差は、変換されたベイズ係数のように扱うべきではありません。 
BICは、従属変数[ b ]の数値が比較対象となるすべてのモデルで同一である場合にのみ、推定モデルの比較に使用できることに留意することが重要です。F検定や尤度比検定を用いてモデルを比較する場合とは異なり、比較対象となるモデルは入れ子構造である必要はありません。
プロパティ
制限事項
BICには2つの主な限界がある[ 7 ]
- 上記の近似は、モデル内のパラメータの数よりもはるかに大きいサンプル サイズの場合にのみ有効です。


- BICは高次元の変数選択(または特徴選択)問題のような複雑なモデルの集合を扱うことができない。 [ 7 ]
ガウスの特殊ケース
モデルの誤差や擾乱が独立しており、正規分布に従って同一に分布し、真の分散に関する対数尤度の微分がゼロであるという境界条件の下では、これは次のようになる(加法定数まで、これはnのみに依存し、モデルには依存しない):[ 8 ]

ここで、誤差分散である。この場合の誤差分散は次のように定義される。 

これは真の分散に対する偏った推定値です。
残差平方和(RSS)の観点から見ると、BICは

複数の線形モデルを飽和モデルに対してテストする場合、BICは 逸脱の観点 から次のように書き直すことができる。[ 9 ]

ここで、テスト内のモデルパラメータの数です。 
参照
注記
参考文献
さらに読む
外部リンク