ベイズ多変量線形回帰

統計学において、ベイズ多変量線形回帰は 、多変量線形回帰に対するベイズ的アプローチ、すなわち予測結果が単一のスカラー確率変数ではなく相関確率変数のベクトルである線形回帰です。このアプローチのより一般的な扱いについては、MMSE推定量に関する記事をご覧ください。

詳細

予測される従属変数が単一の実数値スカラーではなく、相関した実数の長さmベクトルである回帰問題を考えてみましょう。 標準的な回帰設定と同様に、 n個の観測値があり、各観測値iはk −1 個の説明変数で構成され、長さkのベクトルにグループ化されています(切片係数を可能にするために、値が 1 のダミー変数が追加されています)。 これは、各観測値iについて、 一連のm 個の関連する回帰問題として考えることができます。 ここで、誤差のセットはすべて相関しています。 同様に、これは、結果が行ベクトルで、回帰係数ベクトルが次のように隣り合って積み重ねられている単一の回帰問題として考えることもできます。 ×{\displaystyle \mathbf {x} _{i}}y1×Tβ1+ϵ1yメートル×Tβメートル+ϵメートル{\displaystyle {\begin{aligned}y_{i,1}&=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}_{1}+\epsilon _{i,1}\\&\;\;\vdots \\y_{i,m}&=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}_{m}+\epsilon _{i,m}\end{aligned}}}{ϵ1ϵメートル}{\displaystyle \{\epsilon _{i,1},\ldots ,\epsilon _{i,m}\}}yT{\displaystyle \mathbf {y} _{i}^{\mathsf {T}}}yT×TB+ϵT{\displaystyle \mathbf {y}_{i}^{\mathsf {T}}=\mathbf {x}_{i}^{\mathsf {T}}\mathbf {B}+{\boldsymbol {\epsilon}}_{i}^{\mathsf {T}}.}

係数行列Bは、各回帰問題の 係数ベクトルが水平に積み重ねられた行列です。×メートル{\displaystyle k\times m}β1βメートル{\displaystyle {\boldsymbol {\beta}}_{1},\ldots ,{\boldsymbol {\beta}}_{m}}B[β1βメートル][β11β1β1メートルβメートル]{\displaystyle \mathbf {B} ={\begin{bmatrix}{\begin{pmatrix}\\{\boldsymbol {\beta }}_{1}\\\\\end{pmatrix}}\cdots {\begin{pmatrix}\\{\boldsymbol {\beta }}_{m}\\\\\end{pmatrix}}\end{bmatrix}}={\begin{bmatrix}{\begin{pmatrix}\beta _{1,1}\\\vdots \\\beta _{k,1}\end{pmatrix}}\cdots {\begin{pmatrix}\beta _{1,m}\\\vdots \\\beta _{k,m}\end{pmatrix}}\end{bmatrix}}.}

各観測値iのノイズベクトルは正規分布に従うため、与えられた観測値の結果は相関している。 ϵ{\displaystyle {\boldsymbol {\epsilon }}_{i}}ϵ0Σϵ{\displaystyle {\boldsymbol {\epsilon}}_{i}\sim N(0,{\boldsymbol {\Sigma}}_{\epsilon }).}

回帰問題全体を行列形式で記述すると、以下のようになります。 ここで、YEは行列です。計画行列Xは、標準的な線形回帰の設定と同様に、観測値を縦に積み重ねた行列です。 はいXB+E{\displaystyle \mathbf {Y} =\mathbf {X} \mathbf {B} +\mathbf {E} ,}n×メートル{\displaystyle n\times m}n×{\displaystyle n\times k}X[×1T×2T×nT][×11×1×21×2×n1×n]{\displaystyle \mathbf {X} ={\begin{bmatrix}\mathbf {x} _{1}^{\mathsf {T}}\\\mathbf {x} _{2}^{\mathsf {T}}\\\vdots \\\mathbf {x} _{n}^{\mathsf {T}}\end{bmatrix}}={\begin{bmatrix}x_{1,1}&\cdots &x_{1,k}\\x_{2,1}&\cdots &x_{2,k}\\\vdots &\ddots &\vdots \\x_{n,1}&\cdots &x_{n,k}\end{bmatrix}}.}

古典的な頻度主義の線形最小二乗法は、ムーア・ペンローズ擬似逆行列を使用して 回帰係数の行列を単純に推定することです。 B^{\displaystyle {\hat {\mathbf {B} }}}B^XTX1XTはい{\displaystyle {\hat {\mathbf {B} }}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {Y} .}

ベイズ解を得るには、条件付き尤度を指定し、適切な共役事前分布を見つける必要があります。単変量線形ベイズ回帰の場合と同様に、自然な条件付き共役事前分布(スケール依存)を指定できることがわかります。

条件付き尤度を[ 1 ] と書き、 誤差を とで書き表すと、ρE|Σϵ|Σϵ|n/2経験12trETΣϵ1E{\displaystyle \rho (\mathbf {E} |{\boldsymbol {\Sigma }}_{\epsilon })\propto |{\boldsymbol {\Sigma }}_{\epsilon }|^{-n/2}\exp \left(-{\tfrac {1}{2}}\operatorname {tr} \left(\mathbf {E} ^{\mathsf {T}}{\boldsymbol {\Sigma }}_{\epsilon }^{-1}\mathbf {E} \right)\right),}E{\displaystyle \mathbf {E} }はいX{\displaystyle \mathbf {Y} ,\mathbf {X} ,}B{\displaystyle \mathbf {B} }ρはい|XBΣϵ|Σϵ|n/2経験12trはいXBTΣϵ1はいXB{\displaystyle \rho (\mathbf {Y} |\mathbf {X} ,\mathbf {B} ,{\boldsymbol {\Sigma }}_{\epsilon })\propto |{\boldsymbol {\Sigma }}_{\epsilon }|^{-n/2}\exp(-{\tfrac {1}{2}}\operatorname {tr} ((\mathbf {Y} -\mathbf {X} \mathbf {B} )^{\mathsf {T}}{\boldsymbol {\Sigma }}_{\epsilon }^{-1}(\mathbf {Y} -\mathbf {X} \mathbf {B} ))),}

自然な共役事前分布、つまり尤度と同じ関数形を持つ同時密度分布を求めます 。尤度は について2次関数なので、尤度を (古典的な標本推定値からの偏差)について正規分布になるように書き直します。 ρBΣϵ{\displaystyle \rho (\mathbf {B} ,\Sigma _{\epsilon })}B{\displaystyle \mathbf {B} }BB^{\displaystyle (\mathbf {B} -{\hat {\mathbf {B} }})}

ベイズ線形回帰と同じ手法を用いて、指数項を行列形式の平方和法で分解します。ただし、ここでは行列微分積分(クロネッカー積ベクトル化変換)も用いる必要があります。

まず、平方和を適用して尤度の新しい表現を取得します。 ρはい|XBΣϵ|Σϵ|n/2経験tr12STSΣϵ1|Σϵ|/2経験12trBB^TXTXBB^Σϵ1{\displaystyle \rho (\mathbf {Y} |\mathbf {X} ,\mathbf {B} ,{\boldsymbol {\Sigma }}_{\epsilon })\propto |{\boldsymbol {\Sigma }}_{\epsilon }|^{-(n-k)/2}\exp(-\operatorname {tr} ({\tfrac {1}{2}}\mathbf {S} ^{\mathsf {T}}\mathbf {S} {\boldsymbol {\Sigma }}_{\epsilon }^{-1}))|{\boldsymbol {\Sigma }}_{\epsilon }|^{-k/2}\exp(-{\tfrac {1}{2}}\operatorname {tr} ((\mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {X} (\mathbf {B} -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1})),}S=YXB^{\displaystyle \mathbf {S} =\mathbf {Y} -\mathbf {X} {\hat {\mathbf {B} }}}

我々は、事前分布の条件付き形式を開発したいと考えています。 ここで、 は逆ウィッシュアート分布 、は行列 上の何らかの正規分布です。これは、尤度を行列の関数からベクトルの関数に変換するベクトル化変換を用いて実現されます。 ρ(B,Σϵ)=ρ(Σϵ)ρ(B|Σϵ),{\displaystyle \rho (\mathbf {B} ,{\boldsymbol {\Sigma }}_{\epsilon })=\rho ({\boldsymbol {\Sigma }}_{\epsilon })\rho (\mathbf {B} |{\boldsymbol {\Sigma }}_{\epsilon }),}ρ(Σϵ){\displaystyle \rho ({\boldsymbol {\Sigma }}_{\epsilon })}ρ(B|Σϵ){\displaystyle \rho (\mathbf {B} |{\boldsymbol {\Sigma }}_{\epsilon })}B{\displaystyle \mathbf {B} }B,B^{\displaystyle \mathbf {B} ,{\hat {\mathbf {B} }}}β=vec(B),β^=vec(B^){\displaystyle {\boldsymbol {\beta }}=\operatorname {vec} (\mathbf {B} ),{\hat {\boldsymbol {\beta }}}=\operatorname {vec} ({\hat {\mathbf {B} }})}

書く tr((BB^)TXTX(BB^)Σϵ1)=vec(BB^)Tvec(XTX(BB^)Σϵ1){\displaystyle \operatorname {tr} ((\mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {X} (\mathbf {B} -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1})=\operatorname {vec} (\mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}\operatorname {vec} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} (\mathbf {B} -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1})}

ここで、 は 行列ABのクロネッカー積を表します。これは、行列を行列で乗算して、2 つの行列の要素の積のあらゆる組み合わせで構成される行列 を生成する外積の一般化です。vec(XTX(BB^)Σϵ1)=(Σϵ1XTX)vec(BB^),{\displaystyle \operatorname {vec} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} (\mathbf {B} -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1})=({\boldsymbol {\Sigma }}_{\epsilon }^{-1}\otimes \mathbf {X} ^{\mathsf {T}}\mathbf {X} )\operatorname {vec} (\mathbf {B} -{\hat {\mathbf {B} }}),}AB{\displaystyle \mathbf {A} \otimes \mathbf {B} }m×n{\displaystyle m\times n}p×q{\displaystyle p\times q}mp×nq{\displaystyle mp\times nq}

すると 、 では通常の確率が になります。 vec(BB^)T(Σϵ1XTX)vec(BB^)=(ββ^)T(Σϵ1XTX)(ββ^){\displaystyle {\begin{aligned}&\operatorname {vec} (\mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}({\boldsymbol {\Sigma }}_{\epsilon }^{-1}\otimes \mathbf {X} ^{\mathsf {T}}\mathbf {X} )\operatorname {vec} (\mathbf {B} -{\hat {\mathbf {B} }})\\&=({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}({\boldsymbol {\Sigma }}_{\epsilon }^{-1}\otimes \mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\end{aligned}}}(ββ^){\displaystyle ({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})}

尤度をより扱いやすい形式にすることで、自然な(条件付きの)共役事前分布を見つけることができます。

共役事前分布

ベクトル化された変数を用いた自然共役事前分布は次の形式をとる: [ 1 ] ここで 、 β{\displaystyle {\boldsymbol {\beta }}}ρ(β,Σϵ)=ρ(Σϵ)ρ(β|Σϵ),{\displaystyle \rho ({\boldsymbol {\beta }},{\boldsymbol {\Sigma }}_{\epsilon })=\rho ({\boldsymbol {\Sigma }}_{\epsilon })\rho ({\boldsymbol {\beta }}|{\boldsymbol {\Sigma }}_{\epsilon }),}ρ(Σϵ)W1(V0,ν0){\displaystyle \rho ({\boldsymbol {\Sigma }}_{\epsilon })\sim {\mathcal {W}}^{-1}(\mathbf {V} _{0},{\boldsymbol {\nu }}_{0})}ρ(β|Σϵ)N(β0,ΣϵΛ01).{\displaystyle \rho ({\boldsymbol {\beta }}|{\boldsymbol {\Sigma }}_{\epsilon })\sim N({\boldsymbol {\beta }}_{0},{\boldsymbol {\Sigma }}_{\epsilon }\otimes {\boldsymbol {\Lambda }}_{0}^{-1}).}

事後分布

上記の事前分布と尤度を用いると、事後分布は次のように表される:[ 1 ] ここで。 を含む項は、 を用いて以下のようにグループ化できる: を用い て ρ(β,Σϵ|Y,X)|Σϵ|(ν0+m+1)/2exp(12tr(V0Σϵ1))×|Σϵ|k/2exp(12tr((BB0)TΛ0(BB0)Σϵ1))×|Σϵ|n/2exp(12tr((YXB)T(YXB)Σϵ1)),{\displaystyle {\begin{aligned}\rho ({\boldsymbol {\beta }},{\boldsymbol {\Sigma }}_{\epsilon }|\mathbf {Y} ,\mathbf {X} )\propto {}&|{\boldsymbol {\Sigma }}_{\epsilon }|^{-({\boldsymbol {\nu }}_{0}+m+1)/2}\exp {(-{\tfrac {1}{2}}\operatorname {tr} (\mathbf {V} _{0}{\boldsymbol {\Sigma }}_{\epsilon }^{-1}))}\\&\times |{\boldsymbol {\Sigma }}_{\epsilon }|^{-k/2}\exp {(-{\tfrac {1}{2}}\operatorname {tr} ((\mathbf {B} -\mathbf {B} _{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}(\mathbf {B} -\mathbf {B} _{0}){\boldsymbol {\Sigma }}_{\epsilon }^{-1}))}\\&\times |{\boldsymbol {\Sigma }}_{\epsilon }|^{-n/2}\exp {(-{\tfrac {1}{2}}\operatorname {tr} ((\mathbf {Y} -\mathbf {XB} )^{\mathsf {T}}(\mathbf {Y} -\mathbf {XB} ){\boldsymbol {\Sigma }}_{\epsilon }^{-1}))},\end{aligned}}}vec(B0)=β0{\displaystyle \operatorname {vec} (\mathbf {B} _{0})={\boldsymbol {\beta }}_{0}}B{\displaystyle \mathbf {B} }Λ0=UTU{\displaystyle {\boldsymbol {\Lambda }}_{0}=\mathbf {U} ^{\mathsf {T}}\mathbf {U} }(BB0)TΛ0(BB0)+(YXB)T(YXB)=([YUB0][XU]B)T([YUB0][XU]B)=([YUB0][XU]Bn)T([YUB0][XU]Bn)+(BBn)T(XTX+Λ0)(BBn)=(YXBn)T(YXBn)+(B0Bn)TΛ0(B0Bn)+(BBn)T(XTX+Λ0)(BBn),{\displaystyle {\begin{aligned}&\left(\mathbf {B} -\mathbf {B} _{0}\right)^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}\left(\mathbf {B} -\mathbf {B} _{0}\right)+\left(\mathbf {Y} -\mathbf {XB} \right)^{\mathsf {T}}\left(\mathbf {Y} -\mathbf {XB} \right)\\={}&\left({\begin{bmatrix}\mathbf {Y} \\\mathbf {U} \mathbf {B} _{0}\end{bmatrix}}-{\begin{bmatrix}\mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} \right)^{\mathsf {T}}\left({\begin{bmatrix}\mathbf {Y} \\\mathbf {U} \mathbf {B} _{0}\end{bmatrix}}-{\begin{bmatrix}\mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} \right)\\={}&\left({\begin{bmatrix}\mathbf {Y} \\\mathbf {U} \mathbf {B} _{0}\end{bmatrix}}-{\begin{bmatrix}\mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} _{n}\right)^{\mathsf {T}}\left({\begin{bmatrix}\mathbf {Y} \\\mathbf {U} \mathbf {B} _{0}\end{bmatrix}}-{\begin{bmatrix}\mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} _{n}\right)+\left(\mathbf {B} -\mathbf {B} _{n}\right)^{\mathsf {T}}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\right)\left(\mathbf {B} -\mathbf {B} _{n}\right)\\={}&\left(\mathbf {Y} -\mathbf {X} \mathbf {B} _{n}\right)^{\mathsf {T}}\left(\mathbf {Y} -\mathbf {X} \mathbf {B} _{n}\right)+\left(\mathbf {B} _{0}-\mathbf {B} _{n}\right)^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}\left(\mathbf {B} _{0}-\mathbf {B} _{n}\right)+\left(\mathbf {B} -\mathbf {B} _{n}\right)^{\mathsf {T}}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\right)\left(\mathbf {B} -\mathbf {B} _{n}\right),\end{aligned}}}Bn=(XTX+Λ0)1(XTXB^+Λ0B0)=(XTX+Λ0)1(XTY+Λ0B0).{\displaystyle \mathbf {B} _{n}=\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\right)^{-1}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\mathbf {B} }}+{\boldsymbol {\Lambda }}_{0}\mathbf {B} _{0}\right)=\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\right)^{-1}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {Y} +{\boldsymbol {\Lambda }}_{0}\mathbf {B} _{0}\right).}

これにより、事後分布をより便利な形式で記述できるようになります。 ρ(β,Σϵ|Y,X)|Σϵ|(ν0+m+n+1)/2exp(12tr((V0+(YXBn)T(YXBn)+(BnB0)TΛ0(BnB0))Σϵ1))×|Σϵ|k/2exp(12tr((BBn)T(XTX+Λ0)(BBn)Σϵ1)).{\displaystyle {\begin{aligned}\rho ({\boldsymbol {\beta }},{\boldsymbol {\Sigma }}_{\epsilon }|\mathbf {Y} ,\mathbf {X} )\propto {}&|{\boldsymbol {\Sigma }}_{\epsilon }|^{-({\boldsymbol {\nu }}_{0}+m+n+1)/2}\exp {(-{\tfrac {1}{2}}\operatorname {tr} ((\mathbf {V} _{0}+(\mathbf {Y} -\mathbf {XB_{n}} )^{\mathsf {T}}(\mathbf {Y} -\mathbf {XB_{n}} )+(\mathbf {B} _{n}-\mathbf {B} _{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}(\mathbf {B} _{n}-\mathbf {B} _{0})){\boldsymbol {\Sigma }}_{\epsilon }^{-1}))}\\&\times |{\boldsymbol {\Sigma }}_{\epsilon }|^{-k/2}\exp {(-{\tfrac {1}{2}}\operatorname {tr} ((\mathbf {B} -\mathbf {B} _{n})^{\mathsf {T}}(\mathbf {X} ^{T}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})(\mathbf {B} -\mathbf {B} _{n}){\boldsymbol {\Sigma }}_{\epsilon }^{-1}))}.\end{aligned}}}

これは逆ウィシャート分布と行列正規分布を掛け合わせ た をとります。 ρ(Σϵ|Y,X)W1(Vn,νn){\displaystyle \rho ({\boldsymbol {\Sigma }}_{\epsilon }|\mathbf {Y} ,\mathbf {X} )\sim {\mathcal {W}}^{-1}(\mathbf {V} _{n},{\boldsymbol {\nu }}_{n})}ρ(B|Y,X,Σϵ)MNk,m(Bn,Λn1,Σϵ).{\displaystyle \rho (\mathbf {B} |\mathbf {Y} ,\mathbf {X} ,{\boldsymbol {\Sigma }}_{\epsilon })\sim {\mathcal {MN}}_{k,m}(\mathbf {B} _{n},{\boldsymbol {\Lambda }}_{n}^{-1},{\boldsymbol {\Sigma }}_{\epsilon }).}

この事後分布のパラメータは次のように与えられます。 Vn=V0+(YXBn)T(YXBn)+(BnB0)TΛ0(BnB0){\displaystyle \mathbf {V} _{n}=\mathbf {V} _{0}+(\mathbf {Y} -\mathbf {XB_{n}} )^{\mathsf {T}}(\mathbf {Y} -\mathbf {XB_{n}} )+(\mathbf {B} _{n}-\mathbf {B} _{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}(\mathbf {B} _{n}-\mathbf {B} _{0})}νn=ν0+n{\displaystyle {\boldsymbol {\nu }}_{n}={\boldsymbol {\nu }}_{0}+n}Bn=(XTX+Λ0)1(XTY+Λ0B0){\displaystyle \mathbf {B} _{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {Y} +{\boldsymbol {\Lambda }}_{0}\mathbf {B} _{0})}Λn=XTX+Λ0{\displaystyle {\boldsymbol {\Lambda }}_{n}=\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}}

参照

参考文献

  1. ^ a b c Peter E. Rossi、Greg M. Allenby、Rob McCulloch.ベイズ統計とマーケティング. John Wiley & Sons, 2012, p. 32.
「 https://en.wikipedia.org/w/index.php?title=ベイズ多変量線形回帰&oldid=1272655378」より取得