カーネル正則化のベイズ解釈

カーネル正則化のベイズ解釈では、ベイズ統計学(確率を用いて不確実性をモデル化する枠組み)の観点から、機械学習におけるカーネル法をどのように理解できるかを考察します。カーネル法は、構造化空間における入力間の類似性という概念に基づいています。サポートベクターマシン(SVM)やその正則化(モデルの一般化と移植性を高める手法)などの手法は、もともとベイズ原理に基づいて定式化されたものではありませんが、ベイズの観点から分析することで貴重な知見が得られます。

ベイズ理論の枠組みにおいて、カーネル法はガウス過程の基本的な構成要素として機能し、カーネル関数は入力間の関係を定義する共分散関数として機能します。伝統的に、これらの手法は、入力がベクトル、出力がスカラーで表される教師あり学習問題に適用されてきました。近年の開発により、カーネル法はマルチタスク学習に見られるように、複数の出力を扱うように拡張されています[1]

カーネル法の数学的枠組みは、典型的には再生カーネルヒルベルト空間(RKHS)を包含する。すべてのカーネルが内積空間を形成するわけではない。なぜなら、カーネルは必ずしも半正定値(非負類似度測度を保証する性質)ではないからである。しかし、それでもカーネルはこれらのより一般的なRKHSの範囲内で動作する。正則化アプローチとベイズ法の間には、特に再生カーネルヒルベルト空間が有限次元である場合に、数学的な同等性が確立される。この同等性は、両方の視点が本質的に同じ推定量に収束することを示し、一見異なるこれらのアプローチ間の根底にあるつながりを明らかにする。

教師あり学習の問題

古典的な教師あり学習の問題は、入力と出力のペアからなる訓練セットに基づいてスカラー値の推定量を学習することにより、ある新しい入力点に対する出力を推定することを必要とする[2]カーネルと呼ばれる対称 かつ正の2変数関数が与えられた場合、機械学習で最も一般的な推定量の一つは次のように与えられる。 x {\displaystyle \mathbf {x} '} f ^ ( x ) {\displaystyle {\hat {f}}(\mathbf {x} ')} S {\displaystyle S} n {\displaystyle n} S = ( X , Y ) = ( x 1 , y 1 ) , , ( x n , y n ) {\displaystyle S=(\mathbf {X} ,\mathbf {Y} )=(\mathbf {x} _{1},y_{1}),\ldots ,(\mathbf {x} _{n},y_{n})} k ( , ) {\displaystyle k(\cdot ,\cdot )}

ここで、は、、、およびを要素とするカーネル行列です。この推定値が、正則化とベイズ的観点の両方からどのように導出されるかを見ていきます。 K k ( X , X ) {\displaystyle \mathbf {K} \equiv k(\mathbf {X} ,\mathbf {X} )} K i j = k ( x i , x j ) {\displaystyle \mathbf {K} _{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})} k = [ k ( x 1 , x ) , , k ( x n , x ) ] {\displaystyle \mathbf {k} =[k(\mathbf {x} _{1},\mathbf {x} '),\ldots ,k(\mathbf {x} _{n},\mathbf {x} ')]^{\top }} Y = [ y 1 , , y n ] {\displaystyle \mathbf {Y} =[y_{1},\ldots ,y_{n}]^{\top }}

正規化の観点

正規化の観点からの主な仮定は、関数の集合が再生核ヒルベルト空間に属すると仮定することです[2] [3] [4] [5] F {\displaystyle {\mathcal {F}}} H k {\displaystyle {\mathcal {H}}_{k}}

再生核ヒルベルト空間

再生核ヒルベルト空間(RKHS)は、再生核と呼ばれる対称な定値関数によって定義される関数のヒルベルト空間であり、関数はすべてのに対してに属します[6] [7] [8] RKHS を魅力的なものにしている主な特性が 3 つあります。 H k {\displaystyle {\mathcal {H}}_{k}} k : X × X R {\displaystyle k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} } k ( x , ) {\displaystyle k(\mathbf {x} ,\cdot )} H k {\displaystyle {\mathcal {H}}_{k}} x X {\displaystyle \mathbf {x} \in {\mathcal {X}}}

1. RKHSの名前の由来となった 生殖特性

f ( x ) = f , k ( x , ) k ,   f H k , {\displaystyle f(\mathbf {x} )=\langle f,k(\mathbf {x} ,\cdot )\rangle _{k},\quad \forall \ f\in {\mathcal {H}}_{k},}

の内積はどこですか , k {\displaystyle \langle \cdot ,\cdot \rangle _{k}} H k {\displaystyle {\mathcal {H}}_{k}}

2. RKHSにおける関数は、与えられた点における核の線形結合の閉包である。

f ( x ) = i k ( x i , x ) c i {\displaystyle f(\mathbf {x} )=\sum _{i}k(\mathbf {x} _{i},\mathbf {x} )c_{i}}

これにより、線形モデルと一般化線形モデルの両方を統一されたフレームワークで構築できるようになります。

3. RKHSにおける2乗ノルムは次のように表される。

f k 2 = i , j k ( x i , x j ) c i c j {\displaystyle \|f\|_{k}^{2}=\sum _{i,j}k(\mathbf {x} _{i},\mathbf {x} _{j})c_{i}c_{j}}

関数の 複雑さを測るものとして捉えることもできます。

正規化された関数

推定量は正規化された関数の最小値として導出される。

ここで、 とは におけるノルムです。この関数の最初の項は、と の間の誤差の二乗の平均を測るもので、経験的リスクと呼ばれ、真の値 を予測することで支払うコストを表します。この関数の2番目の項は、RKHS の二乗ノルムに重みを乗じたものであり、問​​題を安定化させる目的[3] [5]と、推定量のフィッティングと複雑性の間のトレードオフを追加する目的があります[2] 。 重みは正規化係数と呼ばれ、推定量の不安定性と複雑性にペナルティを課す程度を決定します( の値が大きくなるほど、ペナルティが大きくなります)。 f H k {\displaystyle f\in {\mathcal {H}}_{k}} k {\displaystyle \|\cdot \|_{k}} H k {\displaystyle {\mathcal {H}}_{k}} f ( x i ) {\displaystyle f(\mathbf {x} _{i})} y i {\displaystyle y_{i}} f ( x i ) {\displaystyle f(\mathbf {x} _{i})} y i {\displaystyle y_{i}} λ {\displaystyle \lambda } λ {\displaystyle \lambda } λ {\displaystyle \lambda }

推定値の導出

式( 1 )の推定量の明示的な形は2つのステップで導出される。まず、代表者定理[9] [10] [11]によれば、関数( 2 )の最小化関数は常に訓練セット点を中心とするカーネルの線形結合として表すことができる。

となる。係数の明示的な形は、関数(2 )にを代入することで得られる。式( 3 )の形の関数に対しては c R n {\displaystyle \mathbf {c} \in \mathbb {R} ^{n}} c = [ c 1 , , c n ] {\displaystyle \mathbf {c} =[c_{1},\ldots ,c_{n}]^{\top }} f ( ) {\displaystyle f(\cdot )}

f k 2 = f , f k , = i = 1 N c i k ( x i , ) , j = 1 N c j k ( x j , ) k , = i = 1 N j = 1 N c i c j k ( x i , ) , k ( x j , ) k , = i = 1 N j = 1 N c i c j k ( x i , x j ) , = c K c . {\displaystyle {\begin{aligned}\|f\|_{k}^{2}&=\langle f,f\rangle _{k},\\&=\left\langle \sum _{i=1}^{N}c_{i}k(\mathbf {x} _{i},\cdot ),\sum _{j=1}^{N}c_{j}k(\mathbf {x} _{j},\cdot )\right\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}\langle k(\mathbf {x} _{i},\cdot ),k(\mathbf {x} _{j},\cdot )\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}k(\mathbf {x} _{i},\mathbf {x} _{j}),\\&=\mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .\end{aligned}}}

関数(2)を次のように 書き直すことができる。

1 n y K c 2 + λ c K c . {\displaystyle {\frac {1}{n}}\|\mathbf {y} -\mathbf {K} \mathbf {c} \|^{2}+\lambda \mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .}

この関数は凸関数なので、勾配をゼロに設定することで最小値を求めることができます。 c {\displaystyle \mathbf {c} } c {\displaystyle \mathbf {c} }

1 n K ( Y K c ) + λ K c = 0 , ( K + λ n I ) c = Y , c = ( K + λ n I ) 1 Y . {\displaystyle {\begin{aligned}-{\frac {1}{n}}\mathbf {K} (\mathbf {Y} -\mathbf {K} \mathbf {c} )+\lambda \mathbf {K} \mathbf {c} &=0,\\(\mathbf {K} +\lambda n\mathbf {I} )\mathbf {c} &=\mathbf {Y} ,\\\mathbf {c} &=(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .\end{aligned}}}

この式を式( 3 )の係数に代入すると、式( 1 ) で述べた推定値が得られる。

f ^ ( x ) = k ( K + λ n I ) 1 Y . {\displaystyle {\hat {f}}(\mathbf {x} ')=\mathbf {k} ^{\top }(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .}

ベイズ的視点

カーネルの概念は、ガウス過程と呼ばれる確率過程の共分散関数として、ベイズ確率において重要な役割を果たします。

ベイズ確率論の概説

ベイズ理論の枠組みの一部として、ガウス過程は、モデル化される関数の特性に関する事前の信念を記述する事前分布を特定します。これらの信念は、事前の信念と観測データを関連付ける尤度関数を用いて、観測データを考慮した後に更新されます。事前分布と尤度を組み合わせることで、事後分布と呼ばれる更新された分布が得られ、これはテストケースの予測に一般的に用いられます。

ガウス過程

ガウス過程(GP)は、有限個のランダム変数をサンプリングして正規分布に従う確率過程である。[12] ガウス分布の平均ベクトルと共分散行列はGPを完全に規定する。GPは通常、関数の事前分布として使用され、平均ベクトルと共分散行列は関数と見なすことができ、共分散関数はGPのとも呼ばれる。関数が平均関数と核関数を持つガウス過程に従うとしよう f {\displaystyle f} m {\displaystyle m} k {\displaystyle k}

f G P ( m , k ) . {\displaystyle f\sim {\mathcal {GP}}(m,k).}

ガウス分布の根底にある観点では、任意の有限集合に対して X = { x i } i = 1 n {\displaystyle \mathbf {X} =\{\mathbf {x} _{i}\}_{i=1}^{n}} f ( X ) = [ f ( x 1 ) , , f ( x n ) ] {\displaystyle f(\mathbf {X} )=[f(\mathbf {x} _{1}),\ldots ,f(\mathbf {x} _{n})]^{\top }}

f ( X ) N ( m , K ) , {\displaystyle f(\mathbf {X} )\sim {\mathcal {N}}(\mathbf {m} ,\mathbf {K} ),}

ここで、は平均ベクトルであり、は多変量ガウス分布の共分散行列です。 m = m ( X ) = [ m ( x 1 ) , , m ( x N ) ] {\displaystyle \mathbf {m} =m(\mathbf {X} )=[m(\mathbf {x} _{1}),\ldots ,m(\mathbf {x} _{N})]^{\top }} K = k ( X , X ) {\displaystyle \mathbf {K} =k(\mathbf {X} ,\mathbf {X} )}

推定値の導出

回帰分析では、尤度関数は通常ガウス分布に従うものとされ、観測値は独立かつ同一分布(iid)であると仮定される。

p ( y | f , x , σ 2 ) = N ( f ( x ) , σ 2 ) . {\displaystyle p(y|f,\mathbf {x} ,\sigma ^{2})={\mathcal {N}}(f(\mathbf {x} ),\sigma ^{2}).}

この仮定は、観測値が分散 のゼロ平均ガウスノイズによって歪められていることに対応する。iid仮定は、入力集合とノイズの分散が与えられた場合に、データ点の尤度関数を因数分解することを可能にし、これにより事後分布を解析的に計算することができる。テスト入力ベクトル に対して、訓練データ が与えられた場合、事後分布は次のように与えられる。 σ 2 {\displaystyle \sigma ^{2}} X {\displaystyle \mathbf {X} } σ 2 {\displaystyle \sigma ^{2}} x {\displaystyle \mathbf {x} '} S = { X , Y } {\displaystyle S=\{\mathbf {X} ,\mathbf {Y} \}}

p ( f ( x ) | S , x , ϕ ) = N ( m ( x ) , σ 2 ( x ) ) , {\displaystyle p(f(\mathbf {x} ')|S,\mathbf {x} ',{\boldsymbol {\phi }})={\mathcal {N}}(m(\mathbf {x} '),\sigma ^{2}(\mathbf {x} ')),}

ここで、はノイズの分散と共分散関数の任意のパラメータを含むパラメータの集合を表し ϕ {\displaystyle {\boldsymbol {\phi }}} σ 2 {\displaystyle \sigma ^{2}} k {\displaystyle k}

m ( x ) = k ( K + σ 2 I ) 1 Y , σ 2 ( x ) = k ( x , x ) k ( K + σ 2 I ) 1 k . {\displaystyle {\begin{aligned}m(\mathbf {x} ')&=\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {Y} ,\\\sigma ^{2}(\mathbf {x} ')&=k(\mathbf {x} ',\mathbf {x} ')-\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {k} .\end{aligned}}}

正則化とベイズの関係

正則化理論とベイズ理論の関連は、有限次元RKHSの場合にのみ達成される。この仮定の下では、正則化理論とベイズ理論はガウス過程予測を通じて結びつく。[3] [12] [13]

有限次元の場合、すべてのRKHSは次のような特徴マップで記述できる。[2] Φ : X R p {\displaystyle \Phi :{\mathcal {X}}\rightarrow \mathbb {R} ^{p}}

k ( x , x ) = i = 1 p Φ i ( x ) Φ i ( x ) . {\displaystyle k(\mathbf {x} ,\mathbf {x} ')=\sum _{i=1}^{p}\Phi ^{i}(\mathbf {x} )\Phi ^{i}(\mathbf {x} ').}

RKHSのカーネル付き関数は次のように記述できる。 K {\displaystyle \mathbf {K} }

f w ( x ) = i = 1 p w i Φ i ( x ) = w , Φ ( x ) , {\displaystyle f_{\mathbf {w} }(\mathbf {x} )=\sum _{i=1}^{p}\mathbf {w} ^{i}\Phi ^{i}(\mathbf {x} )=\langle \mathbf {w} ,\Phi (\mathbf {x} )\rangle ,}

そして、私たちには

f w k = w . {\displaystyle \|f_{\mathbf {w} }\|_{k}=\|\mathbf {w} \|.}

平均ゼロで共分散行列が恒等である多変量ガウス分布に従って分布すると 仮定して、ガウス過程を構築することができる。 w = [ w 1 , , w p ] {\displaystyle \mathbf {w} =[w^{1},\ldots ,w^{p}]^{\top }}

w N ( 0 , I ) exp ( w 2 ) . {\displaystyle \mathbf {w} \sim {\mathcal {N}}(0,\mathbf {I} )\propto \exp(-\|\mathbf {w} \|^{2}).}

ガウス尤度を仮定すると、

P ( Y | X , f ) = N ( f ( X ) , σ 2 I ) exp ( 1 σ 2 f w ( X ) Y 2 ) , {\displaystyle P(\mathbf {Y} |\mathbf {X} ,f)={\mathcal {N}}(f(\mathbf {X} ),\sigma ^{2}\mathbf {I} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|^{2}\right),}

ここで、結果として得られる事後分布は次のように与えられる。 f w ( X ) = ( w , Φ ( x 1 ) , , w , Φ ( x n ) {\displaystyle f_{\mathbf {w} }(\mathbf {X} )=(\langle \mathbf {w} ,\Phi (\mathbf {x} _{1})\rangle ,\ldots ,\langle \mathbf {w} ,\Phi (\mathbf {x} _{n}\rangle )}

P ( f | X , Y ) exp ( 1 σ 2 f w ( X ) Y n 2 + w 2 ) {\displaystyle P(f|\mathbf {X} ,\mathbf {Y} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|_{n}^{2}+\|\mathbf {w} \|^{2}\right)}

最大事後(MAP)推定は、ティホノフ正則化を定義する最小化問題と同等であることがわかります。ベイズの場合、正則化パラメータはノイズ分散に関連しています。

哲学的な観点から見ると、正則化設定における損失関数は、ベイズ設定における尤度関数とは異なる役割を果たします。損失関数はの代わりに予測する際に発生する誤差を測定するのに対し、尤度関数は、生成プロセスにおいて真であると仮定されたモデルから観測値がどれだけ確からしいかを測定します。しかし、数学的な観点から見ると、正則化フレームワークとベイズフレームワークの定式化により、損失関数と尤度関数は、ラベルを可能な限り 近似する関数の推論を促進するという、同じ数学的役割を担うことになります。 f ( x ) {\displaystyle f(\mathbf {x} )} y {\displaystyle y} f {\displaystyle f} y {\displaystyle y}

参照

参考文献

  1. ^ Álvarez, Mauricio A.; Rosasco, Lorenzo; Lawrence, Neil D. (2011年6月). 「ベクトル値関数のカーネル:レビュー」. arXiv : 1106.6251 [stat.ML].
  2. ^ abcd Vapnik, Vladimir (1998). 統計学習理論. Wiley. ISBN 9780471030034
  3. ^ abc Wahba, Grace (1990).観測データのためのスプラインモデル. SIAM. Bibcode :1990smod.conf.....W.
  4. ^ Schölkopf, Bernhard; Smola, Alexander J. (2002). 『カーネルによる学習:サポートベクターマシン、正則化、最適化、そしてその先へ』 MIT Press. ISBN 9780262194754
  5. ^ ab Girosi, F.; Poggio, T. (1990). 「ネットワークと最良近似特性」(PDF) .生物学的サイバネティクス. 63 (3). Springer: 169– 176. doi :10.1007/bf00195855. hdl : 1721.1/6017 . S2CID  18824241.
  6. ^ Aronszajn, N. (1950年5月). 「再生核の理論」.アメリカ数学会誌. 68 (3): 337–404 . doi : 10.2307/1990404 . JSTOR  1990404.
  7. ^ シュワルツ、ローラン(1964). 「Sous-espaces hilbertiens d'espaces vectoriels topologiques et noyaux associés (noyaux reproduisants)」。Journal d'Analyse Mathématique13 (1).スプリンガー: 115–256土井:10.1007/bf02786620。S2CID  117202393。
  8. ^ Cucker, Felipe; Smale, Steve (2001年10月5日). 「学習の数学的基礎について」アメリカ数学会報. 39 (1): 1– 49. doi : 10.1090/s0273-0979-01-00923-5 .
  9. ^ Kimeldorf, George S.; Wahba, Grace (1970). 「確率過程におけるベイズ推定とスプラインによる平滑化との対応」.数理統計年報. 41 (2): 495– 502. doi : 10.1214/aoms/1177697089 .
  10. ^ Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). 「一般化表現定理」.計算学習理論. コンピュータサイエンス講義ノート. Vol. 2111/2001. pp.  416– 426. doi :10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0
  11. ^ De Vito, Ernesto; Rosasco, Lorenzo; Caponnetto, Andrea; Piana, Michele; Verri, Alessandro (2004年10月). 「正規化カーネル法のいくつかの特性」. Journal of Machine Learning Research . 5 : 1363–1390 .
  12. ^ ab ラスムッセン, カール・エドワード; ウィリアムズ, クリストファー・KI (2006). 機械学習のためのガウス過程. MIT出版. ISBN 0-262-18253-X
  13. ^ Huang, Yunfei.; et al. (2019). 「細胞比較のための最適化された正規化と自動ベイズパラメータ選択を備えた牽引力顕微鏡法」. Scientific Reports . 9 (1) 539: 537. arXiv : 1810.05848 . Bibcode :2019NatSR...9..539H. doi : 10.1038/s41598-018-36896-x . PMC 6345967. PMID  30679578 . 
Retrieved from "https://en.wikipedia.org/w/index.php?title=Bayesian_interpretation_of_kernel_regularization&oldid=1324345324"