カーネル正則化のベイズ解釈では、 ベイズ統計学( 確率を用いて不確実性をモデル化する枠組み) の観点から、 機械学習 における カーネル法を どのように理解できるかを考察します。カーネル法は、構造化空間における入力間の類似性という概念に基づいています。 サポートベクターマシン (SVM)やその 正則化 (モデルの一般化と移植性を高める手法)などの手法は、もともとベイズ原理に基づいて定式化されたものではありませんが、 ベイズの 観点から分析することで貴重な知見が得られます。
ベイズ理論の枠組みにおいて、カーネル法は ガウス過程 の基本的な構成要素として機能し、カーネル関数は入力間の関係を定義する 共分散関数として機能します。伝統的に、これらの手法は、入力がベクトル、出力がスカラーで表される 教師あり学習 問題に適用されてきました。近年の開発により、カーネル法は マルチタスク学習 に見られるように、 複数の出力 を扱うように拡張されています 。 [1]
カーネル法の数学的枠組みは、典型的には 再生カーネルヒルベルト空間 (RKHS)を包含する。すべてのカーネルが内積空間を形成するわけではない。なぜなら、カーネルは必ずしも半正定値(非負類似度測度を保証する性質)ではないからである。しかし、それでもカーネルはこれらのより一般的なRKHSの範囲内で動作する。正則化アプローチとベイズ法の間には、特に再生カーネルヒルベルト空間が有限次元である場合に、数学的な同等性が確立される。この同等性は、両方の視点が本質的に同じ 推定量 に収束することを示し、一見異なるこれらのアプローチ間の根底にあるつながりを明らかにする。
教師あり学習の問題
古典的な 教師あり学習の 問題は、入力と出力のペア からなる 訓練セットに基づいて スカラー値の推定量を学習することにより 、ある新しい入力点に対する出力を推定することを必要とする 。 [2] カーネル と呼ばれる対称 かつ正の2変数関数が与えられた場合 、機械学習で最も一般的な推定量の一つは次のように与えられる。
x
′
{\displaystyle \mathbf {x} '}
f
^
(
x
′
)
{\displaystyle {\hat {f}}(\mathbf {x} ')}
S
{\displaystyle S}
n
{\displaystyle n}
S
=
(
X
,
Y
)
=
(
x
1
,
y
1
)
,
…
,
(
x
n
,
y
n
)
{\displaystyle S=(\mathbf {X} ,\mathbf {Y} )=(\mathbf {x} _{1},y_{1}),\ldots ,(\mathbf {x} _{n},y_{n})}
k
(
⋅
,
⋅
)
{\displaystyle k(\cdot ,\cdot )}
f
^
(
x
′
)
=
k
⊤
(
K
+
λ
n
I
)
−
1
Y
,
{\displaystyle {\hat {f}}(\mathbf {x} ')=\mathbf {k} ^{\top }(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} ,}
1
ここで、は 、、、 およびを 要素とする カーネル行列 です 。この推定値が、正則化とベイズ的観点の両方からどのように導出されるかを見ていきます。
K
≡
k
(
X
,
X
)
{\displaystyle \mathbf {K} \equiv k(\mathbf {X} ,\mathbf {X} )}
K
i
j
=
k
(
x
i
,
x
j
)
{\displaystyle \mathbf {K} _{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})}
k
=
[
k
(
x
1
,
x
′
)
,
…
,
k
(
x
n
,
x
′
)
]
⊤
{\displaystyle \mathbf {k} =[k(\mathbf {x} _{1},\mathbf {x} '),\ldots ,k(\mathbf {x} _{n},\mathbf {x} ')]^{\top }}
Y
=
[
y
1
,
…
,
y
n
]
⊤
{\displaystyle \mathbf {Y} =[y_{1},\ldots ,y_{n}]^{\top }}
正規化の観点
正規化の観点からの主な仮定は、関数の集合が 再生核ヒルベルト空間に属すると仮定することです 。 [2] [3] [4] [5]
F
{\displaystyle {\mathcal {F}}}
H
k
{\displaystyle {\mathcal {H}}_{k}}
再生核ヒルベルト空間
再生 核ヒルベルト空間 (RKHS)は、 再生核 と呼ばれる 対称な 正 定値関数 によって定義される関数の ヒルベルト空間 であり 、関数は すべての に対してに属します 。 [6] [7] [8] RKHS を魅力的なものにしている主な特性が 3 つあります。
H
k
{\displaystyle {\mathcal {H}}_{k}}
k
:
X
×
X
→
R
{\displaystyle k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} }
k
(
x
,
⋅
)
{\displaystyle k(\mathbf {x} ,\cdot )}
H
k
{\displaystyle {\mathcal {H}}_{k}}
x
∈
X
{\displaystyle \mathbf {x} \in {\mathcal {X}}}
1. RKHSの名前の由来となった
生殖特性
f
(
x
)
=
⟨
f
,
k
(
x
,
⋅
)
⟩
k
,
∀
f
∈
H
k
,
{\displaystyle f(\mathbf {x} )=\langle f,k(\mathbf {x} ,\cdot )\rangle _{k},\quad \forall \ f\in {\mathcal {H}}_{k},}
の内積は どこですか ?
⟨
⋅
,
⋅
⟩
k
{\displaystyle \langle \cdot ,\cdot \rangle _{k}}
H
k
{\displaystyle {\mathcal {H}}_{k}}
2. RKHSにおける関数は、与えられた点における核の線形結合の閉包である。
f
(
x
)
=
∑
i
k
(
x
i
,
x
)
c
i
{\displaystyle f(\mathbf {x} )=\sum _{i}k(\mathbf {x} _{i},\mathbf {x} )c_{i}}
。
これにより、線形モデルと一般化線形モデルの両方を統一されたフレームワークで構築できるようになります。
3. RKHSにおける2乗ノルムは次のように表される。
‖
f
‖
k
2
=
∑
i
,
j
k
(
x
i
,
x
j
)
c
i
c
j
{\displaystyle \|f\|_{k}^{2}=\sum _{i,j}k(\mathbf {x} _{i},\mathbf {x} _{j})c_{i}c_{j}}
関数の
複雑さ を測るものとして捉えることもできます。
正規化された関数
推定量は正規化された関数の最小値として導出される。
1
n
∑
i
=
1
n
(
f
(
x
i
)
−
y
i
)
2
+
λ
‖
f
‖
k
2
,
{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(f(\mathbf {x} _{i})-y_{i})^{2}+\lambda \|f\|_{k}^{2},}
2
ここで 、 と は におけるノルムです。この関数の最初の項は、 と の間 の誤差の二乗の平均を測るもので、 経験的リスク と呼ばれ、 真の値 を 予測することで支払うコストを表します 。この関数の2番目の項は、RKHS の二乗ノルムに重みを乗じたものであり 、問題を安定化させる目的 [3] [5] と、推定量のフィッティングと複雑性の間のトレードオフを追加する目的があります [2] 。 重みは 正規化係数 と呼ばれ 、推定量の不安定性と複雑性にペナルティを課す程度を決定します( の値が大きくなるほど、ペナルティが大きくなります )。
f
∈
H
k
{\displaystyle f\in {\mathcal {H}}_{k}}
‖
⋅
‖
k
{\displaystyle \|\cdot \|_{k}}
H
k
{\displaystyle {\mathcal {H}}_{k}}
f
(
x
i
)
{\displaystyle f(\mathbf {x} _{i})}
y
i
{\displaystyle y_{i}}
f
(
x
i
)
{\displaystyle f(\mathbf {x} _{i})}
y
i
{\displaystyle y_{i}}
λ
{\displaystyle \lambda }
λ
{\displaystyle \lambda }
λ
{\displaystyle \lambda }
推定値の導出
式( 1 )の推定量の明示的な形は 2つのステップで導出される。まず、代表者定理 [9] [10] [11] によれば、関数( 2 )の最小化関数は常に訓練セット点を中心とするカーネルの線形結合として表すことができる。
f
^
(
x
′
)
=
∑
i
=
1
n
c
i
k
(
x
i
,
x
′
)
=
k
⊤
c
,
{\displaystyle {\hat {f}}(\mathbf {x} ')=\sum _{i=1}^{n}c_{i}k(\mathbf {x} _{i},\mathbf {x} ')=\mathbf {k} ^{\top }\mathbf {c} ,}
3
となる 。係数の明示的な形は、 関数( 2 )にを代入することで得られる。式( 3 )の形の関数に対しては 、
c
∈
R
n
{\displaystyle \mathbf {c} \in \mathbb {R} ^{n}}
c
=
[
c
1
,
…
,
c
n
]
⊤
{\displaystyle \mathbf {c} =[c_{1},\ldots ,c_{n}]^{\top }}
f
(
⋅
)
{\displaystyle f(\cdot )}
‖
f
‖
k
2
=
⟨
f
,
f
⟩
k
,
=
⟨
∑
i
=
1
N
c
i
k
(
x
i
,
⋅
)
,
∑
j
=
1
N
c
j
k
(
x
j
,
⋅
)
⟩
k
,
=
∑
i
=
1
N
∑
j
=
1
N
c
i
c
j
⟨
k
(
x
i
,
⋅
)
,
k
(
x
j
,
⋅
)
⟩
k
,
=
∑
i
=
1
N
∑
j
=
1
N
c
i
c
j
k
(
x
i
,
x
j
)
,
=
c
⊤
K
c
.
{\displaystyle {\begin{aligned}\|f\|_{k}^{2}&=\langle f,f\rangle _{k},\\&=\left\langle \sum _{i=1}^{N}c_{i}k(\mathbf {x} _{i},\cdot ),\sum _{j=1}^{N}c_{j}k(\mathbf {x} _{j},\cdot )\right\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}\langle k(\mathbf {x} _{i},\cdot ),k(\mathbf {x} _{j},\cdot )\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}k(\mathbf {x} _{i},\mathbf {x} _{j}),\\&=\mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .\end{aligned}}}
関数( 2 )を次のように
書き直すことができる。
1
n
‖
y
−
K
c
‖
2
+
λ
c
⊤
K
c
.
{\displaystyle {\frac {1}{n}}\|\mathbf {y} -\mathbf {K} \mathbf {c} \|^{2}+\lambda \mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .}
この関数は凸関数な ので、勾配を ゼロに設定することで最小値を求めることができます。
c
{\displaystyle \mathbf {c} }
c
{\displaystyle \mathbf {c} }
−
1
n
K
(
Y
−
K
c
)
+
λ
K
c
=
0
,
(
K
+
λ
n
I
)
c
=
Y
,
c
=
(
K
+
λ
n
I
)
−
1
Y
.
{\displaystyle {\begin{aligned}-{\frac {1}{n}}\mathbf {K} (\mathbf {Y} -\mathbf {K} \mathbf {c} )+\lambda \mathbf {K} \mathbf {c} &=0,\\(\mathbf {K} +\lambda n\mathbf {I} )\mathbf {c} &=\mathbf {Y} ,\\\mathbf {c} &=(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .\end{aligned}}}
この式を式( 3 )の係数に代入すると、式( 1 )
で述べた推定値が得られる。
f
^
(
x
′
)
=
k
⊤
(
K
+
λ
n
I
)
−
1
Y
.
{\displaystyle {\hat {f}}(\mathbf {x} ')=\mathbf {k} ^{\top }(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .}
ベイズ的視点
カーネルの概念は、 ガウス過程 と呼ばれる 確率過程 の共分散関数として、ベイズ確率において重要な役割を果たします。
ベイズ確率論の概説
ベイズ理論の枠組みの一部として、ガウス過程は、 モデル化される関数の特性に関する事前の信念を記述する 事前分布を特定します。これらの信念は、事前の信念と観測データを関連付ける 尤度関数を用いて、観測データを考慮した後に更新されます。事前分布と尤度を組み合わせることで、 事後分布 と呼ばれる更新された分布が得られ、 これはテストケースの予測に一般的に用いられます。
ガウス過程
ガウス 過程 (GP)は、有限個のランダム変数をサンプリングして正規 分布 に従う確率過程である。 [12] ガウス分布の平均ベクトルと共分散行列はGPを完全に規定する。GPは通常、関数の事前分布として使用され、平均ベクトルと共分散行列は関数と見なすことができ、共分散関数は GPの 核 とも呼ばれる。関数が平均関数と核関数 を持つガウス過程に従うとしよう 。
f
{\displaystyle f}
m
{\displaystyle m}
k
{\displaystyle k}
f
∼
G
P
(
m
,
k
)
.
{\displaystyle f\sim {\mathcal {GP}}(m,k).}
ガウス分布の根底にある観点では、任意の有限集合 に対して 、
X
=
{
x
i
}
i
=
1
n
{\displaystyle \mathbf {X} =\{\mathbf {x} _{i}\}_{i=1}^{n}}
f
(
X
)
=
[
f
(
x
1
)
,
…
,
f
(
x
n
)
]
⊤
{\displaystyle f(\mathbf {X} )=[f(\mathbf {x} _{1}),\ldots ,f(\mathbf {x} _{n})]^{\top }}
f
(
X
)
∼
N
(
m
,
K
)
,
{\displaystyle f(\mathbf {X} )\sim {\mathcal {N}}(\mathbf {m} ,\mathbf {K} ),}
ここで 、は平均ベクトルであり、 は多変量ガウス分布の共分散行列です。
m
=
m
(
X
)
=
[
m
(
x
1
)
,
…
,
m
(
x
N
)
]
⊤
{\displaystyle \mathbf {m} =m(\mathbf {X} )=[m(\mathbf {x} _{1}),\ldots ,m(\mathbf {x} _{N})]^{\top }}
K
=
k
(
X
,
X
)
{\displaystyle \mathbf {K} =k(\mathbf {X} ,\mathbf {X} )}
推定値の導出
回帰分析では、尤度関数は通常ガウス分布に従うものとされ、観測値は独立かつ同一分布(iid)であると仮定される。
p
(
y
|
f
,
x
,
σ
2
)
=
N
(
f
(
x
)
,
σ
2
)
.
{\displaystyle p(y|f,\mathbf {x} ,\sigma ^{2})={\mathcal {N}}(f(\mathbf {x} ),\sigma ^{2}).}
この仮定は、観測値が分散 のゼロ平均ガウスノイズによって歪められていることに対応する 。iid仮定は、入力集合 とノイズの分散が与えられた場合に 、データ点の尤度関数を因数分解することを可能にし、これにより事後分布を解析的に計算することができる。テスト入力ベクトル に対して 、訓練データ が与えられた場合 、事後分布は次のように与えられる。
σ
2
{\displaystyle \sigma ^{2}}
X
{\displaystyle \mathbf {X} }
σ
2
{\displaystyle \sigma ^{2}}
x
′
{\displaystyle \mathbf {x} '}
S
=
{
X
,
Y
}
{\displaystyle S=\{\mathbf {X} ,\mathbf {Y} \}}
p
(
f
(
x
′
)
|
S
,
x
′
,
ϕ
)
=
N
(
m
(
x
′
)
,
σ
2
(
x
′
)
)
,
{\displaystyle p(f(\mathbf {x} ')|S,\mathbf {x} ',{\boldsymbol {\phi }})={\mathcal {N}}(m(\mathbf {x} '),\sigma ^{2}(\mathbf {x} ')),}
ここで、は ノイズの分散 と共分散関数の任意のパラメータを含むパラメータの集合を表し 、
ϕ
{\displaystyle {\boldsymbol {\phi }}}
σ
2
{\displaystyle \sigma ^{2}}
k
{\displaystyle k}
m
(
x
′
)
=
k
⊤
(
K
+
σ
2
I
)
−
1
Y
,
σ
2
(
x
′
)
=
k
(
x
′
,
x
′
)
−
k
⊤
(
K
+
σ
2
I
)
−
1
k
.
{\displaystyle {\begin{aligned}m(\mathbf {x} ')&=\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {Y} ,\\\sigma ^{2}(\mathbf {x} ')&=k(\mathbf {x} ',\mathbf {x} ')-\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {k} .\end{aligned}}}
正則化とベイズの関係
正則化理論とベイズ理論の関連は、有限次元RKHS の場合にのみ達成される 。この仮定の下では、正則化理論とベイズ理論はガウス過程予測を通じて結びつく。 [3] [12] [13]
有限次元の場合、すべてのRKHSは次のような 特徴マップで記述できる。 [2]
Φ
:
X
→
R
p
{\displaystyle \Phi :{\mathcal {X}}\rightarrow \mathbb {R} ^{p}}
k
(
x
,
x
′
)
=
∑
i
=
1
p
Φ
i
(
x
)
Φ
i
(
x
′
)
.
{\displaystyle k(\mathbf {x} ,\mathbf {x} ')=\sum _{i=1}^{p}\Phi ^{i}(\mathbf {x} )\Phi ^{i}(\mathbf {x} ').}
RKHSのカーネル付き関数は 次のように記述できる。
K
{\displaystyle \mathbf {K} }
f
w
(
x
)
=
∑
i
=
1
p
w
i
Φ
i
(
x
)
=
⟨
w
,
Φ
(
x
)
⟩
,
{\displaystyle f_{\mathbf {w} }(\mathbf {x} )=\sum _{i=1}^{p}\mathbf {w} ^{i}\Phi ^{i}(\mathbf {x} )=\langle \mathbf {w} ,\Phi (\mathbf {x} )\rangle ,}
そして、私たちには
‖
f
w
‖
k
=
‖
w
‖
.
{\displaystyle \|f_{\mathbf {w} }\|_{k}=\|\mathbf {w} \|.}
平均ゼロで共分散行列が恒等である多変量ガウス分布に従って分布すると
仮定して、ガウス過程を構築することができる。
w
=
[
w
1
,
…
,
w
p
]
⊤
{\displaystyle \mathbf {w} =[w^{1},\ldots ,w^{p}]^{\top }}
w
∼
N
(
0
,
I
)
∝
exp
(
−
‖
w
‖
2
)
.
{\displaystyle \mathbf {w} \sim {\mathcal {N}}(0,\mathbf {I} )\propto \exp(-\|\mathbf {w} \|^{2}).}
ガウス尤度を仮定すると、
P
(
Y
|
X
,
f
)
=
N
(
f
(
X
)
,
σ
2
I
)
∝
exp
(
−
1
σ
2
‖
f
w
(
X
)
−
Y
‖
2
)
,
{\displaystyle P(\mathbf {Y} |\mathbf {X} ,f)={\mathcal {N}}(f(\mathbf {X} ),\sigma ^{2}\mathbf {I} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|^{2}\right),}
ここで 、結果として得られる事後分布は次のように与えられる。
f
w
(
X
)
=
(
⟨
w
,
Φ
(
x
1
)
⟩
,
…
,
⟨
w
,
Φ
(
x
n
⟩
)
{\displaystyle f_{\mathbf {w} }(\mathbf {X} )=(\langle \mathbf {w} ,\Phi (\mathbf {x} _{1})\rangle ,\ldots ,\langle \mathbf {w} ,\Phi (\mathbf {x} _{n}\rangle )}
P
(
f
|
X
,
Y
)
∝
exp
(
−
1
σ
2
‖
f
w
(
X
)
−
Y
‖
n
2
+
‖
w
‖
2
)
{\displaystyle P(f|\mathbf {X} ,\mathbf {Y} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|_{n}^{2}+\|\mathbf {w} \|^{2}\right)}
最大事後(MAP)推定は、 ティホノフ正則化 を定義する最小化問題と同等である ことがわかります 。ベイズの場合、正則化パラメータはノイズ分散に関連しています。
哲学的な観点から見ると、正則化設定における 損失関数は 、ベイズ設定における尤度関数とは異なる役割を果たします。損失関数は の代わりに予測する際に発生する誤差を測定するのに対し、尤度関数は、生成プロセスにおいて真であると仮定されたモデルから観測値がどれだけ確からしいかを測定します。しかし、数学的な観点から見ると、正則化フレームワークとベイズフレームワークの定式化により、損失関数と尤度関数は 、ラベルを 可能な限り
近似する 関数の推論を促進するという、同じ数学的役割を担うことになります。
f
(
x
)
{\displaystyle f(\mathbf {x} )}
y
{\displaystyle y}
f
{\displaystyle f}
y
{\displaystyle y}
参照
参考文献
^ Álvarez, Mauricio A.; Rosasco, Lorenzo; Lawrence, Neil D. (2011年6月). 「ベクトル値関数のカーネル:レビュー」. arXiv : 1106.6251 [stat.ML].
^ abcd Vapnik, Vladimir (1998). 統計学習理論. Wiley. ISBN 9780471030034 。
^ abc Wahba, Grace (1990). 観測データのためのスプラインモデル . SIAM. Bibcode :1990smod.conf.....W.
^ Schölkopf, Bernhard; Smola, Alexander J. (2002). 『カーネルによる学習:サポートベクターマシン、正則化、最適化、そしてその先へ 』 MIT Press. ISBN 9780262194754 。
^ ab Girosi, F.; Poggio, T. (1990). 「ネットワークと最良近似特性」 (PDF) . 生物学的サイバネティクス . 63 (3). Springer: 169– 176. doi :10.1007/bf00195855. hdl : 1721.1/6017 . S2CID 18824241.
^ Aronszajn, N. (1950年5月). 「再生核の理論」. アメリカ数学会誌 . 68 (3): 337–404 . doi : 10.2307/1990404 . JSTOR 1990404.
^ シュワルツ、ローラン (1964). 「Sous-espaces hilbertiens d'espaces vectoriels topologiques et noyaux associés (noyaux reproduisants)」。 Journal d'Analyse Mathématique 。 13 (1).スプリンガー: 115–256 。 土井 :10.1007/bf02786620。 S2CID 117202393。
^ Cucker, Felipe; Smale, Steve (2001年10月5日). 「学習の数学的基礎について」 アメリカ数学会報 . 39 (1): 1– 49. doi : 10.1090/s0273-0979-01-00923-5 .
^ Kimeldorf, George S.; Wahba, Grace (1970). 「確率過程におけるベイズ推定とスプラインによる平滑化との対応」. 数理統計年報 . 41 (2): 495– 502. doi : 10.1214/aoms/1177697089 .
^ Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). 「一般化表現定理」. 計算学習理論 . コンピュータサイエンス講義ノート. Vol. 2111/2001. pp. 416– 426. doi :10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0 。
^ De Vito, Ernesto; Rosasco, Lorenzo; Caponnetto, Andrea; Piana, Michele; Verri, Alessandro (2004年10月). 「正規化カーネル法のいくつかの特性」. Journal of Machine Learning Research . 5 : 1363–1390 .
^ ab ラスムッセン, カール・エドワード; ウィリアムズ, クリストファー・KI (2006). 機械学習のためのガウス過程. MIT出版. ISBN 0-262-18253-X 。
^ Huang, Yunfei.; et al. (2019). 「細胞比較のための最適化された正規化と自動ベイズパラメータ選択を備えた牽引力顕微鏡法」. Scientific Reports . 9 (1) 539: 537. arXiv : 1810.05848 . Bibcode :2019NatSR...9..539H. doi : 10.1038/s41598-018-36896-x . PMC 6345967. PMID 30679578 .