行列正則化

統計学習理論の分野において行列正則化はベクトル正則化の概念を、学習対象が行列である場合に一般化します。正則化の目的は、安定した予測関数を生成するための条件(例えば、スパース性や滑らかさなど)を強制することです。例えば、より一般的なベクトルフレームワークでは、ティホノフ正則化はを最適化して、 回帰問題の安定した解となる ベクトルを見つけます。システムがベクトルではなく行列で記述される場合、この問題は と表すことができます。 ここで、 に正則化ペナルティを強制するベクトルノルムは、行列ノルムに拡張されています × × y 2 + λ × 2 {\displaystyle \min _{x}\left\|Ax-y\right\|^{2}+\lambda \left\|x\right\|^{2}} × {\displaystyle x} X X はい 2 + λ X 2 {\displaystyle \min _{X}\left\|AX-Y\right\|^{2}+\lambda \left\|X\right\|^{2},} × {\displaystyle x} X {\displaystyle X}

行列正則化は、行列補完多変量回帰マルチタスク学習に応用されます。特徴量選択とグループ選択の考え方は行列にも拡張でき、これらはマルチカーネル学習のノンパラメトリックなケースにも一般化できます。

基本的な定義

一連の例から学習する行列 を考えます。ここでは から までから までになります。各入力行列 としサイズとします。出力の一般的なモデルはと表すことができます 。 ここで、内積はフロベニウス内積です。異なるアプリケーションでは、行列は異なる形式になりますが、[1]これらのそれぞれについて、推論する最適化問題はと記述できます。 ここで、は特定の についての経験的誤差を定義し、 は行列正則化ペナルティです。関数 は、通常、凸関数になるように選択され、スパース性 ( -ノルムを使用) および/または滑らかさ (-ノルムを使用)を強化するように選択されることがよくあります。最後に、はフロベニウス内積 を持つ行列の空間内にあります W {\displaystyle W} S X t y t {\displaystyle S=(X_{i}^{t},y_{i}^{t})} {\displaystyle i} 1 {\displaystyle 1} n {\displaystyle n} t {\displaystyle t} 1 {\displaystyle 1} T {\displaystyle T} X {\displaystyle X_{i}} R D T {\displaystyle \in \mathbb {R} ^{DT}} W {\displaystyle W} D × T {\displaystyle D\times T} y {\displaystyle y} y t W X t F {\displaystyle y_{i}^{t}=\left\langle W,X_{i}^{t}\right\rangle _{F},} X {\displaystyle X_{i}} W {\displaystyle W} W H E W + R W {\displaystyle \min _{W\in {\mathcal {H}}}E(W)+R(W),} E {\displaystyle E} W {\displaystyle W} R W {\displaystyle R(W)} R W {\displaystyle R(W)} 1 {\displaystyle \ell^{1}} 2 {\displaystyle \ell ^{2}} W {\displaystyle W} H {\displaystyle {\mathcal {H}}} F {\displaystyle \langle \dots \rangle _{F}}

一般的な用途

マトリックス補完

行列完備化問題において、行列はの形をとります 。 ここで、 とはそれぞれ、 と の標準基底です。この場合、フロベニウス内積の役割は、行列 から個々の要素を選択することです。したがって、出力は行列 からの要素のサンプリングとなります X t {\displaystyle X_{i}^{t}} X t e t e {\displaystyle X_{i}^{t}=e_{t}\otimes e_{i}',} e t t {\displaystyle (e_{t})_{t}} ( e i ) i {\displaystyle (e_{i}')_{i}} R T {\displaystyle \mathbb {R} ^{T}} R D {\displaystyle \mathbb {R} ^{D}} w i t {\displaystyle w_{i}^{t}} W {\displaystyle W} y {\displaystyle y} W {\displaystyle W}

少数のサンプルからを再構成する問題は、行列に特定の制約がある場合にのみ可能であり、これらの制約は正則化関数によって強制することができます。例えば、が低ランクであると仮定すると、正則化ペナルティは核ノルムの形を取ることができます。[2] ここでからまでの はの特異値です W {\displaystyle W} W {\displaystyle W} R ( W ) = λ W = λ i | σ i | , {\displaystyle R(W)=\lambda \left\|W\right\|_{*}=\lambda \sum _{i}\left|\sigma _{i}\right|,} σ i {\displaystyle \sigma _{i}} i {\displaystyle i} 1 {\displaystyle 1} min D , T {\displaystyle \min D,T} W {\displaystyle W}

多変量回帰

多変量回帰モデルは、係数行列によってパラメータ化されます。上記のフロベニウス内積において、各行列は、入力の1行と係数行列の1列とのドット積 を出力としますこのようなモデルの一般的な形式は、 X {\displaystyle X} X i t = e t x i {\displaystyle X_{i}^{t}=e_{t}\otimes x_{i}} Y = X W + b {\displaystyle Y=XW+b}

単変数回帰で用いられるベクトルノルムの多くは、多変数の場合にも拡張できます。一例として、2乗フロベニウスノルムが挙げられます。これは、行列の各要素または特異値に作用する -ノルムとして捉えることができます。 2 {\displaystyle \ell ^{2}} R ( W ) = λ W F 2 = λ i j | w i j | 2 = λ Tr ( W W ) = λ i σ i 2 . {\displaystyle R(W)=\lambda \left\|W\right\|_{F}^{2}=\lambda \sum _{i}\sum _{j}\left|w_{ij}\right|^{2}=\lambda \operatorname {Tr} \left(W^{*}W\right)=\lambda \sum _{i}\sigma _{i}^{2}.}

多変量の場合、フロベニウス ノルムで正規化した場合の効果はベクトルの場合と同じです。非常に複雑なモデルではノルムが大きくなり、したがってペナルティが大きくなります。

マルチタスク学習

マルチタスク学習の設定は、多変量回帰の設定とほぼ同じです。主な違いは、入力変数もタスク(列)でインデックス付けされていることです。フロベニウスの内積を用いた表現は、 Y {\displaystyle Y} X i t = e t x i t . {\displaystyle X_{i}^{t}=e_{t}\otimes x_{i}^{t}.}

この設定での行列正則化の役割は多変量回帰の場合と同じで構いませんが、行列ノルムはタスク間で学習問題を結合するためにも使用できます。特に、最適化問題では、 の各列に対応する解が分離されていることに注意してください。つまり、結合問題を解くことによっても、各列について独立した回帰問題を解くことによっても、同じ解を見つけることができます。問題は、解の共分散に追加の正則化ペナルティを追加することで結合できます 。 ここで、はタスク間の関係をモデル化します。このスキームは、タスク間での解の類似性を強制するためと、 と の最適化を交互に行うことでタスクの類似性の特定の構造を学習するために使用できます[3]タスク間の関係がグラフ上にあることがわかっている場合、グラフの ラプラシアン行列を使用して学習問題を結合できます。 min W X W Y 2 2 + λ W 2 2 {\displaystyle \min _{W}\left\|XW-Y\right\|_{2}^{2}+\lambda \left\|W\right\|_{2}^{2}} Y {\displaystyle Y} min W , Ω X W Y 2 2 + λ 1 W 2 2 + λ 2 Tr ( W T Ω 1 W ) {\displaystyle \min _{W,\Omega }\left\|XW-Y\right\|_{2}^{2}+\lambda _{1}\left\|W\right\|_{2}^{2}+\lambda _{2}\operatorname {Tr} \left(W^{T}\Omega ^{-1}W\right)} Ω {\displaystyle \Omega } W {\displaystyle W} Ω {\displaystyle \Omega }

スペクトル正規化

スペクトルフィルタリングによる正則化は、上記のような問題に対する安定した解を見つけるために用いられてきました。これは、不適切行列逆行列を扱うことによって実現されます(例えば、 ティホノフ正則化のためのフィルタ関数を参照)。多くの場合、正則化関数は入力(またはカーネル)に作用し、小さな特異値を除去することで有界逆行列を保証しますが、学習対象となる行列に作用するスペクトルノルムを持つことも有用です。

行列の特異値に作用する行列ノルムは数多く存在します。よく用いられる例としてはp = 1 または 2 のシャッテンpノルムが挙げられます 。例えば、シャッテン1ノルム(核ノルムとも呼ばれます)を用いた行列正則化は、行列のスペクトルにおけるスパース性を強制するために用いられます。これは、行列のランクが制限されていると考えられる場合の行列補完の文脈で用いられてきました。[2]この場合、最適化問題は以下のようになります。 min W      subject to      W i , j = Y i j . {\displaystyle \min \left\|W\right\|_{*}~~{\text{ subject to }}~~W_{i,j}=Y_{ij}.}

スペクトル正則化は、多変量回帰においてランク係数行列を縮小するためにも使用されます。[4]この設定では、上位の特異値のみを保持することでランク係数行列を縮小できますが、これを拡張して、特異値とベクトルの任意の縮小セットを保持することもできます。 n {\displaystyle n}

構造化されたスパース性

スパース最適化は、少数の変数に依存する解を求める手法として、多くの研究の焦点となっている(例えば、 Lasso法を参照)。原理的には、行列のエントリワイズ-ノルムにペナルティを課すことでエントリワイズスパース性を強制することができるが、 -ノルムは凸ではない。実際には、これは-ノルムに対する凸緩和によって実装できる。-ノルムを用いたエントリワイズ正則化は、少数の非ゼロ要素を持つ解を求めることができるが、異なる変数グループに-ノルムを適用することで、解のスパース性に構造を強制することができる。[5] 0 {\displaystyle \ell ^{0}} 0 {\displaystyle \ell ^{0}} 1 {\displaystyle \ell ^{1}} 1 {\displaystyle \ell ^{1}} 1 {\displaystyle \ell ^{1}}

構造化スパースの最も簡単な例は、 および のノルムを使用ます p , q {\displaystyle \ell _{p,q}} p = 2 {\displaystyle p=2} q = 1 {\displaystyle q=1} W 2 , 1 = i w i 2 . {\displaystyle \left\|W\right\|_{2,1}=\sum _{i}\left\|w_{i}\right\|_{2}.}

例えば、ノルムはマルチタスク学習において、タスク間で特徴量をグループ化するために用いられます。これにより、係数行列の特定の行のすべての要素をグループとしてゼロに強制することができます。[6]グループ化効果は、各行の -ノルムを取り、それらの行ごとのノルムの合計をペナルティの合計とすることで実現されます。この正則化により、行はすべてゼロ、つまり密になる傾向があります。同様の正則化は、各列の -ノルムを取ることで、列ごとにスパース性を強制するためにも使用できます。 2 , 1 {\displaystyle \ell _{2,1}} 2 {\displaystyle \ell ^{2}} 2 {\displaystyle \ell ^{2}}

より一般的には、ノルムは任意の変数グループに適用できます。 ここで、インデックスは変数グループ全体にわたっており、グループの基数を示します 2 , 1 {\displaystyle \ell _{2,1}} R ( W ) = λ g G j | G g | | w g j | 2 = λ g G w g g {\displaystyle R(W)=\lambda \sum _{g}^{G}{\sqrt {\sum _{j}^{|G_{g}|}\left|w_{g}^{j}\right|^{2}}}=\lambda \sum _{g}^{G}\left\|w_{g}\right\|_{g}} g {\displaystyle g} | G g | {\displaystyle |G_{g}|} g {\displaystyle g}

これらのグループスパース性を解くアルゴリズムは、例えば重複グループを許可することで、よりよく知られているLasso法とグループLasso法を拡張し、マッチング追求: [7]近位勾配法[8]によって実装されています。与えられた係数、に関して近位勾配を書くことで、このノルムがグループ全体のソフトしきい値[1]を強制することがわかります ここで、はグループノルムの指示関数です。 w g i {\displaystyle w_{g}^{i}} prox λ , R g ( w g ) i = ( w g i λ w g i w g g ) 1 w g g λ . {\displaystyle \operatorname {prox} _{\lambda ,R_{g}}\left(w_{g}\right)^{i}=\left(w_{g}^{i}-\lambda {\frac {w_{g}^{i}}{\left\|w_{g}\right\|_{g}}}\right)\mathbf {1} _{\|w_{g}\|_{g}\geq \lambda }.} 1 w g g λ {\displaystyle \mathbf {1} _{\|w_{g}\|_{g}\geq \lambda }} λ {\displaystyle \geq \lambda }

このように、ノルムを用いることで、行方向、列方向、あるいは任意のブロック単位で、行列のスパース性に構造を強制することが容易に可能になります。例えば、多変量回帰やマルチタスク回帰において、ブロックにグループノルムを強制することで、入力変数と出力変数のグループを見つけることが可能になり、出力変数の定義されたサブセット(行列の列)が、同じスパースな入力変数の集合に依存するようになります。 2 , 1 {\displaystyle \ell _{2,1}} Y {\displaystyle Y}

複数のカーネルの選択

構造化スパース性と特徴選択の考え方は、マルチカーネル学習のノンパラメトリックなケースにも拡張できる[9]これは、それぞれに適したカーネルが異なる複数の種類の入力データ(たとえば、色とテクスチャ)がある場合、または適切なカーネルが不明な場合に役立つ。たとえば、特徴マップとを持つ 2 つのカーネルが、対応する再生カーネルヒルベルト空間にある場合、より大きな空間 を2 つの空間の和として作成できる。これは、 および が 線形独立であると仮定した場合である。この場合も、-ノルムはノルムの和である。 A {\displaystyle A} B {\displaystyle B} H A , H B {\displaystyle {\mathcal {H_{A}}},{\mathcal {H_{B}}}} H D {\displaystyle {\mathcal {H_{D}}}} H D : f = h + h ; h H A , h H B {\displaystyle {\mathcal {H_{D}}}:f=h+h';h\in {\mathcal {H_{A}}},h'\in {\mathcal {H_{B}}}} A {\displaystyle A} B {\displaystyle B} 2 , 1 {\displaystyle \ell _{2,1}} f H D , 1 = h H A + h H B {\displaystyle \left\|f\right\|_{{\mathcal {H_{D}}},1}=\left\|h\right\|_{\mathcal {H_{A}}}+\left\|h'\right\|_{\mathcal {H_{B}}}}

したがって、このタイプのノルムとして行列正則化関数を選択することで、使用されるカーネルに関してはスパースであるものの、各カーネルの係数に関しては稠密な解を求めることができます。マルチカーネル学習は、非線形変数選択の一形態として、またはモデル集約手法(例えば、ノルムの二乗和を取り、スパース制約を緩和する)としても使用できます。例えば、各カーネルを異なる幅のガウスカーネルとすることができます。

参照

参考文献

  1. ^ ab Rosasco, Lorenzo; Poggio, Tomaso (2014年12月). 「機械学習の正規化ツアー」. MIT-9.520 講義ノート(原稿).
  2. ^ ab Candès, Emmanuel J. ; Recht, Benjamin (2009). 「凸最適化による正確な行列完成」.計算数学の基礎. 9 (6): 717– 772. doi : 10.1007/s10208-009-9045-5 .
  3. ^ Zhang; Yeung (2012). 「マルチタスク学習におけるタスク関係の学習のための凸定式化」.第26回人工知能における不確実性に関する会議 (UAI2010) の議事録. arXiv : 1203.3536 . Bibcode :2012arXiv1203.3536Z.
  4. ^ Izenman, Alan J. (1975). 「多変量線形モデルのための縮減順位回帰」. Journal of Multivariate Analysis . 5 (2): 248– 264. doi : 10.1016/0047-259X(75)90042-1 .
  5. ^ Kakade; Shalev-Shwartz; Tewari (2012). 「行列を用いた学習のための正規化手法」. Journal of Machine Learning Research . 13 : 1865–1890 .
  6. ^ Argyriou, A.; Evgeniou, T.; Pontil, M. (2008). 「凸型マルチタスク特徴学習」.機械学習. 73 (3): 243– 272. doi : 10.1007/s10994-007-5040-8 .
  7. ^ Huang、Zhang、Metaxas (2011). 「構造化スパース性を用いた学習」.機械学習研究ジャーナル. 12 : 3371–3412 .
  8. ^ Chen, Xi; et al. (2012). 「一般構造化スパース回帰における平滑化近似勾配法」Annals of Applied Statistics 6 ( 2): 719– 752. arXiv : 1005.4717 . doi : 10.1214/11-AOAS514 .
  9. ^ Sonnenburg; Ratsch; Schafer; Scholkopf (2006). 「大規模マルチカーネル学習」.機械学習研究ジャーナル. 7 : 1531–1565 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Matrix_regularization&oldid=1314660825"