一般化ヘブビアンアルゴリズム

線形フィードフォワードニューラルネットワークモデル

一般化ヘブアルゴリズムは、文献ではサンガー則としても知られ、主に主成分分析に応用される教師なし学習用の線形フィードフォワードニューラルネットワークです。1989年に初めて定義され^[1] 、複数の出力を持つネットワークに適用できることを除いて、その定式化と安定性はオージャ則に類似しています。この名前は、このアルゴリズムと、脳内のシナプス強度が経験に応じて変化する方法に関するドナルド・ヘブ^[2]の仮説との類似性に由来しています。つまり、変化はシナプス前ニューロンとシナプス後ニューロンの発火間の相関に比例するというものです^[3]

理論

あるデータに対する線形符号を学習する問題を考えてみましょう。各データは多次元ベクトルであり、線形符号ベクトルの線形和として（近似的に）表現できます。のとき、データを正確に表現することが可能です。のとき、データを近似的に表現することが可能です。L2表現損失を最小化するには、最も高い主成分ベクトルをとする必要があります $x\in \mathbb {R}^{n}$ $w_{1},\dots,w_{m}$ $m=n$ $m<n$ $w_{1},\dots,w_{m}$

一般化ヘブビアンアルゴリズムは、ニューラルネットワークの教師なしヘブビアン学習に似たアルゴリズム形式で、最高の主成分ベクトルを見つけるための反復アルゴリズムです。

入力ニューロンと出力ニューロンを持つ単層ニューラルネットワークを考えてみましょう。線形コードベクトルは接続強度、つまりは- 番目の入力ニューロンと- 番目の出力ニューロン間のシナプス重み、つまり接続強度です。 $n$ $m$ $y_{1},\dots,y_{m}$ $w_{ij}$ $j$ $i$

一般化ヘブビアンアルゴリズムの学習則は次の形式をとる。

\,\Delta w_{ij}~=~\eta y_{i}\left(x_{j}-\sum _{k=1}^{i}w_{kj}y_{k}\right)

ここで学習率パラメータである。^[4] $\eta$

導出

行列形式では、オージャの法則は次のように表すことができます

\,{\frac {{\text{d}}w(t)}{{\text{d}}t}}~=~w(t)Q-\mathrm {diag} [w(t)Qw(t)^{\mathrm {T} }]w(t)

、

そしてグラム・シュミット法は

\,\Delta w(t)~=~-\mathrm {lower} [w(t)w(t)^{\mathrm {T} }]w(t)

、

ここで、 $w (t)$ は任意の行列であり、この場合はシナプスの重みを表します。Q $=$ $η x x T$ は自己相関行列であり、単に入力の外積です。diag $は$ 対角線外のすべての行列要素を0に設定する関数であり、 $lower$ $は$ 対角線上または対角線上のすべての行列要素を0に設定する関数です。これらの式を組み合わせると、元の規則を行列形式で得ることができます。

\,\Delta w(t)~=~\eta (t)\left(\mathbf {y} (t)\mathbf {x} (t)^{\mathrm {T} }-\mathrm {LT} [\mathbf {y} (t)\mathbf {y} (t)^{\mathrm {T} }]w(t)\right)

、

ここで関数 $LTは$ 対角線より上のすべての行列要素を0に設定し、出力 $y (t)= w (t) x (t)$ は線形ニューロンであることに注意してください。^[1]

安定性と主成分分析

^[5]

オージャの法則は、の特別なケースです。^[6]一般化ヘブビアンアルゴリズムは、オージャの法則を繰り返すものと考えることができます $m=1$

Ojaの法則を用いると、が学習され、その方向は最大主成分ベクトルが学習される方向と同じになります。長さはに対してで決定されます。ここで、期待値はすべての入出力ペアについて取られます。言い換えれば、ベクトルの長さは、潜在コードを持つオートエンコーダが得られるような長さであり、が最小化されます。 $w_{1}$ $E[x_{j}]=E[w_{1j}y_{1}]$ $j$ $w_{1}$ $y_{1}=\sum _{i}w_{1i}x_{i}$ $E[\|x-y_{1}w_{1}\|^{2}]$

の場合でも、オートエンコーダの隠れ層の最初のニューロンは、2番目のニューロンの影響を受けないため、前述の通り学習を続けます。したがって、最初のニューロンとそのベクトルが収束した後、2番目のニューロンは、で定義される修正された入力ベクトルに対して、実質的に別のオージャの規則を適用していることになります。これは、最初の主成分が除去された入力ベクトルであることが分かっています。したがって、2番目のニューロンは、2番目の主成分を符号化するように学習します。 $m=2$ $w_{1}$ $x'=x-y_{1}w_{1}$

帰納法により、任意の上位主成分を見つけることになります。 $m$ $m$

応用

一般化ヘブビアンアルゴリズムは、自己組織化マップが必要なアプリケーション、または特徴量分析や主成分分析を使用できるアプリケーションで使用されます。このようなケースの例としては、人工知能、音声・画像処理などが挙げられます

その重要性は、学習が単層プロセスであるという事実に由来します。つまり、シナプス荷重はその層の入力と出力の応答のみに依存して変化するため、バックプロパゲーションアルゴリズムに見られる多層依存性を回避できます。また、学習速度と収束精度の間には、学習率パラメータ $η$ によって設定される単純かつ予測可能なトレードオフ関係があります。[ ^5]

例えば、(Olshausen and Field, 1996) ^{[7] は}、自然風景の写真の8×8パッチに対して一般化ヘブビアンアルゴリズムを適用し、フーリエ特性のような特徴が得られることを明らかにした。この特徴は、予想通り主成分分析で得られる主成分と同じであり、8×8パッチのサンプルの分散行列によって決定される。言い換えれば、画像内のピクセルの2次統計量によって決定される。彼らは、この結果は一次視覚野の単純細胞のガボール特性のような特徴を説明するために必要な高次統計量を捉えるには不十分であると批判した。 $64\times 64$

参照

参考文献

^ ab Sanger, Terence D. (1989). 「単層線形フィードフォワードニューラルネットワークにおける最適教師なし学習」(PDF) . Neural Networks . 2 (6): 459– 473. CiteSeerX 10.1.1.128.6893 . doi :10.1016/0893-6080(89)90044-0 . 2007年11月24日閲覧
^ ヘブ, DO (1949). 『行動の組織化』ニューヨーク: ワイリー・アンド・サンズ. ISBN 9781135631918。 {{cite book}}: ISBN / Date incompatibility (help)
^ ジョン・ハーツ、アンダース・クロフ、リチャード・G・パーマー (1991). 『神経計算理論入門』レッドウッドシティ、カリフォルニア州: アディソン・ウェズリー出版社. ISBN 978-0201515602。
^ Gorrell, Genevieve (2006)、「自然言語処理における増分特異値分解のための一般化ヘブビアンアルゴリズム」、EACL、CiteSeerX 10.1.1.102.2084
^ ab ヘイキン、サイモン(1998).ニューラルネットワーク：包括的な基礎（第2版）. プレンティス・ホール. ISBN 978-0-13-273350-2。
^ Oja, Erkki (1982年11月). 「主成分分析器としての簡略化ニューロンモデル」. Journal of Mathematical Biology . 15 (3): 267–273 . doi :10.1007/BF00275687. PMID 7153672. S2CID 16577977. BF00275687
^ Olshausen, Bruno A.; Field, David J. (1996年6月). 「自然画像に対するスパースコードの学習による単純細胞受容野特性の出現」 . Nature . 381 (6583): 607– 609. doi :10.1038/381607a0. ISSN 1476-4687. PMID 8637596.

[Sanger89-1] Sanger, Terence D. (1989). 「単層線形フィードフォワードニューラルネットワークにおける最適教師なし学習」(PDF) . Neural Networks . 2 (6): 459– 473. CiteSeerX 10.1.1.128.6893 . doi :10.1016/0893-6080(89)90044-0 . 2007年11月24日閲覧

[Hebb_1949-2] ヘブ, DO (1949). 『行動の組織化』ニューヨーク: ワイリー・アンド・サンズ. ISBN 9781135631918。 {{cite book}}: ISBN / Date incompatibility (help)

[Hertz,_Krough,_and_Palmer,_1991-3] ジョン・ハーツ、アンダース・クロフ、リチャード・G・パーマー (1991). 『神経計算理論入門』レッドウッドシティ、カリフォルニア州: アディソン・ウェズリー出版社. ISBN 978-0201515602。

[4] Gorrell, Genevieve (2006)、「自然言語処理における増分特異値分解のための一般化ヘブビアンアルゴリズム」、EACL、CiteSeerX 10.1.1.102.2084

[Haykin98-5] ヘイキン、サイモン(1998).ニューラルネットワーク：包括的な基礎（第2版）. プレンティス・ホール. ISBN 978-0-13-273350-2。

[Oja82-6] Oja, Erkki (1982年11月). 「主成分分析器としての簡略化ニューロンモデル」. Journal of Mathematical Biology . 15 (3): 267–273 . doi :10.1007/BF00275687. PMID 7153672. S2CID 16577977. BF00275687

[7] Olshausen, Bruno A.; Field, David J. (1996年6月). 「自然画像に対するスパースコードの学習による単純細胞受容野特性の出現」 . Nature . 381 (6583): 607– 609. doi :10.1038/381607a0. ISSN 1476-4687. PMID 8637596.