ニューラルネットワークにおいて、ゲーティング機構は活性化信号と勾配信号の流れを制御するためのアーキテクチャ上のモチーフです。ゲーティング機構はリカレントニューラルネットワーク(RNN)で最もよく用いられていますが、他のアーキテクチャにも応用されています。
RNN
ゲーティング機構は長短期記憶(LSTM)の中心的な要素です。[ 1 ]ゲーティング機構は、通常のRNNでしばしば発生する 勾配消失問題を軽減するために提案されました。
LSTM ユニットには 3 つのゲートが含まれています。
- メモリセルへの新しい情報の流れを制御する入力ゲート
- 忘却ゲートは、前のタイムステップからどれだけの情報を保持するかを制御する。
- 出力ゲート。次の層に渡される情報量を制御します。
LSTMの方程式は以下の通りである: [ 2 ]
ここで、 は要素ごとの乗算を表します。
- ゲート付きLSTMアーキテクチャ
ゲート付き回帰ユニット(GRU)はLSTMを簡素化します。[ 3 ] LSTMと比較すると、GRUはリセットゲートと更新ゲートの2つのゲートのみを持ちます。GRUはまた、セルの状態と隠れ状態を統合します。リセットゲートは忘却ゲートに、更新ゲートは入力ゲートにほぼ相当します。出力ゲートは削除されています。
GRUにはいくつかの亜種があり、そのうちの一つの亜種は以下の式を持つ:[ 4 ]
- ゲート付きゲートリカレントユニットアーキテクチャ
ゲート式線形ユニット
ゲート線形ユニット(GLU)[ 5 ]は、フィードフォワードニューラルネットワーク(多くの場合、トランスフォーマーベースのアーキテクチャ内)での使用に適したゲーティングメカニズムです。GLUは以下のように定義されます。
ここで、 はそれぞれ最初の入力と 2 番目の入力です。はシグモイド活性化関数を表します。
他の活性化関数に置き換えると、GLU のバリエーションが生成されます。
ここで、 ReLU、GELU、およびSwishは異なる活性化関数です。
変成器モデルでは、このようなゲートユニットはフィードフォワードモジュールでよく使用されます。単一のベクトル入力の場合、結果は次のようになります。[ 6 ]
その他のアーキテクチャ
ゲーティング メカニズムは、LSTM を展開して設計された 高速道路ネットワークで使用されます。
チャネルゲーティング[ 7 ]は、畳み込みニューラルネットワーク(CNN) 内の異なるチャネルを通る情報の流れを制御するためにゲートを使用します。
参照
参考文献
- ^ゼップ・ホッホライター;ユルゲン・シュミットフーバー(1997)。「長短期記憶」。ニューラル計算。9 (8): 1735 ~ 1780 年。土井: 10.1162/neco.1997.9.8.1735。PMID 9377276。S2CID 1915014。
- ^ Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). 「10.1. Long Short-Term Memory (LSTM)」 . Dive into deep learning . Cambridge, New York, Port Melbourne, New Delhi, Singapore: Cambridge University Press. ISBN 978-1-009-38943-3。
- ^ Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). 「統計的機械翻訳のためのRNNエンコーダー・デコーダーを用いたフレーズ表現の学習」.計算言語学協会. arXiv : 1406.1078 .
- ^ Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). 「10.2. ゲート付きリカレントユニット (GRU)」 .ディープラーニングへの挑戦. ケンブリッジ大学出版局, ニューヨーク, ポートメルボルン, ニューデリー, シンガポール. ISBN 978-1-009-38943-3。
- ^ Dauphin, Yann N.; Fan, Angela; Auli, Michael; Grangier, David (2017-07-17). 「ゲート付き畳み込みネットワークによる言語モデリング」 .第34回国際機械学習会議論文集. PMLR: 933– 941. arXiv : 1612.08083 .
- ^ Shazeer, Noam (2020年2月14日). 「GLUバリアントによるTransformerの改良」. arXiv : 2002.05202 [ cs.LG ].
- ^ Hua, Weizhe; Zhou, Yuan; De Sa, Christopher M; Zhang, Zhiru; Suh, G. Edward (2019). 「チャネルゲーティングニューラルネットワーク」 .ニューラル情報処理システムの進歩. 32. Curran Associates, Inc. arXiv : 1805.12549 .
さらに読む
- Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). 「10.1. 長短期記憶(LSTM)」 .ディープラーニングへの挑戦. ケンブリッジ大学出版局, ニューヨーク, ポートメルボルン, ニューデリー, シンガポール. ISBN 978-1-009-38943-3。