ゲート付き再帰ユニット

人工ニューラルネットワークにおいて、ゲート付き回帰ユニットGRU)は、回帰型ニューラルネットワークで使用されるゲーティングメカニズムであり、2014年にKyunghyun Choらによって導入されました。[ 1 ] GRUは、特定の特徴を入力したり忘れたりするゲーティングメカニズムを備えた長短期記憶(LSTM)に似ていますが、 [ 2 ]コンテキストベクトルまたは出力ゲートがないため、LSTMよりもパラメーターが少なくなります。[ 3 ] ポリフォニック音楽モデリング、音声信号モデリング、自然言語処理の特定のタスクにおけるGRUのパフォーマンスは、LSTMのパフォーマンスに似ていることがわかりました。[ 4 ] [ 5 ] GRUは、ゲーティングが一般的に役立つことを示しており、Bengioのチームは、2つのゲーティングユニットのどちらが優れているかについて具体的な結論には至りませんでした。[ 6 ] [ 7 ]

建築

フルゲートユニットにはいくつかのバリエーションがあり、ゲーティングは以前の隠れ状態とバイアスを様々な組み合わせで使用して行われ、簡略化された形式は最小ゲートユニットと呼ばれます。[ 8 ]

以下では、演算子はアダマール積を表します。 {\displaystyle \odot}

完全ゲート付きユニット

ゲート付きリカレントユニット、完全ゲートバージョン

最初は、 に対して、出力ベクトルは です。 t0{\displaystyle t=0}h00{\displaystyle h_{0}=0}

ztσWz×t+あなたzht1+bzrtσWr×t+あなたrht1+brh^tϕWh×t+あなたhrtht1+bhht1ztht1+zth^t{\displaystyle {\begin{aligned}z_{t}&=\sigma (W_{z}x_{t}+U_{z}h_{t-1}+b_{z})\\r_{t}&=\sigma (W_{r}x_{t}+U_{r}h_{t-1}+b_{r})\\{\hat {h}}_{t}&=\phi (W_{h}x_{t}+U_{h}(r_{t}\odot h_{t-1})+b_{h})\\h_{t}&=(1-z_{t})\odot h_{t-1}+z_{t}\odot {\hat {h}}_{t}\end{aligned}}}

変数(入力特徴の数と出力特徴の数を示します): d{\displaystyle d}e{\displaystyle e}

  • ×tRd{\displaystyle x_{t}\in \mathbb {R} ^{d}}: 入力ベクトル
  • htRe{\displaystyle h_{t}\in \mathbb {R} ^{e}}: 出力ベクトル
  • h^tRe{\displaystyle {\hat {h}}_{t}\in \mathbb {R} ^{e}}: 候補活性化ベクトル
  • zt01e{\displaystyle z_{t}\in (0,1)^{e}}: ゲートベクトルを更新
  • rt01e{\displaystyle r_{t}\in (0,1)^{e}}: リセットゲートベクトル
  • WRe×d{\displaystyle W\in \mathbb {R} ^{e\times d}}、および:訓練中に学習する必要があるパラメータ行列とベクトルあなたRe×e{\displaystyle U\in \mathbb {R} ^{e\times e}}bRe{\displaystyle b\in \mathbb {R} ^{e}}

活性化関数

代替の活性化関数は、次の条件を満たす場合に可能です。 σ×[01]{\displaystyle \sigma (x)\in [0,1]}

タイプ1
タイプ2
タイプ3

代替フォームは変更することで作成でき、[ 9 ]zt{\displaystyle z_{t}}rt{\displaystyle r_{t}}

  • タイプ 1: 各ゲートは、前の隠し状態とバイアスのみに依存します。
    ztσあなたzht1+bzrtσあなたrht1+br{\displaystyle {\begin{aligned}z_{t}&=\sigma (U_{z}h_{t-1}+b_{z})\\r_{t}&=\sigma (U_{r}h_{t-1}+b_{r})\\\end{aligned}}}
  • タイプ 2: 各ゲートは前の隠し状態にのみ依存します。
    ztσあなたzht1rtσあなたrht1{\displaystyle {\begin{aligned}z_{t}&=\sigma (U_{z}h_{t-1})\\r_{t}&=\sigma (U_{r}h_{t-1})\\\end{aligned}}}
  • タイプ 3: 各ゲートはバイアスのみを使用して計算されます。
    ztσbzrtσbr{\displaystyle {\begin{aligned}z_{t}&=\sigma (b_{z})\\r_{t}&=\sigma (b_{r})\\\end{aligned}}}

最小限のゲートユニット

最小ゲートユニット(MGU)は、更新ゲートとリセットゲートベクトルが忘却ゲートに統合されている点を除けば、完全ゲートユニットに類似している。これは、出力ベクトルの式も変更する必要があることを意味する。[ 10 ]

ftσWf×t+あなたfht1+bfh^tϕWh×t+あなたhftht1+bhht1ftht1+fth^t{\displaystyle {\begin{aligned}f_{t}&=\sigma (W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\{\hat {h}}_{t}&=\phi (W_{h}x_{t}+U_{h}(f_{t}\odot h_{t-1})+b_{h})\\h_{t}&=(1-f_{t})\odot h_{t-1}+f_{t}\odot {\hat {h}}_{t}\end{aligned}}}

変数

  • ×t{\displaystyle x_{t}}: 入力ベクトル
  • ht{\displaystyle h_{t}}: 出力ベクトル
  • h^t{\displaystyle {\hat {h}}_{t}}: 候補活性化ベクトル
  • ft{\displaystyle f_{t}}: ベクトルを忘れる
  • W{\displaystyle W}、および:パラメータ行列とベクトルあなた{\displaystyle U}b{\displaystyle b}

光ゲートリカレントユニット

光ゲート再帰ユニット(LiGRU)[ 4 ]はリセットゲートを完全に削除し、tanhをReLU活性化に置き換え、バッチ正規化(BN)を適用する。

ztσBNWz×t+あなたzht1htReLUBNWh×t+あなたhht1htztht1+1ztht{\displaystyle {\begin{aligned}z_{t}&=\sigma (\operatorname {BN} (W_{z}x_{t})+U_{z}h_{t-1})\\{\tilde {h}}_{t}&=\operatorname {ReLU} (\operatorname {BN} (W_{h}x_{t})+U_{h}h_{t-1})\\h_{t}&=z_{t}\odot h_{t-1}+(1-z_{t})\odot {\tilde {h}}_{t}\end{aligned}}}

LiGRUはベイズの観点から研究されてきた。[ 11 ]この分析により、軽量ベイズ回帰ユニット(LiBRU)と呼ばれる変種が生成され、音声認識タスクにおいてLiGRUよりもわずかな改善が見られました。

参考文献

  1. ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). 「統計的機械翻訳のためのRNNエンコーダー・デコーダーを用いたフレーズ表現の学習」. 2014年自然言語処理における経験的手法に関する会議 (EMNLP) 議事録: 1724– 1734. arXiv : 1406.1078 . doi : 10.3115/v1/D14-1179 .
  2. ^フェリックス・ガースユルゲン・シュミットフーバー、フレッド・カミンズ (1999). 「忘却の学習:LSTMによる継続的予測」第9回国際人工ニューラルネットワーク会議:ICANN '99 . 第1999巻. pp.  850– 855. doi : 10.1049/cp:19991218 . ISBN 0-85296-721-7
  3. ^ 「リカレントニューラルネットワークチュートリアル、パート4 – PythonとTheanoを使用したGRU/LSTM RNNの実装 – WildML」 . Wildml.com . 2015年10月27日. 2021年11月10日時点のオリジナルよりアーカイブ。 2016年5月18日閲覧
  4. ^ a b Ravanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua (2018). 「音声認識のための光ゲート型リカレントユニット」. IEEE Transactions on Emerging Topics in Computational Intelligence . 2 (2): 92– 102. arXiv : 1803.10225 . Bibcode : 2018ITECI...2...92R . doi : 10.1109/TETCI.2017.2762739 . S2CID 4402991 . 
  5. ^ Su, Yuahang; Kuo, Jay (2019). 「拡張された長短期記憶と依存型双方向リカレントニューラルネットワークについて」. Neurocomputing . 356 : 151–161 . arXiv : 1803.01686 . doi : 10.1016/j.neucom.2019.04.044 . S2CID 3675055 . 
  6. ^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). 「シーケンスモデリングにおけるゲート型リカレントニューラルネットワークの実証的評価」arXiv : 1412.3555 [ cs.NE ].
  7. ^ Gruber, N.; Jockisch, A. (2020)「テキストの動機分類において、GRU細胞はより特異的で、LSTM細胞はより敏感なのか?」Frontiers in Artificial Intelligence3 40、doi10.3389/frai.2020.00040PMC 7861254PMID 33733157S2CID 220252321   
  8. ^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). 「シーケンスモデリングにおけるゲート型リカレントニューラルネットワークの実証的評価」arXiv : 1412.3555 [ cs.NE ].
  9. ^ Dey, Rahul; Salem, Fathi M. (2017-01-20). 「ゲート型リカレントユニット(GRU)ニューラルネットワークのゲートバリアント」arXiv : 1701.05923 [ cs.NE ].
  10. ^ Heck, Joel; Salem, Fathi M. (2017-01-12). 「リカレントニューラルネットワークのための簡略化された最小ゲートユニットバリエーション」arXiv : 1701.03452 [ cs.NE ].
  11. ^ Bittar, Alexandre; Garner, Philip N. (2021年5月). 「光ゲート型リカレントユニットのベイズ解釈」 . ICASSP 2021. 2021 IEEE 国際音響・音声・信号処理会議 (ICASSP). トロント, オンタリオ州, カナダ: IEEE. pp.  2965– 2969. 10.1109/ICASSP39728.2021.9414259.