長期短期記憶

長短期記憶 (LSTM) セルはデータを順次処理し、時間の経過とともにその隠れた状態を維持できます。

長短期記憶LSTM[ 1 ]は、従来のRNNで一般的に発生する勾配消失問題[ 2 ]を軽減することを目的とした、リカレントニューラルネットワーク(RNN)の一種です。ギャップ長に対する相対的な鈍感さが、他のRNN、隠れマルコフモデル、その他のシーケンス学習手法に対する利点です。LSTMは、数千のタイムステップに及ぶ短期記憶(つまり「長短期記憶」)をRNNに提供することを目的としています。[ 1 ]この名称は、20世紀初頭から認知心理学者によって研究されてきた長期記憶短期記憶、そしてそれらの関係 に類似しています。

LSTM ユニットは通常、セルと 3 つのゲート、つまり入力ゲート、出力ゲート[ 3 ] 、および忘却ゲート[ 4 ]で構成されます。セルは任意の時間間隔で値を記憶し、ゲートはセルに出入りする情報の流れを制御します。忘却ゲートは、前の状態と現在の入力を 0 から 1 の間の値にマッピングすることで、前の状態からどの情報を破棄するかを決定します。(丸められた) 値 1 は情報を保持することを意味し、値 0 は破棄を表します。入力ゲートは、忘却ゲートと同じシステムを使用して、現在のセル状態にどの新しい情報を格納するかを決定します。出力ゲートは、前の状態と現在の状態を考慮して、情報に 0 から 1 の値を割り当てることで、現在のセル状態のどの情報を出力するかを制御します。現在の状態から関連情報を選択的に出力することで、LSTM ネットワークは、現在および将来のタイムステップの両方で予測を行うための有用で長期的な依存関係を維持できます。

LSTMは分類 [ 5 ] [ 6 ]データ処理時系列解析タスク、[ 7 ]音声認識[ 8 ] [ 9 ]機械翻訳[ 10 ] [ 11 ]音声活動検出、[ 12 ]ロボット制御[ 13 ] [ 14 ]ビデオゲーム[ 15 ] [ 16 ]ヘルスケア[ 17 ]エネルギー予測など、幅広い分野で応用されています。[ 18 ]

モチベーション

理論上、古典的なRNNは入力シーケンスにおける任意の長期的な依存関係を追跡できます。古典的なRNNの問題は、本質的に計算的(または実用的)です。バックプロパゲーションを用いて古典的なRNNを学習する場合、バックプロパゲーションされた長期的な勾配が「消失」する可能性があります。つまり、計算に非常に小さな数値が入り込むことで勾配がゼロに近づき、モデルが事実上学習を停止してしまう可能性があります。LSTMユニットを用いたRNNは、 LSTMユニットが勾配をほとんど減衰させずに流すことができるため、勾配消失問題を部分的に解決します。しかし、LSTMネットワークは依然として勾配爆発問題に悩まされる可能性があります。[ 19 ]

LSTMアーキテクチャの背後にある直感は、ニューラルネットワーク内に、関連情報をいつ記憶し、いつ忘れるかを学習する追加モジュールを作成することです。[ 4 ]言い換えれば、ネットワークは、シーケンスの後半でどの情報が必要になるか、およびその情報がいつ不要になるかを効果的に学習します。たとえば、自然言語処理のコンテキストでは、ネットワークは文法的な依存関係を学習できます。[ 20 ] LSTMは、「Dave は、物議を醸した主張の結果として、今ではパーリアです」という文を、主語Dave の(統計的に可能性が高い)文法上の性と数を覚えておくことによって処理する場合があります。この情報は代名詞hisに関連し、動詞is の後ではこの情報は重要ではないことに注意してください。

変種

以下の式では、小文字の変数はベクトルを表します。行列と はそれぞれ入力接続と再帰接続の重みを含み、添え字は計算対象の活性化に応じて、入力ゲート、出力ゲート、忘却ゲート、またはメモリセル のいずれかになります。したがって、このセクションでは「ベクトル表記」を使用します。したがって、例えば は1つのLSTMセルの1つのユニットではなく、LSTMセルのユニットを含みます。 Wq{\displaystyle W_{q}}あなたq{\displaystyle U_{q}}q{\displaystyle _{q}}{\displaystyle i}o{\displaystyle o}f{\displaystyle f}c{\displaystyle c}ctRh{\displaystyle c_{t}\in \mathbb {R} ^{h}}h{\displaystyle h}

忘却ゲート付きLSTM

忘却ゲートを備えたLSTMセルの順方向パスの方程式の簡潔な形は次の通りである: [ 1 ] [ 4 ]

ftσグラムWf×t+あなたfht1+bftσグラムW×t+あなたht1+botσグラムWo×t+あなたoht1+boctσcWc×t+あなたcht1+bcctftct1+tcthtotσhct{\displaystyle {\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot {\tilde {c}}_{t}\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}}

ここで初期値はと であり、演算子はアダマール積(要素ごとの積)を表します。添え字は時間ステップを表します。 c00{\displaystyle c_{0}=0}h00{\displaystyle h_{0}=0}{\displaystyle \odot}t{\displaystyle t}

変数

上付き文字とをそれぞれ入力特徴の数と隠れユニットの数を表すものとします。 d{\displaystyle d}h{\displaystyle h}

  • ×tRd{\displaystyle x_{t}\in \mathbb {R} ^{d}}: LSTMユニットへの入力ベクトル
  • ft01h{\displaystyle f_{t}\in {(0,1)}^{h}}: 忘却ゲートの活性化ベクトル
  • t01h{\displaystyle i_{t}\in {(0,1)}^{h}}: 入力/更新ゲートの活性化ベクトル
  • ot01h{\displaystyle o_{t}\in {(0,1)}^{h}}: 出力ゲートの活性化ベクトル
  • ht11h{\displaystyle h_{t}\in {(-1,1)}^{h}}: 隠れ状態ベクトル。LSTMユニットの出力ベクトルとも呼ばれる。
  • ct11h{\displaystyle {\tilde {c}}_{t}\in {(-1,1)}^{h}}: セル入力活性化ベクトル
  • ctRh{\displaystyle c_{t}\in \mathbb {R} ^{h}}: セル状態ベクトル
  • WRh×d{\displaystyle W\in \mathbb {R} ^{h\times d}}、および:トレーニング中に学習する必要がある重み行列とバイアスベクトルパラメータあなたRh×h{\displaystyle U\in \mathbb {R} ^{h\times h}}bRh{\displaystyle b\in \mathbb {R} ^{h}}
  • σグラム{\displaystyle \sigma _{g}}:シグモイド関数
  • σc{\displaystyle \sigma _{c}}:双曲線正接関数。
  • σh{\displaystyle \sigma _{h}}: 双曲線正接関数、またはピープホールLSTM論文[ 21 ] [ 22 ]が示唆するように、。σh××{\displaystyle \sigma _{h}(x)=x}

ピープホールLSTM

入力ゲート(ie )、出力ゲート(ie )、忘却ゲート(ie )を備えたピープホールLSTMユニット{\displaystyle i}o{\displaystyle o}f{\displaystyle f}

右の図は、ピープホール接続を持つLSTMユニット(つまり、ピープホールLSTM)をグラフィカルに表現したものです。[ 21 ] [ 22 ]ピープホール接続により、ゲートは定誤差カルーセル(CEC)にアクセスでき、その活性化はセルの状態です。[ 21 ] は使用されませんが、ほとんどの場所では代わりに使用されます。 ht1{\displaystyle h_{t-1}}ct1{\displaystyle c_{t-1}}

ftσグラムWf×t+あなたfct1+bftσグラムW×t+あなたct1+botσグラムWo×t+あなたoct1+boctftct1+tσcWc×t+bchtotσhct{\displaystyle {\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}}

各ゲートは、フィードフォワード(または多層)ニューラル ネットワークの「標準」ニューロンと考えることができます。つまり、加重合計のアクティベーション(アクティベーション関数を使用)を計算します。また、時間ステップ における入力ゲート、出力ゲート、忘却ゲートのアクティベーションをそれぞれ表します。 it,ot{\displaystyle i_{t},o_{t}}ft{\displaystyle f_{t}}t{\displaystyle t}

メモリセルから3つのゲートおよびへの3つの出口矢印は、ピープホール接続を表しています。これらのピープホール接続は、実際には時間ステップ におけるメモリセルの活性化の寄与、つまり の寄与を表しています(図から推測されるように ではなく)。言い換えれば、ゲートおよびは、時間ステップ におけるメモリセルの活性化、つまり も考慮して、時間ステップ における自身の活性化(つまり および)を計算します。 c{\displaystyle c}i,o{\displaystyle i,o}f{\displaystyle f}c{\displaystyle c}t1{\displaystyle t-1}ct1{\displaystyle c_{t-1}}ct{\displaystyle c_{t}}i,o{\displaystyle i,o}f{\displaystyle f}t{\displaystyle t}it,ot{\displaystyle i_{t},o_{t}}ft{\displaystyle f_{t}}c{\displaystyle c}t1{\displaystyle t-1}ct1{\displaystyle c_{t-1}}

メモリセルから出ている単一の左から右への矢印は、のぞき穴接続ではなく、 を示します。 ct{\displaystyle c_{t}}

記号を含む小さな円は、入力間の要素ごとの乗算を表します。S字状の曲線を含む大きな円は、微分可能な関数(シグモイド関数など)を重み付き和に適用することを表します。 ×{\displaystyle \times }

ピープホール畳み込みLSTM

ピープホール畳み込みLSTM。[ 23 ]畳み込み演算子を表す。 {\displaystyle *}

ft=σg(Wfxt+Ufht1+Vfct1+bf)it=σg(Wixt+Uiht1+Vict1+bi)ct=ftct1+itσc(Wcxt+Ucht1+bc)ot=σg(Woxt+Uoht1+Voct+bo)ht=otσh(ct){\displaystyle {\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\odot c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\odot c_{t-1}+b_{i})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\odot c_{t}+b_{o})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}}

トレーニング

LSTM ユニットを使用する RNN は、一連のトレーニング シーケンスで教師あり方式でトレーニングできます。その際、時間の経過に伴うバックプロパゲーションと組み合わせた勾配降下法などの最適化アルゴリズムを使用して、最適化プロセス中に必要な勾配を計算し、対応する重みに関する (LSTM ネットワークの出力層での) エラーの導関数に比例して LSTM ネットワークの各重みを変更します。

標準的なRNNに勾配降下法を用いる場合の問題点は、重要なイベント間の時間差の大きさに応じて誤差勾配が指数関数的に急速に消失してしまうことである。これは、スペクトル半径が1より小さい場合に生じる。 [ 2 ] [ 24 ]limnWn=0{\displaystyle \lim _{n\to \infty }W^{n}=0}W{\displaystyle W}

しかし、LSTMユニットでは、出力層から誤差値が逆伝播されると、誤差はLSTMユニットのセル内に残ります。この「誤差カルーセル」は、LSTMユニットの各ゲートに誤差を継続的にフィードバックし、ゲートが誤差値を遮断するよう学習するまで続きます。

CTCスコア関数

多くのアプリケーションでは、LSTM RNNのスタック[ 25 ]を使用し、コネクショニスト時間分類(CTC)[ 5 ]によってそれらをトレーニングし、対応する入力シーケンスが与えられた場合にトレーニングセット内のラベルシーケンスの確率を最大化するRNN重み行列を見つけます。CTCはアライメントと認識の両方を実現します。

代替案

場合によっては、特に「教師」(つまり、トレーニングラベル)が存在しない場合には、 ニューロエボリューション[ 7 ]またはポリシー勾配法によってLSTM(の一部)をトレーニングすると有利になることがあります。

アプリケーション

LSTM の用途は次のとおりです。

2015年: GoogleはGoogle Voiceの音声認識にCTCがトレーニングしたLSTMを使い始めました。[ 50 ] [ 51 ]公式ブログによると、新しいモデルは転写エラーを49%削減しました。[ 52 ]

2016年: GoogleはAllo会話アプリでメッセージを提案するためにLSTMを使い始めました。[ 53 ]同年、GoogleはGoogle翻訳用のGoogleニューラル機械翻訳システムをリリースしました。このシステムではLSTMを使用して翻訳エラーが60%削減されました。[ 10 ] [ 54 ] [ 55 ]

アップルは世界開発者会議で、iPhoneのクイックタイプ[ 56 ] [ 57 ] [ 58 ]とSiri [ 59 ] [ 60 ]にLSTMを使い始めると発表した。

アマゾンは、テキスト読み上げ技術に双方向LSTMを使用してAlexaの音声を生成するPollyをリリースした。 [ 61 ]

2017年: Facebookは長短期記憶ネットワークを使用して、毎日約45億回の自動翻訳を実行しました。[ 11 ]

マイクロソフトは、16万5000語の語彙を収録したスイッチボードコーパスにおいて、94.9%の認識精度を達成したと報告している。このアプローチでは、「対話セッションベースの長短期記憶」が用いられた。[ 62 ]

2018年:OpenAIは、ポリシー勾配によって訓練されたLSTMを使用して、複雑なビデオゲームDota 2で人間に勝ち、[ 15 ]前例のない器用さで物理的な物体を操作する人間のようなロボットハンドを制御しました。[ 14 ] [ 63 ]

2019年:DeepMindはポリシー勾配によって訓練されたLSTMを使用して、複雑なビデオゲームであるStarcraft IIで優れた成績を収めました。[ 16 ] [ 63 ]

歴史

発達

LSTMの側面は、LSTMの論文[ 1 ]で引用されている「フォーカスドバックプロパゲーション」[ 64 ]によって予測されていました。

ゼップ・ホッホライターの1991年のドイツの卒業論文は、消失勾配問題を分析し、その方法の原理を展開した。[ 2 ]彼の指導教官であるユルゲン・シュミットフーバーはこの論文を非常に重要なものとみなした。[ 65 ]

LSTMの初期バージョンは1995年にSepp HochreiterJürgen Schmidhuberによる技術レポートで発表され、[ 66 ]その後NIPS 1996会議で発表されました。[ 3 ]

LSTMの最もよく使われる参考文献は、1997年にNeural Computation誌に掲載されたものです。[ 1 ] LSTMはConstant Error Carousel(CEC)ユニットを導入することで、勾配消失問題に対処します。LSTMブロックの初期バージョンには、セル、入力ゲート、出力ゲートが含まれていました。[ 67 ]

フェリックス・ガース、ユルゲン・シュミットフーバー、フレッド・カミンズは1999年にLSTMアーキテクチャに忘却ゲート(「キープゲート」とも呼ばれる)を導入し、[ 68 ] LSTMが自身の状態をリセットできるようにしました。[ 67 ]これは現在最も一般的に使用されているLSTMのバージョンです。彼らは2000年にピープホール接続を追加しました。[ 21 ] [ 22 ]さらに、出力活性化関数は省略されました。[ 67 ]

変異体の開発

2005年にGravesとSchmidhuber [ 26 ]は、時間経過による完全なバックプロパゲーションを備えたLSTMと双方向LSTMを発表しました。

2006年にGraves、Fernandez、Gomez、Schmidhuber [ 5 ]は、LSTMの新しいエラー関数であるConnectionist Temporal Classification (CTC)を導入し、シーケンスの同時アライメントと認識を可能にしました。

2014年にKyunghyun Choら[ 69 ]は忘却ゲートLSTM [ 68 ]の簡略化された変種であるGRU( Gated recurrent unit )を発表しました。

2015年、Srivastava、Greff、SchmidhuberはLSTM原理[ 68 ]を用いて、数百層からなるフィードフォワードニューラルネットワークであるHighwayネットワークを構築しました。これは、従来のネットワークよりもはるかに深い層です。 [ 70 ] [ 71 ] [ 72 ]同時に、ResNetアーキテクチャが開発されました。これは、オープンゲート型またはゲートレス型のHighwayネットワークに相当します。[ 73 ]

LSTMの最新アップグレードであるxLSTMが、 Sepp Hochreiter率いるチームによって公開されました。[ 74 ] [ 75 ]アーキテクチャの2つのブロックのうちの1つ(mLSTM)はTransformerアーキテクチャのように並列化可能であり、もう1つ(sLSTM)は状態追跡を可能にします。

アプリケーション

2001年: GersとSchmidhuberは、隠れマルコフモデルなどの従来のモデルでは学習できない言語を学習するためにLSTMを訓練した。[ 21 ] [ 63 ]

Hochreiterらは、メタ学習(学習アルゴリズムの学習)にLSTMを使用した。[ 76 ]

2004年: LSTMの音声への最初の応用に成功したAlex Graves[ 77 ] [ 63 ]

2005年:ダーン・ウィエルストラ、ファウスティーノ・ゴメス、シュミットフーバーは教師なしで神経進化によってLSTMを訓練した。 [ 7 ]

Mayerらはロボットを制御するためにLSTMを訓練した。[ 13 ]

2007年: Wierstra、Foerster、Peters、Schmidhuberは、教師なしの強化学習のために方策勾配法によってLSTMを訓練した。 [ 78 ]

Hochreiter、Heuesel、Obermayrは、生物学の分野でタンパク質相同性検出にLSTMを適用した。[ 37 ]

2009年:ジャスティン・ベイヤーらはLSTMのためのニューラルアーキテクチャ探索を導入した。 [ 79 ] [ 63 ]

2009年: CTCによって訓練されたLSTMがICDARのコネクテッド手書き認識コンペティションで優勝した。アレックス・グレイブス率いるチームは、3つのモデルを提出した。[ 80 ] 1つはコンペティションで最も精度の高いモデルであり、もう1つは最速のモデルであった。[ 81 ] RNNが国際コンペティションで優勝したのはこれが初めてであった。[ 63 ]

2013年:アレックス・グレイブス、アブデル・ラーマン・モハメド、ジェフリー・ヒントンは、LSTMネットワークをネットワークの主要構成要素として使用し、古典的なTIMIT自然音声データセットで17.7%という記録的な音素エラー率を達成しました。[ 28 ]

2017年:ミシガン州立大学IBMリサーチコーネル大学の研究者らが、知識発見とデータマイニング(KDD)会議で研究を発表しました。[ 82 ]時間を考慮したLSTM (T-LSTM)は、特定のデータセットでは標準的なLSTMよりも優れたパフォーマンスを発揮します。

参照

参考文献

  1. ^ a b c d eゼップ・ホッホライター;ユルゲン・シュミットフーバー(1997)。「長短期記憶」ニューラル計算9 (8): 1735 ~ 1780 年。土井: 10.1162/neco.1997.9.8.1735PMID  9377276S2CID  1915014
  2. ^ a b c Hochreiter、Sepp (1991)。Untersuhungen zu dynamischen neuronalen Netzen (PDF) (卒業論文)。ミュンヘン工科大学、コンピューターサイエンス研究所。
  3. ^ a b Hochreiter, Sepp; Schmidhuber, Jürgen (1996-12-03). 「LSTMは困難な長時間遅延問題を解決できる」 .第9回国際神経情報処理システム会議議事録. NIPS'96. 米国マサチューセッツ州ケンブリッジ: MIT Press: 473– 479.
  4. ^ a b c Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). 「忘却の学習:LSTMによる継続的予測」. Neural Computation . 12 (10): 2451– 2471. CiteSeerX 10.1.1.55.5709 . doi : 10.1162/089976600300015015 . PMID 11032042. S2CID 11598600 .   
  5. ^ a b c Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). 「コネクショニスト時間分類:リカレントニューラルネットワークによる非セグメント化シーケンスデータのラベリング」国際機械学習会議ICML 2006論文集369–376 . CiteSeerX 10.1.1.75.6306 . 
  6. ^ Karim, Fazle; Majumdar, Somshubra; Darabi, Houshang; Chen, Shun (2018). 「時系列分類のためのLSTM完全畳み込みネットワーク」. IEEE Access . 6 : 1662–1669 . arXiv : 1709.05206 . Bibcode : 2018IEEEA...6.1662K . doi : 10.1109/ACCESS.2017.2779939 . ISSN 2169-3536 . 
  7. ^ a b c d Wierstra, Daan; Schmidhuber, J.; Gomez, FJ (2005). 「Evolino: ハイブリッドニューロエボリューション/最適線形探索によるシーケンス学習」 .第19回国際人工知能合同会議 (IJCAI) 議事録, エディンバラ: 853–858 .
  8. ^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). 「大規模音響モデリングのためのLong Short-Term Memoryリカレントニューラルネットワークアーキテクチャ」(PDF) 。2018年4月24日時点のオリジナル(PDF)からアーカイブ
  9. ^ Li, Xiangang; Wu, Xihong (2014-10-15). 「大語彙音声認識のためのLong Short-Term MemoryベースのDeep Recurrent Neural Networksの構築」. arXiv : 1410.4281 [ cs.CL ].
  10. ^ a b Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (2016-09-26). 「Googleのニューラル機械翻訳システム:人間と機械翻訳のギャップを埋める」arXiv : 1609.08144 [ cs.CL ].
  11. ^ a b Ong, Thuy (2017年8月4日). 「Facebookの翻訳は完全にAIによって実現」 www.allthingsdistributed.com . 2019年2月15日閲覧。
  12. ^メリーランド州サヒドラ;パティーノ、ホセ。コーネル、サミュエル。イン、ルイキン。シヴァサンカラン、スニット。ブレディン、エルベ。コルシュノフ、パベル。ブルッティ、アレッシオ。セリゼル、ロマン。ヴィンセント、エマニュエル。エヴァンス、ニコラス。マルセル、セバスチャン。スクアルティーニ、ステファノ。バラス、クロード (2019-11-06)。 「DIHARD II へのスピード提出: 貢献と得られた教訓」。arXiv : 1911.02388 [ eess.AS ]。
  13. ^ a b c Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (2006年10月). 「リカレントニューラルネットワークを用いて結び目を学習するロボット心臓手術システム」. 2006 IEEE/RSJ 国際知能ロボット・システム会議. pp.  543– 548. CiteSeerX 10.1.1.218.3399 . doi : 10.1109/IROS.2006.282190 . ISBN  978-1-4244-0258-8. S2CID  12284900 .
  14. ^ a b「Learning Dexterity」 OpenAI 2018年7月30日 2023年6月28閲覧
  15. ^ a bロドリゲス、ヘスス(2018年7月2日)「AI史上最大のブレークスルーの一つを生み出したOpenAI Fiveの科学」『Towards Data Science』2019年12月26日時点のオリジナルよりアーカイブ。 2019年1月15日閲覧
  16. ^ a bスタンフォード、ステイシー(2019年1月25日)。「DeepMindのAI、AlphaStarがAGIに向けた大きな進歩を示す」。Medium ML Memoirs 2019年1月15日閲覧。
  17. ^ Schmidhuber, Jürgen (2021). 「2010年代:ディープラーニングの10年 / 2020年代の展望」 . AI Blog . IDSIA, スイス. 2022年4月30日閲覧
  18. ^ Maity, Abhishek; Tukarul, Viraj (2026年1月23日). 「リカレントニューラルネットワークを用いたエネルギー消費予測:比較分析」 . arXiv . doi : 10.48550/arXiv.2601.17110 .
  19. ^ Calin, Ovidiu (2020年2月14日).ディープラーニングアーキテクチャ. シャム、スイス: Springer Nature. p. 555. ISBN 978-3-030-36720-6
  20. ^ラクレッツ、ヤイール;クルシェフスキー、ドイツ人。デボルデス、テオ。ハプケス、デューク。デハエネ、スタニスラス。 Baroni、Marco (2019)、「における数値および構文単位の出現」数値および構文単位の出現(PDF)、計算言語学協会、pp.  11–20doi : 10.18653/v1/N19-1002hdl : 11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4S2CID 81978369 
  21. ^ a b c d e f Gers, FA; Schmidhuber, J. (2001). 「LSTMリカレントネットワークは単純な文脈自由言語と文脈依存言語を学習する」(PDF) . IEEE Transactions on Neural Networks . 12 (6): 1333– 1340. Bibcode : 2001ITNN...12.1333G . doi : 10.1109/72.963769 . PMID 18249962. S2CID 10192330. 2017年7月6日時点のオリジナル(PDF)からのアーカイブ  
  22. ^ a b c d Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). 「LSTMリカレントネットワークを用いた正確なタイミング学習」(PDF) . Journal of Machine Learning Research . 3 : 115– 143.
  23. ^ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). 「畳み込みLSTMネットワーク:降水量ナウキャスティングのための機械学習アプローチ」.第28回国際神経情報処理システム会議論文集: 802– 810. arXiv : 1506.04214 . Bibcode : 2015arXiv150604214S .
  24. ^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). 「リカレントネットにおける勾配フロー:長期依存関係の学習の難しさ(PDFダウンロード可能)」 . Kremer and, SC; Kolen, JF (編). 『動的リカレントニューラルネットワークのフィールドガイド』 . IEEE Press.
  25. ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). 「階層的リカレントニューラルネットワークを用いた構造化ドメインにおけるシーケンスラベリング」Proc. 20th Int. Joint Conf. On Artificial Intelligence, Ijcai 2007 : 774– 779. CiteSeerX 10.1.1.79.1887 . 
  26. ^ a b Graves, A.; Schmidhuber, J. (2005). 「双方向LSTMとその他のニューラルネットワークアーキテクチャによるフレーム単位の音素分類」.ニューラルネットワーク. 18 ( 5–6 ): 602–610 . CiteSeerX 10.1.1.331.5800 . doi : 10.1016/j.neunet.2005.06.042 . PMID 16112549. S2CID 1856462 .   
  27. ^ Fernández, S.; Graves, A.; Schmidhuber, J. (2007年9月9日). 「リカレントニューラルネットワークの識別的キーワードスポッティングへの応用」 .第17回国際人工ニューラルネットワーク会議議事録. ICANN'07. ベルリン、ハイデルベルク: Springer-Verlag: 220– 229. ISBN 978-3540746935. 2023年12月28日閲覧
  28. ^ a bグレイブス, アレックス; モハメド, アブデル・ラーマン; ヒントン, ジェフリー (2013). 「ディープ・リカレント・ニューラルネットワークによる音声認識」. 2013 IEEE 国際音響・音声・信号処理会議. pp.  6645– 6649. arXiv : 1303.5778 . doi : 10.1109/ICASSP.2013.6638947 . ISBN 978-1-4799-0356-6. S2CID  206741496 .
  29. ^ Kratzert, Frederik; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Nearing, Grey (2019-12-17). 「大規模サンプルデータセットに機械学習を適用し、普遍的、地域的、局所的な水文学的挙動を学習する」 . Hydrology and Earth System Sciences . 23 (12): 5089– 5110. arXiv : 1907.08456 . Bibcode : 2019HESS...23.5089K . doi : 10.5194/hess-23-5089-2019 . ISSN 1027-5606 . 
  30. ^エック、ダグラス、シュミットフーバー、ユルゲン (2002年8月28日). 「ブルースの長期構造の学習」.人工ニューラルネットワーク — ICANN 2002.コンピュータサイエンス講義ノート. 第2415巻. シュプリンガー、ベルリン、ハイデルベルク. pp.  284– 289. CiteSeerX 10.1.1.116.3620 . doi : 10.1007/3-540-46084-5_47 . ISBN  978-3540460848
  31. ^ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). 「非正規言語の学習:単純再帰ネットワークとLSTMの比較」. Neural Computation . 14 (9): 2039– 2041. CiteSeerX 10.1.1.11.7369 . doi : 10.1162/089976602320263980 . PMID 12184841. S2CID 30459046 .   
  32. ^ Perez-Ortiz, JA; Gers, FA; Eck, D.; Schmidhuber, J. (2003). 「カルマンフィルタは、従来のリカレントネットでは解決できない問題におけるLSTMネットワークの性能を向上させる」. Neural Networks . 16 (2): 241– 250. CiteSeerX 10.1.1.381.1992 . doi : 10.1016/s0893-6080(02)00219-8 . PMID 12628609 .  
  33. ^ A. Graves, J. Schmidhuber. 多次元リカレントニューラルネットワークによるオフライン手書き認識. ニューラル情報処理システムの進歩 22, NIPS'22, pp 545–552, Vancouver, MIT Press, 2009.
  34. ^ Graves, A.; Fernández, S.; Liwicki, M.; Bunke, H.; Schmidhuber, J. (2007年12月3日). 「リカレントニューラルネットワークによる制約なしのオンライン手書き認識」 .第20回国際神経情報処理システム会議議事録. NIPS'07. 米国: Curran Associates Inc.: 577–584 . ISBN 9781605603520. 2023年12月28日閲覧
  35. ^ Baccouche, M.; Mamalet, F.; Wolf, C.; Garcia, C.; Baskurt, A. (2011). 「人間の行動認識のためのシーケンシャルディープラーニング」. Salah, AA; Lepri, B. (編).第2回人間行動理解国際ワークショップ (HBU) . コンピュータサイエンス講義ノート. 第7065巻. アムステルダム, オランダ: Springer. pp.  29– 39. doi : 10.1007/978-3-642-25446-8_4 . ISBN 978-3-642-25445-1
  36. ^黄潔;周、文港。張、希林。李、後強。李偉平(2018-01-30)。 「時間分割を行わないビデオベースの手話認識」。arXiv : 1801.10111 [ cs.CV ]。
  37. ^ a b Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). 「アライメントを必要としない高速モデルベースタンパク質相同性検出」 .バイオインフォマティクス. 23 (14): 1728– 1736. doi : 10.1093/bioinformatics/btm247 . PMID 17488755 . 
  38. ^ Thireou, T.; Reczko, M. (2007). 「真核生物タンパク質の細胞内局在を予測するための双方向長短期記憶ネットワーク」. IEEE/ACM Transactions on Computational Biology and Bioinformatics . 4 (3): 441– 446. Bibcode : 2007ITCBB...4..441T . doi : 10.1109/ tcbb.2007.1015 . PMID 17666763. S2CID 11787259 .  
  39. ^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (2015年4月). 「時系列における異常検出のためのLong Short Term Memory Networks」(PDF) . European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning — ESANN 2015.オリジナル(PDF)から2020年10月30日時点のアーカイブ。 2018年2月21日閲覧
  40. ^ Tax, N.; Verenich, I.; La Rosa, M.; Dumas, M. (2017). 「LSTMニューラルネットワークによる予測的ビジネスプロセスモニタリング」.高度情報システム工学. コンピュータサイエンス講義ノート. 第10253巻. pp.  477– 492. arXiv : 1612.02130 . doi : 10.1007/978-3-319-59536-8_30 . ISBN 978-3-319-59535-1. S2CID  2192354 .
  41. ^ Choi, E.; Bahadori, MT; Schuetz, E.; Stewart, W.; Sun, J. (2016). 「Doctor AI: リカレントニューラルネットワークによる臨床イベントの予測」 . JMLRワークショップおよび会議議事録. 56 : 301– 318. arXiv : 1511.05942 . Bibcode : 2015arXiv151105942C . PMC 5341604. PMID 28286600 .  
  42. ^ Jia, Robin; Liang, Percy (2016). 「ニューラルセマンティックパーシングのためのデータ再結合」. arXiv : 1606.03622 [ cs.CL ].
  43. ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). 「Segment-Tube: フレームごとのセグメンテーションを用いたトリミングされていない動画における時空間的な動作の局在化」 ( PDF) . Sensors . 18 (5): 1657. Bibcode : 2018Senso..18.1657W . doi : 10.3390/s18051657 . ISSN 1424-8220 . PMC 5982167. PMID 29789447 .   
  44. ^ドゥアン、シュファン;王、楽。ザイ、チャンボ。鄭、南寧。張、希林。牛真興。フア、ガン(2018)。 「フレームごとのセグメンテーションを使用したトリミングされていないビデオにおける時空間アクションの共同位置特定」。2018 第 25 回 IEEE 画像処理国際会議 (ICIP)。第 25 回 IEEE 画像処理国際会議 (ICIP)。 pp.  918–922 . doi : 10.1109/icip.2018.8451692ISBN 978-1-4799-7061-2
  45. ^ Orsini, F.; Gastaldi, M.; Mantecchini, L.; Rossi, R. (2019). Wi-Fiトレースを用いて訓練たニューラルネットワークによる空港旅客行動予測.第6回国際インテリジェント交通システムモデル・技術会議.クラクフ IEEE.arXiv 1910.14026.doi10.1109/MTITS.2019.8883365.8883365
  46. ^ Zhao, Z.; Chen, W.; Wu, X.; Chen, PCY; Liu, J. (2017). 「LSTMネットワーク:短期交通予測のためのディープラーニングアプローチ」IET Intelligent Transport Systems . 11 (2): 68– 75. doi : 10.1049/iet-its.2016.0208 . S2CID 114567527 . 
  47. ^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). 「De Novo Drug Designための生成的リカレントネットワーク」 . Mol Inform . 37 ( 1– 2) 1700111. doi : 10.1002/minf.201700111 . PMC 5836943. PMID 29095571 .  {{cite journal}}: CS1 maint: multiple names: authors list (link)
  48. ^ Saiful Islam, Md.; Hossain, Emam (2020年10月26日). 「GRU-LSTMハイブリッドネットワークを用いた外国為替レート予測」 . Soft Computing Letters . 3 100009. doi : 10.1016/j.socl.2020.100009 . ISSN 2666-2221 . 
  49. ^ Martin, Abbey; Hill, Andrew J.; Seiler, Konstantin M.; Balamurali, Mehala (2024-05-27). 「ハイブリッドLSTM-Transformerネットワークを用いたトリミングされていないビデオからの掘削機の動作自動認識と位置特定」 . International Journal of Mining, Reclamation and Environment . 38 (5): 353– 372. Bibcode : 2024IJMRE..38..353M . doi : 10.1080/17480930.2023.2290364 . ISSN 1748-0930 . 
  50. ^ Beaufays, Françoise (2015年8月11日). 「Google Voiceの文字起こしを支えるニューラルネットワーク」 .研究ブログ. 2017年6月27日閲覧。
  51. ^ Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (2015年9月24日). 「Google音声検索:より高速でより正確」 .リサーチブログ. 2017年6月27日閲覧。
  52. ^ 「ネオン処方箋…というか、Google Voiceの新しい文字起こし」公式Googleブログ。2015年7月23日。 2020年4月25日閲覧
  53. ^ Khaitan, Pranav (2016年5月18日). 「Alloでよりスマートにチャット」 .研究ブログ. 2017年6月27日閲覧
  54. ^ Metz, Cade (2016年9月27日). 「AIの導入によりGoogle翻訳はかつてないほど強力に | WIRED」 . Wired . 2017年6月27日閲覧
  55. ^ 「実稼働規模の機械翻訳向けニューラルネットワーク」 Google AIブログ、2016年9月27日。 2020年4月25日閲覧
  56. ^エフラティ、アミール(2016年6月13日)「Appleのマシンも学習できる」 The Information誌。 2017年6月27日閲覧
  57. ^レンジャー、スティーブ(2016年6月14日)「iPhone、AI、ビッグデータ:Appleはユーザーのプライバシー保護をどのように計画しているのか」 ZDNet 2017年6月27日閲覧
  58. ^ 「グローバルな意味コンテキストはニューラル言語モデルを改善できるか? – Apple」 Apple Machine Learning Journal 2020年4月30日閲覧
  59. ^ Smith, Chris (2016年6月13日). 「iOS 10: Siriがサードパーティ製アプリでも使えるようになり、AI機能も追加」 . BGR . 2017年6月27日閲覧
  60. ^ティム・ケイプス、ポール・コールズ、アリスター・コンキー、ラダン・ゴリプール、アビー・ハジタルカニ、キオン・フー、ナンシー・ハドルストン、メルヴィン・ハント、ジャンチュアン・リー、マティアス・ニーラチャー、キショア・プラハラッド (2017年8月20日). 「Siriオンデバイスディープラーニングによる単位選択音声合成システム」 . Interspeech 2017 . ISCA: 4011– 4015. doi : 10.21437/Interspeech.2017-1798 .
  61. ^ Vogels, Werner (2016年11月30日). 「Amazon AIとAlexaの魔法をAWS上のアプリにもたらす - All Things Distributed」 . www.allthingsdistributed.com . 2017年6月27日閲覧
  62. ^ Xiong, W.; Wu, L.; Alleva, F.; Droppo, J.; Huang, X.; Stolcke, A. (2018年4月). 「Microsoft 2017 会話型音声認識システム」. 2018 IEEE 国際音響・音声・信号処理会議 (ICASSP) . IEEE. pp.  5934– 5938. arXiv : 1708.06073 . doi : 10.1109/ICASSP.2018.8461870 . ISBN 978-1-5386-4658-8
  63. ^ a b c d e fシュミットフーバー、ユルゲン(2021年5月10日)「ディープラーニング:奇跡の1年1990-1991」arXiv2005.05744 [ cs.NE ]。
  64. ^ Mozer, Mike (1989). 「時間パターン認識のための集中型バックプロパゲーションアルゴリズム」.複雑系.
  65. ^ Schmidhuber, Juergen (2022). 「現代AIとディープラーニングの注釈付き歴史」arXiv : 2212.11279 [ cs.NE ].
  66. ^ゼップ・ホッホライター;ユルゲン・シュミットフーバー(1995 年 8 月 21 日)、長期短期記憶ウィキデータQ98967430 
  67. ^ a b c Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). 「LSTM: A Search Space Odyssey」. IEEE Transactions on Neural Networks and Learning Systems . 28 (10): 2222– 2232. arXiv : 1503.04069 . Bibcode : 2015arXiv150304069G . doi : 10.1109/TNNLS.2016.2582924 . PMID 27411231. S2CID 3356463 .  
  68. ^ a b c Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). 「忘却の学習:LSTMによる継続的予測」第9回国際人工ニューラルネットワーク会議:ICANN '99 . 第1999巻. pp.  850– 855. doi : 10.1049/cp:19991218 . ISBN 0-85296-721-7
  69. ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). 「統計的機械翻訳のためのRNNエンコーダー・デコーダーを用いたフレーズ表現の学習」arXiv : 1406.1078 [ cs.CL ].
  70. ^スリヴァスタヴァ、ルペシュ・クマール;グレフ、クラウス。シュミットフーバー、ユルゲン(2015年5月2日)。 「ハイウェイネットワーク」。arXiv : 1505.00387 [ cs.LG ]。
  71. ^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015年12月). カナダ、モントリオールにて執筆。「Training Very Deep Networks」。NIPS'15: Proceedings of the 29th International Conference on Neural Information Processing Systems. Vol. 2. Cambridge, MA, United States: MIT Press. pp.  2377– 2385.
  72. ^ Schmidhuber, Jürgen (2021). 「最も引用されているニューラルネットワークはすべて、私の研究室で行われた研究に基づいています」 . AI Blog . IDSIA, スイス. 2022年4月30日閲覧
  73. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). 「画像認識のための深層残差学習」. 2016 IEEE コンピュータビジョンおよびパターン認識会議 (CVPR) . IEEE. pp.  770– 778. arXiv : 1512.03385 . doi : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1
  74. ^ベック、マクシミリアン;ペッペル、コルビニアン。スパンリング、マーカス。アウアー、アンドレアス。プルドニコワ、オレクサンドラ。コップ、マイケル。クランバウアー、ギュンター。ブランドシュテッター、ヨハネス。ホッホライター、ゼップ (2024-05-07)。 「xLSTM: 拡張長期短期記憶」。arXiv : 2405.04517 [ cs.LG ]。
  75. ^ NX-AI/xlstm、NXAI、2024-06-04、2024-06-04取得
  76. ^ Hochreiter, S.; Younger, AS; Conwell, PR (2001). 「勾配降下法を用いた学習の学習」.人工ニューラルネットワーク — ICANN 2001 (PDF) . コンピュータサイエンス講義ノート. 第2130巻. pp.  87– 94. CiteSeerX 10.1.1.5.323 . doi : 10.1007/3-540-44668-0_13 . ISBN  978-3-540-42486-4. ISSN  0302-9743 . S2CID  52872549 .
  77. ^グレイブス, アレックス; ベリンガー, ニコール; エック, ダグラス; シュミットフーバー, ユルゲン (2004). LSTMニューラルネットを用いた生物学的に妥当な音声認識. 生物学的にインスパイアされた先端情報技術へのアプローチに関するワークショップ, Bio-ADIT 2004, ローザンヌ, スイス. pp.  175– 184.
  78. ^ Wierstra, Daan; Foerster, Alexander; Peters, Jan; Schmidhuber, Juergen (2005). 「再帰型ポリシー勾配を用いたディープメモリPOMDPの解法」国際人工ニューラルネットワーク会議 ICANN'07 .
  79. ^ Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Juergen (2009). 「シーケンス学習のための進化するメモリセル構造」.国際人工ニューラルネットワーク会議 ICANN'09, キプロス.
  80. ^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009年5月). 「制約のない手書き認識のための新しいコネクショニストシステム」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 31 (5): 855– 868. Bibcode : 2009ITPAM..31..855G . CiteSeerX 10.1.1.139.4502 . doi : 10.1109 /tpami.2008.137 . ISSN 0162-8828 . PMID 19299860. S2CID 14635907 .    
  81. ^ Märgner, Volker; Abed, Haikal El (2009年7月). 「ICDAR 2009 アラビア語手書き文字認識コンペティション」. 2009 第10回国際文書分析認識会議. pp.  1383– 1387. doi : 10.1109/ICDAR.2009.256 . ISBN 978-1-4244-4500-4. S2CID  52851337 .
  82. ^ Baytas, Inci M.; Xiao, Cao; Zhang, Xi; Wang, Fei; Jain, Anil K.; Zhou, Jiayu (2017-08-04). 「時間を考慮したLSTMネットワークによる患者のサブタイピング」 .第23回ACM SIGKDD国際知識発見・データマイニング会議議事録. ニューヨーク州ニューヨーク:Association for Computing Machinery. pp.  65– 74. doi : 10.1145/3097983.3097997 . ISBN 978-1-4503-4887-4

さらに読む