前頭前皮質基底核ワーキングメモリ(PBWM)は、前頭前皮質と基底核のワーキングメモリをモデル化するアルゴリズムである。[ 1 ]
機能的には長短期記憶(LSTM)に似ていますが、より生物学的に説明可能です。[ 1 ] [ 2 ]
これは、前頭前皮質と基底核の生物学に基づいて、前頭前皮質のワーキングメモリ更新システムを訓練するために主要な価値学習価値モデルを使用する。 [ 3 ]
これはLeabraフレームワークの一部として使用され、 2019 年にEmergentに実装されました。
前頭前皮質は、ワーキングメモリ(処理のために情報をオンラインで保持する機能)と「実行」機能(ワーキングメモリをどのように操作し、処理を実行するかを決定する機能)の両方を担っていると長い間考えられてきました。ワーキングメモリの計算モデルは数多く開発されてきましたが、実行機能のメカニズム的基盤は依然として解明されていません。
PBWMは、前頭前皮質の計算モデルであり、自身と他の脳領域を戦略的かつ課題に適した方法で制御します。これらの学習メカニズムは、中脳、基底核、扁桃体の皮質下構造に基づいており、これらが連携してアクター/クリティック・アーキテクチャを形成します。クリティック・システムは、どの前頭前皮質表現が課題に関連しているかを学習し、アクターを訓練します。アクターは、ワーキングメモリの更新を制御するための動的なゲーティング・メカニズムを提供します。計算論的には、この学習メカニズムは、時間的および構造的なクレジット割り当て問題を同時に解決するように設計されています。
このモデルのパフォーマンスは、難しい1-2-AXワーキングメモリタスクやその他のベンチマークワーキングメモリタスクにおいて、標準的なバックプロパゲーションベースの時間学習メカニズムと比較しても遜色ありません。 [ 1 ]
まず、前頭前皮質と線条体層には複数の独立したストライプ(ユニットのグループ)が存在します。各ストライプは独立して更新できるため、このシステムは複数の異なる事柄を同時に記憶することができ、それぞれが異なる「更新方針」に基づいて記憶を更新・維持します。記憶の能動的な維持は前頭前皮質(PFC)で行われ、更新信号(より一般的には更新方針)は線条体ユニット(基底核ユニットのサブセット)から送られます。[ 3 ]
PVLV は、基底核の動的ゲーティング システムをトレーニングするための 強化学習信号を提供します。
感覚入力は後部皮質に接続され、後部皮質は運動出力に接続されます。感覚入力はPVLVシステムにも接続されています。
後部皮質は入出力マッピングの隠れ層を形成します。前頭前野は後部皮質と接続され、この入出力マッピングを文脈化します。
PFC(出力ゲーティング用)は、各ストライプの入力ユニットの局所的な1対1表現を保持しています。そのため、これらのPFC表現を見ることで、ネットワークが何を維持しているかを直接確認できます。PFCは、タスクを実行するために必要なワーキングメモリを維持します。
これは、基底核の線条体ユニットを表す動的ゲーティングシステムです。ストライプ内の偶数インデックスユニットは「Go」を、奇数インデックスユニットは「NoGo」を表します。Goユニットは前頭前皮質の更新を引き起こし、NoGoユニットは前頭前皮質の既存の記憶表現を維持させます。
ストライプごとにユニットのグループがあります。
Emergentの PBWM モデルでは、マトリックスは線条体を表します。
これらの層はすべてPVLVシステムの一部です。PVLVシステムは基底核(BG)のドーパミン作動性調節を制御します。したがって、BG/PVLVはアクター・クリティック・アーキテクチャを形成し、PVLVシステムは更新のタイミングを学習します。
SNrThalは、黒質網様体(SNr)と視床の関連領域を表し、特定のストライプ内のGo/NoGoユニット間の競争を生成し、k勝者総取りダイナミクスを用いて競争を仲介します。特定のストライプ内でGo活動が全体的に高くなると、関連するSNrThalユニットが活性化され、前頭前野(PFC)の更新を促します。すべてのストライプには、SNrThalユニットが1つずつ存在します。
腹側被蓋野(VTA)と黒質緻密部(SNc)はドーパミン層の一部です。この層は中脳ドーパミンニューロンをモデルとしており、基底核における ドーパミン作動性調節を制御します。