一次価値学習価値(PVLV)モデルは、ドーパミン(DA)ニューロンの報酬予測発火特性を説明する可能性のあるモデルである。 [1]このモデルは、パブロフの条件付けと、予期せぬ報酬に比例して発火する中脳ドーパミンニューロンに関する行動および神経学的データをシミュレートする。これは、時間的差異(TD)アルゴリズムの代替となる。[2]
Leabraの一部として使用されます。
参考文献
- ^ O'Reilly, RC; Frank, MJ; Hazy, TE & Watz, B. (2007). 「PVLV:主要価値と学習価値に基づくパブロフ学習アルゴリズム」.行動神経科学. 121 (1): 31–4 . CiteSeerX 10.1.1.67.6739 . doi :10.1037/0735-7044.121.1.31. PMID 17324049.
- ^ 「Leabra PBWM」. CCNLab.