学習オートマトン

機械学習アルゴリズム

学習オートマトン（Learning Automaton）は、1970年代から研究されてきた機械学習アルゴリズムの一種です。学習オートマトン（Learning Automaton）は、環境からの過去の経験に基づいて現在の行動を選択します。環境が確率的であり、マルコフ決定過程（MDP）が用いられる場合、学習オートマトン（Learning Automaton）は強化学習の範疇に入ります。

歴史

学習オートマトンの研究は、1960年代初頭のソビエト連邦におけるミヒャエル・ルヴォヴィッチ・ツェトリンの研究に遡ります。彼は同僚と共に、オートマトン関数を記述するための行列の利用方法に関する論文集を発表しました。さらに、ツェトリン氏は、オートマトンの合理的行動と集団行動、そしてオートマトンゲームについても研究しました。学習オートマトンは、1960年代にはアメリカの研究者によっても研究されていました。しかし、「学習オートマトン」という用語は、1974年にナレンドラとサタチャーが概説論文で初めて使用されました。

意味

学習オートマトンとは、ランダムな環境に配置された適応的な意思決定ユニットであり、環境との繰り返しの相互作用を通じて最適な行動を学習します。行動は特定の確率分布に従って選択され、その確率分布はオートマトンが特定の行動を実行することで得られる環境応答に基づいて更新されます。

強化学習の分野において、学習オートマトン（学習オートマトンは）方策反復子（ポリシーイテレータ）として特徴付けられます。他の強化学習器とは異なり、方策反復子は方策πを直接操作します。方策反復子のもう一つの例としては、進化的アルゴリズム（進化的アルゴリズム）があります。

正式には、Narendra と Thathachar は確率オートマトンを次のように定義しています。

可能な入力の集合X 、
可能な内部状態のセット Φ = { Φ ₁ , ..., Φ _{s }、}
可能な出力またはアクションの集合 α = { α ₁ , ..., α _r } （ r ≤ s）
初期状態確率ベクトルp(0) = ≪ p ₁ (0), ..., p _s (0) ≫、
計算可能な関数 Aは、各時間ステップtの後にp ( t )、現在の入力、および現在の状態からp ( t +1)を生成し、
各タイムステップで出力を生成する関数G : Φ → α。

彼らの論文では、r = sかつGが全単射である確率オートマトンのみを調査しているため、動作と状態が混同される可能性があります。このようなオートマトンの状態は、「離散状態離散パラメータマルコフ過程」の状態に対応します。^[1] 各タイムステップt =0,1,2,3,... において、オートマトンはその環境から入力を読み取り、Aによってp ( t ) をp ( t +1)に更新し、確率p ( t +1) に従って後続の状態をランダムに選択して、対応する動作を出力します。次に、オートマトン環境がその動作を読み取り、次の入力をオートマトンに送信します。多くの場合、入力セットX = {0,1} が使用され、0 と 1 はそれぞれ環境の非ペナルティ応答とペナルティ応答に対応します。この場合、オートマトン（オートマトン）はペナルティ応答の回数を最小化するように学習する必要があり、オートマトンと環境のフィードバックループは「Pモデル」と呼ばれます。より一般的には、「Qモデル」は任意の有限入力集合Xを許容し、「Sモデル」は実数区間[0,1]をXとして扱います。^[2]

単一の学習オートマトンを視覚化したデモ^[3]^{[4] /アートワークは、ニューカッスル大学のμSystems（マイクロシステムズ）研究グループによって開発されました。}

有限アクションセット学習オートマトン

有限アクションセット学習オートマトン（FALA）は、可能なアクションの数が有限である、またはより数学的に言えば、アクションセットのサイズが有限である学習オートマトンの一種です。^[5]

参照

文学

フィリップ・アランズラとジョン・メラー (ホームページ):
- Mellor J および Aranzulla P (2000)：「IP ネットワーク向け学習オートマトンベースルーティングスキームによる S モデル応答環境の使用」、Proc. Eighth IFIP Workshop on Performance Modelling and Evaluation of ATM and IP Networks、pp 56/1-56/12、Ilkley、英国。
- Aranzulla P および Mellor J (1997)：「ATM ネットワークに適用する場合にシグナリングの削減を必要とする 2 つのルーティングアルゴリズムの比較」、Proc. Fourteenth UK Teletraffic Symposium on Performance Engineering in Information Systems、pp 20/1-20/4、UMIST、マンチェスター、英国。
Narendra K.; Thathachar MAL (1974年7月). 「学習オートマトン ― 概説」(PDF) . IEEE Transactions on Systems, Man, and Cybernetics . SMC-4 (4): 323– 334. CiteSeerX 10.1.1.295.2280 . doi :10.1109/tsmc.1974.5408453.
Tsetlin ML 自動化理論と生物システムのモデリング. Academic Press; 1973. ^{[永久リンク切れ]}

参考文献

^ (Narendra、Thathachar、1974) p.325 左
^ (Narendra、Thathachar、1974) p.325 右
^ JieGH (2019-11-11), JieGH/The-Ruler-of-Tsetlin-Automaton 、 2020年7月22日閲覧
^ “The-Ruler-of-Tsetlin-Automaton”. www.youtube.com . 2020年7月22日閲覧。
^ Thathachar, MAL; Sastry, PS (2002年12月). 「学習オートマトンの種類：概要」(PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 32 (6): 711– 722. doi :10.1109/TSMCB.2002.1049606. PMID 18244878.

[1] (Narendra、Thathachar、1974) p.325 左

[2] (Narendra、Thathachar、1974) p.325 右

[3] JieGH (2019-11-11), JieGH/The-Ruler-of-Tsetlin-Automaton 、 2020年7月22日閲覧

[4] “The-Ruler-of-Tsetlin-Automaton”. www.youtube.com . 2020年7月22日閲覧。

[Thathachar2002-5] Thathachar, MAL; Sastry, PS (2002年12月). 「学習オートマトンの種類：概要」(PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 32 (6): 711– 722. doi :10.1109/TSMCB.2002.1049606. PMID 18244878.