アクションモデル学習

アクションモデル学習（アクションラーニングと略されることもあります）は、ソフトウェアエージェントがその環境内で実行できるアクションの効果と前提条件に関する知識を作成および修正することに関係する機械学習の分野です。この知識は通常、ロジックベースのアクション記述言語で表現され、自動プランナーへの入力として使用されます

行動モデルの学習は、目標が変化する場合に重要です。エージェントがしばらく行動することで、ドメインにおける行動に関する蓄積された知識を活用し、より良い意思決定を行うことができます。したがって、行動モデルの学習は強化学習とは異なります。行動モデルの学習は、現実世界におけるコストのかかる試行の代わりに、行動に関する推論を可能にします。^{[1]行動モデル学習は}帰納的推論の一種であり、エージェントの観察に基づいて新しい知識が生成されます。

アクションモデルを学習する一般的な動機は、プランナー向けのアクションモデルを手動で指定することが、多くの場合、困難で時間がかかり、エラーが発生しやすいタスクであるという事実です (特に複雑な環境では)。

行動モデル

例からなる訓練セットが与えられます。ここでは2つの連続する時間ステップからの世界状態の観測値であり、は時間ステップで観測された行動インスタンスです。一般的な行動モデル学習の目標は、行動モデルを構築することです。ここではSTRIPS、ADL、PDDLのような行動記述形式におけるドメインダイナミクスの記述であり、はの要素上で定義された確率関数です。 ^[2] しかし、多くの最先端の行動学習手法は決定論を前提としており、を誘導しません。決定論に加えて、個々の手法はドメインの他の属性（例：部分的観測可能性やセンサーノイズ）をどのように扱うかが異なります $E$ $e=(s,a,s')$ $s,s'$ $t,t'$ $a$ $t$ $\langle D,P\rangle$ $D$ $P$ $D$ $P$

アクションラーニング法

最先端の

最近のアクションラーニング手法では、さまざまなアプローチが採用され、人工知能と計算ロジックのさまざまな領域からさまざまなツールが採用されています。命題論理に基づく手法の一例として、SLAF (Simultaneous Learning and Filtering) アルゴリズム^[1]が挙げられます。これは、エージェントの観察を使用して時間の経過に伴う長い命題式を構築し、その後、充足可能性 (SAT) ソルバーを使用してそれを解釈します。学習が充足可能性問題 (この場合は重み付けMAX-SAT ) に変換され、SAT ソルバーが使用される別の手法は、ARMS (Action-Relation Modeling System) ^[3]に実装されています。アクションラーニングに対する 2 つの相互に類似した、完全に宣言的なアプローチは、論理プログラミングパラダイムAnswer Set Programming (ASP) ^[4]とその拡張である Reactive ASP ^[5]に基づいています。別の例では、ボトムアップの帰納的論理プログラミングアプローチが採用されています。^[6]いくつかの異なるソリューションは、直接的には論理ベースではありません。例えば、パーセプトロンアルゴリズム^[7]を使用した行動モデル学習や、可能な行動モデルの空間にわたる多段階貪欲探索^[8]などです。 1992年の古い論文^{[9]では、行動モデル学習は}強化学習の拡張として研究されていました。

とはいえ、異なる仮定の下で動作するさらなるアルゴリズムも見つかる。FAMA ^[10]は一部の観測が欠落している場合でも機能し、一般的な（リフトされた）計画モデルを生成する。これは行動モデルの学習を計画問題のように扱い、学習したモデルが与えられた観測と一致することを確認する。NOLAM ^[11]はノイズの多いデータや不完全なデータからでも一般的な行動モデルを学習できる。LOCM ^[12]はデータ内の行動の順序のみに焦点を当て、行動間の状態に関する詳細は無視する。安全行動モデル（SAM）学習法のファミリー^[13]は、作成された計画が現実世界で実際に機能することを保証するモデルを作成する。また、数値的な条件と効果を持つ行動モデルを学習できる N-SAM ^[14]と呼ばれる拡張機能もある。

さらに、N-SAMのような数値行動モデルは、RAMPアルゴリズムを通じて強化学習（RL）のパフォーマンスを向上させるために使用できます。^[15]

文学

アクションラーニングに関する研究論文のほとんどは、人工知能全般に特化したジャーナルや会議（例：Journal of Artificial Intelligence Research (JAIR)、Artificial Intelligence, Applied Artificial Intelligence (AAI)、AAAI会議など）に掲載されています。これらのトピックは相互に関連性があるにもかかわらず、アクションモデル学習は、International Conference on Automated Planning and Scheduling (ICAPS) のような計画関連の会議ではあまり取り上げられません。

参照

参考文献

^ ab Amir, Eyal; Chang, Allen (2008). 「部分的に観測可能な決定論的行動モデルの学習」. Journal of Artificial Intelligence Research . 33 : 349–402 . arXiv : 1401.3437 . doi :10.1613/jair.2575. S2CID 9432224
^ Čertický, Michal (2014). 「オンラインアルゴリズム3SGを用いたリアルタイムアクションモデル学習」.応用人工知能. 28 (7): 690– 711. doi : 10.1080/08839514.2014.927692 . S2CID 8210810.
^ Yang, Qiang; Kangheng, Wu; Yunfei, Jiang (2007). 「重み付きMAX-SATを用いた計画例からの行動モデルの学習」人工知能. 171 ( 2–3 ): 107–143 . CiteSeerX 10.1.1.135.9266 . doi : 10.1016/j.artint.2006.11.005 .
^ Balduccini, Marcelo (2007). 「A-Prologによるアクション記述の学習：アクション言語C」AAAI春季シンポジウム：常識推論の論理的形式化：13–18 .
^ Čertický, Michal (2012). 「リアクティブ回答セットプログラミングによるアクションラーニング：予備報告」ICAS 2012：第8回国際自律システム会議pp. 107– 111. ISBN 9781612081878。
^ ベンソン、スコット (1995). 「反応行動モデルの帰納的学習」.機械学習：第12回国際会議議事録
^ Mourao, Kira; Petrick, Ronald; Steedman, Mark (2010). 「部分観測領域における行動効果の学習」.人工知能とその応用のフロンティア. 215 (ECAI 2010): 973– 974. doi :10.3233/978-1-60750-606-5-973. hdl : 20.500.11820/810a5579-b991-441a-ad68-af0151689627 .
^ ゼトルモイヤー、ルーク、パスラ、ハンナ、ケルブリン、レスリー・パック (2005). 「ノイズの多い確率的世界における学習計画ルール」AAAI : 911–918 .
^ Lin, Long-Ji (1992). 「強化学習、計画、および教育に基づく自己改善型反応エージェント」.機械学習. 8 ( 3–4 ): 293–321 . doi : 10.1023/A:1022628806385 .
^ アイネト、ディエゴ;ヒメネス・セロリオ、セルジオ。オナインディア、エヴァ（2019）。「可観測性を最小限に抑えた学習アクションモデル」。人工知能。275 : 104–137 .土井:10.1016/j.artint.2019.05.003。
^ Lamanna, Leonardo; Serafini, Luciano (2024). ノイズの多いトレースからのアクションモデル学習：確率的アプローチ. 自動計画・スケジューリングに関する国際会議 (ICAPS). pp. 342– 350. doi :10.1609/icaps.v34i1.31493.
^ Cresswell, Stephen N.; McCluskey, Thomas L.; West, Margaret M. (2013). 「LOCMを用いた計画ドメインモデルの獲得」.知識工学レビュー. 28 (2): 195– 213. doi :10.1017/S0269888912000422.
^ Juba, Brendan; Le, Hai S; Stern, Roni (2021). リフトアクションモデルの安全な学習(PDF) . 第18回知識表現と推論の原理に関する国際会議 (KR) の議事録. pp. 379– 389.
^ Mordoch, Argaman; Juba, Brendan; Stern, Roni (2023). 安全な数値アクションモデルの学習. AAAI人工知能会議. 第37巻. pp. 12079– 12086. doi :10.1609/aaai.v37i10.26424.
^ Benyamin, Yarin; Mordoch, Argaman; Shperberg, Shahaf S.; Stern, Roni (2025). 「複雑なタスクに取り組むための強化学習、行動モデル学習、数値計画の統合」arXiv : 2502.13006 [cs.AI].

[amir2008-1] Amir, Eyal; Chang, Allen (2008). 「部分的に観測可能な決定論的行動モデルの学習」. Journal of Artificial Intelligence Research . 33 : 349–402 . arXiv : 1401.3437 . doi :10.1613/jair.2575. S2CID 9432224

[certicky2013-2] Čertický, Michal (2014). 「オンラインアルゴリズム3SGを用いたリアルタイムアクションモデル学習」.応用人工知能. 28 (7): 690– 711. doi : 10.1080/08839514.2014.927692 . S2CID 8210810.

[yang2007-3] Yang, Qiang; Kangheng, Wu; Yunfei, Jiang (2007). 「重み付きMAX-SATを用いた計画例からの行動モデルの学習」人工知能. 171 ( 2–3 ): 107–143 . CiteSeerX 10.1.1.135.9266 . doi : 10.1016/j.artint.2006.11.005 .

[4] Balduccini, Marcelo (2007). 「A-Prologによるアクション記述の学習：アクション言語C」AAAI春季シンポジウム：常識推論の論理的形式化：13–18 .

[5] Čertický, Michal (2012). 「リアクティブ回答セットプログラミングによるアクションラーニング：予備報告」ICAS 2012：第8回国際自律システム会議pp. 107– 111. ISBN 9781612081878。

[6] ベンソン、スコット (1995). 「反応行動モデルの帰納的学習」.機械学習：第12回国際会議議事録

[7] Mourao, Kira; Petrick, Ronald; Steedman, Mark (2010). 「部分観測領域における行動効果の学習」.人工知能とその応用のフロンティア. 215 (ECAI 2010): 973– 974. doi :10.3233/978-1-60750-606-5-973. hdl : 20.500.11820/810a5579-b991-441a-ad68-af0151689627 .

[8] ゼトルモイヤー、ルーク、パスラ、ハンナ、ケルブリン、レスリー・パック (2005). 「ノイズの多い確率的世界における学習計画ルール」AAAI : 911–918 .

[9] Lin, Long-Ji (1992). 「強化学習、計画、および教育に基づく自己改善型反応エージェント」.機械学習. 8 ( 3–4 ): 293–321 . doi : 10.1023/A:1022628806385 .

[10] アイネト、ディエゴ;ヒメネス・セロリオ、セルジオ。オナインディア、エヴァ（2019）。「可観測性を最小限に抑えた学習アクションモデル」。人工知能。275 : 104–137 .土井:10.1016/j.artint.2019.05.003。

[11] Lamanna, Leonardo; Serafini, Luciano (2024). ノイズの多いトレースからのアクションモデル学習：確率的アプローチ. 自動計画・スケジューリングに関する国際会議 (ICAPS). pp. 342– 350. doi :10.1609/icaps.v34i1.31493.

[12] Cresswell, Stephen N.; McCluskey, Thomas L.; West, Margaret M. (2013). 「LOCMを用いた計画ドメインモデルの獲得」.知識工学レビュー. 28 (2): 195– 213. doi :10.1017/S0269888912000422.

[13] Juba, Brendan; Le, Hai S; Stern, Roni (2021). リフトアクションモデルの安全な学習(PDF) . 第18回知識表現と推論の原理に関する国際会議 (KR) の議事録. pp. 379– 389.

[14] Mordoch, Argaman; Juba, Brendan; Stern, Roni (2023). 安全な数値アクションモデルの学習. AAAI人工知能会議. 第37巻. pp. 12079– 12086. doi :10.1609/aaai.v37i10.26424.

[15] Benyamin, Yarin; Mordoch, Argaman; Shperberg, Shahaf S.; Stern, Roni (2025). 「複雑なタスクに取り組むための強化学習、行動モデル学習、数値計画の統合」arXiv : 2502.13006 [cs.AI].