この記事には複数の問題があります。改善にご協力いただくか、トークページでこれらの問題について議論してください。(これらのメッセージを削除する方法とタイミングについてはこちらをご覧ください)
|
エージェント指向ソフトウェア工学(AOSE)は、複雑なマルチエージェントシステム(MAS)の開発におけるベストプラクティスを適用するために生まれたソフトウェア工学のパラダイムであり、エージェントの利用、およびエージェントの組織(コミュニティ)を主要な抽象化として重視しています。ソフトウェア製品ライン(SPL)の分野は、具体的な製品の派生が体系的かつ迅速に行われる製品ファミリーの開発に必要なソフトウェア開発ライフサイクル全体を網羅しています。
解説
生物学に着想を得た、パーベイシブコンピューティングとオートノミックコンピューティングの登場により、エージェントベース技術とMASの利点と必要性は明らかになりました[要出典]。残念ながら、現在のAOSE方法論は単一のMASの開発に特化しています。多くのMASが、実質的に同一の技術、適応、アプローチを利用することは明らかです。したがって、この分野は、SPLの利点(コスト削減、市場投入までの時間の短縮など)を活用し、エージェント技術をより産業応用しやすいように強化する絶好の機会となっています。
マルチエージェントシステム製品ライン(MAS-PL)は、SPLの哲学をMAS構築に適用するという2つのアプローチを融合させることに特化した研究分野です。これにより、SPLの利点をすべて活用し、MAS開発をより実用的にすることができます。
ベンチマーク
ソフトウェアエンジニアリングタスクにおけるAIコーディングエージェントと大規模言語モデルの能力を評価するために、いくつかのベンチマークが開発されています。主なベンチマークをいくつかご紹介します。
| ベンチマーク | 説明 |
|---|---|
| SWEベンチ | GitHubリポジトリから収集した実際のソフトウェアエンジニアリングの課題をAIモデルが解決できる能力を評価します。ベンチマークには以下の項目が含まれます。
|
| MLエージェントベンチ | 機械学習タスクにおけるAIエージェントのパフォーマンスを評価するために設計 |
| τベンチ | τ-Benchは、Sierra AIが開発したベンチマークで、AIエージェントの実世界におけるパフォーマンスと信頼性を評価することを目的としています。以下の点に重点を置いています。
|
| ウェブアリーナ | シミュレーションされたWeb環境でAIエージェントを評価します。ベンチマークタスクには以下が含まれます。
|
| エージェントベンチ | AIエージェントがマルチエージェント協調タスクを処理する能力を評価するために設計されたベンチマーク。主な評価領域は以下のとおりです。
|
| MMLU-Redux | MMLUベンチマークの拡張版で、幅広い学術分野と領域にわたるAIモデルの評価に重点を置いています。以下の項目を測定します。
|
| マクエヴァル | AIモデルがコーディング課題を解決する能力をテストするために設計されたコーディングベンチマーク。このベンチマークでは、以下の項目を評価します。
|
| CSベンチ | コンピュータサイエンス関連のタスクにおけるAIパフォーマンスを評価するための専門ベンチマーク。主な焦点領域は以下のとおりです。
|
| ワイルドベンチ | AIモデルが現実世界の自然環境を理解し、推論できるかをテストします。以下の点を重視します。
|
| 時の試練 | AIモデルが時系列やイベントを推論する能力を評価することに焦点を当てたベンチマーク。評価対象は以下のとおりです。
|
ソフトウェアエンジニアリングエージェントシステム
開発中のソフトウェアエンジニアリング(SWE)エージェントシステムはいくつかあります。以下にいくつか例を挙げます。
| SWEエージェントシステム | バックエンドLLM |
|---|---|
| セールスフォースリサーチ DEIBASE-1 | gpt4o |
| コサイン・ジーニー | 微調整されたOpenAI GPT |
| CodeStory アシスタント | gpt4o + クロード 3.5 ソネット |
| アベンテAI メンタットボット | gpt4o |
| Salesforceリサーチ DEIBASE-2 | gpt4o |
| Salesforceリサーチ DEI-Open | gpt4o |
| バイトダンス MarsCode | gpt4o |
| アリババ・リンマ | gpt-4-1106-プレビュー |
| ファクトリーコードドロイド | アントロピック + OpenAI |
| オートコードローバー | gpt4o |
| Amazon Q 開発者 | (未知) |
| コードR | gpt-4-1106-プレビュー |
| マサイ族 | (未知) |
| シマ | gpt4o |
| エージェントレス | gpt4o |
| 溝のないツール | クロード 3.5 ソネット |
| IBMリサーチエージェント | (未知) |
| エイダー | gpt4o + クロード 3 Opus |
| OpenDevin + CodeAct | gpt4o |
| アジャイルコーダー | (様々な) |
| チャットデブ | (未知) |
| メタGPT | gpt4o |
参考文献
- マイケル・ウィニコフ、リン・パドガム著 『エージェント指向ソフトウェア工学』第15章(695-757ページ)G. ワイス編『マルチエージェントシステム』第2版、MIT出版、ISBN 978-0-262-01889-0(この分野の最近の調査)
- MAS-PL を適用している MaCMAS 方法論のサイト。https://web.archive.org/web/20100922120209/http://james.eii.us.es/MaCMAS/index.php/Main_Page
- MAS 製品ライン サイト: https://web.archive.org/web/20140518122645/http://mas-productlines.org/
- ホアキン・ペーニャ、マイケル・G・ヒンチー、アントニオ・ルイス=コルテス. マルチエージェントシステム製品ライン:課題と利点. Communications of the ACM, 2006年12月, 第49巻, 第12号. doi :10.1145/1183236.1183272
- ペーニャ, ホアキン; ヒンチー, マイケル・G.; レジナス, マヌエル; ステリット, ロイ; ラッシュ, ジェームズ・L. (2007). 「MAS-プロダクトラインアプローチを用いた進化するシステムの設計と管理」.コンピュータプログラミング科学ジャーナル. 66 : 71–86 . doi : 10.1016/j.scico.2006.10.007 .
- ホアキン・ペーニャ、マイケル・G・ヒンチー、アントニオ・ルイス=コルテス、パブロ・トリニダード。NASAマルチエージェントシステム製品ラインのコアアーキテクチャ構築。第7回国際エージェント指向ソフトウェアエンジニアリングワークショップ2006、ページは後日公開予定、函館、日本、2006年5月。LNCS。https://doi.org/10.1007%2F978-3-540-70945-9_13
- Joaquin Peña、Michael G. Hinchey、Manuel Resinas、Roy Sterritt、James L. Rash. MAS-製品ラインアプローチを用いたエンタープライズアーキテクチャの進化管理. 第5回システム/ソフトウェアアーキテクチャ国際ワークショップ (IWSSA'06). ネバダ州、アメリカ合衆国. 2006
- Soe-Tsyr Yuan. MAS 製品ライン アーキテクチャを考慮した環境構築。
- Josh_Dehlinger とRobyn Lutz は、この分野でいくつかの出版物を発表しています。
- MAS-PL -- 最新の研究。AgentLink第4回技術フォーラム(TF4)にて。2006年12月。
外部リンク
- エージェント指向ソフトウェア工学:アーキテクチャ、方法論、言語、フレームワークに関する考察 ISBN 978-3642544316