エージェント指向ソフトウェアエンジニアリング

ソフトウェア

エージェント指向ソフトウェア工学（AOSE）は、複雑なマルチエージェントシステム（MAS）の開発におけるベストプラクティスを適用するために生まれたソフトウェア工学のパラダイムであり、エージェントの利用、およびエージェントの組織（コミュニティ）を主要な抽象化として重視しています。ソフトウェア製品ライン（SPL）の分野は、具体的な製品の派生が体系的かつ迅速に行われる製品ファミリーの開発に必要なソフトウェア開発ライフサイクル全体を網羅しています。

解説

生物学に着想を得た、パーベイシブコンピューティングとオートノミックコンピューティングの登場により、エージェントベース技術とMASの利点と必要性は明らかになりました^[要出典]。残念ながら、現在のAOSE方法論は単一のMASの開発に特化しています。多くのMASが、実質的に同一の技術、適応、アプローチを利用することは明らかです。したがって、この分野は、SPLの利点（コスト削減、市場投入までの時間の短縮など）を活用し、エージェント技術をより産業応用しやすいように強化する絶好の機会となっています。

マルチエージェントシステム製品ライン（MAS-PL）は、SPLの哲学をMAS構築に適用するという2つのアプローチを融合させることに特化した研究分野です。これにより、SPLの利点をすべて活用し、MAS開発をより実用的にすることができます。

ベンチマーク

ソフトウェアエンジニアリングタスクにおけるAIコーディングエージェントと大規模言語モデルの能力を評価するために、いくつかのベンチマークが開発されています。主なベンチマークをいくつかご紹介します。

エージェントソフトウェアエンジニアリングのベンチマーク
ベンチマーク	説明
SWEベンチ	GitHubリポジトリから収集した実際のソフトウェアエンジニアリングの課題をAIモデルが解決できる能力を評価します。ベンチマークには以下の項目が含まれます。エージェントにコードリポジトリと問題の説明を提供する記述された問題を解決するパッチを生成するように挑戦する生成されたパッチをユニットテストで評価する
MLエージェントベンチ	機械学習タスクにおけるAIエージェントのパフォーマンスを評価するために設計
τベンチ	τ-Benchは、Sierra AIが開発したベンチマークで、AIエージェントの実世界におけるパフォーマンスと信頼性を評価することを目的としています。以下の点に重点を置いています。動的なユーザーとツールのインタラクションを伴う複雑なタスクでエージェントをテストするドメイン固有のポリシーに従う能力の評価一貫性と信頼性を大規模に測定
ウェブアリーナ	シミュレーションされたWeb環境でAIエージェントを評価します。ベンチマークタスクには以下が含まれます。複雑なウェブサイトをナビゲートしてユーザー主導のタスクを完了するウェブから関連情報を抽出する多様なWebベースの課題に対するエージェントの適応性をテストする
エージェントベンチ	AIエージェントがマルチエージェント協調タスクを処理する能力を評価するために設計されたベンチマーク。主な評価領域は以下のとおりです。エージェント間のコミュニケーションと協力タスク効率とリソース管理動的な環境への適応性
MMLU-Redux	MMLUベンチマークの拡張版で、幅広い学術分野と領域にわたるAIモデルの評価に重点を置いています。以下の項目を測定します。複数の分野にわたる主題の専門知識複雑な問題解決タスクを処理する能力トピック全体にわたって正確な回答を一貫して提供する
マクエヴァル	AIモデルがコーディング課題を解決する能力をテストするために設計されたコーディングベンチマーク。このベンチマークでは、以下の項目を評価します。コードの正確性と効率性多様なプログラミング言語を扱う能力さまざまなコーディングパラダイムとタスクにわたるパフォーマンス
CSベンチ	コンピュータサイエンス関連のタスクにおけるAIパフォーマンスを評価するための専門ベンチマーク。主な焦点領域は以下のとおりです。アルゴリズムとデータ構造計算の複雑さと最適化理論と応用コンピュータサイエンスの概念
ワイルドベンチ	AIモデルが現実世界の自然環境を理解し、推論できるかをテストします。以下の点を重視します。ノイズの多い非構造化データの処理予測不可能な環境の変化への適応現実世界との関連性を持つマルチモーダルシナリオで優れたパフォーマンスを発揮
時の試練	AIモデルが時系列やイベントを推論する能力を評価することに焦点を当てたベンチマーク。評価対象は以下のとおりです。時相論理とシーケンス予測の理解時間依存データに基づいて意思決定する能力長期的な計画と先見性を必要とするタスクのパフォーマンス

ソフトウェアエンジニアリングエージェントシステム

開発中のソフトウェアエンジニアリング（SWE）エージェントシステムはいくつかあります。以下にいくつか例を挙げます。

SWEエージェントシステムのリスト
SWEエージェントシステム	バックエンドLLM
セールスフォースリサーチ DEIBASE-1	gpt4o
コサイン・ジーニー	微調整されたOpenAI GPT
CodeStory アシスタント	gpt4o + クロード 3.5 ソネット
アベンテAI メンタットボット	gpt4o
Salesforceリサーチ DEIBASE-2	gpt4o
Salesforceリサーチ DEI-Open	gpt4o
バイトダンス MarsCode	gpt4o
アリババ・リンマ	gpt-4-1106-プレビュー
ファクトリーコードドロイド	アントロピック + OpenAI
オートコードローバー	gpt4o
Amazon Q 開発者	（未知）
コードR	gpt-4-1106-プレビュー
マサイ族	（未知）
シマ	gpt4o
エージェントレス	gpt4o
溝のないツール	クロード 3.5 ソネット
IBMリサーチエージェント	（未知）
エイダー	gpt4o + クロード 3 Opus
OpenDevin + CodeAct	gpt4o
アジャイルコーダー	（様々な）
チャットデブ	（未知）
メタGPT	gpt4o

参考文献

マイケル・ウィニコフ、リン・パドガム著 『エージェント指向ソフトウェア工学』第15章（695-757ページ）G. ワイス編『マルチエージェントシステム』第2版、MIT出版、ISBN 978-0-262-01889-0（この分野の最近の調査）
MAS-PL を適用している MaCMAS 方法論のサイト。https://web.archive.org/web/20100922120209/http://james.eii.us.es/MaCMAS/index.php/Main_Page
MAS 製品ラインサイト: https://web.archive.org/web/20140518122645/http://mas-productlines.org/
ホアキン・ペーニャ、マイケル・G・ヒンチー、アントニオ・ルイス＝コルテス. マルチエージェントシステム製品ライン：課題と利点. Communications of the ACM, 2006年12月, 第49巻, 第12号. doi :10.1145/1183236.1183272
ペーニャ, ホアキン; ヒンチー, マイケル・G.; レジナス, マヌエル; ステリット, ロイ; ラッシュ, ジェームズ・L. (2007). 「MAS-プロダクトラインアプローチを用いた進化するシステムの設計と管理」.コンピュータプログラミング科学ジャーナル. 66 : 71–86 . doi : 10.1016/j.scico.2006.10.007 .
ホアキン・ペーニャ、マイケル・G・ヒンチー、アントニオ・ルイス＝コルテス、パブロ・トリニダード。NASAマルチエージェントシステム製品ラインのコアアーキテクチャ構築。第7回国際エージェント指向ソフトウェアエンジニアリングワークショップ2006、ページは後日公開予定、函館、日本、2006年5月。LNCS。https://doi.org/10.1007%2F978-3-540-70945-9_13
Joaquin Peña、Michael G. Hinchey、Manuel Resinas、Roy Sterritt、James L. Rash. MAS-製品ラインアプローチを用いたエンタープライズアーキテクチャの進化管理. 第5回システム/ソフトウェアアーキテクチャ国際ワークショップ (IWSSA'06). ネバダ州、アメリカ合衆国. 2006
Soe-Tsyr Yuan. MAS 製品ラインアーキテクチャを考慮した環境構築。
Josh_Dehlinger とRobyn Lutz は、この分野でいくつかの出版物を発表しています。
MAS-PL -- 最新の研究。AgentLink第4回技術フォーラム（TF4）にて。2006年12月。

外部リンク

エージェント指向ソフトウェア工学：アーキテクチャ、方法論、言語、フレームワークに関する考察 ISBN 978-3642544316

このソフトウェアエンジニアリング関連の記事はスタブです。不足している情報を追加することで、Wikipedia に貢献できます。