対話システム

対話システム、または会話エージェント（CA）は、人間と会話することを目的としたコンピュータシステムです。対話システムは、入力チャネルと出力チャネルの両方で、テキスト、音声、グラフィック、触覚、ジェスチャーなどのコミュニケーションモードを1つ以上使用します。

対話システムの要素は研究中であるため定義されていませんが、チャットボットとは異なります。^{[ 1 ]}典型的なGUI ウィザードは一種の対話を行いますが、一般的な対話システムコンポーネントはほとんど含まれておらず、対話状態は単純です。

背景

1960年代初頭から書き言葉によるテキスト処理のみに基づく対話システムが登場した後、^{[ 2 ]、}最初の音声対話システムは1977年に米国のDARPAプロジェクトによって発表されました。^{[ 3 ]}この5年間のプロジェクト終了後、いくつかのヨーロッパのプロジェクトは、多くの言語（フランス語、ドイツ語、イタリア語も含む）を話せる最初の対話システムを発表しました。^{[ 4 ]}これらの最初のシステムは、通信業界で、自動議題作成や列車の表作成サービスなど、特定の分野で電話のさまざまなサービスを提供するために使用されました

コンポーネント

対話システムに含まれるコンポーネントセットと、それらのコンポーネントがどのように責任を分担するかは、システムによって異なります。あらゆる対話システムの基本となるのは、対話の状態と対話戦略を管理するコンポーネントである対話マネージャです。対話システムの典型的なアクティビティサイクルには、以下のフェーズが含まれます。^{[ 5 ]}

ユーザーが話すと、その入力はシステムの入力認識装置/デコーダーによってプレーンテキストに変換されます。これには次のようなものが含まれます。
テキストは自然言語理解(NLU) ユニットによって分析されます。これには次のようなものが含まれます。
- 固有名詞の識別
- 品詞タグ付け
- 構文/意味解析
意味情報はダイアログマネージャによって分析され、ダイアログマネージャはダイアログの履歴と状態を保持し、会話の全体的な流れを管理します。
通常、ダイアログマネージャーは、特定のタスクドメインに関する知識を持つ1 つ以上のタスクマネージャーに接続します。
ダイアログマネージャーは、出力ジェネレータを使用して出力を生成します。出力ジェネレータには次のものが含まれます。
最後に、出力は出力レンダラーを使用してレンダリングされます。出力レンダラーには以下が含まれる場合があります
- テキスト読み上げエンジン（TTS）
- トーキングヘッド
- ロボットまたはアバター

テキストのみのインターフェース（例：テキストベースのチャット）に基づく対話システムには、ステージ2～5のみが含まれます

システムの種類

対話システムは以下のカテゴリーに分類されます。これらはいくつかの側面に沿ってここに列挙されています。多くのカテゴリーは重複しており、区別が明確にされていない場合があります

モダリティ別
デバイス別
- 電話ベースのシステム
- PDAシステム
- 車載システム
- ロボットシステム
- デスクトップ/ラップトップシステム
  - ネイティブ
  - ブラウザ内システム
  - 仮想マシン内
- 仮想環境内
- ロボット
スタイル別
- コマンドベース
- メニュー駆動型
- 自然言語
- スピーチグラフィティ
主導による
- システム主導
- ユーザー主導
- 混合主導

パフォーマンス

一部の研究者は、文のモデルを比較することにより、完全に正しい文の割合で対話システムのパフォーマンスを測定しています（この指標は概念文精度^{[ 6 ]}または文理解^{[ 4 ]}と呼ばれます）。対話システムは、ユーザーの質問の言い回しによっては、一貫性のない応答を返すことがあります^{[ 7 ]}

アプリケーション

対話システムは、企業、教育、政府、医療、エンターテインメントなど、幅広いアプリケーションをサポートできます。^{[ 8 ]}例：

会社のウェブサイトやイントラネットポータルを通じて、製品やサービスに関する顧客の質問に回答する
カスタマーサービスエージェントのナレッジベース:エージェントが顧客の質問を入力し、回答を案内できるようにします。
ガイド付き販売: 特に初心者の顧客に販売される複雑な製品の場合、販売プロセスで回答とガイダンスを提供することで取引を促進します。
ヘルプデスク：社内従業員の質問への対応（例：人事に関する質問への対応）
ウェブサイトナビゲーション: 複雑なウェブサイトの関連部分に顧客を誘導する - ウェブサイトコンシェルジュ
テクニカルサポート: 製品やデバイスの問題の診断など、技術的な問題への対応
パーソナライズされたサービス: 会話エージェントは、内部および外部のデータベースを活用して、口座残高に関する質問に答えたり、ポートフォリオ情報を提供したり、マイレージプログラムや会員情報を提供したりといった対話をパーソナライズすることができます。
トレーニングまたは教育: ユーザーが学習している間に問題解決のアドバイスを提供することができます
シンプルな対話システムは、コールセンターにおける人的負荷を軽減するために広く利用されています。この分野をはじめとする産業用電話アプリケーションにおいて、対話システムが提供する機能は、インタラクティブ音声応答（IVR）と呼ばれています。
ゲノミクスなどのデータ操作および分析タスクにおいて科学者をサポートします。^{[ 9 ]}

場合によっては、会話エージェントは人工キャラクターを用いてユーザーと対話することができます。このようなエージェントは、具現化エージェントと呼ばれます。

2020年代には、対話システムは大規模言語モデル（LLM）上に構築されることが増えており、これにより、従来のルールベースや統計的アプローチよりも柔軟にオープンドメインの会話を処理できるようになりました。^{[ 10 ]}現代の実装では、音声とテキストの両方のインターフェースが統合されることが多く、会話エージェントを介したマルチモーダルなインタラクションをユーザーに提供しています。このようなシステムは、顧客サービス、教育、パーソナルアシスタンスなどのユーザーフレンドリーなインターフェースを備えたアプリケーションにも組み込まれています。^{[ 11 ]}

ツールキットとアーキテクチャ

対話システムを定義するための現在のフレームワーク、言語、テクノロジーの調査

名称とリンク	システムの種類	説明	所属	環境	コメント
AIML	Chatterbot言語	自然言語ソフトウェアエージェントを作成するためのXML方言	リチャード・ウォレス、Pandorabots Inc.
チャットスクリプト	Chatterbot言語	自然言語ソフトウェアエージェントを作成するための言語／エンジン	ブルース・ウィルコックス
CSLUツールキット		状態ベースの音声インターフェースプロトタイピング環境	OGI理工学部M. McTearロン・コール		出版物は1999年のものです。
NLUIサーバー	ドメイン非依存ツールキット	自然言語ユーザーインターフェースシステムを構築するための完全な多言語フレームワーク	LinguaSys		混合主導型対話をすぐにサポート
DaVoice AI	ドメイン非依存ツールキット	自然言語ソフトウェアエージェントを作成するための言語／エンジン	デレク・ウィリス		主に電話用。
オリンパス		音声対話システムを実装するための完全なフレームワーク	カーネギーメロン大学	[1]
ネクストノバ	マルチモーダルプラットフォーム	マルチモーダルソフトウェアアプリケーション開発プラットフォーム。State Chart XML (SCXML) ベース	ポンビア・テクノロジー株式会社
VXML音声XML	音声対話	マルチモーダル対話マークアップ言語	当初はAT&Tによって開発され、その後業界コンソーシアムによって管理され、最終的にW3C仕様となった。	例	主に電話用。
SALT	マークアップ言語	マルチモーダル対話マークアップ言語	マイクロソフト		「標準化プロセスにおいて、VoiceXMLの成熟度レベルに達していない」
Quack.com - QXML	開発環境		AOLに買収された会社
オープンダイヤル	ドメイン非依存ツールキット	Javaで実装された音声対話システムのための記号的／統計的ハイブリッドフレームワーク	オスロ大学
NADIA	対話エンジンと対話モデリング	自然な対話／対話システムを構築します。対話行為、混合主導型、自然言語処理（NLG）をサポートします。Javaで実装されています。	マルクス・M・バーグ		XMLベースのダイアログファイルを作成します。文法を指定する必要はありません。出版物は2014年からあります

参照

通話回避

参考文献

^ Klüwer, Tina. 「チャットボットから対話システムへ」会話エージェントと自然言語インタラクション：テクニックと効果的な実践。IGI Global、2011年、1-22ページ
^ McTear, Michael, Zoraida Callejas、David Griol、「会話インターフェース：スマートデバイスとの会話」、Springer、2016年。
^ Giancarlo Pirani（編）、音声理解のための高度なアルゴリズムとアーキテクチャ、第1巻。Springer Science & Business Media、2013年。
^ ^a ^b Alberto Ciaramella、「プロトタイプの性能評価レポート」、Sundial 作業パッケージ 8000 (1993)。
^ Jurafsky & Martin (2009)、音声言語処理、ピアソン国際版、 ISBN 978-0-13-504196-3第24章
^バンガロール、スリニヴァス、マイケル・ジョンストン。「マルチモーダルインターフェースにおける堅牢な理解」計算言語学 35.3 (2009): 345-397
^ Jurafsky, D., Martin, JH *音声言語処理*、第3版草稿。スタンフォード大学。
^ Lester, J.; Branting, K.; Mott, B. (2004)、「会話エージェント」(PDF)、インターネットコンピューティング実用ハンドブック、Chapman & Hall
^ Crovari; Pidò; Pinoli; Bernasconi; Canakoglu; Garzotto; Ceri (2021)、「GeCoAgent：ゲノムデータの抽出と分析を強化する会話型エージェント」、ACM Transactions on Computing for Healthcare、3、ACM New York、NY：1– 29、doi：10.1145/3464383、hdl：11311/1192262、S2CID 245855725
^周, クン (2024). 「対話のための大規模言語モデル：概観」 .計算言語学協会紀要. 12 : 730–749 . doi : 10.1162/tacl_a_00686 .
^ 「ChatGPTとAIエージェントの台頭」 Nature 、 2023年11月10日。 2025年8月26日閲覧。

さらに詳しい参考文献

ウィル、トーマス（2007年）『ダイナミックな音声対話の創造』VDM Verlag Dr. Müller . ISBN 978-3-8364-4990-8。

[1] Klüwer, Tina. 「チャットボットから対話システムへ」会話エージェントと自然言語インタラクション：テクニックと効果的な実践。IGI Global、2011年、1-22ページ

[2] McTear, Michael, Zoraida Callejas、David Griol、「会話インターフェース：スマートデバイスとの会話」、Springer、2016年。

[3] Giancarlo Pirani（編）、音声理解のための高度なアルゴリズムとアーキテクチャ、第1巻。Springer Science & Business Media、2013年。

[sundial-4] Alberto Ciaramella、「プロトタイプの性能評価レポート」、Sundial 作業パッケージ 8000 (1993)。

[5] Jurafsky & Martin (2009)、音声言語処理、ピアソン国際版、 ISBN 978-0-13-504196-3第24章

[6] バンガロール、スリニヴァス、マイケル・ジョンストン。「マルチモーダルインターフェースにおける堅牢な理解」計算言語学 35.3 (2009): 345-397

[7] Jurafsky, D., Martin, JH *音声言語処理*、第3版草稿。スタンフォード大学。

[8] Lester, J.; Branting, K.; Mott, B. (2004)、「会話エージェント」(PDF)、インターネットコンピューティング実用ハンドブック、Chapman & Hall

[9] Crovari; Pidò; Pinoli; Bernasconi; Canakoglu; Garzotto; Ceri (2021)、「GeCoAgent：ゲノムデータの抽出と分析を強化する会話型エージェント」、ACM Transactions on Computing for Healthcare、3、ACM New York、NY：1– 29、doi：10.1145/3464383、hdl：11311/1192262、S2CID 245855725

[10] 周, クン (2024). 「対話のための大規模言語モデル：概観」 .計算言語学協会紀要. 12 : 730–749 . doi : 10.1162/tacl_a_00686 .

[11] 「ChatGPTとAIエージェントの台頭」 Nature 、 2023年11月10日。 2025年8月26日閲覧。

[ 1 ]

[ 2 ]、

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]