.jpg/440px-Android_Assistant_on_the_Google_Pixel_XL_smartphone_(29526761674).jpg)
バーチャルアシスタント(VA)は、ユーザーからの指示や質問(音声によるものも含む)などの入力に基づいて、様々なタスクやサービスを実行できるソフトウェアエージェントです。このような技術には、タスク実行を効率化するためにチャットボット機能が組み込まれていることがよくあります。やり取りはテキスト、グラフィカルインターフェース、または音声を介して行われます。一部のバーチャルアシスタントは人間の発話を解釈し、合成音声で応答することができます。
多くの場合、ユーザーは仮想アシスタントに質問したり、ホームオートメーションデバイスやメディア再生を制御したり、電子メール、ToDoリスト、カレンダーなどの基本的なタスクを管理したりすることができます。これらはすべて音声コマンドで行えます。[ 1 ]近年、消費者が直接使用する仮想アシスタントとしては、Apple Siri、Amazon Alexa、Google Assistant (Gemini)、Microsoft Copilot、Samsung Bixbyなどが有名です。[ 2 ]また、様々な業界の企業が顧客サービスやサポートに何らかの仮想アシスタント技術を取り入れているケースも少なくありません。[ 3 ]
2020年代には、 ChatGPTなどの人工知能ベースのチャットボットの出現により、仮想アシスタント製品とサービスの分野の機能と関心が高まりました。[ 4 ] [ 5 ] [ 6 ]
ラジオレックスは、1916年に特許を取得し[ 7 ]、1922年に発売された最初の音声起動玩具でした[ 8 ]。それは犬の形をした木製の玩具で、名前を呼ぶと家から出てくるものでした。
1952年、ベル研究所は自動数字認識装置「オードリー」を発表しました。高さ6フィートのリレーラックを占有し、かなりの電力を消費し、ケーブルが多数配線され、複雑な真空管回路に伴うメンテナンス上の問題が山積していました。音声の基本単位である音素を認識できましたが、特定の話者が発した数字を正確に認識することしかできませんでした。そのため、音声ダイヤルにも使用できましたが、ほとんどの場合、連続した数字を音声で読み上げるよりも、プッシュボタンによるダイヤルの方が安価で高速でした。[ 9 ]
デジタル音声認識を実行できる初期のツールとしては、IBM シューボックス音声起動計算機が挙げられます。これは 1961 年に初めて市場に投入された後、1962 年のシアトル万国博覧会で一般に公開されました。この初期のコンピュータは、1981 年に最初のIBM パーソナルコンピュータが導入される約 20 年前に開発され、16 の音声単語と 0 から 9 までの数字を認識することができました。
最初の自然言語処理コンピュータプログラム、あるいはチャットボットであるELIZAは、1960年代にMITのジョセフ・ワイゼンバウム教授によって開発されました。これは「人間と機械の間のコミュニケーションが表面的なものに過ぎないことを示す」ために作られました。[ 10 ] ELIZAは、パターンマッチングと置換手法を用いてスクリプト化された応答をシミュレートし、会話を模倣することで、プログラムが理解しているという錯覚を生じさせました。
ワイゼンバウムの秘書は、エリザと本当の会話をするために、ワイゼンバウムに部屋から出て行くように頼んだと伝えられている。ワイゼンバウムはこれに驚き、後にこう記している。「比較的単純なコンピュータプログラムにごく短時間触れるだけで、ごく普通の人間に強力な妄想的思考を引き起こすことができるとは、私は知らなかった。」[ 11 ]
このことから、エリザ効果、つまり、コンピューターの動作が人間の動作に類似していると無意識に想定する傾向、つまり擬人化という、人間と仮想アシスタントとのやりとりで見られる現象が生まれました。
音声認識技術開発における次のマイルストーンは、1970年代にペンシルベニア州ピッツバーグのカーネギーメロン大学で達成されました。これは、米国国防総省とその傘下の国防高等研究計画局(DARPA)の多大な支援を受けて、5年間にわたる音声理解研究プログラムが資金提供を受けた結果です。このプログラムは、最低1,000語の語彙の習得を目指していました。IBM、カーネギーメロン大学(CMU)、スタンフォード研究所などの企業や学界がこのプログラムに参加しました。
その結果生まれたのが「ハーピー」です。3歳児の語彙に相当する約1000語を習得し、文章を理解できるようになりました。事前にプログラムされた語彙、発音、文法構造に基づいた音声を処理し、どの単語の並びが意味を成すかを判断し、音声認識の誤りを減らすことができました。
1986年、Shoeboxのアップグレード版として登場したTangoraは、音声認識タイプライターでした。当時世界最速のタイピストにちなんで名付けられたこのタイプライターは、2万語の語彙を誇り、過去の発言内容に基づいて最も可能性の高い結果を予測していました。IBMのアプローチは、デジタル信号処理技術に統計学を加える隠れマルコフモデルに基づいていました。この手法により、特定の音素に続く可能性の高い音素を予測することが可能になりました。それでもなお、各話者は自分の声を認識し、単語間の休止を入れるよう、タイプライターを個別にトレーニングする必要がありました。
1983年、ガス・サーシーは電子音声ホームコントローラーシステム「Butler In A Box」を発明した。[ 12 ]
1990年代には、デジタル音声認識技術がパーソナルコンピュータの機能として定着し、IBM、Philips、そしてLernout & Hauspieが顧客獲得を競い合いました。それからずっと後、1994年に最初のスマートフォンであるIBM Simonが発売され、今日私たちが知っているようなスマートバーチャルアシスタントの基礎が築かれました。
1997年、Dragon社のNaturallySpeakingソフトウェアは、自然な人間の発話を単語間の間を置かずに認識し、毎分100語の速度で文書に書き起こすことができました。NaturallySpeakingのバージョンは現在でもダウンロード可能で、例えば米国や英国では多くの医師が医療記録の作成に利用しています。
2001年、コロキスはAIMやMSNメッセンジャーなどのプラットフォーム上でSmarterChildを公開しました。SmarterChildは完全にテキストベースでしたが、ゲームをしたり、天気を確認したり、情報を調べたり、ある程度ユーザーと会話したりすることができました。[ 13 ]
スマートフォンに搭載された最初の現代的なデジタル仮想アシスタントはSiriで、 2011年10月4日にiPhone 4Sの機能として導入されました。[ 14 ] Apple社は、DARPAと米国防総省が出資する研究機関であるSRI Internationalのスピンオフ企業であるSiri Inc.を2010年に買収した後、Siriを開発しました。[ 15 ] Siriの目的は、テキストメッセージの送信、電話の発信、天気の確認、アラームの設定などのタスクを支援することでした。時が経つにつれて、Siriはレストランのおすすめ、インターネット検索、運転ルート案内などに進化しました。[ 16 ]
2014年11月、AmazonはEchoと合わせてAlexaを発表しました。[ 17 ] 2016年、SalesforceはSalesforceプラットフォームの基盤となる技術群から開発されたEinsteinを発表しました。[ 18 ] Einsteinは2024年9月にエージェントAIであるAgentforceに置き換えられました。 [ 19 ]
2017 年 4 月、Amazon はあらゆる種類の仮想アシスタントやインターフェース向けの 会話型インターフェースを構築するためのサービスをリリースしました。
2020年代には、ChatGPTのような人工知能(AI)システムが、テキストベースの会話に対して人間のような応答を生成する能力により人気を集めました。2020年2月、マイクロソフトはチューリング自然言語生成(T-NLG)を発表しました。これは当時「170億のパラメータを持つ史上最大の言語モデル」でした。[ 20 ] 2022年11月30日、ChatGPTはプロトタイプとしてリリースされ、多くの知識領域にわたる詳細な応答と明確な回答ですぐに注目を集めました。ChatGPTの登場と一般への導入により、この分野への関心と競争が高まりました。2023年2月、Googleは「Bard」と呼ばれる実験的なサービスの導入を開始しました。これは、Webから収集した情報に基づいて質問に対するテキスト応答を生成するLaMDAプログラムに基づいています。
ChatGPTや最新の生成AIをベースにした他の汎用チャットボットは、仮想アシスタントに関連するさまざまなタスクを実行できますが、より具体的な状況やニーズをターゲットにするように設計された、より特化した形式の技術も存在します。[ 21 ] [ 4 ]
.jpg/440px-Amazon_Echo_Dot_(27716286638).jpg)
仮想アシスタントは以下を介して動作します。
多くの仮想アシスタントは複数の方法でアクセス可能であり、チャット、音声コマンド、その他の統合テクノロジーなど、ユーザーが仮想アシスタントと対話できる方法に多様性を提供します。
バーチャルアシスタントは、自然言語処理(NLP)を用いて、ユーザーのテキストまたは音声入力を実行可能なコマンドと照合します。機械学習や環境知能などの人工知能技術を用いて継続的に学習するものもあります。
音声でバーチャルアシスタントを起動するには、ウェイクワードが使用される場合があります。これは、「Hey Siri」「OK Google」「Hey Google」「Alexa」「Hey Microsoft」といった単語、または複数の単語の組み合わせです。[ 24 ]バーチャルアシスタントの人気が高まるにつれて、法的リスクが高まっています。[ 25 ] : 815

仮想アシスタントは、多くの種類のプラットフォームに統合されるか、Amazon Alexa のように複数のプラットフォームにまたがって統合される可能性があります。
バーチャルアシスタントは多種多様なサービスを提供できます。これには以下が含まれます。[ 33 ]
会話型コマースとは、音声アシスタント[ 36 ]だけでなく、電子商取引ウェブサイト上のライブチャット、WeChat、Facebook Messenger、WhatsAppなどのメッセージングアプリケーション上のライブチャット[ 37 ] 、メッセージングアプリケーションやウェブサイト上のチャットボットなど、さまざまなメッセージング手段を介した電子商取引のことです。
バーチャルアシスタントは、企業のカスタマーサポートチームと連携して、顧客に24時間365日のサポートを提供できます。迅速な対応により、顧客体験が向上します。サービス業界の企業は、予約や注文受付といった日常的な顧客対応、特に営業時間外の対応にAI音声アシスタントを導入しています。[ 38 ]これらの導入では、業界特有の専門用語の理解や既存のビジネスソフトウェアとの統合のために、業界特有のトレーニングがしばしば活用されています。
Amazon は、基本的にアシスタント プラットフォーム上で実行されるアプリケーションである Alexa「スキル」と Google「アクション」を有効にします。
バーチャルアシスタントには、プライバシーに関する様々な懸念が伴います。音声による起動などの機能は、デバイスが常に音声を聞き取っている必要があるため、脅威となります。[ 39 ]バーチャルアシスタントのための多層認証を実現するために、バーチャルセキュリティボタンなどのプライバシー保護モードが提案されています。[ 40 ]
Googleアシスタントのプライバシーポリシーでは、ユーザーの許可なく音声データを保存することはないが、ユーザーエクスペリエンスをパーソナライズするために会話の記録を保存する場合があると規定されています。パーソナライズは設定でオフにすることができます。Googleアシスタントに音声データを保存させたい場合は、「音声アクティビティ(VAA)」でこの機能をオンにしてください。音声ファイルはクラウドに送信され、Googleアシスタントのパフォーマンス向上のために使用されますが、VAA機能がオンになっている場合に限られます。[ 41 ]
AmazonのバーチャルアシスタントAlexaのプライバシーポリシーでは、Alexaはウェイクワード(Alexa、Amazon、Echoなど)が使われた場合にのみ会話を聞き取ると規定されています。ウェイクワードの発声後、会話の録音を開始し、8秒間の沈黙後に録音を停止します。録音された会話はクラウドに送信されます。「Alexa」アプリの「Alexaプライバシー」にアクセスすることで、クラウドから録音データを削除できます。[ 42 ]
Appleは、Siriの性能向上のために音声を録音することはないと述べています。代わりに、トランスクリプトを使用していると主張しています。トランスクリプトデータは、分析に重要と判断された場合にのみ送信されます。ユーザーは、Siriがトランスクリプトをクラウドに送信することを望まない場合、いつでもオプトアウトできます。[ 43 ]
Cortanaは、単一の認証を備えた音声のみの仮想アシスタントです。[ 44 ] [ 45 ] [ 46 ]この音声起動デバイスは、天気の確認や電話をかけるなどの一般的なタスクを実行するためにユーザーデータにアクセスしますが、二次認証がないためプライバシーに関する懸念が生じます。[ 47 ] [ 48 ]
仮想アシスタントの付加価値は、主に次のようなものから生まれます。

2019年にフランスの社会学者アントニオ・A・カシリは、特に人工知能、バーチャルアシスタントを次のように批判した。
第一に、消費者が多くの場合知らずに、仮想アシスタントのトレーニングと改善のために無料のデータを提供しているという事実は、倫理的に問題があります。
しかし、第二レベルでは、これらのAI がこのデータを使って どのようにトレーニングされるかを知ることは、倫理的にさらに不安なことかもしれません。
この人工知能はニューラルネットワークで学習され、膨大な量のラベル付きデータを必要とする。しかし、このデータは人間のプロセスでラベル付けされる必要があり、これが過去10年間のマイクロワークの増加の理由である。つまり、世界中の何人かの人間を遠隔で利用し、仮想アシスタントの音声データを聞き、言われたことを書き留めるなど、数セントでいくつかの反復的で非常に単純なタスクを実行することである。マイクロワークは、それがもたらす雇用の不安定さと、規制がまったくないことで批判されてきた。2010年の平均時給は1.38ドルで、 [ 57 ]医療保険も退職金も病気手当も最低賃金も提供されていない。したがって、仮想アシスタントとその設計者は雇用の不安定さを助長するとして物議を醸しており、彼らが提案するAIは何百万人もの人間の労働者のマイクロワークなしでは不可能であるという点で依然として人間的である。[ 53 ]
音声コマンドは暗号化されていない形式で仮想アシスタントプロバイダーに提供され、第三者と共有され、不正または予期しない方法で処理される可能性があるため、プライバシーに関する懸念が生じています。[ 58 ]録音された音声の言語コンテンツに加えて、ユーザーの表現方法や音声特性には、生体認証、性格特性、体型、身体的および精神的健康状態、性別、ジェンダー、気分や感情、社会経済的地位、地理的起源に関する情報が暗黙的に含まれている可能性があります。[ 59 ]
Siri、Cortana、Alexaといったバーチャルアシスタントの多くは、デフォルトで女性的な声とペルソナを備えており、秘書業務における労働政治の問題に注目を集めています。これらのバーチャルアシスタントの声の女性化は、女性の仕事に対する根深いジェンダーバイアスへの懸念を提起し、ユーザーが彼らと交流する際に女性の従属的なイメージを強めてしまいます。バーチャル秘書であるこれらのアシスタントは、秘書は女性的でサポート的で威圧感のないサービス業務というジェンダーに基づくステレオタイプと結びついています。[ 60 ]
研究者たちは、バーチャルアシスタントの女性化された声に注目し、テクノロジーにおけるジェンダーに基づく問題に取り組んでいます。ジェンダーバイアスのあるテクノロジーは、女性の客体化やジェンダーステレオタイプ化を強め、ジェンダーギャップを拡大する可能性があるため、これは興味深い問題です。さらに、無意識の偏見が子供や大人に現れ、女性を命令する傾向が強くなるため、性差別的な物語を助長する懸念もあります。[ 61 ]
注目すべき仮想アシスタントの開発プラットフォームには次のようなものがあります。
以前の世代のテキスト チャット ベースの仮想アシスタントでは、アシスタントは多くの場合アバター(対話型オンライン キャラクターまたは自動化キャラクターとも呼ばれる) によって表現されていました。これは、具現化エージェントと呼ばれていました。
バーチャルアシスタントによって可能になるデジタル体験は、最近の主要な技術進歩と最も有望な消費者動向の1つと考えられています。専門家は、デジタル体験は「実際の」体験に匹敵するステータスの重みを獲得し、さらに求められ、高く評価されるようになると主張しています。[ 66 ]この傾向は、多数の常連ユーザーと、バーチャルデジタルアシスタントの世界的なユーザー数の大幅な増加によって裏付けられています。2017年半ばの時点で、デジタルバーチャルアシスタントの常連ユーザー数は世界中で約10億人と推定されています。[ 67 ]さらに、バーチャルデジタルアシスタント技術はスマートフォンのアプリケーションに限定されず、多くの産業分野(自動車、通信、小売、ヘルスケア、教育など)に存在していることがわかります。[ 68 ] あらゆる分野の企業による多額の研究開発費とモバイルデバイスの導入増加を受けて、音声認識技術市場は2016年から2024年にかけて世界全体で年平均成長率34.9%で成長し、2024年までに世界市場規模75億米ドルを超えると予測されています。 [ 68 ] Ovumの調査によると、「ネイティブデジタルアシスタントのインストールベース」は2021年までに世界人口を超え、アクティブな音声AI対応デバイスは75億台に達すると予測されています。[ 69 ] Ovumによると、その頃には「Googleアシスタントが音声AI対応デバイス市場で23.3%のシェアでトップに立ち、次いでSamsungのBixby(14.5%)、AppleのSiri(13.1%)、AmazonのAlexa(3.9%)、MicrosoftのCortana(2.3%)が続く」とされています。[ 69 ]
市場リーダーの地域分布を考慮すると、 BYOD( Bring Your Own Device )とエンタープライズモビリティビジネスモデルの大きな影響により、北米企業(例: Nuance Communications、IBM、eGain )が今後数年間で業界を支配すると予想されます。さらに、スマートフォン支援プラットフォームの需要増加により、北米のインテリジェント仮想アシスタント(IVA)業界の成長がさらに促進されると予想されます。北米市場と比較すると規模は小さいものの、主要プレーヤーがインドと中国に拠点を置くアジア太平洋地域のインテリジェント仮想アシスタント業界は、2016年から2024年にかけて年間成長率40%(世界平均を上回る)で成長すると予測されています。[ 68 ]
バーチャルアシスタントは、個人向けのガジェットとしてだけでなく、企業にとって真の経済的有用性を持つ可能性があります。例えば、バーチャルアシスタントは、百科事典のような知識を持つ、いつでも利用可能なアシスタントの役割を果たすことができます。会議の企画、在庫の確認、情報の検証などを行うことができます。バーチャルアシスタントは、中小企業への導入が、モノのインターネット(IoT)のよりグローバルな導入と活用という、容易な第一歩となることが多いため、ますます重要になっています。実際、IoT技術は、中小企業にとって、極めて重要な技術でありながら、複雑すぎたり、リスクが高すぎたり、コストがかかりすぎたりするものとして認識されています。[ 70 ]
2018年5月、カリフォルニア大学バークレー校の研究者らは、人間の耳には聞こえない音声コマンドを音楽や音声テキストに直接埋め込むことで、ユーザーが気づかないうちにバーチャルアシスタントに特定のアクションを実行させることができるという論文を発表した。[ 71 ]研究者らは音声ファイルに小さな変更を加え、音声認識システムが検出することになっている音声パターンをキャンセルした。これらの音声パターンは、システムによって異なる解釈がなされる音に置き換えられ、電話番号のダイヤル、ウェブサイトの閲覧、さらには送金まで指示されるようになった。[ 71 ]この可能性は2016年から知られており、[ 71 ] Apple、Amazon、Googleのデバイスに影響を与えている。[ 72 ]
意図しない操作や音声録音に加えて、インテリジェント仮想アシスタントに関連するセキュリティとプライバシーのリスクとして、悪意のある音声コマンドがあります。攻撃者はユーザーになりすまして悪意のある音声コマンドを発行し、例えばスマートドアのロックを解除して自宅やガレージに不正に侵入したり、ユーザーに知られずにオンラインで商品を注文したりします。一部のIVAはこのようななりすましを防ぐために音声トレーニング機能を提供していますが、システムが類似した音声を区別することが困難な場合があります。そのため、IVA対応デバイスにアクセスできる悪意のある人物は、システムを騙して自分が本当の所有者であると信じ込ませ、犯罪行為やいたずら行為を行う可能性があります。[ 73 ]
| インテリジェントなパーソナルアシスタント | 開発者 | フリーソフトウェア | 無料のオープンソースハードウェア | HDMI出力 | 外部I/O | IoT | Chromecast統合 | スマートフォンアプリ | 常にオン | ユニット間音声チャネル | スキル言語 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Alexa(別名Echo) | Amazon.com | いいえ | いいえ | いいえ | いいえ | はい | いいえ | はい | はい | ? | JavaScript |
| アリス | ヤンデックス | いいえ | 該当なし | 該当なし | 該当なし | はい | いいえ | はい | はい | 該当なし | ? |
| アリジェニー | アリババグループ | いいえ | いいえ | 該当なし | 該当なし | はい | いいえ | はい | はい | 該当なし | ? |
| アシスタント | スピークトイット | いいえ | 該当なし | 該当なし | 該当なし | いいえ | いいえ | はい | いいえ | 該当なし | ? |
| ビクスビー | サムスン電子 | いいえ | 該当なし | 該当なし | 該当なし | いいえ | いいえ | はい | 該当なし | 該当なし | JavaScript |
| ブラックベリーアシスタント | ブラックベリーリミテッド | いいえ | 該当なし | 該当なし | 該当なし | いいえ | いいえ | はい | いいえ | 該当なし | ? |
| ブレイナ | ブレイナソフト | いいえ | 該当なし | 該当なし | 該当なし | いいえ | いいえ | はい | いいえ | 該当なし | ? |
| クローバ | ネイバー株式会社 | いいえ | 該当なし | 該当なし | 該当なし | はい | いいえ | はい | はい | 該当なし | ? |
| コルタナ | マイクロソフト | いいえ | 該当なし | 該当なし | 該当なし | はい | いいえ | はい | はい | 該当なし | ? |
| デューアー | 百度[ 74 ] | ||||||||||
| エヴィ | Amazon.comと真の知識 | いいえ | 該当なし | 該当なし | 該当なし | いいえ | いいえ | はい | いいえ | 該当なし | ? |
| Googleアシスタント | グーグル | いいえ | 該当なし | 該当なし | 該当なし | はい | はい | はい | はい | 該当なし | C++ |
| Google Now | グーグル | いいえ | 該当なし | 該当なし | 該当なし | はい | はい | はい | はい | 該当なし | ? |
| マイクロフト[ 75 ] | マイクロフトAI | はい | はい | はい | はい | はい | はい | はい | はい | はい | パイソン |
| シルビア | 認知コード | いいえ | 該当なし | 該当なし | 該当なし | いいえ | いいえ | はい | いいえ | 該当なし | ? |
| シリ | アップル社 | いいえ | いいえ | 該当なし | 該当なし | はい | いいえ | はい | はい | 該当なし | ? |
| ヴィヴ | サムスン電子 | いいえ | 該当なし | 該当なし | 該当なし | はい | いいえ | はい | いいえ | 該当なし | ? |
| 小薇 | テンセント | ? | |||||||||
| セリア | ファーウェイ | いいえ | いいえ | 該当なし | 該当なし | はい | いいえ | はい | はい | 該当なし | ? |
タイトル: 航空会社情報システム、1989 – AT&Tアーカイブ – 音声認識