感情コンピューティング

ロボットなどの電子機器は、人間の感情を感知し、それに反応する能力がますます高まっています。

感情コンピューティングとは、人間の感情を認識、解釈、処理、シミュレートできるシステムやデバイスの研究開発です。コンピュータサイエンス心理学認知科学にまたがる学際的な分野です。[ 1 ]この分野の中核となるアイデアの中には、感情に関する初期の哲学的探求にまで遡ることができるものもありますが、[ 2 ]より現代的なコンピュータサイエンスの分野は、ロザリンド・ピカードが1995年に発表した論文「感情コンピューティング」[ 3 ]と、1997年にMITプレスから出版された同名の著書[ 4 ]に端を発しています。[ 5 ] [ 6 ]この研究の動機の1つは、機械に感情的知性(共感のシミュレートを含む)を与える能力です。機械は人間の感情状態を解釈し、それに合わせて行動を適応させ、それらの感情に適切な反応を示す必要があります。最近の実験的研究では、微妙な感情的な触覚フィードバックが人間の報酬学習やモバイルインタラクション行動を形作ることができることが示されており、[ 7 ]感情コンピューティングシステムは感情状態を解釈するだけでなく、感情を込めた出力を通じてユーザーの行動を積極的に調整する可能性があることを示唆しています。

エリア

感情情報の検出と認識

感情情報の検出は通常、入力を解釈することなく、ユーザーの身体的状態や行動に関するデータを取得する受動センサーから始まります。収集されるデータは、人間が他者の感情を認識するために用いる手がかりに類似しています。例えば、ビデオカメラは表情、姿勢、身振りを捉え、マイクは音声を捉えます。他のセンサーは、皮膚温度や電気抵抗などの生理学的データを直接測定することで感情の手がかりを検出します。[ 8 ]

感情情報を認識するには、収集したデータから意味のあるパターンを抽出する必要があります。これは、音声認識自然言語処理表情検出など、さまざまなモダリティを処理する機械学習技術を用いて行われます。これらの技術のほとんどの目的は、同じ状況で人間の知覚者が与えるであろうラベルと一致するラベルを生成することです。例えば、ある人が眉間にしわを寄せて表情をした場合、コンピューター ビジョン システムは、その人の顔を「困惑している」、または「集中している」、あるいは「やや否定的」(幸せそうに笑っている場合は肯定的と言うかもしれませんが)とラベル付けするように学習します。これらのラベルは、人が実際に感じていることと一致する場合もあれば、一致しない場合もあります。

機械における感情

感情コンピューティングのもう一つの分野は、生来の感情能力を発揮するか、あるいは感情を説得力を持ってシミュレートできる計算デバイスの設計です。現在の技術力に基づくより実用的なアプローチは、人間と機械のインタラクションを豊かにし、促進するために、会話エージェントにおける感情のシミュレーションです。[ 9 ]

人工知能分野の先駆的コンピュータ科学者の一人であるマービン・ミンスキーは、感情をより広範な機械知能の問題と関連付けて、著書『エモーション・マシン』の中で、感情は「私たちが『思考』と呼ぶプロセスと特に異なるものではない」と述べています。[ 10 ]「デジタルヒューマン」または「バーチャルヒューマン」という革新的なアプローチには、人間をシミュレートするこれらのプログラムに感情的な側面も与えようとする試みが含まれており、感情を刺激する特定の状況で実際の人間が反応するであろう反応や、表情や身振りに沿った反応が含まれます。[ 11 ]

機械における感情は、多くの場合、計算システム、特にAIベースのシステムにおける感情を指す。そのため、「感情AI」や「感情AI」という用語が用いられる。[ 12 ]

テクノロジー

心理学、認知科学、神経科学において、人間が感情をどのように認識し分類するかを説明するアプローチとして、主に2つのアプローチがあります。連続的アプローチとカテゴリー的アプローチです。連続的アプローチでは、ネガティブとポジティブ、落ち着きと興奮といった次元が用いられる傾向があります。

カテゴリカルアプローチでは、幸せ、悲しみ、怒り、恐怖、驚き、嫌悪といった離散的なクラスが用いられる傾向があります。機械学習の様々な回帰モデルや分類モデルを用いることで、機械に連続的なラベルや離散的なラベルを生成させることができます。また、例えば、喜びと驚きの表情や恐怖と驚きの表情といった、複数のカテゴリをまたいだ組み合わせを許容するモデルも構築されます。[ 13 ]

次のセクションでは、感情認識のタスクに使用されるさまざまな種類の入力データを検討します。

感情的なスピーチ

自律神経系の様々な変化は、間接的に人の発話を変化させる可能性があり、感情認識技術はこの情報を活用して感情を認識することができます。例えば、恐怖、怒り、喜びなどの感情を表わす発話は、速く、大きく、正確に発音され、音程が高く、音域が広くなります。一方、疲労、退屈、悲しみなどの感情は、ゆっくりとした、低い、不明瞭な発話を生み出す傾向があります。[ 14 ]怒り[ 15 ]や承認[ 16 ]など、一部の感情は計算的に識別しやすいことが分かっています。

感情音声処理技術は、音声特徴の計算分析を用いてユーザーの感情状態を認識します。音声パラメータや、ピッチ変数や発話速度などの韻律的特徴は、パターン認識技術によって分析できます。[ 15 ] [ 17 ]

音声分析は感情状態を識別する効果的な方法であり、2003年と2006年の研究では平均70~80%の精度が報告されています。[ 18 ] [ 19 ]これらのシステムは平均的な人間の精度(約60%[ 15 ])を上回る傾向がありますが、生理的状態や顔の表情など、感情検出に他のモダリティを使用するシステムよりも精度は劣ります。[ 20 ]しかし、多くの音声特性は意味や文化とは無関係であるため、この技術はさらなる研究のための有望な方法であると考えられています。[ 21 ]

アルゴリズム

音声/テキストの感情検出のプロセスには、信頼性の高いデータベース知識ベース、またはベクトル空間モデルの作成が必要です。[ 22 ]アプリケーションのあらゆるニーズに対応できるほど広範で、感情を迅速かつ正確に識別できる適切な分類器の選択も必要です。

2010年時点で、最も頻繁に使用されている分類器は、線形判別分類器(LDC)、k近傍法(k-NN)、ガウス混合モデル(GMM)、サポートベクターマシン(SVM)、人工ニューラルネットワーク(ANN)、決定木アルゴリズム、隠れマルコフモデル(HMM)でした。[ 23 ]さまざまな研究により、適切な分類器を選択すると、システム全体のパフォーマンスが大幅に向上することが示されています。[ 20 ]以下のリストは、各アルゴリズムの簡単な説明です。

  • LDC – 分類は、通常ベクトル特徴の形式で提供される特徴値の線形結合から得られた値に基づいて行われます。
  • k-NN – 分類は、特徴空間におけるオブジェクトの位置を特定し、k近傍点(トレーニングサンプル)と比較することで行われます。分類は多数決で決定されます。
  • GMMは、全体の集団内に存在する部分集団の存在を表現するために用いられる確率モデルです。各部分集団は混合分布を用いて記述され、これにより観測値を部分集団に分類することが可能になります。[ 24 ]
  • SVM – 各入力が 2 つ (またはそれ以上) の可能なクラスのどれに該当するかを決定する (通常は 2 進の) 線形分類器の一種です。
  • ANNは、生物学的ニューラル ネットワークにヒントを得た数学モデルであり、特徴空間の可能性のある非線形性をより適切に把握できます。
  • 決定木アルゴリズム– 葉が分類結果を表し、枝が分類につながる後続の特徴の結合を表す決定木に従って動作します。
  • HMMは、状態と状態遷移を直接観察できない統計的マルコフモデルです。代わりに、状態に依存する出力の系列が可視化されます。感情認識の場合、出力は音声特徴ベクトルのシーケンスを表し、これにより、モデルが進行した状態のシーケンスを推論することができます。状態は、感情表現における様々な中間段階から構成され、それぞれは可能な出力ベクトルにわたる確率分布を持ちます。状態のシーケンスにより、分類しようとしている感情状態を予測することができ、これは音声感情検出の分野で最も一般的に使用される手法の一つです。

十分な音響証拠があれば、人の感情状態は多数決分類器のセットによって分類できることが証明されている。提案された分類器のセットは、kNN、C4.5、SVM-RBFカーネルという3つの主要な分類器に基づいている。このセットは、各基本分類器を個別に使用したよりも優れた性能を発揮する。これは、ハイブリッドカーネルを用いた1対1(OAA)多クラスSVMと、C5.0とニューラルネットワークという2つの基本分類器からなる分類器のセットという、他の2つの分類器のセットと比較される。提案された分類器のセットは、他の2つの分類器のセットよりも優れた性能を発揮する。[ 25 ]

データベース

現在のシステムの大多数はデータに依存している。これは、分類器のトレーニングに使用する適切なデータベースの選択を伴うため、音声に基づく感情検出における最大の課題の 1 つとなっている。現在保有されているデータのほとんどは俳優から得られたものであり、したがって典型的な感情の表現となっている。これらのいわゆる演技データベースは通常、6 つの基本感情(怒り、恐怖、嫌悪、驚き、喜び、悲しみ)の存在を前提とする基本感情理論(ポール・エクマン)に基づいており、他の感情は前述の感情の混合に過ぎない。[ 26 ]それでも、これらは依然として高音質とバランスの取れたクラス(ただし、数が少なすぎる場合が多い)を提供しており、感情認識における高い成功率に貢献している。

しかし、実社会での応用には、自然主義的なデータが好まれます。自然主義的なデータベースは、対象者を自然な状況下で観察・分析することで作成できます。最終的には、このようなデータベースによって、システムが状況に基づいて感情を認識し、インタラクションの目標と結果を導き出すことが可能になります。この種のデータは、人間とコンピュータのインタラクション(HCI)中に自然に発生する状態を記述するため、現実世界への実装に忠実な実装が可能です。

自然データは演技データに比べて多くの利点があるにもかかわらず、入手が難しく、感情の強度が低いのが一般的です。さらに、自然な状況で取得されたデータは、周囲のノイズや被験者とマイクの距離の影響で信号品質が低くなります。このようなデータベースを作成する最初の試みは、CEICES(感情的なユーザー状態の自動分類の改善のための取り組みの統合)向けのFAU Aibo感情コーパスであり、これはソニーのロボットペットaiboと遊ぶ子供(10~13歳)の現実的な状況に基づいて開発されました。[ 27 ] [ 28 ]同様に、すべての感情研究のための1つの標準データベースを作成することで、さまざまな感情認識システムを評価および比較する方法が得られます。

音声記述子

感情認識プロセスの複雑さは、分類器内で使用されるクラス(感情)と音声記述子の数に応じて増大します。したがって、モデルが感情を正しく識別する能力を確保し、特にリアルタイム検出において重要なパフォーマンスを向上させるためには、最も関連性の高い特徴のみを選択することが重要です。選択可能な特徴の範囲は広く、200を超える異なる特徴の使用に言及している研究もあります。[ 23 ]システムを最適化し、正しい感情検出の成功率を高めるためには、冗長で望ましくない特徴を特定することが重要です。最も一般的な音声特徴は、以下のグループに分類されます。[ 27 ] [ 28 ]

  1. 周波数特性[ 29 ]
    • アクセントの形状 – 基本周波数の変化率によって影響を受けます。
    • 平均ピッチ – 話者が通常のスピーチと比較してどの程度高い/低い声で話すかを表します。
    • 等高線の傾き – 時間の経過に伴う周波数の変化の傾向を表します。上昇、下降、または水平になる場合があります。
    • 最終低下 – 発話の終わりに頻度が下がる量。
    • ピッチ範囲 – 発話の最大周波数と最小周波数の間の広がりを測定します。
  2. 時間関連の機能:
    • 発話速度 - 単位時間あたりに発話される単語または音節の速度を表します
    • ストレス頻度 - ピッチアクセントのある発話の発生率を測定する
  3. 音声品質パラメータとエネルギー記述子:
    • 息切れ – 発話中の息切れ音を測定
    • 輝き – スピーチにおける高音または低音の優位性を表す
    • 音量 – 音声波形の振幅を測定し、発話のエネルギーに変換します
    • 休止不連続性 - 音と沈黙の間の遷移を説明する
    • ピッチの不連続性 – 基本周波数の遷移を説明します。

顔の感情検出

表情の検出と処理は、オプティカルフロー隠れマルコフモデルニューラルネットワーク処理、アクティブアピアランスモデルなど、様々な手法によって実現されます。複数のモダリティを組み合わせたり融合したり(マルチモーダル認識、例えば、表情と音声韻律、[ 30 ]表情と手振り、[ 31 ]表情と音声およびテキストを組み合わせたマルチモーダルデータとメタデータ分析など)、被験者の感情状態をより堅牢に推定することができます。

表情データベース

感情データベースの作成は困難で時間のかかる作業です。しかし、データベースの作成は、人間の感情を認識するシステムを作成する上で不可欠なステップです。公開されている感情データベースのほとんどには、ポーズをとった表情のみが含まれています。ポーズ表情データベースでは、参加者はさまざまな基本的な感情表現を示すように求められますが、自発的表情データベースでは、表情は自然です。自発的な感情の引き出しには、意図した感情を豊かに表現できる適切な刺激を選択するために多大な労力が必要です。次に、このプロセスには、訓練を受けた専門家が手作業で感情をタグ付けするプロセスが含まれるため、データベースの信頼性が高まります。表情の認識とその強さは本質的に主観的であるため、検証のためには専門家による注釈が不可欠です。

研究者たちは、表情のピーク画像のみのデータベース、感情をニュートラルからピークまで表現する画像シーケンスのデータベース、感情注釈付きのビデオクリップなど、3種類のデータベースを研究しています。表情認識を目的として、多くの表情データベースが作成され、公開されています。広く使用されているデータベースとしては、CK+とJAFFEが挙げられます。

感情分類

ポール・エクマンは、1960年代末にパプアニューギニアのフォレ族を対象とした異文化研究を通して、感情を表す表情は文化によって決まるものではなく普遍的なものであるという考えを提唱しました。つまり、表情は生物学的起源を持つものであり、したがって安全かつ正確に分類できると示唆したのです。[ 26 ] そして、1972年に彼は6つの基本感情を公式に提唱しました。[ 32 ]

しかし、1990年代にエクマンは基本的な感情のリストを拡張し、顔の筋肉で符号化されていない肯定的および否定的な感情の範囲を含めました。 [ 33 ]新たに追加された感情は次のとおりです。

  1. アミューズメント
  2. 軽蔑
  3. 満足
  4. 恥ずかしさ
  5. 興奮
  6. 罪悪感
  7. 達成への誇り
  8. 安心
  9. 満足
  10. 感覚的な喜び

顔動作コーディングシステム

心理学者たちは、顔に現れる感情の身体的表現を正式に分類するための体系を考案しました。カール=ヘルマン・ヒョルトショ[ 34 ]による先行研究に基づき、ポール・エクマンとウォレス・V・フリーゼンが1978年に考案した顔動作符号化システム(FACS)の中心概念は、動作単位(AU)です。これは基本的に、1つまたは複数の筋肉の収縮または弛緩を指します。心理学者たちは、動作単位(「+」は「and」を意味します)に基づいて、以下の6つの基本感情の分類を提案しています。

感情アクションユニット
幸せ6+12
悲しみ1+4+15
驚き1+2+5B+26
恐れ1+2+4+5+20+26
怒り4+5+7+23
嫌悪9+15+16
軽蔑R12A+R14A

顔検出における課題

あらゆる計算手法と同様に、顔認識による感情検出においても、アルゴリズムや手法全体の潜在能力を最大限に引き出すためには、いくつかの障害を乗り越える必要があります。AIベースの検出(音声認識、顔認識、感情認識)のほとんどすべての初期段階では、モデリングとトラッキングの精度が課題でした。ハードウェアが進化し、より多くのデータが収集され、新たな発見や新たな手法が導入されるにつれて、この精度の欠如は薄れ、ノイズの問題が残ります。しかし、近傍平均法、線形ガウス平滑化、メディアンフィルタリング、[ 35 ]や、細菌採餌最適化アルゴリズムなどの新しい手法など、ノイズ除去手法は存在します。[ 36 ] [ 37 ]

その他の課題としては

  • さまざまな研究のほとんどの被験者が使用しているポーズをとった表情は自然ではないため、これらに基づいてトレーニングされたアルゴリズムは自然な表情には適用できない可能性があります。
  • 回転運動の自由度が低い。正面からの使用では感情検出は非常に良好に機能しますが、頭を20度以上回転させると「問題が発生します」。[ 38 ]
  • 顔の表情は、必ずしもそれと一致する根底にある感情と一致するわけではありません (例えば、ポーズをとったり、偽ったりすることがあり、また感情を感じながらも「ポーカーフェイス」を維持することもあります)。
  • FACS にはダイナミクスが含まれていませんでしたが、ダイナミクスは曖昧さを解消するのに役立ちます (たとえば、心から幸せそうな笑顔は、「幸せそうに見せようとしている」笑顔とは異なるダイナミクスを持つ傾向があります)。
  • FACS の組み合わせは、心理学者が当初提案した感情と 1:1 で対応しているわけではありません (この 1:1 マッピングの欠如は、同音異義語や同音異義語、その他多くの曖昧さの原因となる音声認識でも発生し、他の情報チャネルを導入することで軽減できることに注意してください)。
  • コンテキストを追加することで認識精度は向上するが、コンテキストや他のモダリティを追加すると計算コストと複雑さが増す。

ボディジェスチャー

ジェスチャーは、特に音声認識や顔認識と組み合わせて使用​​することで、ユーザーの特定の感情状態を検知する手段として効果的に活用できます。具体的な動作に応じて、ジェスチャーは、質問に答えられないときに肩を上げるといった単純な反射的な反応となる場合もあれば、手話でコミュニケーションをとるときのように複雑で意味のある場合もあります。物体や周囲の環境を利用せずに、私たちは手を振ったり、拍手したり、手招きしたりすることができます。一方、物体を利用する場合は、それらを指さしたり、動かしたり、触ったり、扱ったりすることができます。コンピュータがヒューマン・コンピュータ・インタラクションに効果的に活用されるためには、これらを認識し、状況を分析し、意味のある方法で応答できる必要があります。

身体ジェスチャを検出する手法は数多く提案されている[ 39 ] 。文献によっては、ジェスチャ認識において3Dモデルベースと外観ベースの2つの異なるアプローチを区別している。 [ 40 ]最も一般的な手法は、手のひらの位置や関節角度といった重要なパラメータを取得するために、身体部位の主要要素の3D情報を利用する。一方、外観ベースのシステムでは、画像や動画を用いて直接的に解釈する。手のジェスチャは、身体ジェスチャ検出手法において広く用いられている。[ 40 ]

生理学的モニタリング

この技術は、ユーザーの生理学的兆候をモニタリング・分析することで、感情状態を検知するために活用できる可能性があります。これらの兆候は、心拍数や皮膚伝導率の変化から、顔面筋の微細な収縮や顔面血流の変化まで多岐にわたります。この分野は急速に発展しており、現在ではこの技術を実装した実製品が登場しています。通常分析される主要な生理学的兆候は、血流量、脈拍皮膚電気反応顔面筋電図、顔色パターンの4つです。

血液量脈拍

概要

被験者の血液量脈拍(BVP)は、光電式容積脈波記録法と呼ばれる方法で測定することができ、これは四肢の血流を示すグラフを作成する。[ 41 ]波のピークは、心臓が四肢に血液を送り出した心拍周期を示している。被験者が恐怖を感じたり驚いたりすると、心臓は通常「ジャンプ」してしばらくの間速く鼓動し、心拍周期の振幅が増加する。これは、光電式容積脈波記録法で波の谷とピークの距離が縮まっているときに明確に見ることができる。被験者が落ち着き、体の内部が拡張して四肢への血液の還流が増えると、周期は正常に戻る。

方法論

特殊なセンサーハードウェアを用いて赤外線を皮膚に照射し、反射光量を測定し、反射光量と透過光量を血中ヘモグロビン濃度(BVP)に相関させます。これは、光が血流中に豊富に存在するヘモグロビンに吸収されるためです。

デメリット

赤外線を照射し、反射光をモニタリングするセンサーが常に同じ四肢を向いていることを確認するのは、被験者がコンピューターの使用中に体を伸ばしたり姿勢を変えたりすることが多いため、面倒な場合があります。血流量脈拍に影響を与える要因は他にもあります。これは四肢の血流を測る指標であるため、被験者が暑いと感じたり、極端に寒いと感じたりすると、四肢への血流が増加したり減少したりする可能性があります。これは被験者の感情状態に関わらず起こります。

皺眉筋と大頬骨筋は、顔面筋電図検査において電気活動を測定するために使用される 2 つの主要な筋肉です。

顔面筋電図検査

顔面筋電図検査は、顔面筋が収縮する際に発生する微小な電気インパルスを増幅することで、顔面筋の電気的活動を測定する技術である。[ 42 ] 顔は多くの感情を表現しますが、感情を検出するために研究される主な顔面筋群は2つあります。皺眉筋は「しかめ面」筋としても知られ、眉をひそめて眉をひそめるため、否定的で不快な感情反応を検査するのに最適な筋肉です。↵大頬骨筋は、笑うときに口角を引く役割を担っているため、肯定的な感情反応を検査するために使用される筋肉です。

こちらは、被験者がビデオゲームをプレイしている間、GSRを用いて測定された皮膚抵抗と時間のプロットです。グラフには明確なピークがいくつか見られ、GSRが覚醒状態と非覚醒状態を区別するのに適した方法であることが示唆されています。例えば、ゲーム開始時は通常、それほど刺激的なゲームプレイはありませんが、高いレベルの抵抗が記録されています。これは、導電性が低く、覚醒度が低いことを示唆しています。これは、プレイヤーが死亡する突然の谷とは明確に対照的です。ゲーム内でキャラクターが死亡すると、通常、非常にストレスと緊張を感じます。

電気皮膚反応

電気皮膚反応(GSR)は、より一般的な現象である皮膚電気活動(EDA)を指す、時代遅れの用語です。EDAは、皮膚の電気的特性が変化する一般的な現象です。皮膚は交感神経系によって支配されているため、皮膚の抵抗またはコンダクタンスを測定することで、自律神経系の交感神経枝における小さな変化を定量化することができます。汗腺が活性化されると、皮膚が汗ばむ前であっても、EDAレベルを(通常はコンダクタンスを用いて)捕捉し、自律神経覚醒の小さな変化を識別することができます。被験者の覚醒度が高いほど、皮膚コンダクタンスは高くなる傾向があります。[ 41 ]

皮膚コンダクタンスは、通常、皮膚のどこかに小さな銀-塩化銀電極を2つ置き、その間に小さな電圧を印加することで測定されます。快適性を最大限に高め、刺激を軽減するために、電極は手首、脚、または足に装着できます。これにより、日常の活動のために手を完全に自由に使うことができます。

顔の色

概要

人間の顔面は、広大な血管網で神経支配されています。これらの血管の血流変化は、顔の目に見える色の変化をもたらします。顔の感情が顔面筋を活性化するかどうかにかかわらず、血流、血圧、血糖値などの変化が起こります。また、顔の色の信号は、顔面筋の動きによってもたらされる信号とは独立しています。[ 43 ]

方法論

アプローチは顔の色の変化に基づいています。ドロネー三角形分割を用いて三角形の局所領域を作成します。口と目の内側(強膜と虹彩)を定義するこれらの三角形の一部は削除されます。左の三角形領域のピクセルを使用して特徴ベクトルを作成します。[ 43 ]これは、標準RGB色空間のピクセル色をoRGB色空間[ 44 ]やLMSチャネルなどの色空間に変換すると、顔を処理する際のパフォーマンスが向上することを示しています。 [ 45 ]そのため、上記のベクトルをより適切な色空間にマッピングし、赤緑チャネルと黄青チャネルに分解します。次に、ディープラーニング手法を使用して同等の感情を見つけます。

視覚的な美学

芸術と写真の世界における美学とは、美の本質と鑑賞の原理を指します。美しさやその他の美的特性を判断することは、非常に主観的な作業です。ペンシルベニア州立大学のコンピュータ科学者たちは、写真の視覚的コンテンツを用いてその美的特性を自動的に推測するという課題を機械学習の問題として扱い、ピア評価されたオンライン写真共有ウェブサイトをデータソースとしています。[ 46 ]彼らは、美的に好ましい画像と好ましくない画像を区別できるという直感に基づいて、特定の視覚的特徴を抽出しています。

潜在的な用途

教育

感情は学習者の学習状態に影響を与えます。感情コンピューティング技術を用いることで、コンピュータは学習者の表情を認識することで、学習者の感情や学習状態を判断できます。教育現場では、教師は分析結果を用いて生徒の学習能力や受容能力を理解し、適切な指導計画を立案することができます。同時に、生徒の内面的な感情にも配慮することができ、これは生徒の精神的健康にも役立ちます。特に遠隔教育では、時間と空間が隔てられているため、教師と生徒の間に双方向のコミュニケーションを促す感情的なインセンティブが働きません。従来の教室学習のような雰囲気がないと、生徒は退屈してしまい、学習効果に影響を与えます。遠隔教育システムに感情コンピューティングを適用することで、この状況を効果的に改善することができます。[ 47 ]感情AIは、生徒にAIベースの学習支援を提供し、生徒の認知的・感情的な成果を向上させることができます。[ 48 ]

交通機関

センサリーコンピューティングの応用は、道路の安全性の向上に貢献する可能性があります。例えば、車は乗員全員の感情を監視し、運転者が怒っていることを検知すると他の車両に警告するなど、追加の安全対策を講じることができます。[ 49 ]さらに、運転者のストレスを監視する感情コンピューティングシステムは、ストレスレベルに応じて調整される運転支援システム[ 50 ]や、運転者の感情状態を変化させるための最小限かつ直接的な介入など、さまざまな介入を可能にする可能性があります。[ 51 ]

健康管理

ソーシャルロボットや、医療現場で利用されるロボットの増加は、感情認識の恩恵を受けています。なぜなら、感情認識は、ユーザーや患者の感情状態をより正確に判断し、行動やプログラミングを適切に変更できるからです。これは、高齢化が進み、そのニーズに対応できる若い労働力が不足している国では特に重要です。[ 52 ]

感情コンピューティングは、自閉症の人々が使用するコミュニケーション技術の開発にも応用されています。[ 53 ]テキストの感情的な要素もますます注目を集めており、特にいわゆる感情的または情緒的インターネットにおけるその役割に注目が集まっています。[ 54 ]

ビデオゲーム

情動的なビデオゲームは、バイオフィードバック装置を通してプレイヤーの感情状態にアクセスすることができる。[ 55 ]バイオフィードバックの特に単純な形態は、ボタンが押された圧力を測定するゲームパッドを通して利用可能であり、これはプレイヤーの覚醒レベルと強く相関することが示されている。[ 56 ]スケールのもう一方の端には、脳コンピュータインターフェースがある。[ 57 ] [ 58 ]情動的なゲームは、自閉症児の感情の発達を支援するための医学研究に利用されてきた。[ 59 ]

精神運動訓練

操舵や操縦といった精神運動操作の訓練方法は、航空、輸送、医療など様々な分野で用いられています。適応型自動化アプローチに基づき、この種の訓練システムに感情コンピューティング機能を統合することで、訓練の質を向上させ、必要な訓練期間を短縮できることが分かっています。[ 60 ]

その他のアプリケーション

感情コンピューティングは、人間とコンピュータの相互作用において、ユーザーが自分のパフォーマンスを確認できる感情ミラーや、怒りのメールを送信する前に警告を送信する感情監視エージェント、さらには気分に基づいてトラックを選択する音楽プレーヤーなど、潜在的な応用が期待されています。[ 61 ]

ルーマニアの研究者ニク・セベ博士がインタビューで提唱したアイデアの一つは、ある商品(例えばアイスクリーム)を使用している人の顔を分析するというものである。[ 62 ]企業はこのような分析を用いて、自社製品がそれぞれの市場で受け入れられるかどうかを推測することができるようになる。

感情状態認識は、テレビCMの視聴者をリアルタイムで録画し、その後、その表情を観察することで、そのCMの影響を判断するためにも活用できます。多数の被験者から得られた結果を平均化することで、そのCM(または映画)が期待通りの効果をもたらしているかどうか、そして視聴者が最も関心を寄せている要素は何かを判断することができます。

認知主義的アプローチと相互作用的アプローチ

人間とコンピュータの相互作用の分野では、ロザリンド・ピカード認知主義的、あるいは「情報モデル」的な感情の概念は、感情を本質的に社会的なものとみなすキルステン・ボーナーらの「ポスト認知主義」あるいは「相互作用的」実用主義的アプローチから批判され、対比されてきた。[ 63 ]

ピカードの焦点は人間とコンピュータのインタラクションであり、感情コンピューティングの目標は「コンピュータに感情を認識、表現し、場合によっては感情を『持つ』能力を与えること」である。[ 4 ]対照的に、インタラクション的アプローチは「人々が自身の感情を理解し、経験する」ことを支援し、 [ 64 ]コンピュータを介した対人コミュニケーションを改善することを目指している。これは必ずしも感情を機械解釈のための客観的な数学モデルにマッピングしようとするものではなく、むしろ人間が互いの感情表現を、曖昧で主観的で文脈に敏感なオープンエンドな方法で理解できるようにすることを目指している。[ 64 ] : 284

ピカールの批判者たちは、彼女の感情概念を「客観的、内的、私的、そして機械論的」と評する。彼らは、感情を、体内で発生し、測定可能で認知への入力となる個別の心理的信号に矮小化し、感情体験の複雑さを軽視していると指摘する。[ 64 ] : 280 [ 64 ] : 278

相互作用的アプローチは、感情は生物物理学的な側面を持つものの、「文化的に根ざし、動的に経験され、ある程度は行動と相互作用の中で構築される」と主張する。[ 64 ]:276 言い換えれば、「感情は相互作用を通して経験される社会的・文化的産物である」とみなす。[ 65 ] [ 64 ] [ 66 ]

潜在的なリスク

ChatGPTなどの感情計算ツールの使用は、一部の人々が法学修士(LLM)と擬似的な関係を築くことにつながっています。ニューヨーク・タイムズ紙のインタビューを受けたある女性は、「AIボーイフレンド」であるChatGPTと毎週最大56時間チャットをしていました。[ 67 ] [ 68 ]このような感情計算ツールとのやり取りは、基礎疾患のある人々の抑うつ感や孤独感を増強させる可能性があり、「チャットボット精神病」と呼ばれる現象を引き起こします。[ 69 ] AI関連の事件で息子を亡くしたマシュー・レインとミーガン・ガルシアは、ChatGPTとのこのような関係を奨励しているとしてOpenAIを訴えました。[ 70 ]

参照

参考文献

引用

  1. ^ Tao, Jianhua; Tieniu Tan (2005). 「アフェクティブ・コンピューティング:レビュー」.アフェクティブ・コンピューティングとインテリジェント・インタラクション. Vol.  LNCS 3784. Springer. pp.  981– 995. doi : 10.1007/11573548 .
  2. ^ジェームズ、ウィリアム (1884). 「感情とは何か」 .マインド. 9 (34): 188–205 . doi : 10.1093/mind/os-IX.34.188 .TaoとTanによって引用されています。
  3. ^「アフェクティブ・コンピューティング」 MIT技術レポート#321(抄録)、1995年
  4. ^ a bピカード、ロザリンド (1997).アフェクティブ・コンピューティング. ケンブリッジ、マサチューセッツ州: MITプレス. p. 1.
  5. ^ Kleine-Cosack, Christian (2006年10月). 「感情の認識とシミュレーション」(PDF) .オリジナル(PDF)から2008年5月28日アーカイブ. 2008年5月13日閲覧.感情をコンピュータサイエンスに導入したのは、アフェクティブ・コンピューティングという分野を創始したピカード(原文ママ)である。
  6. ^ダイアモンド、デイビッド(2003年12月)。「ラブ・マシン:思いやりのあるコンピューターの構築」。Wired2008年5月18日時点のオリジナルよりアーカイブ。 2008年5月13日閲覧。MITの温厚な教授、ロザリンド・ピカードは、この分野のゴッドマザーです。彼女が1997年に出版した著書『アフェクティブ・コンピューティング』は、コンピューターとそのユーザーの感情面への関心を爆発的に高めました。
  7. ^ Hampton, WH, & Hildebrand, C. (2025). 「触覚報酬:モバイルの振動が報酬への反応と消費者の選択に及ぼす影響」*Journal of Consumer Research*. https://doi.org/10.1093/jcr/ucaf025
  8. ^ Garay, Nestor; Idoia Cearreta; Juan Miguel López; Inmaculada Fajardo (2006年4月). 「Assistive Technology and Affective Mediation」(PDF) . Human Technology . 2 (1): 55– 83. doi : 10.17011/ht/urn.2006159 . 2008年5月28日時点のオリジナルよりアーカイブ(PDF) . 2008年5月12日閲覧
  9. ^ Heise, David (2004). 「表現的役割行動によるエージェントの文化化」. Sabine Payr; Trappl, Robert (編). 『エージェント文化:多文化世界における人間とエージェントの相互作用』 . Lawrence Erlbaum Associates. pp.  127– 142.
  10. ^ Restak, Richard (2006年12月17日). 「Mind Over Matter」 .ワシントン・ポスト. 2008年5月13日閲覧
  11. ^ Loveys, Kate; Sagar, Mark; Broadbent, Elizabeth (2020-07-22). 「自己開示会話におけるマルチモーダル感情表現がデジタルヒューマンへの反応に及ぼす影響:ユーザー言語の計算論的分析」 . Journal of Medical Systems . 44 (9): 143. doi : 10.1007/s10916-020-01624-4 . ISSN 0148-5598 . PMID 32700060. S2CID 220717084 .   
  12. ^ Ho, Manh-Tung (2023年3月29日). 「感情的なAIに対する態度研究するための分析フレームワーク:3つのアプローチ」 . MethodsX . 10 (102149) 102149. doi : 10.1016/j.mex.2023.102149 . PMC 10113835. PMID 37091958 .  
  13. ^ Aleix, Shichuan Du, Martinez (2012). 「人間による感情の表情知覚モデル:研究概要と展望」(PDF) . The Journal of Machine Learning Research . 13 (1): 1589– 1608.
  14. ^ブリジール、シンシア;アーヤナンダ、リジン (2002)。「ロボット主導の音声における感情的なコミュニケーション意図の認識」(PDF)自律型ロボット12 (1)。スプリンガー: 83–104土井: 10.1023/a:1013215010749ISSN 0929-5593S2CID 459892  
  15. ^ a b cデラート、F.、ポリジン、t.、ワイベル、A.、「音声における感情の認識」、ICSLP 1996年大会、フィラデルフィア、ペンシルベニア州、pp.1970–1973、1996年
  16. ^ Roy, ​​D.; Pentland, A. (1996-10-01). 「自動音声感情分類および分析」.第2回自動顔・ジェスチャー認識国際会議議事録. pp.  363– 367. doi : 10.1109/AFGR.1996.557292 . ISBN 978-0-8186-7713-7. S2CID  23157273 .
  17. ^ Lee, CM; Narayanan, S.; Pieraccini, R., 人間の音声信号における否定的感情の認識、Auto. Speech Recognition and Understandingワークショップ、2001年12月
  18. ^ Neiberg, D; Elenius, K; Laskowski, K (2006). 「GMMを用いた自発音声における感情認識」(PDF) . Proceedings of Interspeech . doi : 10.21437/Interspeech.2006-277 . S2CID 5790745.オリジナル(PDF)から2020年7月16日にアーカイブ. 2017年4月29日閲覧. 
  19. ^ Yacoub, Sherif; Simske, Steve; Lin, Xiaofan; Burns, John (2003). 「対話型音声応答システムにおける感情認識」. Proceedings of Eurospeech : 729– 732. CiteSeerX 10.1.1.420.8158 . doi : 10.21437/Eurospeech.2003-307 . S2CID 11671944 .  
  20. ^ a bハドリッカ 2003、p. 24
  21. ^ハドリカ 2003、25ページ
  22. ^チャールズ・オズグッド、ウィリアム・メイ、マレー・ミロン (1975). 『異文化における感情的意味の普遍性』イリノイ大学出版局. ISBN 978-94-007-5069-2
  23. ^ a b Scherer、Bänziger & Roesch 2010、p. 241
  24. ^「ガウス混合モデル」。Connexions – 知識の共有とコミュニティの構築。2011年3月10日閲覧。
  25. ^ SE Khoruzhnikov; et al. (2014). 「拡張音声感情認識および予測」情報技術、機械、光学に関する科学技術ジャーナル14 (6): 137.
  26. ^ a b Ekman, P. & Friesen, W. V. (1969).非言語行動のレパートリー:カテゴリー、起源、使用法、そしてコーディング. Semiotica, 1, 49–98.
  27. ^ a b Steidl、Stefan (2011 年 3 月 5 日)。「FAU相棒エモーションコーパス」。パターン認識研究室
  28. ^ a b Scherer、Bänziger & Roesch 2010、p. 243
  29. ^ Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). 「音声感情認識のための定数Q変換を用いた非線形周波数ワーピング」. 2021 International Conference on Computer Communication and Informatics (ICCCI) . pp.  1– 4. arXiv : 2102.04029 . doi : 10.1109/ICCCI50826.2021.9402569 . ISBN 978-1-7281-5875-4. S2CID  231846518 .
  30. ^ Caridakis, G.; Malatesta, L.; Kessous, L.; Amir, N.; Raouzaiou, A.; Karpouzis, K. (2006年11月2日~4日).顔と声の表情認識による自然な感情状態のモデリング. マルチモーダルインターフェースに関する国際会議 (ICMI'06). カナダ、アルバータ州バンフ.
  31. ^ Balomenos, T.; Raouzaiou, A.; Ioannou, S.; Drosopoulos, A.; Karpouzis, K.; Kollias, S. (2004). 「マンマシンインタラクションシステムにおける感情分析」 . Bengio, Samy; Bourlard, Herve (編).マルチモーダルインタラクションのための機械学習. Lecture Notes in Computer Science . Vol. 3361. Springer-Verlag . pp.  318– 328.
  32. ^エクマン、ポール(1972年). コール、J.(編).感情の表情における普遍性と文化差. ネブラスカ動機づけシンポジウム. ネブラスカ州リンカーン:ネブラスカ大学出版局. pp.  207– 283.
  33. ^エクマン、ポール(1999). 「基本的な感情」. ダルグリッシュ、T、パワー、M (編). 『認知と感情ハンドブック』 (PDF) . 英国サセックス:ジョン・ワイリー・アンド・サンズ.オリジナル(PDF)から2010年12月28日アーカイブ。
  34. ^「Facial Action Coding System (FACS) and the FACS Manual」Wayback Machineで2013年10月19日アーカイブ。A Human Face。2011年3月21日閲覧。
  35. ^ 「空間領域法」
  36. ^ Clever Algorithms.「バクテリア採餌最適化アルゴリズム – 群集アルゴリズム – Clever Algorithms」Wayback Machineに2019年6月12日アーカイブ。Clever Algorithms. 2011年3月21日閲覧。
  37. ^「ソフトコンピューティング」。ソフトコンピューティング。2011年3月18日閲覧。
  38. ^ウィリアムズ、マーク。「より優れた顔認識ソフトウェア - テクノロジーレビュー」Wayback Machineに2011年6月8日アーカイブ。テクノロジーレビュー:テクノロジーの未来に関する権威。2011年3月21日閲覧。
  39. ^ JK Aggarwal、Q. Cai、「人間の動作分析:レビュー」、コンピュータビジョンと画像理解、第73巻、第3号、1999年
  40. ^ a b Pavlovic, Vladimir I.; Sharma, Rajeev; Huang, Thomas S. (1997). 「人間とコンピュータのインタラクションにおける手振りの視覚的解釈:レビュー」(PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 19 (7): 677– 695. Bibcode : 1997ITPAM..19..677P . doi : 10.1109/34.598226 . S2CID 7185733 . 
  41. ^ a bピカード、ロザリンド (1998). 感情コンピューティング. MIT.
  42. ^ Larsen JT、Norris CJ、Cacioppo JT、「頬骨筋と皺眉筋の筋電図活動に対する正と負の影響の影響」(2003年9月)
  43. ^ a b Benitez-Quiroz, Carlos F.; Srinivasan, Ramprakash; Martinez, Aleix M. (2018-03-19). 「顔の色は感情を視覚的に伝達する効率的なメカニズムである」 . Proceedings of the National Academy of Sciences . 115 (14): 3581– 3586. Bibcode : 2018PNAS..115.3581B . doi : 10.1073/pnas.1716084115 . PMC 5889636. PMID 29555780 .  
  44. ^ Bratkova, Margarita; Boulos, Solomon; Shirley, Peter (2009). 「oRGB: コンピュータグラフィックスのための実用的な反対色空間」. IEEE Computer Graphics and Applications . 29 (1): 42– 55. Bibcode : 2009ICGA...29a..42B . doi : 10.1109/ mcg.2009.13 . PMID 19363957. S2CID 16690341 .  
  45. ^ Hadas Shahar, Hagit Hel-Or「顔の色とディープラーニング手法を使用したマイクロ表情分類」、IEEE国際コンピュータビジョン会議(ICCV)、2019年、pp.0–0。
  46. ^ Ritendra Datta、Dhiraj Joshi、 Jia Li、James Z. Wang、「計算アプローチを用いた写真画像の美学の研究」、Lecture Notes in Computer Science、vol. 3953、Proceedings of the European Conference on Computer Vision、Part III、pp. 288–301、グラーツ、オーストリア、2006年5月。
  47. ^ Wu, Chih-Hung; Huang, Yueh-Min; Hwang, Jan-Pan (2016年11月). 「教育/学習における感情コンピューティングのレビュー:傾向と課題」 . British Journal of Educational Technology . 47 (6): 1304– 1323. doi : 10.1111/bjet.12324 .
  48. ^ Zhang, Heng; Liu, Yuhan; Jiang, Meil​​in; Chen, Juanjuan; Wang, Minhong; Paas, Fred (2025-11-15). 「教育における感情的人工知能:系統的レビューとメタ分析」 .教育心理学レビュー. 37 (4): 106. doi : 10.1007/s10648-025-10086-4 . ISSN 1573-336X . 
  49. ^ 「車載顔認識技術が怒っているドライバーを検知し、ロードレイジを防止」ギズモード 2018年8月30日。
  50. ^ Collet, Christian; Musicant, Oren (2019-04-24). 「車両の自動化と運転者の機能状態評価システムの関連付け:将来の道路安全への課題」 . Frontiers in Human Neuroscience . 13 131. doi : 10.3389/fnhum.2019.00131 . ISSN 1662-5161 . PMC 6503868. PMID 31114489 .   
  51. ^バルターズ, ステファニー; バーンスタイン, マデリン; パレデス, パブロ E. (2019-05-02). 「通勤中の車内介入のための路上ストレス分析」 . 2019 CHI ヒューマンファクターズ・イン・コンピューティング・システム会議拡張アブストラクト. ACM. pp.  1– 6. doi : 10.1145/3290607.3312824 . ISBN 978-1-4503-5971-9. S2CID  144207824 .
  52. ^ヨンク、リチャード (2017). 『機械の心臓:人工知能の世界における私たちの未来』 ニューヨーク:アーケード・パブリッシング. pp.  150– 153. ISBN 9781628727333. OCLC  956349457 .
  53. ^感情コンピューティングのプロジェクト
  54. ^ Shanahan, James; Qu, Yan; Wiebe, Janyce (2006).『テキストにおける態度と感情の計算:理論と応用』ドルドレヒト:Springer Science & Business Media. p. 94. ISBN 1402040261
  55. ^ Gilleade, Kiel Mark; Dix, Alan; Allanson, Jen (2005).情動的なビデオゲームと情動的なゲームのモード:アシスト、チャレンジ、エモート(PDF) . Proc. DiGRA Conf.オリジナル(PDF)から2015年4月6日にアーカイブ。 2016年12月10日閲覧
  56. ^ Sykes, Jonathan; Brown, Simon (2003).アフェクティブゲーミング:ゲームパッドによる感情測定. CHI '03 Extended Abstracts on Human Factors in Computing Systems. CiteSeerX 10.1.1.92.2123 . doi : 10.1145/765891.765957 . ISBN  1581136374
  57. ^ Nijholt, Anton; Plass-Oude Bos, Danny; Reuderink, Boris (2009). 「欠点を課題に変える:ゲームのための脳とコンピュータのインターフェース」(PDF) . Entertainment Computing . 1 (2): 85– 94. Bibcode : 2009itie.conf..153N . doi : 10.1016/j.entcom.2009.09.007 .
  58. ^ Reuderink, Boris; Nijholt, Anton; Poel, Mannes (2009). 『アフェクティブ・パックマン:脳とコンピュータのインターフェース実験のためのフラストレーションゲーム』 インタラクティブ・エンターテイメントのためのインテリジェント技術 (INTETAIN). pp.  221– 227. doi : 10.1007/978-3-642-02315-6_23 . ISBN 978-3-642-02314-9
  59. ^ Khandaker, M (2009). 「自閉症スペクトラム障害のある10代の若者の社会情緒発達を支援する感情ビデオゲームの設計」『健康技術情報学研究144 : 37–9 . PMID 19592726 . 
  60. ^ Sahar, Yotam; Wagner, Michael; Barel, Ariel; Shoval, Shraga (2022-11-01). 「ストレス適応型トレーニング:握力で測定したストレスに応じた適応型精神運動トレーニング」 . Sensors . 22 ( 21): 8368. Bibcode : 2022Senso..22.8368S . doi : 10.3390/s22218368 . ISSN 1424-8220 . PMC 9654132. PMID 36366066 .   
  61. ^ Janssen, Joris H.; van den Broek, Egon L. (2012年7月). 「感情に耳を傾ける:堅牢なパーソナライズされた感情音楽プレーヤー」 .ユーザーモデリングとユーザー適応型インタラクション. 22 (3): 255– 279. doi : 10.1007/s11257-011-9107-7 . hdl : 2066/103051 .
  62. ^ 「モナ・リザ:笑っている?コンピュータ科学者が顔の表情を評価するソフトウェアを開発」 ScienceDaily 2006年8月1日. 2007年10月19日時点のオリジナルよりアーカイブ
  63. ^ Battarbee, Katja; Koskinen, Ilpo (2005). 「共体験:インタラクションとしてのユーザーエクスペリエンス」(PDF) . CoDesign . 1 (1): 5– 18. CiteSeerX 10.1.1.294.9178 . doi : 10.1080/15710880412331289917 . S2CID 15296236. 2017年12月14日時点のオリジナル(PDF)からアーカイブ。 2016年2月2日閲覧  
  64. ^ a b c d e f Boehner, Kirsten; DePaula, Rogerio; Dourish, Paul ; Sengers, Phoebe (2007). 「感情はどのように形成され、測定されるか」. International Journal of Human–Computer Studies . 65 (4): 275– 291. doi : 10.1016/j.ijhcs.2006.11.016 . S2CID 15551492 . 
  65. ^ボーナー、キルステン、デパウラ、ロジェリオ、ドゥーリッシュ、ポール、ゼンガーズ(2005). 「愛情:情報から相互作用へ」オーフス・10年記念クリティカルコンピューティング会議議事録59–68 .
  66. ^フック、クリスティーナ;スタール、アンナ。サンドストローム、ペトラ。ラークソラティ、ヤルモ (2008)。「インタラクションエンパワーメント」(PDF)手順チー: 647–656
  67. ^ Hill, Kashmir (2025年1月15日). 「彼女はChatGPTに恋している」 .ニューヨーク・タイムズ. ISSN 0362-4331 . 2026年2月8日閲覧 
  68. ^ヒル、カシミール (2025年12月22日). 「彼女はChatGPTに恋をした。そして、それをゴーストにした」 .ニューヨーク・タイムズ. ISSN 0362-4331 . 2026年2月8日閲覧 
  69. ^ 「AIと精神病:知っておくべきこと、すべきこと | ミシガン・メディシン」 www.michiganmedicine.org 2025年11月14日2026年2月8日閲覧
  70. ^ Chatterjee, Rhitu (2025年9月19日). 「10代の息子が自殺。今、彼らはAIチャットボットについて警鐘を鳴らしている」 . NPR . 2026年2月8日閲覧

引用文献