ニューロコンピューティング音声処理とは、人間の神経系(中枢神経系および末梢神経系)における音声生成と音声知覚の自然な神経プロセスを参考に、音声生成と音声知覚をコンピュータシミュレーションする研究です。このテーマは神経科学と計算神経科学に基づいています。[1]
概要
音声処理の神経計算モデルは複雑であり、少なくとも認知部分、運動部分、感覚部分から構成される。[2]
音声処理の神経計算モデルの認知的または言語的部分は、音声生成側での音素表現の神経活性化または生成(例えば、Ardi Roelofs が開発した Levelt モデルの神経計算および拡張バージョン:[3] WEAVER++ [4] )と、音声知覚または音声理解側での意図または意味の神経活性化または生成で構成されます。
音声処理の神経計算モデルの運動部分は、音声項目の音素表現から始まり、運動計画をアクティブ化し、その特定の音声項目の調音で終わります(調音音声学も参照)。
音声処理の神経計算モデルの感覚部分は、音声項目の音響信号(音響音声信号)から始まり、その信号の聴覚表現を生成し、その音声項目の 音素表現をアクティブにします。
神経計算音声処理のトピック
ニューロコンピュテーショナル音声処理とは、人工ニューラルネットワークによる音声処理です。以下に説明するニューラルマップ、マッピング、およびパスウェイは、人工ニューラルネットワークにおけるモデル構造、すなわち重要な構造です。
神経地図

人工ニューラル ネットワークは、「レイヤー」とも呼ばれる 3 種類のニューラル マップに分けられます。
ここでは「神経層」という用語よりも「神経マップ」という用語が好まれる。なぜなら、皮質神経マップは相互接続されたニューロンの2次元マップ(例えば自己組織化マップのように。図1も参照)としてモデル化されるからである。したがって、この2次元マップ内の各「モデルニューロン」または「人工ニューロン」は、大脳皮質が解剖学的に層状構造を示すため、生理学的には皮質柱によって表現される。
神経表現(神経状態)
人工ニューラルネットワークにおける神経表現とは、特定の神経マップ内で一時的に活性化された(神経)状態を指します。それぞれの神経状態は、特定の神経活性化パターンによって表現されます。この活性化パターンは、音声処理中に変化します(例えば、音節ごとに変化します)。

ACTモデル(下記参照)では、聴覚状態は聴覚状態マップ内の「神経スペクトログラム」(図2参照)によって表現できると仮定されています。この聴覚状態マップは、聴覚連合野(大脳皮質参照)に位置すると仮定されています。
体性感覚状態は触覚状態と固有感覚状態に分けられ、体性感覚状態マップ内の特定の神経活動パターンによって表されます。この状態マップは、体性感覚連合野(大脳皮質、体性感覚系、体性感覚皮質を参照)に位置すると考えられています。
運動計画状態は、運動計画、すなわち特定の音節またはより長い発話項目(例えば単語、短い句)の発話構音計画を表すものと想定されます。この状態マップは運動前野に位置すると想定され、各発話構音器官の瞬間的(またはより低レベルの)活性化は一次運動野(運動野を参照)内で発生します。
感覚マップと運動マップに現れる神経表現は(上で紹介したように)分散表現です(Hinton et al. 1968 [5])。感覚マップや運動マップ内の各ニューロンは多かれ少なかれ活性化され、特定の活性化パターンにつながります。
音声マップ(下記DIVAモデル参照)に現れる音声単位の神経表現は、時間的表現または局所的表現です。ここでは、各音声項目または音声単位は特定のニューロン(モデルセル、下記参照)によって表現されます。
神経マッピング(シナプス投射)

神経マッピングは、2 つの皮質神経マップを接続します。神経マッピングは (神経経路とは対照的に)、神経リンクの重みを調整することでトレーニング情報を保存します (人工ニューロン、人工ニューラル ネットワークを参照)。神経マッピングは、感覚マップまたは運動マップ内の感覚または運動状態の分散表現 (上記を参照) を、他のマップ内の点状または局所的な活性化から生成または活性化できます (例として、以下に説明する DIVA モデルでの音声マップから運動マップ、聴覚ターゲット領域マップ、または体性感覚ターゲット領域マップへのシナプス投影を参照してください。または例として、以下に説明する ACT モデルでの音声マップから聴覚状態マップおよび運動計画状態マップへの神経マッピングと図 3 を参照してください)。
2つのニューラルマップ間のニューラルマッピングは、コンパクトまたは稠密です。つまり、一方のニューラルマップの各ニューロンは、もう一方のニューラルマップの各ニューロンと(ほぼ)相互接続されています(多対多接続、人工ニューラルネットワークを参照)。ニューラルマッピングのこの密度基準により、ニューラルマッピングによって相互接続されたニューラルマップは、互いにそれほど離れていません。
神経経路
神経マッピングとは対照的に、神経経路は遠く離れた神経マップ(例えば、異なる皮質葉にある神経マップ、大脳皮質を参照)を接続することができます。機能的またはモデリングの観点から見ると、神経経路は主に情報を転送するだけで、その情報を処理しません。神経マッピングと比較して、神経経路ははるかに少ない神経接続を必要とします。神経経路は、両方の神経マップのニューロンを1対1で接続することでモデル化できます(トポグラフィックマッピングおよび体部位配置を参照)。
例: それぞれ 1,000 個のモデルニューロンで構成される 2 つのニューラル マップの場合、ニューラル マッピングには最大 1,000,000 個のニューラル接続 (多対多接続) が必要ですが、ニューラル パスウェイ接続の場合は 1,000 個の接続のみが必要です。
さらに、ニューラル マッピング内の接続のリンク ウェイトはトレーニング中に調整されますが、ニューラル パスウェイの場合のニューラル接続はトレーニングする必要はありません (各接続は最大限に発揮されます)。
DIVAモデル
音声生成の神経計算モデル化における主導的なアプローチは、ボストン大学のフランク・H・グエンサーと彼のグループによって開発されたDIVAモデルである。 [6] [7] [8] [9]このモデルは広範囲の音声データと神経画像データを考慮しているが、他の神経計算モデルと同様に、ある程度は推測の域を出ない。
モデルの構造

DIVA モデルの構成または構造を図 4 に示します。
音声マップ:音素表現を出発点として
音声マップは、ブローカ野(左前頭蓋)の下部後部に位置すると想定されており、(音韻論的に特定された)言語特有の音声単位(音、音節、単語、短いフレーズ)を表します。各音声単位(主に音節。例えば、「palm」の音節/pam/と単語、/pa/、/ta/、/ka/などの音節)は、音声マップ内の特定のモデル細胞(すなわち、上記参照の点状神経表現)によって表されます。各モデル細胞(人工ニューロンを参照)は、近接して配置され、同時に発火する少数のニューロン集団に対応します。
フィードフォワード制御:運動表現の活性化
音声マップ内の各ニューロン(モデル細胞、人工ニューロン)は活性化され、その後、調音速度・位置マップと呼ばれる運動マップに向けて前方運動指令を発します。この運動マップレベルで活性化された神経表現は、音声単位の調音を決定し、すなわち、その音声単位を生成する時間間隔において、すべての調音器官(唇、舌、口蓋帆、声門)を制御します。前方制御には、ここでは詳細にモデル化されていない 小脳などの皮質下構造も関与します。
音声単位は、同一の音素カテゴリに割り当て可能な音声項目の集合を表す。したがって、各音声単位は音声マップ内の特定のニューロンによって表現されるが、音声単位の実現には、調音的および音響的な変動が見られる場合がある。この音韻的変動こそが、DIVAモデルにおいて感覚標的領域を定義する動機となっている(Guenther et al. 1998参照)。[10]
調音モデル:体性感覚および聴覚フィードバック情報の生成
運動マップ内の活性化パターンは、発話項目における全てのモデル調音器官(唇、舌、口蓋帆、声門)の運動パターンを決定します。モデルに過負荷をかけないため、神経筋系の詳細なモデリングは行われていません。調音器官の運動を生成するために、 Maeda調音音声合成装置が用いられています。これにより、時間変化する声道形状と、各発話項目における 音響音声信号の生成が可能になります。
人工知能の観点から見ると、調音モデルは「植物」(つまり脳によって制御されるシステム)と呼ぶことができ、神経系音声処理システムの具体化の一部を表現しています。調音モデルは、 DIVAモデルへのフィードバック情報を生成する基礎となる感覚出力を生成します(下記「フィードバック制御」参照)。
フィードバック制御:感覚ターゲット領域、状態マップ、およびエラーマップ
一方、調音モデルは感覚情報、すなわち各発話単位の聴覚状態(聴覚状態マップ(分散表現)内で神経表現される)と体性感覚状態(体性感覚状態マップ(分散表現)内で神経表現される)を生成する。聴覚状態マップは上側頭葉皮質に位置すると想定され、体性感覚状態マップは下頭頂葉皮質に位置すると想定される。
一方、音声マップは、特定の音声単位に対して活性化されると(単一ニューロン活性化、点状活性化)、音声マップと聴覚標的領域マップ間、および音声マップと体性感覚標的領域マップ間のシナプス投射によって感覚情報を活性化します。聴覚標的領域と体性感覚標的領域は、それぞれ高次聴覚皮質領域と高次体性感覚皮質領域に位置すると想定されています。これらの標的領域の感覚活性化パターンは、音声単位ごとに存在し、音声獲得(模倣訓練、下記「学習」参照)中に学習されます。
その結果、音声単位が音声音マップレベルで活性化された場合、2種類の感覚情報が得られる。(i) 学習された感覚標的領域(すなわち、音声単位の意図された感覚状態)と、(ii) 特定の音声単位の不完全な実行(発音)に起因する感覚状態活性化パターン(すなわち、その特定の音声単位の現在の発音と発音を反映する現在の感覚状態)である。両タイプの感覚情報は、感覚エラーマップ、すなわち聴覚エラーマップ(聴覚状態マップと同様に上側頭葉皮質に位置すると想定)と体性感覚エラーマップ(体性感覚状態マップと同様に下頭頂葉皮質に位置すると想定)に投影される(図4参照)。
現在の感覚状態が意図された感覚状態から逸脱している場合、両方のエラーマップはフィードバックコマンドを生成し、それらは運動マップに投影され、運動活性化パターンを修正し、ひいては発話中の音声単位の発音を修正することができます。したがって、全体として、運動マップの活性化パターンは、音声単位に対して学習された特定のフィードフォワードコマンド(音声マップからのシナプス投影によって生成される)だけでなく、感覚エラーマップレベルで生成されるフィードバックコマンドによっても影響を受けます(図4参照)。
学習(音声獲得のモデル化)
音声処理の神経科学的モデルの構造(DIVA モデルの図 4 を参照) は主に進化のプロセスによって決定されますが、(言語固有の)知識と (言語固有の)発話スキルは音声獲得の過程で学習され、訓練されます。 DIVA モデルの場合、新生児にはすでに構造化された (言語固有の) 音声マップがない、つまり、音声マップ内のニューロンがどの音声単位にも関連していないことが想定されています。むしろ、音声マップの構成と、運動マップおよび感覚ターゲット領域マップへの投影の調整が、音声獲得の過程で学習または訓練されます。 DIVA アプローチでは、喃語による学習と模倣による学習という、初期の音声獲得の 2 つの重要な段階がモデル化されています。
せせらぎ
喃語発話中、感覚エラーマップと運動マップ間のシナプス投射が調整されます。この訓練は、一定量の半ランダムなフィードフォワードコマンド、すなわちDIVAモデルによる「喃語」を生成することによって行われます。これらの喃語発話コマンドはそれぞれ、「調音アイテム」、つまり「前言語的(すなわち非言語的)発話アイテム」とも呼ばれるアイテムの生成につながります(つまり、調音モデルは喃語発話の運動コマンドに基づいて調音運動パターンを生成します)。その後、音響信号が生成されます。
調音信号と音響信号に基づき、各(言語獲得前)発話項目について、感覚状態マップ(図4参照)レベルで特定の聴覚および体性感覚状態パターンが活性化されます。この時点で、DIVAモデルは様々な発話項目に対する感覚および関連する運動活性化パターンを利用できるため、感覚エラーマップと運動マップ間のシナプス投射を調整することができます。このように、DIVAモデルは喃語発話中にフィードバックコマンド(すなわち、特定の感覚入力に対して適切な(フィードバック)運動コマンドを生成する方法)を学習します。
模倣
模倣中、DIVAモデルは音声マップを整理し、音声マップと運動マップ間のシナプス投射(すなわち、前方運動指令の調整)と、音声マップと感覚標的領域間のシナプス投射を調整します(図4参照)。模倣訓練は、言語特有の音声単位(例えば、単独の音声、音節、単語、短いフレーズ)の実現を表す一定量の音響音声信号をモデルに与えることで行われます。
音声マップと聴覚ターゲット領域マップ間のシナプス投射の調整は、音声マップの1つのニューロンをその音声項目の音素表現に割り当て、それを聴覚ターゲット領域マップで活性化される音声項目の聴覚表現と関連付けることによって実現されます。聴覚領域(すなわち、音声単位の聴覚的変動性の仕様)は、1つの特定の音声単位(すなわち、1つの特定の音素表現)が複数の(わずかに)異なる音響(聴覚)実現によって実現できるため発生します(音声項目と音声単位の違いについては、上記のフィードフォワード制御を参照)。
音声マップと運動マップ間のシナプス投射の調整(すなわち、順方向運動コマンドの調整)は、フィードバックコマンドの助けを借りて行われます。これは、感覚エラーマップと運動マップ間の投射が喃語訓練中に既に調整されているためです(上記参照)。したがって、DIVAモデルは適切なフィードフォワード運動コマンドを見つけることで、聴覚音声項目を「模倣」しようとします。次に、モデルは結果として得られた感覚出力(その試行の発音後の現在の感覚状態)を、その音声項目について既に学習済みの聴覚ターゲット領域(意図された感覚状態)と比較します。そして、モデルは、聴覚フィードバックシステムの聴覚エラーマップから生成された現在のフィードバック運動コマンドによって、現在のフィードフォワード運動コマンドを更新します。このプロセスは複数回(複数回の試行)繰り返される場合があります。DIVAモデルは、試行ごとに現在の聴覚状態と意図された聴覚状態との聴覚的差異が減少する音声項目を生成することができます。
模倣中、DIVA モデルは、音声マップから体性感覚ターゲット領域マップへのシナプス投影を調整することもできます。これは、新しい模倣の試行ごとに、音声項目の新しい発音が生成され、その結果、その音声項目の音素表現に関連付けられた 体性感覚状態パターンが生成されるためです。
摂動実験
F1のリアルタイム摂動:聴覚フィードバックの影響
聴覚フィードバックは発話獲得において最も重要ですが、モデルが各発話単位に対して適切なフィードフォワード運動コマンドを学習している場合、聴覚フィードバックの活性化は低下する可能性があります。しかし、聴覚摂動(例えば、フォルマント周波数の変化、Tourville et al. 2005)の場合、聴覚フィードバックは強く共活性化する必要があることが示されています。[11]これは、視覚摂動(例えば、プリズムを通して見ることによって物体の位置を変えること)時の到達運動に対する視覚フィードバックの強い影響に匹敵します。
顎の予期せぬブロック:体性感覚フィードバックの影響
聴覚フィードバックと同様に、体性感覚フィードバックも発話中に強く共活性化されることがあります。例えば、顎が予期せずブロックされた場合などです (Tourville et al. 2005)。
ACTモデル
音声処理の神経計算モデル化におけるさらなるアプローチは、ドイツのアーヘン工科大学のBernd J. Krögerと彼のグループ[12]によって開発されたACTモデルである(Kröger et al. 2014、 [13] Kröger et al. 2009、[14] Kröger et al. 2011 [15])。ACTモデルは、DIVAモデルと大部分で一致している。ACTモデルは、「アクションリポジトリ」(すなわち、感覚運動発話スキルのリポジトリで、メンタルシラビリーに相当、Levelt and Wheeldon 1994 [16]を参照)に焦点を当てているが、これはDIVAモデルでは詳細に説明されていない。さらに、ACTモデルは、あるレベルの運動計画、すなわち、発話項目の生成に関する高レベルの運動記述を明示的に導入している(運動目標、運動皮質を参照)。 ACT モデルは、他の神経計算モデルと同様に、ある程度は推測の域を出ません。
構造

ACT モデルの構成または構造を図 5 に示します。
音声生成の場合、ACTモデルは、音声項目の音素表現(音素マップ)の活性化から始まります。頻出音節の場合、音素マップのレベルで共活性化が発生し、感覚状態マップのレベルで意図された感覚状態のさらなる共活性化と、運動計画マップのレベルでの運動計画状態の共活性化につながります。まれな音節の場合、音素マップを介して音韻的に類似した音声項目の運動計画を活性化することにより、その音声項目に対する運動計画の試みが運動計画モジュールによって生成されます(Kröger et al. 2011 [17]を参照)。運動計画または声道動作スコアは、時間的に重なり合う声道動作で構成され、これらは運動プログラミング、実行、および制御モジュールによってプログラムされ、その後実行されます。このモジュールは、(意図された)運動計画の正しい実行を制御するためのリアルタイムの体性感覚フィードバック情報を取得します。運動プログラミングは、一次運動マップレベルでの活性化パターンを導き、続いて神経筋処理を活性化します。運動ニューロンの活性化パターンは筋力を生み出し、続いて全ての調音器官(唇、舌、口蓋帆、声門)の運動パターンを生み出します。Birkholz 3D調音シンセサイザーは、音響音声信号を生成するために使用されます。
調音および音響フィードバック信号は、感覚前処理モジュールを介して体性感覚および聴覚フィードバック情報を生成するために使用され、これらの情報は聴覚および体性感覚マップに転送されます。感覚音声処理モジュールレベルでは、聴覚および体性感覚情報は短期記憶に保存され、外部感覚信号(ES、図5、感覚フィードバックループを介して活性化)は、既に訓練された感覚信号(TS、図5、音声マップを介して活性化)と比較されます。外部感覚信号と意図された(訓練された)感覚信号が著しく異なる場合、聴覚および体性感覚エラー信号が生成される可能性があります(DIVAモデルを参照)。
図5の薄緑色の領域は、音節を一つの単位として処理する神経マップと処理モジュールを示しています(具体的な処理時間ウィンドウは約100ミリ秒以上)。この処理は、音韻マップと、感覚音声処理モジュール内の直接接続された感覚状態マップ、および直接接続された運動計画状態マップで構成されます。一方、一次運動マップ、(一次)聴覚マップ、(一次)体性感覚マップは、より短い時間ウィンドウ(ACTモデルでは約10ミリ秒)で処理します。

ACT モデル内の神経マップの仮想的な皮質位置を図 6 に示します。一次運動マップと一次感覚マップの仮想的な位置はマゼンタで示され、運動プラン状態マップと感覚状態マップ (感覚音声処理モジュール内、DIVA のエラー マップに相当) の仮想的な位置はオレンジで示され、ミラーリングされた音声マップの仮想的な位置は赤で示されています。二重矢印はニューロン マッピングを示します。神経マッピングは、互いにそれほど離れていない神経マップを接続します (上記を参照)。音声マップの 2 つのミラーリングされた位置は神経経路を介して接続され (上記を参照)、音声マップの両方の実現に対する現在の活性化パターンの (単純な) 1 対 1 のミラーリングにつながります。音声マップの 2 つの位置間のこの神経経路は、弓状束(AF、図 5 および図 6 を参照) の一部であると想定されています。
音声知覚の場合、モデルは外部音響信号(例えば、外部話者によって発せられた信号)から始まる。この信号は前処理され、聴覚マップを通過し、聴覚音声処理モジュール(ES:外部信号、図5参照)のレベルで各音節または単語の活性化パターンにつながる。音声知覚の腹側経路(Hickok and Poeppel 2007 [18]参照)は語彙項目を直接活性化するが、ACTでは実装されていない。むしろ、ACTでは音素状態の活性化は音素マップを介して起こり、その結果、その音声項目の運動表現の共活性化につながる可能性がある(すなわち、音声知覚の背側経路、同上)。
アクションリポジトリ

音声マップは、運動計画状態マップ、感覚状態マップ(感覚音声処理モジュール内で発生)、そして音素(状態)マップとともに、行動リポジトリを形成します。ACTでは、音声マップは自己組織化ニューラルマップとして実装されており、異なる発話項目はこのマップ内の異なるニューロンによって表現されます(時間的表現または局所的表現、上記の「ニューラル表現」を参照)。音声マップには、3つの主要な特徴があります。
- 1つの音素状態に対して、音素マップ内で複数の音素実現が発生する可能性がある(図7の音素リンクの重みを参照:例えば、音節/de:m/は、音素マップ内で3つのニューロンによって表される)。
- 音韻論: 音声マップは、異なる音声特徴に関する音声項目の順序を示します(図 7 の音素リンクの重みを参照。3 つの例: (i) 音節 /p@/、/t@/、および /k@/ は、音声マップ内で左側に上向きの順序で出現します。 (ii) 音節先頭の破裂音は音声マップの左上部に出現し、音節先頭の摩擦音は右下部に出現します。 (iii) CV 音節と CVC 音節も、音声マップの異なる領域に出現します。)
- 音声マップはハイパーモーダルまたはマルチモーダルです。音声マップレベルでの音声項目の活性化は、(i) 音素状態(図7の音素リンク重みを参照)、(ii) 運動計画状態(図7の運動計画リンク重みを参照)、(iii) 聴覚状態(図7の聴覚リンク重みを参照)、および(iv) 体性感覚状態(図7には示されていません)を共活性化します。これらの状態はすべて、音声マップ内の各ニューロン間のシナプスリンク重みを調整することで、音声獲得中に学習または訓練されます。これらのニューロンは、特定の音声状態を表すとともに、関連する運動計画および感覚状態マップ内のすべてのニューロンと関連しています(図3も参照)。
音声マップは、 ACT モデル内の動作-知覚-リンクを実装します (図 5 と図 6 も参照:前頭葉と側頭葉と頭頂葉の交差点における音声マップの二重神経表現)。
モータープラン
運動計画とは、発話項目の生成と調音に関する高レベルの運動記述である(運動目標、運動技能、調音音声学、調音音韻論を参照)。我々の神経計算モデルACTでは、運動計画は声道動作スコアとして定量化される。声道動作スコアは、発話項目を生成するために活性化される必要のある声道動作(調音ジェスチャーとも呼ばれる)の数、その実現度と持続時間、発話項目を構成するすべての声道動作の時間的構成を定量的に決定する(声道動作スコアの詳細な説明については、例えばKröger & Birkholz 2007を参照)。[19]それぞれの声道動作(調音ジェスチャー)の詳細な実現は、発話項目を構成するすべての声道動作の時間的構成、特にそれらの時間的重なりに依存する。このように、発話項目内の各声道動作の詳細な実現は、私たちの神経計算モデルACTの運動計画レベルより下で指定されます(Kröger et al. 2011を参照)。[20]
感覚運動と認知の側面の統合:行動リポジトリとメンタルレキシコンの結合
音声処理の音声モデルや感覚運動モデル(DIVAやACTなど)の深刻な問題は、音声獲得過程における音素マップの発達がモデル化されていないことです。この問題の解決策として考えられるのは、音声獲得の初期段階(模倣訓練の初期段階でさえも)で音素マップを明示的に導入することなく、動作リポジトリとメンタルレキシコンを直接結合することです(Kröger et al. 2011 PALADYN Journal of Behavioral Roboticsを参照)。
実験:音声獲得
あらゆる神経科学あるいは神経計算論的アプローチにおいて非常に重要な問題は、構造と知識を分離することです。モデル(すなわち、音声処理に必要な人間の神経ネットワーク)の構造は主に進化のプロセスによって決定されますが、知識は主に音声獲得の過程で学習のプロセスによって蓄積されます。モデルACTを用いて、(i)5母音システム/i、e、a、o、u/(Kröger et al. 2009を参照)、(ii)小規模子音システム(有声破裂音/b、d、g/と、以前にCV音節として習得した5つの母音すべてとの組み合わせ)(同上)、(iii)5母音システム、有声・無声破裂音/b、d、g、p、t、k/、鼻音/m、n/、側音/l/と3つの音節タイプ(V、CV、CCV)を含む小規模モデル言語(Kröger et al. 2011を参照)[21]、(iv)6歳児向け標準ドイツ語の最も頻出する200音節(Kröger et al. [22]いずれの場合も、異なる音声特徴に応じて音声項目の順序が観察される。
実験:音声知覚
ACTモデルは、初期のバージョンでは純粋な音声生成モデル(音声獲得を含む)として設計されていたにもかかわらず、音声知覚の重要な基本現象、すなわちカテゴリ知覚とマガーク効果を示すことができる。カテゴリ知覚に関しては、破裂音の場合の方が母音よりもカテゴリ知覚が強いことをモデルは示すことができる(Kröger et al. 2009参照)。さらに、ACTモデルは、音声マップレベルのニューロンを抑制する特定のメカニズムを実装することで、マガーク効果を示すことができた(Kröger and Kannampuzha 2008参照)。 [23]
参照
参考文献
- ^ 「ニューロコンピュテーショナルな音声・音響処理に向けて」非線形音声処理の進歩シュプリンガー 2007年1月 pp. 58– 77. ISBN 978-3-540-71503-0。
- ^ Parrell, Benjamin; Lammert, Adam C.; Ciccarelli, Gregory; Quatieri, Thomas F. (2019-03-01). 「音声運動制御の最新モデル:制御理論的アーキテクチャと特性の概要」 .アメリカ音響学会誌. 145 (3): 1456– 1481. Bibcode :2019ASAJ..145.1456P. doi :10.1121/1.5092807. ISSN 0001-4966. PMID 31067944.
- ^ “Ardi Roelofs”. 2012年4月26日時点のオリジナルよりアーカイブ。2011年12月8日閲覧。
- ^ “WEAVER++”. 2014年4月14日時点のオリジナルよりアーカイブ。2011年12月8日閲覧。
- ^ Hinton GE, McClelland JL, Rumelhart DE (1968) 分散表現. Rumelhart DE, McClelland JL (編).並列分散処理:認知の微細構造の探究. 第1巻:基礎 (MIT Press, Cambridge, MA)
- ^ DIVAモデル:フィードバック制御プロセスに焦点を当てた音声生成モデル。米国マサチューセッツ州ボストン大学のフランク・H・グエンサーとそのグループによって開発された。「DIVA」という用語は「Directions Into Velocities of Articulators(調音器官の速度への方向)」を意味する。
- ^ Guenther, FH, Ghosh, SS, and Tourville, JA (2006) pdf Archived 2012-04-15 at the Wayback Machine . 音節生成の基礎となる皮質相互作用の神経モデル化と画像化. Brain and Language , 96, pp. 280–301
- ^ Guenther FH (2006) 発話音の生成を支える皮質相互作用Journal of Communication Disorders 39, 350–365
- ^ Guenther, FH, Perkell, JS (2004) pdf Archived 2012-04-15 at the Wayback Machine . 音声生成の神経モデルと、音声における聴覚フィードバックの役割に関する研究への応用。B. Maassen、R. Kent、H. Peters、P. Van Lieshout、W. Hulstijn (編)、『正常および障害音声における音声運動制御』 (pp. 29–49)。オックスフォード: オックスフォード大学出版局
- ^ ゲンサー, フランク・H.; ハンプソン, ミシェル; ジョンソン, デイブ (1998). 「発話動作の計画のための参照フレームの理論的研究」.心理学評論. 105 (4): 611– 633. doi :10.1037/0033-295x.105.4.611-633. hdl : 2144/2114 . PMID 9830375. S2CID 11179837.
- ^ Tourville J, Guenther F, Ghosh S, Reilly K, Bohland J, Nieto-Castanon A (2005) 音響および調音摂動が発話中の皮質活動に及ぼす影響。ポスター、第11回人間脳マッピング機構年次会議(カナダ、トロント)
- ^ ACTモデル:ドイツのアーヘン工科大学のベルント・J・クローガーとそのグループによって開発された、音声生成、知覚、獲得のモデル。「ACT」という用語は「ACTion」を指す。
- ^ BJ Kröger, J Kannampuzha, E Kaufmann (2014) pdf 音声獲得、音声生成、音声知覚をシミュレートするための基本原理としての連合学習と自己組織化。EPJ Nonlinear Biomedical Physics 2 (1), 1-28
- ^ Kröger BJ, Kannampuzha J, Neuschaefer-Rube C (2009) pdf 音声生成と知覚の神経計算モデルに向けて. Speech Communication 51: 793-809
- ^ Kröger, Bernd J.; Birkholz, Peter; Neuschaefer-Rube, Christiane (2011年6月1日). 「対面コミュニケーションにおけるワードプロセッシングのための、アーティキュレーションに基づく発達ロボットアプローチに向けて」. Paladyn. Journal of Behavioral Robotics . 2 (2): 82– 93. doi : 10.2478/s13230-011-0016-6 . S2CID 10317127.
- ^ Levelt, Willem JM; Wheeldon, Linda (1994年4月). 「話者は心的音節表にアクセスできるか?」.認知. 50 ( 1–3 ): 239–269 . doi :10.1016/0010-0277(94)90030-2. hdl : 2066/15533 . PMID 8039363. S2CID 7845880.
- ^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) 発話失行症の原因となる神経運動言語マッピングの欠陥:音声処理の定量的神経モデルによる証拠. Lowit A, Kent R (編) 『運動言語障害の評価』 (Plural Publishing, サンディエゴ, カリフォルニア州) pp. 325-346
- ^ Hickok G, Poeppel D (2007) 音声知覚の機能的神経解剖学に向けて. Trends in Cognitive Sciences 4, 131–138
- ^ Kröger BJ, Birkholz P (2007) 調音音声合成におけるジェスチャーベースの音声動作制御の概念. Esposito A, Faundez-Zanuy M, Keller E, Marinaro M (eds.) Verbal and Nonverbal Communication Behaviours, LNAI 4775 (Springer Verlag, Berlin, Heidelberg) pp. 174-189
- ^ Kröger BJ、Birkholz P、Kannampuzha J、Eckers C、Kaufmann E、Neuschaefer-Rube C (2011) 音声動作の定量的ターゲット近似モデルの神経生物学的解釈。掲載: Kröger BJ、Birkholz P (編) Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2011 (TUDpress、ドレスデン、ドイツ)、pp. 184-194
- ^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) 発話失行症の原因となる神経運動言語マッピングの欠陥:音声処理の定量的神経モデルによる証拠. Lowit A, Kent R (編)『運動言語障害の評価』 (Plural Publishing, サンディエゴ, カリフォルニア州) pp. 325-346
- ^ Kröger BJ, Birkholz P, Kannampuzha J, Kaufmann E, Neuschaefer-Rube C (2011) 音声処理の神経モデルにおける感覚運動性発声器官活動リポジトリの獲得に向けて. Esposito A, Vinciarelli A, Vicsi K, Pelachaud C , Nijholt A (編)言語的・非言語的コミュニケーションと実践の分析:処理上の課題. LNCS 6800 (Springer, Berlin), pp. 287-293
- ^ Kröger BJ, Kannampuzha J (2008) 聴覚および視聴覚音声知覚の側面を含む音声生成の神経機能モデル.国際視聴覚音声処理会議2008 (モートン島、クイーンズランド州、オーストラリア) pp. 83–88
さらに読む
- Iaroslav Blagouchine、Eric Moreau. 制約付き最適ニューラルネットワークベース内部モデルによる音声ロボットの制御. IEEE Transactions on Robotics, vol. 26, no. 1, pp. 142-159, 2010年2月.