非ネイティブ音声データベース

音声データベース

非ネイティブ音声データベースとは、英語の非ネイティブ発音を収録した音声データベースです。このようなデータベースは、多言語自動音声認識システム、テキスト読み上げシステム、発音トレーナー、第二言語学習システムなどの開発に利用されています。^[1]

アラビア語	あ	日本語	J
中国語	C	韓国語	K
チェコ語	チェコ語	マレーシア人	M
デンマーク語	D	ノルウェー語	北
オランダ語	ダット	ポルトガル語	P
英語	E	ロシア	R
フランス語	F	スペイン語	S
ドイツ語	G	スウェーデン語	スウェーデン
ギリシャ語	グレ	タイ語	T
インドネシア語	工業	ベトナム語	V
イタリア語	私

さまざまなデータベースに関する情報を含む実際のテーブルを表 2 に示します。

表2:非ネイティブデータベースの概要

コーパス	著者	入手可能	言語	#スピーカー	母国語	#うっと。	間隔	日付	備考
AMI ^[2]		欧州連合	E		ダットとその他		100時間		会議の録音
ATR-Gruhn ^[3]	グルン	ATR	E	96	CGFJインダストリー	15000		2004	熟練度評価
BAS ストレンジコーパス 1+10 ^[4]		エルラ	G	139	50カ国	7500		1998
バークレーレストラン^[5]		顕微授精	E	55	GIHCFSJ	2500		1994
放送ニュース^[6]		LDC	E					1997
ケンブリッジ・ウィット^[7]	ウィット	ケンブリッジ大学	E	10	ジクス	1200		1999
ケンブリッジ・イェ^[8]	イェ	ケンブリッジ大学	E	20	C	1600		2005
子どもニュース^[9]	友清	カーネギーメロン大学	E	62	JC	7500		2000	部分的に自発的な
クリップス・イメージ^[10]	タン	クリップスイメージ	F	15	履歴書		6時間	2006
CLSU ^[11]		LDC	E		22カ国	5000		2007	電話、自発的
CMU ^[12]		カーネギーメロン大学	E	64	G	452	0.9時間		利用不可
クロスタウンズ^[13]	シャーデン	U.ボーフム	EFGI チェコ・ダット	161	EFGIS	72000	133時間	2006	都市名
アルスラーン公爵^[14]	アルスラン	デューク大学	E	93	15カ国	2200		1995	部分的に電話での会話
ERJ ^[15]	峰松	東京大学	E	200	J	68000		2002	熟練度評価
フィッシャー^[16]		LDC	E		多くの		200時間		電話での会話
フィット^[17]	フィット	エディンバラ大学	フィングレ	10	E	700		1995	都市名
フランキ^[18]		U. エアランゲン	E	19	G	2148
ヒスパニック系^[19]	バーン		E	22	S		20時間	1998	部分的に自発的な
HLTC ^[20]		香港科技大学	E	44	C		3時間	2010	リクエストに応じて利用可能
IBM-フィッシャー^[21]		IBM	E	40	SFGI	2000		2002	数字
アイコール^[22]^[23]	チェン	I ² R、A*STAR	C	305	24か国	90841	142時間	2015	音声および声調表記（ピンイン）、能力評価
アイル^[24]	アトウェル	EU/ELDA	E	46	消化管	4000	18時間	2000
木星^[25]	ズー	マサチューセッツ工科大学	E	未知	未知	5146		1999	電話での会話
K-SEC ^[26]	リー	シテック	E	未知	K			2004
LDC WSJ1 ^[27]		LDC		10		800	1時間	1994
リープ^[28]	腸	ミュンスター大学	例えば	127	41種類	73.941語	12時間	2003
ミスト^[29]		エルラ	EFG	75	ダット	2200		1996
NATOハイワイヤー^[30]		NATO	E	81	FグレIS	8100		2007	きれいな言葉遣い
NATO M-ATC ^[31]	鳩	NATO	E	622	FGIS	9833	17時間	2007	大きな背景ノイズ
NATO N4 ^[32]		NATO	E	115	未知		7.5時間	2006	大きな背景ノイズ
オノマスティカ^[33]			D Dut EFG Gre INPS Swe			（121000）		1995	語彙のみ
PF-STAR ^[34]		U. エアランゲン	E	57	G	4627	3.4時間	2005	子供のスピーチ
サンスター^[35]		欧州連合	E	100	GSIPD	40000		1992	国会演説
TC-STAR ^[36]	ヒューベル	エルダ	ES	未知	EU諸国		13時間	2006	複数のデータセット
TED ^[37]	ラメル	エルダ	E	40(188)	多くの		10時間(47時間)	1994	ユーロスピーチ 93
TLTS ^[38]		DARPA	あ		E		1時間	2004
東京菊子^[39]		東京大学	J	140	10カ国	35000		2004	熟練度評価
動詞モービル^[40]		ミュンヘン大学	E	44	G		1.5時間	1994	とても自発的
ヴォディス^[41]		欧州連合	FG	178	FG	2500		1998	カーナビゲーションについて
WPアラビア語^[42]	ロッカ	LDC	あ	35	E	800	1時間	2002
WPロシア語^[43]	ロッカ	LDC	R	26	E	2500	2時間	2003
WPスペイン語^[44]	モーガン	LDC	S		E			2006
WSJスポークス^[45]			E	10	未知	800		1993

伝説

非ネイティブデータベースの表では、言語名の略語がいくつか使用されています。これらは表 1 にリストされています。表 2 には、各コーパスに関する次の情報が示されています: コーパスの名前、コーパスを入手できる (または少なくとも詳細情報を入手できる) 機関、話者が実際に話した言語、話者数、話者の母国語、コーパスに含まれる非ネイティブ発話の総量、非ネイティブ部分の長さ (時間単位)、このコーパスが初めて公的に参照された日付、このデータベースの特別な側面を強調する自由記述、および他の出版物への参照。最後のフィールドの参照は、ほとんどの場合、元の収集者がこのコーパスを特に説明した論文への参照です。場合によっては、そのような論文を特定できないことがあります。その場合は、このコーパスを使用している論文が参照されます。

一部のエントリは空白のままで、その他のエントリは不明とマークされています。これらの違いは、空白のエントリは値が不明な属性を指すという点です。一方、不明のエントリは、その属性に関する情報がデータベース自体に存在しないことを示しています。例えば、木星の天気データベース^[46]では、話者の出身地に関する情報は提供されていません。したがって、このデータはアクセント検出などの検証にはあまり役立ちません。

可能な限り、名称はコーパスの標準名称を使用しますが、一部の小規模なコーパスについては、名称が確立されておらず、識別子を作成する必要がありました。そのような場合は、データベースの機関と収集者の組み合わせを使用します。

データベースに母語話者と非母語話者の音声が含まれている場合、コーパスのうち非母語話者部分の属性のみが記載されています。コーパスの大部分は読み上げ音声のコレクションです。コーパスが一部または全部が自発的な発話で構成されている場合は、「Specials」列に記載されています。

参考文献

^ M. Raab、R. Gruhn、E. Noeth、「非ネイティブ音声データベース」、Proc. ASRU、京都、日本、2007年。
^ AMI プロジェクト、「AMI 会議コーパス」[1]。
^ R. Gruhn、T. Cincarek、S. Nakamura、「多アクセント非ネイティブ英語データベース」、日本音響学会誌、2004年。
^ ミュンヘン大学、「バイエルン音声信号アーカイブ奇妙なコーパス」、[2]。
^ Jurafsky他、「The Berkeley Restaurant Project」、ICSLP 1994年論文集。
^ L. Tomokiyo、「非ネイティブ音声の認識：音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。
^ S. Witt、「コンピュータ支援言語学習における音声認識の利用」、博士論文、ケンブリッジ大学工学部、英国、1999年。
^ H. YeとS. Young、「言語学習のための音声会話インタラクションにおける初心者の音声認識パフォーマンスの向上」、Proc. Interspeech、リスボン、ポルトガル、2005年。
^ L. Tomokiyo、「非ネイティブ音声の認識：音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。
^ TP TanとL. Besacier、「自動音声認識のためのフランス語非ネイティブコーパス」、LREC、ジェノバ、イタリア、2006年。
^ T. Lander, CSLU: Foreign accented English release 1.2 , Tech. Rep., LDC, Philadelphia, Pennsylvania, 2007.
^ Z. Wang、T. Schultz、A. Waibel、「非ネイティブ音声に対する音響モデル適応技術の比較」、Proc. ICASSP、2003年。
^ S. Schaden、 Regelbasierte Modellierung fremdsprachlich akzentbehaftteter Aussprachevarianten、Ph.D.論文、デュイスブルク・エッセン大学、2006 年。
^ LM ArslanとJH Hansen、「外国語訛りの音声の周波数特性」、 ICASSP Proc. 、ミュンヘン、ドイツ、1997年、pp. 1123-1126。
^ N. Minematsu 他「 CALL研究を支援するための日本人による英語音声データベースの開発」 ICA、京都、日本、2004年、577-560頁。
^ Christopher Cieri、David Miller、Kevin Walker、「 The Fisher Corpus: a Resource for the Next Generations of Speech-to-Text」、Proc. LREC 2004
^ S. Fitt、「なじみのないネイティブおよび非ネイティブの町名の発音」、Proc. of Eurospeech、1995年、2227-2230ページ。
^ G. Stemmer、E. Noeth、H. Niemann、「ドイツ語音声認識システムにおける外国語の音響モデル化」、Proc. Eurospeech、P. Dalsgaard、B. Lindberg、H. Benner編、2001年、第4巻、2745-2748頁。
^ W. Byrne、E. Knodt、S. Khudanpur、J. Bernstein、「自動音声認識は非ネイティブ音声に対応できるか？ヒスパニック系英語会話のモデリングにおけるデータ収集と初期実験」、STiLL、マルホルメン、スウェーデン、1998年、37-40頁。
^ Y. Li、P. Fung、P. Xu、Y. Liu、「混合言語音声認識のための非対称音響モデリング」、ICASSP、プラハ、チェコ、2011年、37-40頁。
^ V. Fischer、E. Janke、S. Kunzmann、「多言語音響モデルによる非ネイティブ音声のデコードにおける最近の進歩」、Eurospeech誌、2003年、3105-3108頁。
^ Nancy F. Chen、Rong Tong、Darren Wee、Peixuan Lee、Bin Ma、Haizhou Li、「iCALLコーパス：ヨーロッパ系非ネイティブスピーカーが話す中国語」、Proc. of Interspeech、2015年。
^ Nancy F. Chen、Vivaek Shivakumar、Mahesh Harikumar、Bin Ma、Haizhou Li.ヨーロッパ言語のネイティブスピーカーによる中国語発音誤りの大規模特徴づけ、Interspeech誌、2013年。
^ W. Menzel、E. Atwell、P. Bonaventura、D. Herron、P. Howarth、R. Morton、C. Souter、「 The ISLE corpus of non-native spoken English」、LREC、アテネ、ギリシャ、2000年、957-963頁。
^ K. Livescu、「自動音声認識のための非ネイティブ音声の分析とモデリング」、修士論文、マサチューセッツ工科大学、マサチューセッツ州ケンブリッジ、1999年。
^ SC. Rhee、SH. Lee、SK. Kang、YJ. Lee、「韓国語-英語口語コーパス（K-SEC）の設計と構築」、Proc. ICSLP 2004
^ L. Tomokiyo、「非ネイティブ音声の認識：音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。
^ Gut, U.,『非母語話者スピーチ：コーパスに基づく第2言語英語とドイツ語の音韻論的・音声学的特性の分析』フランクフルト・アム・マイン：Peter Lang、2009年。
^ TNOヒューマンファクター研究所、「Mist音声技術における多言語相互運用性データベース」、技術報告、ELRA、パリ、フランス、2007年、ELRAカタログ参照S0238。
^ JC Segura他「HIWIREデータベース、コックピットコミュニケーションのためのノイズの多い非ネイティブ英語音声コーパス」、2007年、[3]。
^ S. Pigeon、W. Shen、D. van Leeuwen、「非ネイティブの軍事航空交通通信データベースの設計と特性評価」、ICSLP、ベルギー、アントワープ、2007年。
^ L. Benarousse他「NATOネイティブおよび非ネイティブ（n4）音声コーパス」、MISTワークショップ（ESCA-NATO）議事録、ルースデン、1999年9月。
^ Onomastica Consortium、「ONOMASTICA 言語間発音辞書」、Proc. Eurospeech、マドリード、スペイン、1995年、829-832頁。
^ C. Hacker、T. Cincarek、A. Maier、A. Hessler、E. Noeth、「非ネイティブ児童の発音間違いを検出するための韻律と発音の特徴のブースティング」、ICASSP会議論文集、ホノルル、ハワイ、2007年、197-200頁。
^ C. Teixeira、I. Trancoso、および A. Serralheiro、非ネイティブアクセントの認識、Proc. Eurospeech、ロードス島、ギリシャ、1997 年、2375-2378 ページ。
^ H. Heuvel、K. Choukri、C. Gollan、A. Moreno、および D. Mostefa、 TC-STAR: ASR および SLT 目的の新しい言語リソース、LREC、ジェノヴァ、2006 年、2570-2573 ページ。
^ LF Lamel、F. Schiel、A. Fourcin、J. Mariani、H. Tillmann、「The translanguage English database TED」、ICSLP、横浜、日本、1994年9月。
^ N. Mote、L. Johnson、A. Sethy、J. Silva、およびS. Narayanan、「戦術的言語検出および学習者の発話エラーのモデリング：アメリカ英語話者に対するアラビア語の戦術的言語トレーニングの事例」、Proc. of InSTIL、2004年6月。
^ 仁科健、「CALLシステム構築のための非母語話者による日本語音声データベースの開発」、ICA、京都、日本、2004年、pp.561-564。
^ ミュンヘン大学、Verbmobilプロジェクト、[4]。
^ I. Trancoso、C. Viana、I. Mascarenhas、C. Teixeira、「ナビゲーションクエリにおけるネイティブ化発音のルールの導出について」、Proc. Eurospeech、1999年。
^ A. LaRoccaとR. Chouairi、「West point Arabic speech corpus」、Tech. Rep.、LDC、フィラデルフィア、ペンシルバニア州、2002年。
^ A. LaRoccaとC. Tomei、「West point Russian speech corpus」、Tech. Rep.、LDC、フィラデルフィア、ペンシルバニア州、2003年。
^ J. Morgan、「ウェストポイントの英雄的スペイン語スピーチ」、テック・レップ、LDC、フィラデルフィア、ペンシルバニア州、2006年。
^ I. Amdal、F. Korkmazskiy、AC Surendran、「データ駆動型手法を用いた非ネイティブ話者の共同発音モデリング」、ICSLP、北京、中国、2000年、622-625頁。
^ K. Livescu、「自動音声認識のための非ネイティブ音声の分析とモデリング」、修士論文、マサチューセッツ工科大学、ケンブリッジ、マサチューセッツ州、1999年。

[1] M. Raab、R. Gruhn、E. Noeth、「非ネイティブ音声データベース」、Proc. ASRU、京都、日本、2007年。

[2] AMI プロジェクト、「AMI 会議コーパス」[1]。

[3] R. Gruhn、T. Cincarek、S. Nakamura、「多アクセント非ネイティブ英語データベース」、日本音響学会誌、2004年。

[4] ミュンヘン大学、「バイエルン音声信号アーカイブ奇妙なコーパス」、[2]。

[5] Jurafsky他、「The Berkeley Restaurant Project」、ICSLP 1994年論文集。

[6] L. Tomokiyo、「非ネイティブ音声の認識：音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。

[7] S. Witt、「コンピュータ支援言語学習における音声認識の利用」、博士論文、ケンブリッジ大学工学部、英国、1999年。

[8] H. YeとS. Young、「言語学習のための音声会話インタラクションにおける初心者の音声認識パフォーマンスの向上」、Proc. Interspeech、リスボン、ポルトガル、2005年。

[9] L. Tomokiyo、「非ネイティブ音声の認識：音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。

[10] TP TanとL. Besacier、「自動音声認識のためのフランス語非ネイティブコーパス」、LREC、ジェノバ、イタリア、2006年。

[11] T. Lander, CSLU: Foreign accented English release 1.2 , Tech. Rep., LDC, Philadelphia, Pennsylvania, 2007.

[12] Z. Wang、T. Schultz、A. Waibel、「非ネイティブ音声に対する音響モデル適応技術の比較」、Proc. ICASSP、2003年。

[13] S. Schaden、 Regelbasierte Modellierung fremdsprachlich akzentbehaftteter Aussprachevarianten、Ph.D.論文、デュイスブルク・エッセン大学、2006 年。

[14] LM ArslanとJH Hansen、「外国語訛りの音声の周波数特性」、 ICASSP Proc. 、ミュンヘン、ドイツ、1997年、pp. 1123-1126。

[15] N. Minematsu 他「 CALL研究を支援するための日本人による英語音声データベースの開発」 ICA、京都、日本、2004年、577-560頁。

[16] Christopher Cieri、David Miller、Kevin Walker、「 The Fisher Corpus: a Resource for the Next Generations of Speech-to-Text」、Proc. LREC 2004

[17] S. Fitt、「なじみのないネイティブおよび非ネイティブの町名の発音」、Proc. of Eurospeech、1995年、2227-2230ページ。

[18] G. Stemmer、E. Noeth、H. Niemann、「ドイツ語音声認識システムにおける外国語の音響モデル化」、Proc. Eurospeech、P. Dalsgaard、B. Lindberg、H. Benner編、2001年、第4巻、2745-2748頁。

[19] W. Byrne、E. Knodt、S. Khudanpur、J. Bernstein、「自動音声認識は非ネイティブ音声に対応できるか？ヒスパニック系英語会話のモデリングにおけるデータ収集と初期実験」、STiLL、マルホルメン、スウェーデン、1998年、37-40頁。

[20] Y. Li、P. Fung、P. Xu、Y. Liu、「混合言語音声認識のための非対称音響モデリング」、ICASSP、プラハ、チェコ、2011年、37-40頁。

[21] V. Fischer、E. Janke、S. Kunzmann、「多言語音響モデルによる非ネイティブ音声のデコードにおける最近の進歩」、Eurospeech誌、2003年、3105-3108頁。

[22] Nancy F. Chen、Rong Tong、Darren Wee、Peixuan Lee、Bin Ma、Haizhou Li、「iCALLコーパス：ヨーロッパ系非ネイティブスピーカーが話す中国語」、Proc. of Interspeech、2015年。

[23] Nancy F. Chen、Vivaek Shivakumar、Mahesh Harikumar、Bin Ma、Haizhou Li.ヨーロッパ言語のネイティブスピーカーによる中国語発音誤りの大規模特徴づけ、Interspeech誌、2013年。

[24] W. Menzel、E. Atwell、P. Bonaventura、D. Herron、P. Howarth、R. Morton、C. Souter、「 The ISLE corpus of non-native spoken English」、LREC、アテネ、ギリシャ、2000年、957-963頁。

[25] K. Livescu、「自動音声認識のための非ネイティブ音声の分析とモデリング」、修士論文、マサチューセッツ工科大学、マサチューセッツ州ケンブリッジ、1999年。

[26] SC. Rhee、SH. Lee、SK. Kang、YJ. Lee、「韓国語-英語口語コーパス（K-SEC）の設計と構築」、Proc. ICSLP 2004

[27] L. Tomokiyo、「非ネイティブ音声の認識：音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。

[28] Gut, U.,『非母語話者スピーチ：コーパスに基づく第2言語英語とドイツ語の音韻論的・音声学的特性の分析』フランクフルト・アム・マイン：Peter Lang、2009年。

[29] TNOヒューマンファクター研究所、「Mist音声技術における多言語相互運用性データベース」、技術報告、ELRA、パリ、フランス、2007年、ELRAカタログ参照S0238。

[30] JC Segura他「HIWIREデータベース、コックピットコミュニケーションのためのノイズの多い非ネイティブ英語音声コーパス」、2007年、[3]。

[31] S. Pigeon、W. Shen、D. van Leeuwen、「非ネイティブの軍事航空交通通信データベースの設計と特性評価」、ICSLP、ベルギー、アントワープ、2007年。

[32] L. Benarousse他「NATOネイティブおよび非ネイティブ（n4）音声コーパス」、MISTワークショップ（ESCA-NATO）議事録、ルースデン、1999年9月。

[33] Onomastica Consortium、「ONOMASTICA 言語間発音辞書」、Proc. Eurospeech、マドリード、スペイン、1995年、829-832頁。

[34] C. Hacker、T. Cincarek、A. Maier、A. Hessler、E. Noeth、「非ネイティブ児童の発音間違いを検出するための韻律と発音の特徴のブースティング」、ICASSP会議論文集、ホノルル、ハワイ、2007年、197-200頁。

[35] C. Teixeira、I. Trancoso、および A. Serralheiro、非ネイティブアクセントの認識、Proc. Eurospeech、ロードス島、ギリシャ、1997 年、2375-2378 ページ。

[36] H. Heuvel、K. Choukri、C. Gollan、A. Moreno、および D. Mostefa、 TC-STAR: ASR および SLT 目的の新しい言語リソース、LREC、ジェノヴァ、2006 年、2570-2573 ページ。

[37] LF Lamel、F. Schiel、A. Fourcin、J. Mariani、H. Tillmann、「The translanguage English database TED」、ICSLP、横浜、日本、1994年9月。

[38] N. Mote、L. Johnson、A. Sethy、J. Silva、およびS. Narayanan、「戦術的言語検出および学習者の発話エラーのモデリング：アメリカ英語話者に対するアラビア語の戦術的言語トレーニングの事例」、Proc. of InSTIL、2004年6月。

[39] 仁科健、「CALLシステム構築のための非母語話者による日本語音声データベースの開発」、ICA、京都、日本、2004年、pp.561-564。

[40] ミュンヘン大学、Verbmobilプロジェクト、[4]。

[41] I. Trancoso、C. Viana、I. Mascarenhas、C. Teixeira、「ナビゲーションクエリにおけるネイティブ化発音のルールの導出について」、Proc. Eurospeech、1999年。

[42] A. LaRoccaとR. Chouairi、「West point Arabic speech corpus」、Tech. Rep.、LDC、フィラデルフィア、ペンシルバニア州、2002年。

[43] A. LaRoccaとC. Tomei、「West point Russian speech corpus」、Tech. Rep.、LDC、フィラデルフィア、ペンシルバニア州、2003年。

[44] J. Morgan、「ウェストポイントの英雄的スペイン語スピーチ」、テック・レップ、LDC、フィラデルフィア、ペンシルバニア州、2006年。

[45] I. Amdal、F. Korkmazskiy、AC Surendran、「データ駆動型手法を用いた非ネイティブ話者の共同発音モデリング」、ICSLP、北京、中国、2000年、622-625頁。

[46] K. Livescu、「自動音声認識のための非ネイティブ音声の分析とモデリング」、修士論文、マサチューセッツ工科大学、ケンブリッジ、マサチューセッツ州、1999年。