非ネイティブ音声データベース

音声データベース

ネイティブ音声データベースとは、英語の非ネイティブ発音を収録した音声データベースです。このようなデータベースは、多言語自動音声認識システム、テキスト読み上げシステム、発音トレーナー、第二言語学習システムなどの開発に利用されています[1]

リスト

表1:表2で使用されている言語の略語
アラビア語 日本語 J
中国語 C 韓国語 K
チェコ語 チェコ語 マレーシア人 M
デンマーク語 D ノルウェー語
オランダ語 ダット ポルトガル語 P
英語 E ロシア R
フランス語 F スペイン語 S
ドイツ語 G スウェーデン語 スウェーデン
ギリシャ語 グレ タイ語 T
インドネシア語 工業 ベトナム語 V
イタリア語    


さまざまなデータベースに関する情報を含む実際のテーブルを表 2 に示します。

表2:非ネイティブデータベースの概要
コーパス 著者 入手可能 言語 #スピーカー 母国語 #うっと。 間隔 日付 備考
AMI [2] 欧州連合 E ダットとその他 100時間 会議の録音
ATR-Gruhn [3] グルン ATR E 96 CGFJインダストリー 15000   2004 熟練度評価
BAS ストレンジコーパス 1+10 [4]   エルラ G 139 50カ国 7500   1998  
バークレーレストラン[5] 顕微授精 E 55 GIHCFSJ 2500 1994  
放送ニュース[6]   LDC E         1997  
ケンブリッジ・ウィット[7] ウィット ケンブリッジ大学 E 10 ジクス 1200   1999  
ケンブリッジ・イェ[8] イェ ケンブリッジ大学 E 20 C 1600   2005  
子どもニュース[9] 友清 カーネギーメロン大学 E 62 JC 7500   2000 部分的に自発的な
クリップス・イメージ[10] タン クリップスイメージ F 15 履歴書   6時間 2006  
CLSU [11]   LDC E   22カ国 5000   2007 電話、自発的
CMU [12]   カーネギーメロン大学 E 64 G 452 0.9時間   利用不可
クロスタウンズ[13] シャーデン U.ボーフム EFGI チェコ・ダット 161 EFGIS 72000 133時間 2006 都市名
アルスラーン公爵[14] アルスラン デューク大学 E 93 15カ国 2200   1995 部分的に電話での会話
ERJ [15] 峰松 東京大学 E 200 J 68000   2002 熟練度評価
フィッシャー[16] LDC E 多くの 200時間 電話での会話
フィット[17] フィット エディンバラ大学 フィングレ 10 E 700   1995 都市名
フランキ[18]   U. エアランゲン E 19 G 2148      
ヒスパニック系[19] バーン   E 22 S   20時間 1998 部分的に自発的な
HLTC [20]   香港科技大学 E 44 C   3時間 2010 リクエストに応じて利用可能
IBM-フィッシャー[21]   IBM E 40 SFGI 2000   2002 数字
アイコール[22] [23] チェン I 2 R、A*STAR C 305 24か国 90841 142時間 2015 音声および声調表記(ピンイン)、能力評価
アイル[24] アトウェル EU/ELDA E 46 消化管 4000 18時間 2000  
木星[25] ズー マサチューセッツ工科大学 E 未知 未知 5146   1999 電話での会話
K-SEC [26] リー シテック E 未知 K     2004
LDC WSJ1 [27]   LDC   10   800 1時間 1994  
リープ[28] ミュンスター大学 例えば 127 41種類 73.941語 12時間 2003  
ミスト[29]   エルラ EFG 75 ダット 2200   1996  
NATOハイワイヤー[30]   NATO E 81 FグレIS 8100   2007 きれいな言葉遣い
NATO M-ATC [31] NATO E 622 FGIS 9833 17時間 2007 大きな背景ノイズ
NATO N4 [32]   NATO E 115 未知   7.5時間 2006 大きな背景ノイズ
オノマスティカ[33]     D Dut EFG Gre INPS Swe   (121000)   1995 語彙のみ
PF-STAR [34]   U. エアランゲン E 57 G 4627 3.4時間 2005 子供のスピーチ
サンスター[35]   欧州連合 E 100 GSIPD 40000   1992 国会演説
TC-STAR [36] ヒューベル エルダ ES 未知 EU諸国   13時間 2006 複数のデータセット
TED [37] ラメル エルダ E 40(188) 多くの   10時間(47時間) 1994 ユーロスピーチ 93
TLTS [38]   DARPA   E   1時間 2004  
東京菊子[39]   東京大学 J 140 10カ国 35000   2004 熟練度評価
動詞モービル[40]   ミュンヘン大学 E 44 G   1.5時間 1994 とても自発的
ヴォディス[41]   欧州連合 FG 178 FG 2500   1998 カーナビゲーションについて
WPアラビア語[42] ロッカ LDC 35 E 800 1時間 2002  
WPロシア語[43] ロッカ LDC R 26 E 2500 2時間 2003  
WPスペイン語[44] モーガン LDC S   E     2006  
WSJスポークス[45]     E 10 未知 800   1993  


伝説

非ネイティブ データベースの表では、言語名の略語がいくつか使用されています。これらは表 1 にリストされています。表 2 には、各コーパスに関する次の情報が示されています: コーパスの名前、コーパスを入手できる (または少なくとも詳細情報を入手できる) 機関、話者が実際に話した言語、話者数、話者の母国語、コーパスに含まれる非ネイティブ発話の総量、非ネイティブ部分の長さ (時間単位)、このコーパスが初めて公的に参照された日付、このデータベースの特別な側面を強調する自由記述、および他の出版物への参照。最後のフィールドの参照は、ほとんどの場合、元の収集者がこのコーパスを特に説明した論文への参照です。場合によっては、そのような論文を特定できないことがあります。その場合は、このコーパスを使用している論文が参照されます。

一部のエントリは空白のままで、その他のエントリは不明とマークされています。これらの違いは、空白のエントリは値が不明な属性を指すという点です。一方、不明のエントリは、その属性に関する情報がデータベース自体に存在しないことを示しています。例えば、木星の天気データベース[46]では、話者の出身地に関する情報は提供されていません。したがって、このデータはアクセント検出などの検証にはあまり役立ちません。

可能な限り、名称はコーパスの標準名称を使用しますが、一部の小規模なコーパスについては、名称が確立されておらず、識別子を作成する必要がありました。そのような場合は、データベースの機関と収集者の組み合わせを使用します。

データベースに母語話者と非母語話者の音声が含まれている場合、コーパスのうち非母語話者部分の属性のみが記載されています。コーパスの大部分は読み上げ音声のコレクションです。コーパスが一部または全部が自発的な発話で構成されている場合は、「Specials」列に記載されています。

参考文献

  1. ^ M. Raab、R. Gruhn、E. Noeth、「非ネイティブ音声データベース」、Proc. ASRU、京都、日本、2007年。
  2. ^ AMI プロジェクト、「AMI 会議コーパス」[1]。
  3. ^ R. Gruhn、T. Cincarek、S. Nakamura、「多アクセント非ネイティブ英語データベース」、日本音響学会誌、2004年。
  4. ^ ミュンヘン大学、「バイエルン音声信号アーカイブ奇妙なコーパス」、[2]。
  5. ^ Jurafsky他、「The Berkeley Restaurant Project」、ICSLP 1994年論文集。
  6. ^ L. Tomokiyo、「非ネイティブ音声の認識:音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。
  7. ^ S. Witt、「コンピュータ支援言語学習における音声認識の利用」、博士論文、ケンブリッジ大学工学部、英国、1999年。
  8. ^ H. YeとS. Young、「言語学習のための音声会話インタラクションにおける初心者の音声認識パフォーマンスの向上」、Proc. Interspeech、リスボン、ポルトガル、2005年。
  9. ^ L. Tomokiyo、「非ネイティブ音声の認識:音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。
  10. ^ TP TanとL. Besacier、「自動音声認識のためのフランス語非ネイティブコーパス」、LREC、ジェノバ、イタリア、2006年。
  11. ^ T. Lander, CSLU: Foreign accented English release 1.2 , Tech. Rep., LDC, Philadelphia, Pennsylvania, 2007.
  12. ^ Z. Wang、T. Schultz、A. Waibel、「非ネイティブ音声に対する音響モデル適応技術の比較」、Proc. ICASSP、2003年。
  13. ^ S. Schaden、 Regelbasierte Modellierung fremdsprachlich akzentbehaftteter Aussprachevarianten、Ph.D.論文、デュイスブルク・エッセン大学、2006 年。
  14. ^ LM ArslanとJH Hansen、「外国語訛りの音声の周波数特性」 、 ICASSP Proc. 、ミュンヘン、ドイツ、1997年、pp. 1123-1126。
  15. ^ N. Minematsu 他「 CALL研究を支援するための日本人による英語音声データベースの開発」 ICA、京都、日本、2004年、577-560頁。
  16. ^ Christopher Cieri、David Miller、Kevin Walker、「 The Fisher Corpus: a Resource for the Next Generations of Speech-to-Text」、Proc. LREC 2004
  17. ^ S. Fitt、「なじみのないネイティブおよび非ネイティブの町名の発音」、Proc. of Eurospeech、1995年、2227-2230ページ。
  18. ^ G. Stemmer、E. Noeth、H. Niemann、「ドイツ語音声認識システムにおける外国語の音響モデル化」、Proc. Eurospeech、P. Dalsgaard、B. Lindberg、H. Benner編、2001年、第4巻、2745-2748頁。
  19. ^ W. Byrne、E. Knodt、S. Khudanpur、J. Bernstein、「自動音声認識は非ネイティブ音声に対応できるか?ヒスパニック系英語会話のモデリングにおけるデータ収集と初期実験」、STiLL、マルホルメン、スウェーデン、1998年、37-40頁。
  20. ^ Y. Li、P. Fung、P. Xu、Y. Liu、「混合言語音声認識のための非対称音響モデリング」、ICASSP、プラハ、チェコ、2011年、37-40頁。
  21. ^ V. Fischer、E. Janke、S. Kunzmann、「多言語音響モデルによる非ネイティブ音声のデコードにおける最近の進歩」、Eurospeech誌、2003年、3105-3108頁。
  22. ^ Nancy F. Chen、Rong Tong、Darren Wee、Peixuan Lee、Bin Ma、Haizhou Li、「iCALLコーパス:ヨーロッパ系非ネイティブスピーカーが話す中国語」、Proc. of Interspeech、2015年。
  23. ^ Nancy F. Chen、Vivaek Shivakumar、Mahesh Harikumar、Bin Ma、Haizhou Li.ヨーロッパ言語のネイティブスピーカーによる中国語発音誤りの大規模特徴づけ、Interspeech誌、2013年。
  24. ^ W. Menzel、E. Atwell、P. Bonaventura、D. Herron、P. Howarth、R. Morton、C. Souter、「 The ISLE corpus of non-native spoken English」、LREC、アテネ、ギリシャ、2000年、957-963頁。
  25. ^ K. Livescu「自動音声認識のための非ネイティブ音声の分析とモデリング」、修士論文、マサチューセッツ工科大学、マサチューセッツ州ケンブリッジ、1999年。
  26. ^ SC. Rhee、SH. Lee、SK. Kang、YJ. Lee、「韓国語-英語口語コーパス(K-SEC)の設計と構築」、Proc. ICSLP 2004
  27. ^ L. Tomokiyo、「非ネイティブ音声の認識:音声認識における非ネイティブ語法の特徴付けと適応」、博士論文、カーネギーメロン大学、ペンシルバニア州、2001年。
  28. ^ Gut, U.,『非母語話者スピーチ:コーパスに基づく第2言語英語とドイツ語の音韻論的・音声学的特性の分析』フランクフルト・アム・マイン:Peter Lang、2009年。
  29. ^ TNOヒューマンファクター研究所、「Mist音声技術における多言語相互運用性データベース」、技術報告、ELRA、パリ、フランス、2007年、ELRAカタログ参照S0238。
  30. ^ JC Segura他「HIWIREデータベース、コックピットコミュニケーションのためのノイズの多い非ネイティブ英語音声コーパス」、2007年、[3]。
  31. ^ S. Pigeon、W. Shen、D. van Leeuwen、「非ネイティブの軍事航空交通通信データベースの設計と特性評価」、ICSLP、ベルギー、アントワープ、2007年。
  32. ^ L. Benarousse他「NATOネイティブおよび非ネイティブ(n4)音声コーパス」、MISTワークショップ(ESCA-NATO)議事録、ルースデン、1999年9月。
  33. ^ Onomastica Consortium、「ONOMASTICA 言語間発音辞書」、Proc. Eurospeech、マドリード、スペイン、1995年、829-832頁。
  34. ^ C. Hacker、T. Cincarek、A. Maier、A. Hessler、E. Noeth、「非ネイティブ児童の発音間違いを検出するための韻律と発音の特徴のブースティング」、ICASSP会議論文集、ホノルル、ハワイ、2007年、197-200頁。
  35. ^ C. Teixeira、I. Trancoso、および A. Serralheiro、非ネイティブアクセントの認識、Proc. Eurospeech、ロードス島、ギリシャ、1997 年、2375-2378 ページ。
  36. ^ H. Heuvel、K. Choukri、C. Gollan、A. Moreno、および D. Mostefa、 TC-STAR: ASR および SLT 目的の新しい言語リソース、LREC、ジェノヴァ、2006 年、2570-2573 ページ。
  37. ^ LF Lamel、F. Schiel、A. Fourcin、J. Mariani、H. Tillmann、「The translanguage English database TED」、ICSLP、横浜、日本、1994年9月。
  38. ^ N. Mote、L. Johnson、A. Sethy、J. Silva、およびS. Narayanan、「戦術的言語検出および学習者の発話エラーのモデリング:アメリカ英語話者に対するアラビア語の戦術的言語トレーニングの事例」、Proc. of InSTIL、2004年6月。
  39. ^ 仁科 健、「CALLシステム構築のための非母語話者による日本語音声データベースの開発」、ICA、京都、日本、2004年、pp.561-564。
  40. ^ ミュンヘン大学、Verbmobilプロジェクト、[4]。
  41. ^ I. Trancoso、C. Viana、I. Mascarenhas、C. Teixeira、「ナビゲーションクエリにおけるネイティブ化発音のルールの導出について」、Proc. Eurospeech、1999年。
  42. ^ A. LaRoccaとR. Chouairi、「West point Arabic speech corpus」、Tech. Rep.、LDC、フィラデルフィア、ペンシルバニア州、2002年。
  43. ^ A. LaRoccaとC. Tomei、「West point Russian speech corpus」、Tech. Rep.、LDC、フィラデルフィア、ペンシルバニア州、2003年。
  44. ^ J. Morgan、「ウェストポイントの英雄的スペイン語スピーチ」、テック・レップ、LDC、フィラデルフィア、ペンシルバニア州、2006年。
  45. ^ I. Amdal、F. Korkmazskiy、AC Surendran、「データ駆動型手法を用いた非ネイティブ話者の共同発音モデリング」、ICSLP、北京、中国、2000年、622-625頁。
  46. ^ K. Livescu、「自動音声認識のための非ネイティブ音声の分析とモデリング」、修士論文、マサチューセッツ工科大学、ケンブリッジ、マサチューセッツ州、1999年。
「https://en.wikipedia.org/w/index.php?title=Non-native_speech_database&oldid=1263314512」より取得