調音合成

音声合成のための計算技術
調音合成のための3D声道モデル 子音母音結合モデリングに基づいて、ドイツ語の文章「 Lea und Doreen mögen Bananen.」が、基本周波数と音韻継続時間の観点から自然に話された文章から再現されました。 [1]

調音合成とは、人間の声道モデルとそこで起こる調音過程に基づいて音声を合成する計算技術を指します。声道の形状は様々な方法で制御可能であり、通常は、唇といった調音器官の位置を変化させます。音声は、声道モデルを通して空気の流れをデジタル的にシミュレートすることで生成されます。

機械仕掛けのトーキングヘッド

機械的な「トーキング・ヘッド」を作ろうとする試みには長い歴史があります[2] ゲルベルト(1003年没)、アルベルトゥス・マグヌス(1198年~1280年)、ロジャー・ベーコン(1214年~1294年)はいずれもトーキング・ヘッドを製作したと言われています(Wheatstone 1837)。しかし、歴史的に確認されている音声合成の始まりは、ヴォルフガング・フォン・ケンペレン(1734年~1804年)で、彼は1791年に自身の研究成果を発表しました(Dudley & Tarnoczy 1950も参照)。

電気的な声道類似体

最初の電気的な声道類似体は、Dunn (1950)、Ken Stevensとその同僚 (1953)、Gunnar Fant (1960) らによるもののように静的なものでした。Rosen (1958) は動的な声道 (DAVO) を構築し、後に Dennis (1963) がそれをコンピュータで制御しようと試みました。Dennis ら (1964)、Hiki ら (1968)、Baxter と Strong (1969) もハードウェアによる声道類似体を説明しています。Kelly と Lochbaum (1962) は最初のコンピュータ シミュレーションを行い、その後、Nakata と Mitsuoka (1965)、Matsui (1968)、Paul Mermelstein (1971) などによってデジタル コンピュータ シミュレーションが行われました。Honda ら (1968) はアナログ コンピュータシミュレーションを行いました。

ハスキンズと前田のモデル

実験室実験で定期的に使用された最初のソフトウェア調音合成装置は、1970年代半ばにハスキンズ研究所でフィリップ・ルービン、トム・ベア、ポール・マーメルスタインによって開発されました。ASY [3]として知られるこの合成装置は、ベル研究所で1960年代から1970年代にかけてポール・マーメルスタイン、セシル・コーカーらによって開発された発声器官モデルに基づいた音声生成の計算モデルでした。他に頻繁に使用されている人気の高いモデルは、因子ベースアプローチを用いて舌の形状を制御する前田真治のモデルです。

現代のモデル

音声生成イメージング、調音制御モデリング、舌のバイオメカニクスモデリングにおける近年の進歩により、調音合成の実行方法に変化が生じている [1] [リンク切れ] 。例としては、 Philip Rubin、Mark Tiede [2]が設計したHaskins CASY モデル (Configurable Articulatory Synthesis) [4]や、中矢状方向の声道と実際の磁気共鳴画像(MRI) データを照合し、MRI データを使用して声道の 3D モデルを構築する Louis Goldstein [3] などがある。完全な 3D 調音合成モデルは、Olov Engwall によって説明されている。幾何学に基づく 3D 調音音声合成装置は、Peter Birkholz (VocalTractLab [5] )によって開発されているDIVA(Directions Into Velocities of Articulators)モデルは発声生成の基礎となる神経計算を考慮したフィードフォワード制御アプローチであり、ボストン大学Frank H. Guentherによって開発されました。 [6]ブリティッシュコロンビア大学のSidney Fels [4]が率いるArtiSynthプロジェクトは、人間の声道と上気道の3Dバイオメカニクスモデリングツールキットです。などの調音器官のバイオメカニクスモデリングは、Reiner Wilhelms-Tricarico [5]、Yohan Payan [6]、Jean-Michel Gerard [7]、Jianwu Dang、Kiyoshi Honda [8]など、多くの科学者によって開拓されてきました。

商業モデル

数少ない商用調音音声合成システムの一つが、NeXTベースのシステムである。これは元々、カルガリー大学からスピンオフした企業であるTrillium Sound Researchによって開発・販売された。同社は元々、この研究の多くがカルガリー大学で行われた。NeXT様々な派生版1980年代後半にスティーブ・ジョブズによって設立され、1997年にアップルコンピュータと合併)の終焉後、TrilliumソフトウェアはGNU General Public Licenseの下で公開され、 gnuspeechとして開発が継続された。1994年に初めて販売されたこのシステムは、ルネ・カレの「特徴領域モデル」によって制御される人間の口腔と鼻腔の導波管または伝送線路アナログを用いて、完全な調音ベースのテキストから音声への変換を提供する。[7]

参照

脚注

  1. ^ Birkholz, Peter (2013). 「調音音声合成のための子音・母音結合のモデリング」. PLOS ONE . 8 (4) e60603. Bibcode :2013PLoSO...860603B. doi : 10.1371/journal.pone.0060603 . PMC 3628899. PMID  23613734 .  
  2. ^ “トーキング・ヘッズ”. 2006年12月7日時点のオリジナルよりアーカイブ2006年12月6日閲覧。
  3. ^ ASY
  4. ^ “CASY”. 2006年8月28日時点のオリジナルよりアーカイブ2006年12月6日閲覧。
  5. ^ ボーカルトラクトラボ
  6. ^ アーティシンス
  7. ^ リアルタイム調音規則音声合成

参考文献

  • バクスター、ブレント、ウィリアム・J・ストロング (1969). WINDBAG—声道型アナログ音声合成装置.アメリカ音響学会誌, 45, 309(A).
  • Birkholz P, Jackel D, Kröger BJ (2007) 時間変動音声システムにおける乱流損失のシミュレーション。IEEE Transactions on Audio, Speech, and Language Processing 15: 1218-1225
  • Birkholz P, Jackel D, Kröger BJ (2006) 三次元声道モデルの構築と制御.国際音響・音声・信号処理会議 (ICASSP 2006) (トゥールーズ、フランス) pp. 873–876
  • Coker. CH (1968). パラメトリック調音モデルを用いた音声合成. Proc. Speech. Symp., 京都, 日本, 論文A-4.
  • Coker, CH (1976). 「調音ダイナミクスと制御のモデル」. Proceedings of the IEEE 64 ( 4): 452– 460. doi :10.1109/PROC.1976.10154. S2CID  1412611.
  • コーカー、藤村、理 (1966). 「声道面積関数の規定のためのモデル」アメリカ音響学会誌. 40 (5): 1271. Bibcode :1966ASAJ...40.1271C. doi : 10.1121/1.2143456 .
  • デニス、ジャック・B. (1963). アナログ発声器官のコンピュータ制御.アメリカ音響学会誌, 35, 1115(A).
  • ダドリー、ホーマー;タルノツィ、トーマス・H. (1950). 「ヴォルフガング・フォン・ケンペレンの音声機械」(PDF) .アメリカ音響学会誌. 22 (2): 151– 166.書誌コード:1950ASAJ...22..151D. doi :10.1121/1.1906583.
  • ダン、ヒュー・K. (1950). 「母音共鳴の計算と電気的発声器官」アメリカ音響学会誌. 22 (6): 740–53 . Bibcode :1950ASAJ...22..740D. doi :10.1121/1.1906681.
  • Engwall, O. (2003). MRI、EMA、EPG測定を組み合わせた3次元舌モデルの作成. Speech Communication, 41, 303–329.
  • ファント、C. グンナー・M. (1960).音声生成の音響理論. ハーグ、ムートン.
  • ガリエル、M. (1879)。 「M. ファーバーの機械」。J. Physique Théorique et Appliquée8 : 274– 5.土井:10.1051/jphystap:018790080027401。
  • Gerard, JM; Wilhelms-Tricarico, R.; Perrier, P.; Payan, Y. (2003). 「発話運動制御の研究のための3D動的バイオメカニクス舌モデル」(PDF) .バイオメカニクスにおける最近の研究開発. 1 : 49– 64.
  • ヘンケ, WL (1966). コンピュータシミュレーションを用いた音声生成の動的調音モデル. 未発表博士論文, MIT, Cambridge, MA.
  • 本田孝・井上誠一・小川康夫 (1968). 人間の声道シミュレータのハイブリッド制御システム.第6回国際音響会議報告,小橋雄一編,pp. 175–8.東京,国際学術連合会議.
  • ケリー、ジョン・L・ケリー、キャロル・ロックバウム (1962)。音声合成。音声通信セミナー議事録、論文F7。ストックホルム、王立工科大学音声伝送研究所。
  • ケンペレン、ヴォルフガング R. フォン。 (1791年)。 Maschine の詳細な制御機構。ウィーン、JB デゲン。
  • 前田 誠 (1988). 改良調音モデル.アメリカ音響学会誌, 84, Sup. 1, S146.
  • 前田 誠 (1990). 発話中の代償的構音:構音モデルを用いた声道形状の分析と合成による証拠. WJ Hardcastle, A. Marchal (編), Speech Production and Speech Modelling , Kluwer Academic, ドルドレヒト, 131–149.
  • 松井栄一 (1968). コンピュータシミュレーションによる発声器官.第6回国際音響会議報告, Y. Kohasi 編, pp. 151–4. 東京, 国際学術連合会議.
  • ポール・マーメルスタイン (1969). 音声生成における調音活動のコンピュータシミュレーション.人工知能に関する国際合同会議議事録, ワシントンD.C., 1969, DE WalkerとLM Norton編. ニューヨーク, Gordon & Breach.
  • マーメルスタイン, P. (1973). 「音声生成研究のための調音モデル」アメリカ音響学会誌. 53 (4): 1070– 1082. Bibcode :1973ASAJ...53.1070M. doi :10.1121/1.1913427. PMID  4697807.
  • 中田一夫、光岡毅(1965)「連続音声合成における音韻変換と制御」『J. Radio Res. Labs .』12171-86
  • Rahim, M.; Goodyear, C.; Kleijn, W.; Schroeter, J.; Sondhi, M. (1993). 「調音音声合成におけるニューラルネットワークの利用について」アメリカ音響学会誌. 93 (2): 1109– 1121. Bibcode :1993ASAJ...93.1109R. doi :10.1121/1.405559. S2CID  120130348.
  • ローゼン、ジョージ (1958). 「ダイナミックアナログ音声合成装置」.アメリカ音響学会誌. 30 (3): 201–9 . Bibcode :1958ASAJ...30..201R. doi :10.1121/1.1909541. hdl : 1721.1/118106 .
  • Rubin, PE; Baer,​​ T.; Mermelstein, P. (1981). 「知覚研究のための調音シンセサイザー」アメリカ音響学会誌. 70 (2): 321– 328. Bibcode :1981ASAJ...70..321R. doi :10.1121/1.386780.
  • Rubin, P., Saltzman, E., Goldstein, L., McGowan, R., Tiede, M., & Browman, C. (1996). CASYとタスクダイナミックモデルの拡張.第1回ESCA音声生成モデリングチュートリアルおよび研究ワークショップ - 第4回音声生成セミナー議事録, 125–128.
  • スティーブンス, ケネス・N.; カソウスキー, S.; ファント, C. グンナー・M. (1953). 「発声器官の電気的アナログ」アメリカ音響学会誌. 25 (4): 734–42 . Bibcode :1953ASAJ...25..734S. doi :10.1121/1.1907169.
  • 「MRIと音響データから調音合成へ」。2007年8月14日時点のオリジナルよりアーカイブ。
  • 「スミソニアン音声合成史プロジェクト(SSSHP)1986-2002」。2013年10月3日時点のオリジナルよりアーカイブ。
  • 調音音声合成入門
  • YouTubeで歌唱ロボット Pavarobotti による模擬歌唱、またはYouTubeでロボットが歌を合成する方法に関するBBCの説明
  • ピンクトロンボーンの素手音声合成オンラインツールとYouTubeのデモンストレーションビデオクリップ
「https://en.wikipedia.org/w/index.php?title=Articulatory_synthesis&oldid=1314479159」より取得