音声合成とは、人間の音声を人工的に生成することです。この目的で使用されるコンピュータシステムは音声合成装置と呼ばれ、ソフトウェアまたはハードウェア製品に実装できます。音声合成(TTS )システムは、通常の言語テキストを音声に変換します。他のシステムは、音声転写などの記号的な言語表現を音声に変換します。 [ 1 ]逆のプロセスは音声認識です
合成音声は、データベースに保存された録音音声を連結することで作成できます。システムによって保存される音声単位のサイズは異なります。単音または二音を保存するシステムは、最も広い出力範囲を提供しますが、明瞭度が欠ける可能性があります。特定の使用分野では、単語全体または文全体を保存することで高品質の出力が可能になります。あるいは、合成装置に声道モデルやその他の人間の声の特徴を組み込むことで、完全に「合成」された音声出力を作成することもできます。[ 2 ]
音声合成装置の品質は、人間の声との類似性と、明瞭に理解できるかどうかで判断されます。明瞭な音声合成プログラムがあれば、視覚障害や読書障害のある人も家庭用コンピュータで文字を聴くことができます。音声合成装置を搭載した最も古いコンピュータオペレーティングシステムは、1974年のUnixで、Unix Speakユーティリティを通じて搭載されました。[ 3 ] 2000年には、Microsoft Samがナレーターアクセシビリティ機能で使用されるデフォルトの音声合成装置となり、すべてのWindows 2000オペレーティングシステムとその後のWindows XPシステムに搭載されました。

テキスト読み上げシステム(または「エンジン」)は、フロントエンドとバックエンドの2つの部分から構成されます。 [ 4 ]フロントエンドには2つの主要なタスクがあります。まず、数字や略語などの記号を含む生のテキストを、書き言葉に相当する単語に変換します。このプロセスは、テキスト正規化、前処理、またはトークン化と呼ばれることがよくあります。次に、フロントエンドは各単語に音声転写を割り当て、テキストを句、節、文などの韻律単位に分割してマーク付けします。単語に音声転写を割り当てるプロセスは、テキストから音素への変換、または書記素から音素への変換と呼ばれます。音声転写と韻律情報は、フロントエンドによって出力される記号言語表現を構成します。バックエンド(シンセサイザーと呼ばれることが多い)は、記号言語表現を音声に変換します。いくつかのシステムでは、この部分にはターゲット韻律(ピッチパターン、音素継続時間)の計算が含まれており、 [ 5 ]それが出力音声に適用されます。
電子信号処理が発明されるずっと以前から、人間の音声を模倣する機械を作ろうとする人がいました。[ 6 ]また、「真鍮の頭」の存在に関する伝説もあり、教皇シルウェステル2世(1003年没)、アルベルトゥス・マグヌス(1198年~1280年)、ロジャー・ベーコン(1214年~1294年)などがその例として挙げられます。[ 7 ]
1779年、ドイツ系デンマーク人科学者クリスティアン・ゴットリープ・クラッツェンシュタインは、ロシア帝国科学芸術アカデミーが開催したコンクールで、 5つの長母音(国際音声記号表記:[aː]、[eː]、[iː]、[oː]、[ uː])を発音できる人間の発声器官の模型を製作し、一等賞を受賞した。[ 8 ]その後、ハンガリーのプレスブルク出身のヴォルフガング・フォン・ケンペレンが1791年の論文で、ふいごで操作する「音響機械式発声装置」について説明した。 [ 9 ]この装置は舌と唇の模型を追加することで、母音だけでなく子音も発音できるようになった。1837年、チャールズ・ホイートストンはケンペレンの設計を基に「発声装置」を製作し、1846年にはジョセフ・ファーバーが「ユーフォニア」を発表した。 1923年、パジェットはホイートストンの設計を復活させた。[ 10 ]
1930年代、ベル研究所は音声を基本音と共鳴に自動的に分析するボコーダーを開発しました。ホーマー・ダドリーはボコーダーの研究を基に、キーボード操作による音声合成装置「ヴォーダー(Voice Demonstrator)」を開発し、 1939年のニューヨーク万国博覧会で展示しました。
フランクリン・S・クーパー博士とハスキンズ研究所の同僚たちは、1940年代後半にパターン再生装置を開発し、1950年に完成させました。このハードウェア装置にはいくつかの異なるバージョンが存在しましたが、現在残っているのは1つだけです。この装置は、音声の音響パターンをスペクトログラムの形で記録し、それを音に変換します。アルヴィン・リバーマンと同僚たちは、この装置を用いて、音声セグメント(子音と母音) の知覚に関わる音響的な手がかりを発見しました。
.jpg/440px-Computer_and_speech_synthesiser_housing,_19_(9663804888).jpg)
最初のコンピュータベースの音声合成システムは、1950年代後半に誕生しました。梅田典子らは、 1968年に日本の電気技術総合研究所で、最初の汎用英語テキスト音声合成システムを開発しました。 [ 11 ] 1961年には、物理学者のジョン・ラリー・ケリー・ジュニアと同僚のルイス・ガーストマン[ 12 ]がIBM 704コンピュータを使用して音声を合成しました。これは、ベル研究所の歴史の中でも最も有名な出来事の一つです。ケリーのボイスレコーダーシンセサイザー(ボコーダー)は、マックス・マシューズの伴奏で、 「デイジー・ベル」という曲を再現しました。偶然にも、アーサー・C・クラークは、ベル研究所のマレーヒル施設で友人で同僚のジョン・ピアースを訪ねていました。クラークはこのデモンストレーションに非常に感銘を受け、小説『2001年宇宙の旅』の脚本のクライマックスシーンでこのデモンストレーションを使用した。 [ 13 ]そこでは、宇宙飛行士のデイブ・ボーマンがHAL9000コンピューターを眠らせるとき、HAL9000コンピューターが同じ歌を歌う。 [ 14 ]純粋に電子的な音声合成の成功にもかかわらず、機械式音声合成装置の研究は続けられている。[ 15 ]
音声符号化の一種である線形予測符号化(LPC)は、1966年に名古屋大学の板倉文忠と日本電信電話(NTT)の斉藤周三の研究により開発が始まりました。LPC技術は、1970年代にベル研究所のビシュヌ・S・アタルとマンフレッド・R・シュローダーによってさらに開発されました。[ 16 ] LPCは後に、1978年のスピーク&スペル玩具で使用されたテキサス・インスツルメンツLPC音声チップなどの初期の音声合成チップの基礎となりました。
1975年、板倉文忠はNTT在籍中に、高圧縮音声符号化のための線スペクトル対(LSP)方式を開発した。 [ 17 ] [ 18 ] [ 19 ] 1975年から1981年にかけて、板倉はLSP方式に基づく音声分析と合成の問題を研究した。[ 19 ] 1980年、彼のチームはLSPベースの音声合成チップを開発した。LSPは音声合成と符号化のための重要な技術であり、1990年代にはほとんどすべての国際音声符号化規格に必須の要素として採用され、携帯電話やインターネットを介したデジタル音声通信の機能強化に貢献した。[ 18 ]
1975年に発売されたMUSAは、世界初の音声合成システムの一つでした。MUSAはスタンドアロンのコンピュータハードウェアと、イタリア語の読み上げを可能にする専用ソフトウェアで構成されていました。1978年に発売された第2版では、アカペラでイタリア語を歌うことも可能でした。[ 20 ]
1980年代と1990年代に主流だったシステムは、主にMITのデニス・クラットの研究に基づいたDECtalkシステムとベル研究所のシステムでした。[ 21 ]後者は、自然言語処理手法を広範に使用した、最初の多言語非依存システムの1つでした。


音声合成機能を搭載した携帯型電子機器は1970年代に登場し始めた。初期の製品の一つは、 1976年にテレセンソリー・システムズ社(TSI)が視覚障害者向けに発売したSpeech+ポータブル計算機である。 [ 22 ] [ 23 ]テキサス・インスツルメンツ社が1978年に発売したおもちゃのSpeak & Spellのように、主に教育目的の機器もあった。[ 24 ]フィデリティ社は1979年に、音声付き電子チェスコンピュータを発売した。[ 25 ]音声合成機能を搭載した最初のビデオゲームは、サン電子社が1980年に発売したシューティングゲーム「ストラトボックス」(日本では「スピーク&レスキュー」として知られている)である。[ 26 ] [ 27 ]音声合成機能を搭載した最初のパソコンゲームは、1980年にPET 2001向けにリリースされた『万引き少女』である。このゲームの開発者である鈴木寛氏は、合成音声波形を生成するための「ゼロクロス」プログラミング手法を開発した。 [ 28 ]もう1つの初期の例として、アーケード版の『ベルゼルク』も1980年に登場した。ミルトン・ブラッドリー社は同年 、音声合成機能を搭載した最初のマルチプレイヤー電子ゲーム『ミルトン』を制作した。
1976年、コンピュトーカー・コンサルタンツはCT-1音声合成装置を発売した。D・ロイド・ライスとジム・クーパーによって設計されたこの装置は、S-100バス規格を採用したマイクロコンピュータで動作するように設計されたアナログ合成装置であった。[ 29 ]
1990年にAT&Tベル研究所のアン・シルダルが女性の声を作り出すまで、合成音声は一般的に男性の声に聞こえた。 [ 30 ]
カーツワイルは2005年に、コストパフォーマンスの向上により音声合成装置が安価になり、より入手しやすくなるため、より多くの人々が音声合成プログラムの使用から恩恵を受けるだろうと予測した。[ 31 ]
2016年9月、DeepMindはWaveNetをリリースし、ディープラーニングモデルが生の波形をモデル化し、スペクトログラムやメルスペクトログラムなどの音響特徴から音声を生成できることを実証し、ディープラーニング音声合成の分野を切り開いた。WaveNetは当初、消費者向け製品で使用するには計算コストが高く、速度が遅いと考えられていたが、リリースから1年後、DeepMindは「Parallel WaveNet」として知られるWaveNetの修正版を発表した。これは、オリジナルよりも1,000倍高速な製品モデルである。[ 32 ]これに続いて、 Google AIのTacotron 2が2018年にリリースされ、ニューラルネットワークは非常に自然な音声合成を生成できるが、許容できる品質を達成するには通常数十時間もの音声に及ぶ大量のトレーニングデータが必要であることが実証された。Tacotron 2は、入力テキストをメルスペクトログラムに変換するためのアテンションメカニズムを備えたオートエンコーダアーキテクチャを採用し、メルスペクトログラムは別のニューラルボコーダを使用して波形に変換された。 2時間の音声などのより小さなデータセットで訓練すると、出力品質は低下しましたが、それでも理解可能な音声は維持できました。わずか24分の訓練データでは、Tacotron 2は理解可能な音声を生成できませんでした。[ 33 ]
2019年、マイクロソフトリサーチは、 Tacotron 2のような自己回帰モデルの速度制限に対処するFastSpeechを発表しました。[ 34 ]同年には、HiFi-GANがリリースされました。これは、生成的敵対ネットワーク(GAN)ベースのボコーダーで、波形生成の効率を向上させながら高忠実度の音声を生成します。[ 35 ] 2020年には、Glow-TTSのリリースにより、高速推論と音声スタイル転送機能の両方を可能にするフローベースのアプローチが導入されました。 [ 36 ]
2020年3月、無料のテキスト読み上げウェブサイト15.aiが開設されました。15.aiは、最小限のデータ量で人気メディアの架空のキャラクターの感情表現豊かなスピーチを合成する機能により、2021年初頭に広く国際的に注目を集めました。[ 37 ] [ 38 ] [ 39 ] 15.aiの作成者は、15秒のトレーニングデータで人の声を完全に複製するのに十分であると述べています(そのため、「15.ai」という名前が付けられています)。これは、従来の数十時間というデータ要件から大幅に削減されたものです。[ 40 ] 15.aiは、ミームやコンテンツ作成におけるAI音声複製を普及させた最初のプラットフォームとして評価されています。[ 41 ] [ 42 ] [ 40 ] 2022年1月、音声合成NFT詐欺の最初の事例が発生しました。Voiceverseと呼ばれる暗号通貨会社が15.aiを使用して音声ラインを生成し、認識できないほど音程を上げ、それを自社技術の副産物として宣伝し、許可なくNFTとして販売したのです。 [ 43 ] [ 44 ] [ 45 ] [ 46 ]
2023年1月、ElevenLabsはブラウザベースのテキスト読み上げプラットフォームを発表しました。このプラットフォームは、高度なアルゴリズムを使用してテキストの文脈的側面を分析し、怒り、悲しみ、幸福、警戒などの感情を検出します。[ 47 ] [ 48 ] [ 49 ]このプラットフォームは、言語的コンテキストに基づいてイントネーションとペースを調整し、人間のような抑揚を持つリアルな音声を生成することができ、多言語音声生成や長編コンテンツ作成などの機能を提供します。[ 50 ] [ 51 ]
2024年3月、OpenAIは人間の声を複製するための15秒のベンチマークを確認しました。[ 52 ]しかし、彼らはその音声エンジンツールを一般公開するには「リスクが高すぎる」と判断し、プレビューのみをリリースし、技術を一般向けにリリースしないと述べました。[ 53 ]
音声合成システムにおいて最も重要な特性は、自然さと明瞭度です。[ 54 ]自然度は出力が人間の音声にどれだけ近いかを表し、明瞭度は出力がどれだけ容易に理解できるかを表します。理想的な音声合成装置は、自然さと明瞭度の両方を兼ね備えています。音声合成システムは通常、この両方の特性を最大限に高めようとします。
合成音声波形を生成する主要な技術は、連結合成とフォルマント合成の2つです。それぞれの技術には長所と短所があり、合成システムの用途によってどちらの手法が使用されるかが決まります。
連結合成は、録音された音声の断片を連結(つなぎ合わせる)ことを基本としています。一般的に、連結合成は最も自然な合成音声を生成します。しかし、音声の自然な変化と波形を分割する自動化技術の性質の違いにより、出力に聞き取れるグリッチが生じることがあります。連結合成には主に3つのサブタイプがあります
単位選択合成では、録音された音声の大規模なデータベースを使用します。データベース作成中に、録音された各発話は、以下の一部またはすべてに分割されます。個々の音素、二重音素、半音素、音節、形態素、単語、句、文。通常、セグメントへの分割は、「強制アライメント」モードに設定された特別に改造された音声認識装置を使用して行われ、その後、波形やスペクトログラムなどの視覚的表現を用いて手動で修正されます。[ 55 ]次に、基本周波数(ピッチ)、持続時間、音節内の位置、隣接する音素などのセグメンテーションと音響パラメータに基づいて、音声データベース内の単位のインデックスが作成されます。実行時に、データベースから最適な候補単位の連鎖を決定する(単位選択)ことによって、目的のターゲット発話が作成されます。 このプロセスは通常、特別に重み付けされた決定木を使用して実現されます
単位選択は、録音された音声に少量のデジタル信号処理(DSP)のみを適用するため、最も自然な音声を実現します。DSPは録音された音声の自然な響きを損なうことがよくありますが、一部のシステムでは、波形を滑らかにするために連結時に少量の信号処理を行います。最高の単位選択システムの出力は、特にTTSシステムが調整されているコンテキストにおいては、実際の人間の声と区別がつかないことがよくあります。しかし、最大限の自然さを実現するには通常、単位選択音声データベースが非常に大規模になり、システムによっては数十時間分の音声に相当するギガバイト単位の録音データが必要になることもあります。[ 56 ]また、単位選択アルゴリズムは、データベース内により良い選択肢が存在する場合でも、理想的な合成結果が得られない場所(例えば、小さな単語が不明瞭になるなど)からセグメントを選択することが知られています。[ 57 ]最近、研究者たちは、単位選択音声合成システムにおける不自然なセグメントを検出するための様々な自動化手法を提案しています。[ 58 ]
二音合成では、言語で発生するすべての二音(音から音への遷移)を含む最小限の音声データベースを使用します。二音の数は、言語の音韻規則性によって異なります。たとえば、スペイン語には約 800 個の二音があり、ドイツ語には約 2500 個の二音があります。二音合成では、各二音の例が音声データベースに 1 つだけ含まれています。実行時に、文章の対象韻律は、線形予測符号化、PSOLA [ 59 ]、MBROLA [ 60 ]などのデジタル信号処理技術、または離散コサイン変換を使用したソース領域でのピッチ変更などの最近の技術によって、これらの最小限の単位に重ね合わされます。[ 61 ]二音合成は、連結合成の音響グリッチとフォルマント合成のロボットのような響きの影響を受け、サイズが小さいことを除いて、どちらのアプローチの利点もほとんどありません。そのため、商用アプリケーションでの使用は減少しているものの、無料で利用できるソフトウェア実装が多数存在するため、研究分野では引き続き使用されている。ディフォン合成の初期の例としては、マイケル・J・フリーマンが発明した教育ロボット「リーチム」が挙げられる。[ 62 ]リーチムには、授業カリキュラムに関する情報と、プログラムされた生徒の特定の経歴情報が含まれていた。[ 63 ]ニューヨークのブロンクスにある4年生の教室でテストされた。[ 64 ] [ 65 ]
領域特化型合成は、事前に録音された単語やフレーズを連結して完全な発話を作成します。これは、交通機関の時刻表アナウンスや天気予報など、システムが出力するテキストの種類が特定の領域に限定されているアプリケーションで使用されます。[ 66 ]この技術は実装が非常に簡単で、音声時計や電卓などのデバイスで長年商用利用されてきました。これらのシステムの自然さのレベルは非常に高い可能性があります。これは、文の種類の種類が限られており、元の録音の韻律とイントネーションに非常に一致するためです
これらのシステムはデータベース内の単語やフレーズに制限されるため、汎用性がなく、事前にプログラムされた単語やフレーズの組み合わせしか合成できません。しかしながら、自然言語における単語の混合は、多様なバリエーションを考慮しない限り、依然として問題を引き起こす可能性があります。例えば、英語の非ロティック方言では、 「clear」(/ˈklɪə/)のような単語の「r」は、通常、続く単語の先頭文字が母音である場合にのみ発音されます(例えば、「clear out」は/ˌklɪəɹˈʌʊt/として発音されます)。同様に、フランス語では、多くの末尾子音は、母音で始まる単語が続くと無音ではなくなります。これはリエゾンと呼ばれる効果です。この交替は単純な単語連結システムでは再現できず、文脈に応じて複雑な処理が必要になります。
フォルマント合成では、実行時に人間の音声サンプルを使用しません。代わりに、合成音声出力は加法合成と音響モデル(物理モデリング合成)を使用して作成されます。[ 67 ]基本周波数、有声音、ノイズレベルなどのパラメータを時間とともに変化させ、人工音声の波形を作成します。この方法はルールベース合成と呼ばれることもありますが、多くの連結型システムにもルールベースのコンポーネントがあります。フォルマント合成技術に基づく多くのシステムは、人間の音声と間違えられることのない、人工的でロボットのような音声を生成します。しかし、最大限の自然さが音声合成システムの目標であるとは限らず、フォルマント合成システムは連結型システムよりも優れた点があります。フォルマント合成音声は、非常に高速でも確実に理解でき、連結型システムによく見られる音響の不具合を回避できます。高速合成音声は、視覚障害者がスクリーンリーダーを使ってコンピューターを素早く操作するために使用されますフォルマント合成器は、音声サンプルのデータベースを持たないため、通常、連結型システムよりもプログラムサイズが小さくなります。そのため、メモリやマイクロプロセッサの能力が特に限られている組み込みシステムにも使用できます。フォルマントベースのシステムは出力音声のあらゆる側面を完全に制御できるため、多様な韻律やイントネーションを出力でき、疑問や陳述だけでなく、様々な感情や声のトーンも表現できます。
フォルマント合成における非リアルタイムながらも高精度なイントネーション制御の例としては、1970年代後半にテキサス・インストゥルメンツ社の玩具「スピーク&スペル」、1980年代初頭にセガ社のアーケードゲーム機[ 68 ]、そしてTMS5220 LPCチップを使用した多くのアタリ社のアーケードゲーム[ 69 ]が挙げられます。これらのプロジェクトで適切なイントネーションを生成するのは骨の折れる作業であり、その成果はリアルタイムの音声合成インターフェースでは未だに達成されていません。[ 70 ]
中国語や台湾語などの声調言語では、異なるレベルの声調連音が必要であり、音声合成装置の出力に声調連音の誤りが生じることがある。[ 71 ]
調音合成は、人間の声道モデルとそこで起こる調音過程に基づいて音声を合成する計算技術です。実験室実験で定期的に使用された最初の調音合成装置は、1970年代半ばにハスキンズ研究所でフィリップ・ルービン、トム・ベア、ポール・マーメルスタインによって開発されました。ASYとして知られるこの合成装置は、1960年代から1970年代にかけてベル研究所でポール・マーメルスタイン、セシル・コーカー、そして同僚によって 開発された声道モデルに基づいていました
最近まで、調音合成モデルは商用の音声合成システムに組み込まれていませんでした。注目すべき例外は、NeXTベースのシステムで、元々はカルガリー大学のスピンオフ企業である Trillium Sound Research によって開発・販売されていました。同社は元々の研究の多くがカルガリー大学で行われました。NeXT の様々なバージョン(1980年代後半にスティーブ・ジョブズによって開始され、1997年にアップルコンピュータと合併)の終焉後、Trillium ソフトウェアは GNU 一般公衆利用許諾書 の下で公開され、 gnuspeechとして開発が継続されました。1994年に初めて販売されたこのシステムは、カレの「特徴的領域モデル」によって制御される人間の口腔と鼻腔の導波管または伝送線路アナログを使用して、完全な調音ベースのテキストから音声への変換を提供します。
ホルヘ・C・ルセロらが開発した最近の合成装置は、声帯の生体力学、声門の空気力学、気管支、気管、鼻腔、口腔内の音波伝播のモデルを組み込んでおり、物理学に基づいた音声シミュレーションの完全なシステムを構成している。[ 72 ] [ 73 ]
HMMベースの音声合成は、隠れマルコフモデル(HMM)に基づく合成手法であり、統計的パラメトリック合成とも呼ばれる。このシステムでは、音声の周波数スペクトル(声道)、基本周波数(音源)、および持続時間(韻律)がHMMによって同時にモデル化される。音声波形は、最大尤度基準に基づいてHMM自体から生成される。[ 74 ]
正弦波合成は、フォルマント(主要なエネルギー帯域)を純音のホイッスルに置き換えることで音声を合成する技術です。 [ 75 ]
ディープラーニング音声合成は、ディープニューラルネットワーク(DNN)を用いて、テキスト(音声合成)またはスペクトル(ボコーダー)から人工音声を生成します。ディープニューラルネットワークは、大量の録音音声と、音声合成システムの場合は関連するラベルや入力テキストを用いて学習されます。
| シリーズの一部 |
| 人工知能(AI) |
|---|
オーディオディープフェイク技術は、音声クローニングやディープフェイクオーディオとも呼ばれ、特定の人物にそっくりな音声を生成するように設計された人工知能の応用であり、多くの場合、その人物が話したことのないフレーズや文章を合成します。[ 76 ] [ 77 ] [ 78 ] [ 79 ]当初は人間の生活のさまざまな側面を向上させる目的で開発されましたが、オーディオブックの生成や、病気のために声を失った人の支援などの実用的な用途があります。[ 80 ] [ 81 ]さらに、パーソナライズされたデジタルアシスタント、自然な音声合成システム、高度な音声翻訳サービスの作成など、商業的な用途もあります。[ 82 ]
2023年、VICEの記者ジョセフ・コックスは、5分間の自身の会話を録音し、ElevenLabsが開発したツールを使用して音声ディープフェイクを作成し、銀行の音声認証システムを破ったという調査結果を発表しました。[ 83 ]
テキストを正規化するプロセスは、決して簡単ではありません。テキストには異義語、数字、略語が満載で、これらはすべて音声表現への拡張が必要です。英語には、文脈によって発音が異なる綴りが数多くあります。例えば、「私の最新のプロジェクトは、自分の声をより良く響かせる方法を学ぶことです」という表現には、「project」という2つの発音が含まれています
ほとんどの音声合成(TTS)システムは、入力テキストの意味表現を生成しません。これは、その処理が信頼性が低く、十分に理解されておらず、計算効率が悪いためです。その結果、同形異義語の適切な曖昧性を解消する方法を推測するために、隣接する単語の調査や出現頻度の統計など、 様々なヒューリスティック手法が用いられています。
最近、TTSシステムは、同形異義語の曖昧性解消を支援するために、HMM(前述)を用いて「品詞」を生成するようになりました。この手法は、例えば「read」を過去形を意味する「red」と発音すべきか、現在形を意味する「reed」と発音すべきかといった多くのケースで非常に有効です。このようにHMMを使用した場合の典型的なエラー率は通常5%未満です。これらの手法はほとんどのヨーロッパ言語でも有効ですが、これらの言語では必要なトレーニングコーパスへのアクセスがしばしば困難です。
数字の変換方法を決定することも、TTSシステムが対処しなければならないもう一つの問題です。「1325」を「one thousand three hundred twenty-five」に変換するなど、数字を単語に変換することは(少なくとも英語では)プログラミング上の簡単な課題です。しかし、数字は様々な文脈で使用されます。「1325」は「one three two five」、「thirteen twenty-five」、「thirteen hundred and two five」と読むこともできます。TTSシステムは、多くの場合、周囲の単語、数字、句読点に基づいて数字の展開方法を推測することができ、文脈が曖昧な場合は、それを特定するための方法を提供することもあります。[ 84 ]ローマ数字も文脈によって読み方が異なります。例えば、「Henry VIII」は「Henry the Eighth」と読み、「Chapter VIII」は「Chapter Eight」と読みます。
同様に、略語も曖昧になることがあります。例えば、「インチ」の略語「in」は単語「in」と区別する必要があり、「12 St John St.」という住所は「Saint」と「Street」の両方に同じ略語が使われています。インテリジェントなフロントエンドを備えたTTSシステムは、曖昧な略語について適切な推測を行うことができますが、他のシステムではすべてのケースで同じ結果が返されるため、「Ulysses S. Grant」が「Ulysses South Grant」と表示されるなど、意味不明な(時には滑稽な)出力になります。
音声合成システムは、単語の綴りに基づいて発音を決定するために、2つの基本的なアプローチを採用しています。このプロセスは、テキストから音素への変換、または書記素から音素への変換(音素とは、言語学者が言語における特徴的な音を表すために使用する用語)と呼ばれることがよくあります。テキストから音素への変換の最も単純なアプローチは、辞書ベースのアプローチです。このアプローチでは、言語のすべての単語とその正しい発音を含む大規模な辞書がプログラムによって保存されます。各単語の正しい発音を決定するには、辞書で各単語を検索し、スペルを辞書で指定された発音に置き換えます。もう1つのアプローチはルールベースです。このアプローチでは、単語に発音ルールを適用し、スペルに基づいて発音を決定します。これは、読み方を学ぶための「サウンディングアウト」、または合成音声学のアプローチに似ています。
それぞれのアプローチには長所と短所があります。辞書ベースのアプローチは高速かつ正確ですが、辞書にない単語を入力すると完全に失敗します。辞書のサイズが大きくなるにつれて、合成システムのメモリ容量要件も大きくなります。一方、ルールベースのアプローチはあらゆる入力に対して機能しますが、システムが不規則な綴りや発音を考慮するため、ルールの複雑さが大幅に増大します。(「of」という単語は英語で非常によく使用されますが、「f」の文字が発音される唯一の単語であることを考えてみてください[v]。)結果として、ほぼすべての音声合成システムはこれらのアプローチを組み合わせて使用しています。
音韻正書法を採用した言語は非常に規則的な表記体系を有しており、単語の綴りに基づく発音予測は非常に高い精度で行われます。このような言語の音声合成システムでは、ルールベースの手法が広く採用されることが多く、外国語名や外来語など、綴りから発音が明らかでない少数の単語についてのみ辞書が用いられます。一方、英語のように綴りが非常に不規則な言語の音声合成システムでは、辞書に頼る傾向が強く、ルールベースの手法は珍しい単語、つまり辞書に収録されていない単語についてのみ用いられます。
音声合成システムの一貫した評価は、普遍的に合意された客観的な評価基準が存在しないために困難な場合があります。組織によって使用される音声データは異なる場合が多く、音声合成システムの品質は、制作技術(アナログ録音またはデジタル録音を含む)の品質や、音声を再生する設備にも左右されます。そのため、音声合成システムの評価は、制作技術と再生設備の違いによってしばしば損なわれてきました。
しかし、2005年以降、共通の音声データセットを用いて音声合成システムの評価を行う研究者も現れ始めた。[ 85 ]
英国ポーツマス大学のエイミー・ドラホタ氏らがSpeech Communication誌に発表した研究によると、録音された音声を聞いた人は、話者が笑っているかどうかを偶然よりも高い確率で判断できることが報告されている。[ 86 ] [ 87 ] [ 88 ]感情的な内容を伝える音声特徴の識別が、合成音声をより自然に聞こえるようにするために使用できる可能性があることが示唆された。関連する問題の 1 つは、文が肯定文、疑問文、感嘆文のいずれであるかに応じて、文のピッチ曲線を修正することです。ピッチ修正の技術の 1 つ[ 61 ]では、ソース領域で離散コサイン変換を使用します(線形予測残差)。このようなピッチ同期ピッチ修正技術では、音声の有声音域の統合線形予測残差に動的爆発指数を適用したエポック抽出などの技術を使用して合成音声データベースの事前ピッチマーキングが 必要です。 [ 89

音声合成を組み込み機能として提供する人気のシステム。
1980年代初頭、TIは音声合成のパイオニアとして知られ、TI-99/4および4A用のプラグイン音声合成モジュールが非常に人気がありました。音声合成装置は、カートリッジを購入すると無料で提供され、多くのTI製ビデオゲームで使用されました(このプロモーション中に音声合成機能付きで提供されたゲームには、AlpinerやParsecなどがありました)。この合成装置は線形予測符号化の変形を使用し、小さな語彙が組み込まれています。当初の意図は、合成装置に直接接続する小さなカートリッジをリリースして、デバイスの組み込み語彙を増やすことでした。しかし、Terminal Emulator IIカートリッジのソフトウェアによる音声合成の成功により、その計画は中止されました。
マテルのIntellivisionゲームコンソールは、 1982年にIntellivoice音声合成モジュールを提供しました。取り外し可能なカートリッジにSP0256 Narrator音声合成チップが搭載されていました。Narratorは2KBの読み取り専用メモリ(ROM)を搭載しており、Intellivisionゲームでフレーズを作成するために組み合わせることができる一般的な単語のデータベースを保存するために使用されました。Oratorチップは外部メモリから音声データを受け入れることもできたため、必要な追加の単語やフレーズはカートリッジ自体に保存できました。データは単純なデジタル化されたサンプルではなく、チップの合成声道モデルの動作を変更するためのアナログフィルタ係数の文字列で構成されていました
1982年にリリースされたSoftware Automatic Mouthは、初の商用完全ソフトウェア音声合成プログラムでした。後にMacintalkのベースとして使用されました。このプログラムは、Macintosh以外のAppleコンピュータ(Apple II、Lisaを含む)、さまざまなAtariモデル、そしてCommodore 64で利用できました。Apple版はDACを搭載した追加ハードウェアを推奨していましたが、カードがない場合はコンピュータの1ビットオーディオ出力(ただし、かなりの歪みが加わります)を使用することもできました。Atariは内蔵のPOKEYオーディオチップを使用していました。Atariでの音声再生は通常、割り込み要求を無効にし、音声出力中はANTICチップをシャットダウンします。画面がオンの場合、聞こえる出力は非常に歪んだ音声になります。Commodore 64は、64の内蔵SIDオーディオチップを使用していました
オペレーティングシステムに統合された最初の音声システムは、おそらく1983年頃の未発売のアタリ1400XL/1450XLコンピュータでしょう。これらはVotrax SC01チップと有限状態機械を使用して、World English Spellingのテキスト音声合成を可能にしました。[ 91 ]
Atari STコンピュータはフロッピー ディスクに「stspeech.tos」が収録された状態で販売されました。
オペレーティングシステムに統合され、大量出荷された最初の音声システムは、アップルコンピュータのMacInTalkでした。このソフトウェアは、サードパーティ開発者の Joseph Katz と Mark Barton (後の SoftVoice, Inc.) からライセンス供与され、1984 年の Macintosh コンピュータの発表の際に取り上げられました。この 1 月のデモでは、512 キロバイトの RAM メモリが必要でした。その結果、最初の Mac に実際に出荷された 128 キロバイトの RAM では動作しませんでした。[ 92 ]そのため、デモはプロトタイプの 512k Mac で行われましたが、出席者にはこのことは知らされておらず、合成デモは Macintosh に大きな興奮をもたらしました。1990 年代初頭、アップルはシステム全体でテキスト読み上げサポートを提供する機能を拡張しました。より高速な PowerPC ベースのコンピュータの導入により、より高品質の音声サンプリングが組み込まれました。アップルはまた、流動的なコマンドセットを提供する音声認識をシステムに導入しました。最近では、アップルはサンプルベースの音声を追加しました。好奇心から始まった Apple Macintoshの音声システムは、視覚障害を持つ人々のために完全にサポートされたプログラムPlainTalkへと進化しました。VoiceOverは、2005 年にMac OS X Tiger (10.4)で初めて採用されました。10.4 (Tiger) および 10.5 ( Leopard ) の最初のリリースでは、Mac OS X に同梱されている標準の音声は 1 つだけでした。10.6 ( Snow Leopard )以降、ユーザーは複数の音声の幅広いリストから選択できます。VoiceOver の音声は、文と文の間にリアルな息継ぎを入れたり、PlainTalk よりも高速な読み上げで明瞭性が向上したりします。Mac OS X には、テキストを音声に変換するコマンドライン ベースのアプリケーションの say も含まれています。AppleScriptの標準追加機能には、スクリプトでインストールされている音声を使用でき、読み上げテキストのピッチ、読み上げ速度、変調を制御できる say 動詞が含まれています。
AlexaおよびAWSのSaaS(Software as a Service)で使用されています[ 93 ](2017年から)。

高度な音声合成機能を搭載した2番目のオペレーティングシステムは、1985年に導入されたAmigaOSである。音声合成機能は、オリジナルのMacinTalk音声合成システムを開発したSoftVoice社からCommodore Internationalにライセンス供与された。男性と女性の両方の音声と「ストレス」インジケータマーカーを備えたアメリカ英語の音声エミュレーションシステムを備えており、 Amigaのオーディオチップセットによって実現された。[ 94 ]合成システムは、制限のない英語のテキストを標準的な音声コードセットに変換する翻訳ライブラリと、音声生成のフォルマントモデルを実装したナレーターデバイスに分かれていた。AmigaOSには、コマンドラインユーザーがテキスト出力を音声にリダイレクトできる高レベルの「Speak Handler」も搭載されていた。音声合成は、サードパーティ製のプログラム、特にワードプロセッサや教育ソフトウェアで時折使用されていた。合成ソフトウェアは最初の AmigaOS リリースからほとんど変更されておらず、Commodore は最終的に AmigaOS 2.1 以降で音声合成のサポートを削除しました。
アメリカ英語の音素制限にもかかわらず、多言語音声合成機能を備えた非公式バージョンが開発されました。これは、各言語に一定のルールを与えることで複数の言語を翻訳できる翻訳ライブラリの拡張版を利用していました。[ 95 ]
最新のWindowsデスクトップシステムは、音声合成と音声認識をサポートするためにSAPI 4およびSAPI 5コンポーネントを使用できます。SAPI 4.0は、Windows 95およびWindows 98のオプションのアドオンとして利用可能でした。Windows 2000では、視覚障害のある人向けの音声合成ユーティリティであるナレーターが追加されました。JAWS for Windows、Window-Eyes、Non-visual Desktop Access、Supernova、System Accessなどのサードパーティ製プログラムは、指定されたWebサイト、電子メールアカウント、テキストドキュメント、Windowsクリップボード、ユーザーのキーボード入力などからテキストを読み上げるなど、さまざまな音声合成タスクを実行できます。すべてのプログラムが音声合成を直接使用できるわけではありません。[ 96 ]一部のプログラムは、プラグイン、拡張機能、またはアドオンを使用してテキストを読み上げることができます。システムクリップボードからテキストを読み取ることができるサードパーティ製プログラムも利用可能です
Microsoft Speech Server は、音声合成および認識のためのサーバーベースのパッケージです。Webアプリケーションやコールセンターでのネットワーク使用向けに設計されています。
1971年から1996年にかけて、Votrax社は数多くの商用音声合成装置コンポーネントを製造しました。Votrax社のシンセサイザーは、第一世代のKurzweil社製視覚障害者用音声読み上げ機に搭載されていました。
音声合成(TTS)とは、コンピュータがテキストを読み上げる機能のことです。TTSエンジンは、書かれたテキストを音素表現に変換し、その音素表現を音声として出力できる波形に変換します。さまざまな言語、方言、専門用語に対応したTTSエンジンは、サードパーティの出版社から入手できます。[ 97 ]
Androidバージョン1.6では、音声合成(TTS)のサポートが追加されました。[ 98 ]
現在、電子メールクライアントから直接メッセージを読み上げたり、ウェブブラウザやGoogleツールバーからウェブページを読み上げたりできるアプリケーション、プラグイン、ガジェットが多数あります。一部の専用ソフトウェアはRSSフィードをナレーションできます。オンラインRSSナレーターは、ユーザーがお気に入りのニュースソースを聴いたり、ポッドキャストに変換したりできるようにすることで、情報配信を簡素化します。一方、オンラインRSSリーダーは、インターネットに接続されたほぼすべてのパソコンで利用できます。ユーザーは、ポッドキャストレシーバーなどを使用して、生成されたオーディオファイルをポータブルデバイスにダウンロードし、歩行中、ジョギング中、通勤中に聴くことが できます
インターネットベースのTTSにおいて成長著しい分野として、ウェブベースの支援技術があります。例えば、英国企業の「Browsealoud」やReadspeakerなどが挙げられます。これらの技術は、ウェブブラウザさえあれば、誰にでも(アクセシビリティ、利便性、娯楽、情報提供などの理由で)TTS機能を提供できます。非営利プロジェクトであるPediaphonは、Wikipediaと同様のウェブベースのTTSインターフェースを提供するために2006年に設立されました。[ 99 ]
その他の作業は、BBC および Google Inc. の協力を得て、W3C オーディオ インキュベータ グループを通じて W3Cの枠内で行われています。
次のようなオープンソースソフトウェアシステムが利用可能です
2018年の神経情報処理システム会議(NeurIPS)で、Googleの研究者は「話者検証から複数話者テキスト音声合成への転移学習」という研究を発表しました。これは、話者検証の学習をテキスト音声合成に転移し、わずか5秒の音声サンプルからほぼ誰にでも聞こえるように音声合成できるというものです。[ 102 ]
また、百度研究の研究者らは、2018年のNeurIPS会議で同様の目的を持つ音声クローンシステムを発表しましたが[ 103 ] 、その結果はあまり説得力がありません。
2019年までにデジタル類似音声は犯罪者の手に渡り、シマンテックの研究者はデジタル類似音声技術が犯罪に使用された事例を3件把握している。[ 104 ] [ 105 ]
これにより、偽情報の状況に対するストレスが増大し、
XML準拠の形式でテキストを音声として表現するためのマークアップ言語は数多く存在します。最新のものは音声合成マークアップ言語(SSML)で、 2004年にW3C勧告となりました。古い音声合成マークアップ言語には、Java音声マークアップ言語(JSML)やSABLEなどがあります。これらはいずれも標準として提案されたものの、広く採用されているものはありません。
音声合成マークアップ言語は、対話マークアップ言語とは区別されます。例えば、 VoiceXMLには、音声合成マークアップに加えて、音声認識、対話管理、タッチトーンダイヤルに関連するタグが含まれています。
音声合成は長きにわたり重要な支援技術ツールであり、この分野におけるその応用は重要かつ広範囲に及んでいます。音声合成により、様々な障害を持つ人々にとって環境的な障壁を取り除くことができます。最も長く応用されてきたのは視覚障害者向けのスクリーンリーダーでしたが、現在では失読症やその他の読書障害を持つ人々 、そして読み書きができない子供たちにも、音声合成システムが広く利用されています。 [ 108 ]また、専用の音声出力コミュニケーション補助装置を介して、重度の言語障害を持つ人々を支援するためにも、音声合成システムは頻繁に利用されています。[ 109 ]合成音声を個人の性格や過去の声により合うようにパーソナライズする研究も進められています。[ 110 ] 音声合成の注目すべき応用例としては、ハスキンズ研究所の研究に基づく音声合成ソフトウェアと、 Votrax社製のブラックボックス合成装置を組み込んだ、カーツワイル盲人用音声合成装置があります。[ 111 ]

音声合成技術は、ゲームやアニメなどのエンターテインメント制作にも利用されている。2007年、アニモ社は、エンターテインメント業界の顧客向けに、音声合成ソフトウェアFineSpeechをベースにしたソフトウェアアプリケーションパッケージの開発を発表した。このソフトウェアは、ユーザーの指定に応じてナレーションやセリフを生成できる。[ 112 ]このアプリケーションは、NECビッグローブが日本のアニメシリーズ「コードギアス 反逆のルルーシュR2」のキャラクターの声からフレーズを作成できるウェブサービスを発表した2008年に成熟期を迎えた。 [ 113 ] 15.aiは、マイリトルポニー〜トモダチは魔法〜ファンダム、チームフォートレス2ファンダム、ポータルファンダム、スポンジ・ボブファンダムなど、さまざまなファンダムのコンテンツ作成に頻繁に使用されている。[ 114 ] [ 115 ] [ 116 ]
障害者やコミュニケーション能力に障害のある人のための音声合成技術は、広く利用されるようになりました。音声合成技術は新たな用途も開拓しており、例えば、音声合成と音声認識を組み合わせることで、自然言語処理インターフェースを介してモバイルデバイスとのインタラクションが可能になります。また、15.aiと外部の音声制御ソフトウェアを用いてAI仮想アシスタントを作成するユーザーもいます。[ 37 ] [ 117 ]
音声合成は第二言語習得にも活用されています。例えば、Oddcastが開発した教育ツール「Voki」では、ユーザーが様々なアクセントを使って自分だけのアバターを作成できます。作成したアバターはメールで送信したり、ウェブサイトに埋め込んだり、ソーシャルメディアで共有したりできます。
コンテンツ制作者は、ポッドキャスト、[ 118 ] [ 119 ]ナレーション、[ 49 ]コメディ番組[ 120 ] [ 121 ] [ 122 ]用に自分の声を再現するために音声複製ツールを使用しています。出版社や著者も、オーディオブックやニュースレターのナレーションに同様のソフトウェアを使用しています。[ 123 ] [ 124 ]もう1つの応用分野は、トーキングヘッドを使用したAIビデオの作成です。Elai.ioやSynthesiaなどのWebアプリやビデオエディターを使用すると、ユーザーはテキスト読み上げ技術を使用して話すAIアバターを含むビデオコンテンツを作成できます。[ 125 ] [ 126 ]
音声合成は、発声障害の分析と評価に有用な計算支援ツールです。ブラジリア大学のホルヘ・C・ルセロらが開発した音声品質合成装置は、発声の物理的特性をシミュレートし、発声周波数のジッターと振戦、気流ノイズ、喉頭非対称性のモデルを備えています。[ 72 ]この合成装置は、粗さ、息切れ、緊張のレベルを制御しながら、発声障害のある人の音色を模倣するために使用されています。 [ 73 ]
{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク)