Linear predictive coding

音声分析と符号化技術

Linear predictive coding (LPC) is a method used mostly in audio signal processing and speech processing for representing the spectral envelope of a digital signal of speech in compressed form, using the information of a linear predictive model.^[1]^[2]

LPC is the most widely used method in speech coding and speech synthesis. It is a powerful speech analysis technique, and a useful method for encoding good quality speech at a low bit rate.

Overview

LPC starts with the assumption that a speech signal is produced by a buzzer at the end of a tube (for voiced sounds), with occasional added hissing and popping sounds (for voiceless sounds such as sibilants and plosives). Although apparently crude, this Source–filter model is actually a close approximation of the reality of speech production. The glottis (the space between the vocal folds) produces the buzz, which is characterized by its intensity (loudness) and frequency (pitch). The vocal tract (the throat and mouth) forms the tube, which is characterized by its resonances; these resonances give rise to formants, or enhanced frequency bands in the sound produced. Hisses and pops are generated by the action of the tongue, lips and throat during sibilants and plosives.

LPC analyzes the speech signal by estimating the formants, removing their effects from the speech signal, and estimating the intensity and frequency of the remaining buzz. The process of removing the formants is called inverse filtering, and the remaining signal after the subtraction of the filtered modeled signal is called the residue.

バズ音、フォルマント、残余信号の強度と周波数を表す数値は、他の場所に保存または送信できます。LPCは、このプロセスを逆に行うことで音声信号を合成します。バズ音のパラメータと残余信号を用いてソース信号を作成し、フォルマントを用いてフィルター（チューブを表す）を作成し、ソース信号をフィルターに通すことで音声信号を生成します。

音声信号は時間とともに変化するため、このプロセスはフレームと呼ばれる音声信号の短いチャンクに対して実行されます。通常、1 秒あたり 30 ～ 50 フレームで、圧縮が適切に行われ、理解可能な音声が得られます。

初期の歴史

線形予測（信号推定）は、少なくとも1940年代にノーバート・ウィーナーがノイズに隠れた信号を検出するための最適なフィルタと予測子を計算するための数学理論を開発した頃に遡ります。 ^[3]^[4]クロード・シャノンが符号化の一般理論を確立した直後、 C. チャピン・カトラー、^[5] バーナード・M・オリバー^[6]ヘンリー・C・ハリソン^[7] によって予測符号化の研究が行われました。ピーター・エリアスは1955年に信号の予測符号化に関する2つの論文を発表しました。^[8]^[9]

線形予測器は、1966年に名古屋大学の板倉文忠と日本電信電話の斎藤修三によって独立に音声分析に適用され、1967年にはビシュヌ・S・アタル、マンフレッド・R・シュローダー、ジョン・バーグによって適用された。板倉と斎藤は最大尤度推定に基づく統計的アプローチを、アタルとシュローダーは適応線形予測器アプローチを、バーグは最大エントロピー原理に基づくアプローチを概説した。^[4]^[10]^[11]^[12]

1969年に、板倉と斎藤は部分相関に基づく方法(PARCOR) を発表し、グレン・カラーはリアルタイム音声符号化を提案し、ビシュヌ・S・アタルはアメリカ音響学会年次総会でLPC音声符号化装置を発表した。1971年に、16ビットLPCハードウェアを使ったリアルタイムLPCがフィルコ・フォードによって実演され、4台が販売された。^[13] LPC技術は、1970年代から1980年代にかけてビシュヌ・アタルとマンフレッド・シュローダーによって発展した。 ^[13] 1978年に、BBNのアタルとヴィシュワナートらは、最初の可変レートLPCアルゴリズムを開発した。^[13]同年、ベル研究所のアタルとマンフレッド・R・シュローダーは、人間の耳のマスキング特性を利用した心理音響符号化アルゴリズムを使った適応予測符号化と呼ばれるLPC音声コーデックを提案した。^[14]^{[15]これは後に1993年に導入された}MP3 オーディオ圧縮フォーマットで使用される知覚符号化技術の基礎となった。^[14]コード励起線形予測（CELP）は1985年にシュローダーとアタルによって開発された。^[16]

LPCはVoIP（ Voice over IP ）技術の基礎です。^[13] 1972年、ARPAのボブ・カーン、リンカーン研究所（LL）のジム・フォーギー、 BBNテクノロジーズのデイブ・ウォルデンは、後にVoIP技術につながるパケット化音声技術の開発を開始しました。リンカーン研究所の非公式記録によると、1973年にはエド・ホフステッターによって最初のリアルタイム2400 ビット/秒LPCが実装されました。1974年には、カラー・ハリソンとリンカーン研究所の間で、 ARPANETを介して3500ビット/秒の速度で最初のリアルタイム双方向LPCパケット音声通信が実現されました。

LPC係数表現

LPCはスペクトル包絡情報の伝送に頻繁に用いられるため、伝送エラーに対する耐性が求められます。フィルタ係数（係数の定義については線形予測を参照）を直接伝送することは、エラーに対して非常に敏感であるため、望ましくありません。言い換えれば、ごくわずかなエラーでもスペクトル全体を歪ませる可能性があり、さらに悪いことに、予測フィルタを不安定にする可能性があります。

より高度な表現としては、対数面積比（LAR）、線スペクトル対（LSP）分解、反射係数などがあります。これらのうち、特にLSP分解は、予測子の安定性を確保し、係数の小さな偏差に対してスペクトル誤差が局所的であることから、人気が高まっています。

アプリケーション

LPCは音声符号化と音声合成において最も広く用いられている手法です。^[17]一般的には音声分析と再合成に用いられます。電話会社では、例えばGSM規格において音声圧縮の一形態として用いられています。また、音声をデジタル化し、暗号化して狭い音声チャネルで送信する必要があるセキュアな無線通信にも用いられています。その初期の例としては、米国政府のNavajo Iが挙げられます。

LPC合成は、歌手の音声から推定された時間変動フィルタへの励起信号として楽器を用いるボコーダーの構築に用いられます。これは電子音楽で比較的人気があります。ポール・ランスキーは、線形予測符号化を用いて有名なコンピュータミュージック作品「notjustmoreidlechatter」を制作しました。^{[18] 1980年代に人気を博した教育玩具}「Speak & Spell」では、10次LPCが使用されました。

LPC 予測子は、Shorten、MPEG-4 ALS、FLAC、SILK オーディオコーデック、およびその他のロスレスオーディオコーデックで使用されます。

LPCはバイオリンやその他の弦楽器の音色分析に使用するツールとして注目を集めています。^[19]

参照

参考文献

^ Deng, Li; Douglas O'Shaughnessy (2003). 音声処理：動的かつ最適化指向のアプローチ. Marcel Dekker . pp. 41– 48. ISBN 978-0-8247-4040-5。
^ Beigi, Homayoon (2011). 『話者認識の基礎』ベルリン: Springer-Verlag. ISBN 978-0-387-77591-3。
^ BS Atal (2006). 「線形予測の歴史」. IEEE Signal Processing Magazine . 23 (2): 154– 161. Bibcode :2006ISPM...23..154A. doi :10.1109/MSP.2006.1598091. S2CID 15601493.
^ Y. Sasahira; S. Hashimoto (1995). 「歌手の個性的な音色を保つための線形予測符号化法による声の高さ変化」(pdf) . ミシガン出版. {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ US 2605361、CC Cutler、「通信信号の微分量子化」、1952年7月29日公開
^ BM Oliver (1952). 「効率的な符号化」.ベルシステム技術ジャーナル. 31 (4). Nokia Bell Labs: 724– 750. doi :10.1002/j.1538-7305.1952.tb01403.x.
^ HCハリソン (1952). 「テレビにおける線形予測の実験」.ベルシステム技術ジャーナル. 31 (4): 764– 783. doi :10.1002/j.1538-7305.1952.tb01405.x.
^ P. エリアス (1955). 「予測符号化 I」. IRE Trans. Inform. Theory . IT-1 no. 1: 16– 24. doi :10.1109/TIT.1955.1055126.
^ P. エリアス (1955). 「予測符号化 II」. IRE Trans. Inform. Theory . IT-1 no. 1: 24– 33. doi :10.1109/TIT.1955.1055116.
^ 斎藤誠; 板倉文雄 (1967年1月). 「音声スペクトル密度の統計的最適認識に関する理論的考察」.日本音響学会誌.
^ BS Atal; MR Schroeder (1967). 「音声の予測符号化」. Conf. Communications and Proc .
^ JP Burg (1967). 「最大エントロピースペクトル解析」.第37回探査地球物理学会会議録, オクラホマシティ.
^ abcd Gray, Robert M. (2010). 「パケットネットワークにおけるリアルタイムデジタル音声の歴史：線形予測符号化とインターネットプロトコルの第2部」(PDF) . Found. Trends Signal Process . 3 (4): 203– 303. doi : 10.1561/2000000036 . ISSN 1932-8346. 2022年10月9日時点のオリジナルよりアーカイブ(PDF) .
^ ab シュローダー、マンフレッド・R. (2014). 「ベル研究所」.音響、情報、通信：マンフレッド・R・シュローダー記念版. シュプリンガー. p. 388. ISBN 9783319056609。
^ Atal, B.; Schroeder, M. (1978). 「音声信号の予測符号化と主観的誤差基準」. ICASSP '78. IEEE 国際音響・音声・信号処理会議. 第3巻. pp. 573– 576. doi :10.1109/ICASSP.1978.1170564.
^ Schroeder, Manfred R. ; Atal, Bishnu S. (1985). 「符号励起線形予測(CELP): 超低ビットレートにおける高品質音声」. ICASSP '85. IEEE 国際音響・音声・信号処理会議. 第10巻. pp. 937– 940. doi :10.1109/ICASSP.1985.1168147. S2CID 14803427.
^ Gupta, Shipra (2016年5月). 「テキスト非依存型話者認識におけるMFCCの応用」(PDF) . International Journal of Advanced Research in Computer Science and Software Engineering . 6 (5): 805–810 (806). ISSN 2277-128X. S2CID 212485331. 2019年10月18日時点のオリジナル(PDF)からのアーカイブ。 2019年10月18日閲覧。
^ ポール・ランスキー「More Than Idle Chatter」。2017年12月24日時点のオリジナルよりアーカイブ。2024年6月2日閲覧。
^ Tai, Hwan-Ching; Chung, Dai-Ting (2012年6月14日). 「ストラディバリのヴァイオリンは、女性が発音する母音に似たフォルマント周波数を示す」. Savart Journal . 1 (2).

さらに読む

O'Shaughnessy, D. (1988). 「線形予測符号化」. IEEE Potentials . 7 (1): 29– 32. doi :10.1109/45.1890. S2CID 12786562.
アラン・バンディ、リンカーン・ウォーレン(1984). 「線形予測符号化」.人工知能ツールカタログ. 記号計算. p. 61. doi :10.1007/978-3-642-96868-6_123. ISBN 978-3-540-13938-6。
エル・ジャロウディ、アムロ (2003). 「線形予測符号化」. Wiley Encyclopedia of Telecommunications . doi :10.1002/0471219282.eot155. ISBN 978-0471219286。

外部リンク

リアルタイムLPC分析/合成学習ソフトウェア
30年後、リチャード・ウィギンズ博士がスピーク＆スペルの開発について語る
ロバート・M・グレイ、IEEE信号処理学会、特別講師プログラム

[1] Deng, Li; Douglas O'Shaughnessy (2003). 音声処理：動的かつ最適化指向のアプローチ. Marcel Dekker . pp. 41– 48. ISBN 978-0-8247-4040-5。

[2] Beigi, Homayoon (2011). 『話者認識の基礎』ベルリン: Springer-Verlag. ISBN 978-0-387-77591-3。

[3] BS Atal (2006). 「線形予測の歴史」. IEEE Signal Processing Magazine . 23 (2): 154– 161. Bibcode :2006ISPM...23..154A. doi :10.1109/MSP.2006.1598091. S2CID 15601493.

[Sasahira-4] Y. Sasahira; S. Hashimoto (1995). 「歌手の個性的な音色を保つための線形予測符号化法による声の高さ変化」(pdf) . ミシガン出版. {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[5] US 2605361、CC Cutler、「通信信号の微分量子化」、1952年7月29日公開

[6] BM Oliver (1952). 「効率的な符号化」.ベルシステム技術ジャーナル. 31 (4). Nokia Bell Labs: 724– 750. doi :10.1002/j.1538-7305.1952.tb01403.x.

[7] HCハリソン (1952). 「テレビにおける線形予測の実験」.ベルシステム技術ジャーナル. 31 (4): 764– 783. doi :10.1002/j.1538-7305.1952.tb01405.x.

[8] P. エリアス (1955). 「予測符号化 I」. IRE Trans. Inform. Theory . IT-1 no. 1: 16– 24. doi :10.1109/TIT.1955.1055126.

[9] P. エリアス (1955). 「予測符号化 II」. IRE Trans. Inform. Theory . IT-1 no. 1: 24– 33. doi :10.1109/TIT.1955.1055116.

[10] 斎藤誠; 板倉文雄 (1967年1月). 「音声スペクトル密度の統計的最適認識に関する理論的考察」.日本音響学会誌.

[11] BS Atal; MR Schroeder (1967). 「音声の予測符号化」. Conf. Communications and Proc .

[12] JP Burg (1967). 「最大エントロピースペクトル解析」.第37回探査地球物理学会会議録, オクラホマシティ.

[Gray-13] Gray, Robert M. (2010). 「パケットネットワークにおけるリアルタイムデジタル音声の歴史：線形予測符号化とインターネットプロトコルの第2部」(PDF) . Found. Trends Signal Process . 3 (4): 203– 303. doi : 10.1561/2000000036 . ISSN 1932-8346. 2022年10月9日時点のオリジナルよりアーカイブ(PDF) .

[Schroeder2014-14] シュローダー、マンフレッド・R. (2014). 「ベル研究所」.音響、情報、通信：マンフレッド・R・シュローダー記念版. シュプリンガー. p. 388. ISBN 9783319056609。

[15] Atal, B.; Schroeder, M. (1978). 「音声信号の予測符号化と主観的誤差基準」. ICASSP '78. IEEE 国際音響・音声・信号処理会議. 第3巻. pp. 573– 576. doi :10.1109/ICASSP.1978.1170564.

[16] Schroeder, Manfred R. ; Atal, Bishnu S. (1985). 「符号励起線形予測(CELP): 超低ビットレートにおける高品質音声」. ICASSP '85. IEEE 国際音響・音声・信号処理会議. 第10巻. pp. 937– 940. doi :10.1109/ICASSP.1985.1168147. S2CID 14803427.

[17] Gupta, Shipra (2016年5月). 「テキスト非依存型話者認識におけるMFCCの応用」(PDF) . International Journal of Advanced Research in Computer Science and Software Engineering . 6 (5): 805–810 (806). ISSN 2277-128X. S2CID 212485331. 2019年10月18日時点のオリジナル(PDF)からのアーカイブ。 2019年10月18日閲覧。

[18] ポール・ランスキー「More Than Idle Chatter」。2017年12月24日時点のオリジナルよりアーカイブ。2024年6月2日閲覧。

[tai-19] Tai, Hwan-Ching; Chung, Dai-Ting (2012年6月14日). 「ストラディバリのヴァイオリンは、女性が発音する母音に似たフォルマント周波数を示す」. Savart Journal . 1 (2).