Linux用音声認識ソフトウェア

2000年代初頭の時点で、Linuxには複数の音声認識（SR）ソフトウェアパッケージが存在していました。その中には、無料のオープンソースソフトウェアもあれば、プロプライエタリソフトウェアもあります。音声認識とは通常、人間の言語に含まれる数千語を区別しようとするソフトウェアを指します。音声制御とは、コンピューターに操作コマンドを伝えるために使用されるソフトウェアを指す場合もあります。

Linuxネイティブ音声認識

歴史

1990年代後半、IBMが開発したViaVoiceのLinux版がユーザーに無料で提供されました。2002年に、このフリーソフトウェア開発キット（SDK）は開発者によって削除されました。

開発状況

2000年代初頭、高品質なLinuxネイティブ音声認識エンジンの開発が求められました。その結果、Microsoft Cortanaに似たオープンソースの Mycroftなど、Linux音声認識プログラムの開発に特化したプロジェクトがいくつか開始されました。

スピーチサンプルクラウドソーシング

音声認識プロジェクト用の音響モデルを作成するには、音声コーパスを収集することが不可欠です。VoxForgeは、音声認識プロジェクトで使用するための書き起こし音声を収集するために構築された、無料の音声コーパスおよび音響モデルのリポジトリです。VoxForgeは、クラウドソーシングによる音声サンプルと、認識された音声シーケンスの修正を受け付けています。ライセンスはGNU General Public License (GPL)です。

音声認識のコンセプト

最初のステップは、コンピューターでオーディオストリームの録音を開始することです。ユーザーには主に2つの処理オプションがあります。

離散音声認識（DSR）は、ローカルマシン上で情報を完全に処理します。これは、SRのあらゆる側面がユーザーのコンピュータ内で完全に実行される自己完結型システムを指します。これは、知的財産（IP）の保護と望ましくない監視の回避に不可欠になりつつあります（2018年）。
リモートまたはサーバーベースのSR – 音声ファイルをリモートサーバーに送信し、テキスト文字列ファイルに変換します。近年のクラウドストレージ技術とデータマイニングの発展により、この方法では監視、情報窃盗、マルウェアの挿入が容易になります。

かつてはスマートフォンが音声認識処理に必要な性能、ワーキングメモリ、ストレージ容量を欠いていたため、リモート認識はスマートフォンで利用されていました。モバイルデバイスにおけるサーバーベースのSRは依然として広く普及していますが、これらの限界はほぼ克服されています。

ブラウザでの音声認識

離散音声認識はWebブラウザ内で実行でき、サポートされているブラウザであれば問題なく動作します。Remote SRは主にサーバーベースのシステムであり、前述のセキュリティ上の問題を抱えているため、デスクトップコンピューターやモバイルデバイスにソフトウェアをインストールする必要はありません。

リモート: ディクテーションサービスは、Web ブラウザー経由でユーザーの音声トラックを記録します。
DSR : 一部のソリューションは、データをサーバーに送信せずにクライアントでのみ動作します。

無料の音声認識エンジン

以下は、Linuxにおける音声認識の実装に特化したプロジェクトと主要なネイティブソリューションの一覧です。これらはエンドユーザー向けアプリケーションではなく、エンドユーザー向けアプリケーションの開発に使用できるプログラミングライブラリです。

CMU Sphinx は、カーネギーメロン大学で開発された音声認識システムのグループを表す一般的な用語です。
HTK は、Kaldi 以前に最も有名で広く使用されていた音声認識ソフトウェアです。
Juliusは、音声関連の研究者や開発者向けの高性能な 2 パス大語彙連続音声認識(LVCSR) デコーダーソフトウェアです。
Kaldi は、Apache ライセンスに基づいて提供される音声認識用のツールキットです。
Mozilla DeepSpeechは、Baiduのディープスピーチ研究論文に基づいてオープンソースの音声テキスト変換エンジンを開発しています。 ^{[ 1 ]}

VoxForgeは、オープンソースの音声認識エンジン用の無料の音声コーパスおよび音響モデルのリポジトリです。

独自の音声認識エンジン

Janus Recognition Toolkit (JRTk)は、カーネギーメロン大学とカールスルーエ工科大学のインタラクティブシステムラボラトリーズによって開発された、主にLinuxを対象としたクローズドソースの音声認識ツールキットで、商用ライセンスと研究ライセンスが利用可能です。^{[ 2 ]}

音声制御とキーボードショートカット

音声認識は通常、人間の言語に含まれる数千語を区別しようとするソフトウェアを指します。音声制御は、コンピュータや家電製品に操作コマンドを送信するために用いられるソフトウェアを指す場合もあります。音声制御に必要な語彙は通常、はるかに少ないため、実装がはるかに容易です。

シンプルなソフトウェアとキーボードショートカットを組み合わせることで、Linux で実用的な精度の音声制御を実現できる可能性が高まります。

LinuxでWindowsの音声認識ソフトウェアを実行する

互換性レイヤー経由

LinuxではWineを使用することで Dragon NaturallySpeakingなどのプログラムを使用することは可能ですが、使用するバージョンによっては問題が発生する可能性があります。^[³^]

仮想化されたWindows経由

Windowsの音声認識ソフトウェアをLinuxで使用することも可能。無料の仮想化ソフトウェアを使用すれば、Windowsと NaturallySpeakingをLinuxで実行できます。VMware ServerまたはVirtualBoxは仮想マシン間でのコピー＆ペーストをサポートしているため、音声入力したテキストを仮想マシン間で簡単に転送できます。

参照

音声認識ソフトウェアの一覧
音声インターフェースガイドライン – 人間の音声で操作するインターフェースの設計ガイドライン

参考文献

^ 「BaiduのDeepSpeechアーキテクチャのTensorFlow実装」 Mozilla、2017年12月5日。 2017年12月5日閲覧。
^ (IAR), Roedder, Margit (2018年1月26日). 「KIT – Janus Recognition Toolkit」 . isl.ira.uka.de. 2012年7月19日時点のオリジナルよりアーカイブ。{{cite web}}: CS1 maint: multiple names: authors list (link)
^ 「WineHQ – Dragon Naturally Speaking」 . appdb.winehq.org .

外部リンク

アクセシビリティ、音声認識 – Ubuntu ヘルプ

[1] 「BaiduのDeepSpeechアーキテクチャのTensorFlow実装」 Mozilla、2017年12月5日。 2017年12月5日閲覧。

[2] (IAR), Roedder, Margit (2018年1月26日). 「KIT – Janus Recognition Toolkit」 . isl.ira.uka.de. 2012年7月19日時点のオリジナルよりアーカイブ。{{cite web}}: CS1 maint: multiple names: authors list (link)

[3] 「WineHQ – Dragon Naturally Speaking」 . appdb.winehq.org .

[ 1 ]

[ 2 ]

[