オープンスマイル

オープンスマイル
オープンスマイル
開発者	オードイーリング株式会社
初回リリース	2010年9月; 15年前（2010年9月）
安定版リリース	3.0.1 / 2022年1月4日; 4年前 ( 2022-01-04 )
書かれた	C++
プラットフォーム	Linux、macOS、Windows、Android、iOS
タイプ	機械学習
ライセンス	ソース利用可能、独自
Webサイト	audeering.com

openSMILE ^[2]は、音声信号からの特徴量の自動抽出と音声・音楽信号の分類を行う、ソースコードが利用可能なソフトウェアです。「SMILE」は「Speech & Music Interpretation by Large-space Extraction（大規模空間抽出による音声・音楽解釈）」の略です。このソフトウェアは主に自動感情認識の分野で応用されており、感情コンピューティング研究コミュニティで広く利用されています。openSMILEプロジェクトは2008年から活動しており、2013年からはドイツのaudEERING GmbHによって保守されています。openSMILEは、ソースコードが利用可能なライセンスの下で、研究目的および個人使用のために無料で提供されています。商用利用については、audEERING社がカスタムライセンスオプションを提供しています。

応用分野

openSMILEは、学術研究や商用アプリケーションで、音声や音楽の信号をリアルタイムで自動分析するために使用されています。音声信号から話し言葉の内容を抽出する自動音声認識とは対照的に、openSMILEは、特定の音声または音楽セグメントの特徴を認識することができます。人間の音声にエンコードされたこのような特徴の例には、話者の感情[ ^3]、年齢、性別、性格、さらにはうつ病、酩酊、発声障害などの話者状態があります。このソフトウェアにはさらに、音楽のムードを自動的に検出し、コーラス部分、キー、コード、テンポ、拍子、ダンススタイル、ジャンルを認識する音楽分類技術も含まれています。

openSMILEツールキットは、Interspeech ComParE、^[4] AVEC、^[5] MediaEval、^[6] EmotiW ^{[7]などの多様な研究コンペティションのベンチマークとして機能しています。}

歴史

openSMILEプロジェクトは、2008年にミュンヘン工科大学のFlorian Eyben、Martin Wöllmer、 Björn Schullerによって、欧州連合研究プロジェクトSEMAINEの一環として開始されました。SEMAINEプロジェクトの目標は、感情および社会知能を備えた仮想エージェントの開発でした。このシステムでは、openSMILEが音声と感情のリアルタイム分析に応用されています。最終的なSEMAINEソフトウェアリリースは、openSMILEバージョン1.0.1に基づいています。

2009年には、openSMILEをベースにした感情認識ツールキット（openEAR）が公開されました。「EAR」は「Emotion and Affect Recognition（感情と感情認識）」の略です。

2010 年に、openSMILE バージョン 1.0.1 が公開され、ACM Multimedia Open-Source Software Challenge で紹介され、賞を受賞しました。

2011年から2013年にかけて、ミュンヘン工科大学における博士論文の一環として、フロリアン・アイベン氏とフェリックス・ウェニンガー氏によってopenSMILEの技術が拡張・改良されました。このソフトウェアは、欧州連合（EU）の資金提供を受けたプロジェクト「ASC-Inclusion」にも応用されました。このプロジェクトでは、エリック・マルキ氏によってソフトウェアが拡張され、自動感情認識と視覚化に基づいて自閉症児に感情表現を指導できるようになりました。

2013 年、audEERING 社はミュンヘン工科大学からコードベースの権利を取得し、バージョン 2.0 がソース利用可能な研究ライセンスの下で公開されました。

2016 年までに、openSMILE は世界中で 50,000 回以上ダウンロードされ、感情認識の標準ツールキットとしての地位を確立しました。

受賞歴

openSMILEは、2010年にACMマルチメディアオープンソースコンペティションで受賞しました。このソフトウェアツールは、自動感情認識に関する多数の科学論文に採用されています。openSMILE ^[8]とその拡張版であるopenEAR ^[9]は、現在までに1000以上の科学論文で引用されています。

参考文献

^ 「openSMILE 3.0.1 リリース」。2022年1月5日閲覧。
^ F. Eyben、M. Wöllmer、B. Schuller：「openSMILE - ミュンヘンの多用途で高速なオープンソースオーディオ機能抽出器」、ACM Multimedia (MM)会議論文集、ACM、フィレンツェ、イタリア、ACM、pp. 1459-1462、2010年10月。
^ B. Schuller、B. Vlasenko、F. Eyben、M. Wöllmer、A. Stuhlsatz、A. Wendemuth、G. Rigoll、「Cross-Corpus Acoustic Emotion Recognition: Variances and Strategies (Extended Abstract)」、中国西安のACII 2015会議録、IEEE Transactions on Affective Computingの最も影響力のある論文に関する特別セッションに招待。
^ B. Schuller、S. Steidl、A. Batliner、J. Hirschberg、JK Burgoon、A. Elkins、Y. Zhang、E. Coutinho：「INTERSPEECH 2016 Computational Paralinguistics Challenge: Deception & Sincerity Archived 2017-06-09 at the Wayback Machine」、Proceedings INTERSPEECH 2016、ISCA、サンフランシスコ、米国、2016年。
^ F. Ringeval、B. Schuller、M. Valstar、R. Cowie、M. Pantic、「AVEC 2015 - 第5回国際オーディオ/ビジュアル感情チャレンジおよびワークショップ」、第23回ACM国際マルチメディア会議議事録、MM 2015（オーストラリア、ブリスベン）、ACM、2015年10月。
^ M. Eskevich、R. Aly、D. Racca、R. Ordelman、S. Chen、GJ Jones、「MediaEval 2014 での検索とハイパーリンクタスク」。
^ F. Ringeval、S. Amiriparian、F. Eyben、K. Scherer、B. Schuller、「野生における感情認識：マルチモーダル意思決定レベル融合における音声と唇の動きの統合」、ICMI 2014 EmotiW – 野生における感情認識チャレンジおよびワークショップ（EmotiW 2014）の議事録、第16回ACM国際マルチモーダルインタラクション会議（ICMI 2014）のサテライト、（トルコ、イスタンブール）、pp. 473– 480、ACM、2014年11月
^ Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2018年4月26日). Opensmile: ミュンヘン発の多用途かつ高速なオープンソース音声特徴抽出ツール. ACM. pp. 1459– 1462. doi :10.1145/1873951.1874246. ISBN 978-1-60558-933-6– Google Scholar経由。
^ Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2018年4月26日). 「OpenEAR—ミュンヘンのオープンソース感情・感情認識ツールキットの紹介」IEEE. pp. 1– 6 – Google Scholar経由.

外部リンク

openSMILEウェブサイト
GitHub の openSMILE
openSMILEドキュメント
openSMILEに関するGoogle Scholarページ
openEARに関するGoogle Scholarページ
startupvalley.comの記事

[1] 「openSMILE 3.0.1 リリース」。2022年1月5日閲覧。

[2] F. Eyben、M. Wöllmer、B. Schuller：「openSMILE - ミュンヘンの多用途で高速なオープンソースオーディオ機能抽出器」、ACM Multimedia (MM)会議論文集、ACM、フィレンツェ、イタリア、ACM、pp. 1459-1462、2010年10月。

[3] B. Schuller、B. Vlasenko、F. Eyben、M. Wöllmer、A. Stuhlsatz、A. Wendemuth、G. Rigoll、「Cross-Corpus Acoustic Emotion Recognition: Variances and Strategies (Extended Abstract)」、中国西安のACII 2015会議録、IEEE Transactions on Affective Computingの最も影響力のある論文に関する特別セッションに招待。

[4] B. Schuller、S. Steidl、A. Batliner、J. Hirschberg、JK Burgoon、A. Elkins、Y. Zhang、E. Coutinho：「INTERSPEECH 2016 Computational Paralinguistics Challenge: Deception & Sincerity Archived 2017-06-09 at the Wayback Machine」、Proceedings INTERSPEECH 2016、ISCA、サンフランシスコ、米国、2016年。

[5] F. Ringeval、B. Schuller、M. Valstar、R. Cowie、M. Pantic、「AVEC 2015 - 第5回国際オーディオ/ビジュアル感情チャレンジおよびワークショップ」、第23回ACM国際マルチメディア会議議事録、MM 2015（オーストラリア、ブリスベン）、ACM、2015年10月。

[6] M. Eskevich、R. Aly、D. Racca、R. Ordelman、S. Chen、GJ Jones、「MediaEval 2014 での検索とハイパーリンクタスク」。

[7] F. Ringeval、S. Amiriparian、F. Eyben、K. Scherer、B. Schuller、「野生における感情認識：マルチモーダル意思決定レベル融合における音声と唇の動きの統合」、ICMI 2014 EmotiW – 野生における感情認識チャレンジおよびワークショップ（EmotiW 2014）の議事録、第16回ACM国際マルチモーダルインタラクション会議（ICMI 2014）のサテライト、（トルコ、イスタンブール）、pp. 473– 480、ACM、2014年11月

[8] Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2018年4月26日). Opensmile: ミュンヘン発の多用途かつ高速なオープンソース音声特徴抽出ツール. ACM. pp. 1459– 1462. doi :10.1145/1873951.1874246. ISBN 978-1-60558-933-6– Google Scholar経由。

[9] Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2018年4月26日). 「OpenEAR—ミュンヘンのオープンソース感情・感情認識ツールキットの紹介」IEEE. pp. 1– 6 – Google Scholar経由.