ムシュラ

Listening test methodology

MUSHRAは、Multiple Stimuli with Hidden Reference and Anchor（隠れた参照とアンカーを持つ多重刺激）の略で、非可逆音声圧縮アルゴリズムの出力の知覚品質を評価するためのコーデック聴取テストを実施する方法論です。これはITU-R勧告BS.1534-3で定義されています。^[1] MUSHRA法は「中程度の音質」の評価に推奨されています。非常に小さい、または敏感な音声障害の場合は、ITU-R勧告BS.1116-3（ABC/HR）が推奨されます。

MUSHRAは、音楽や映画の視聴、ポッドキャストやラジオなどの音声、オンラインストリーミング（品質とサイズや計算効率のトレードオフが重要）、最新のデジタル電話、VOIPアプリケーション（明瞭性を維持しながら準リアルタイムで低ビットレートのエンコードを必要とする）など、幅広いユースケースにわたるオーディオコーデックのテストに使用できます。プロフェッショナル、オーディオマニア、プロシューマーなどの用途には、前述のABC/HRのような代替テストの方が適しています。これらのテストでは、高品質で高解像度のオーディオを前提としており、基準素材とコーデック出力の間に検出可能な差異が最小限に抑えられます。

MUSHRA法（同様の目的を持つ平均意見評点（MOS）法）と比較した主な利点は、統計的に有意な結果を得るために必要な参加者数が少ないことです。 ^[要出典]これは、すべてのコーデックが同時に同じ参加者に提示されるため、対応のあるt検定または反復測定分散分析を統計分析に使用できるためです。さらに、MUSHRAで使用される0～100の尺度は、特にMOS実験でよく使用される0～5の修正リッカート尺度と比較して、知覚可能な差異を非常に細かく表現することを可能にします。

MUSHRAでは、聴取者にはリファレンス（そのようにラベル付けされている）、一定数のテストサンプル、リファレンスの非表示バージョン、そして1つ以上のアンカー（実験者と参加者の両方がすぐに認識できる、著しく劣化したエンコード。リファレンスと同様に使用され、参加者に品質スケールの低域の実態を示す基準（「アンカー」）を提供します）が提示されます。勧告では、テスト信号に低域アンカーと中域アンカーを含めることが規定されています。これらは通常、リファレンスの7kHzと3.5kHzのローパスバージョンです。アンカーの目的は、軽微なアーティファクトが過度にペナルティを受けないようにスケールを較正することです。これは、異なるラボの結果を比較または統合する際に特に重要です。

リスナーの行動

MUSHRAとITU BS.1116テスト^[2]はどちらも、典型的なアーティファクトがどのように聞こえ、どこで発生する可能性があるかを熟知した、訓練を受けた熟練した聴取者を必要とします。また、熟練した聴取者は評価尺度をより深く理解しているため、訓練を受けていない聴取者よりも再現性の高い結果が得られます。したがって、訓練を受けた聴取者であれば、統計的に有意な結果を得るために必要な聴取者数は少なくて済みます。

熟練リスナーと未経験リスナーの嗜好は類似していると仮定されており、熟練リスナーの結果は消費者にとっての予測材料にもなる。この仮定に一致して、Schinkel-Bielefeldら^[3]は、音色のみを含み空間アーティファクトを含まないテスト信号を用いた場合、熟練リスナーと未経験リスナーの順位に差は見られないことを明らかにした。しかし、Rumseyら^[4]は、空間アーティファクトを含む信号の場合、熟練リスナーは音色アーティファクトを主に重視する未経験リスナーよりも空間アーティファクトをわずかに重視することを示した。

これに加えて、熟練したリスナーは、テスト対象信号の小さなセクションを繰り返し聴くオプションをより多く活用し、テスト対象信号とリファレンス信号との比較をより多く行うことが示されています。^[3]好みの評価を行う素人リスナーとは対照的に、熟練したリスナーはオーディオ品質の評価を行い、テスト対象信号と非圧縮のオリジナル信号の違いを評価します。これがMUSHRAテストの実際の目的です。

事前または事後のスクリーニング

MUSHRA ガイドラインでは、リスナーの信頼性を評価するための 2 つの主要な可能性について説明しています (以下で説明)。

最も簡単で一般的な方法は、事後的に、全テスト項目の15%以上で隠れた参照音の繰り返しが90 MUSHRAポイント未満と評価したリスナー全員を失格とすることです。理想的には、隠れた参照音は、元の参照音との知覚的同等性を示すために100ポイントと評価されるべきです。隠れた参照音と高品質信号が混同されることはありますが、仕様では、評価された信号が元の参照音と異なることをリスナーが確信している場合にのみ、90ポイント未満の評価を与えるべきであると規定されているため、隠れた参照音の90ポイント未満の評価は、明白かつ明白なリスナーの誤りとみなされます。

聴取者のパフォーマンスを評価するもう一つの可能性はeGauge ^{[5]です。これは}分散分析(ANOVA)に基づく枠組みです。一致度、再現性、弁別可能性を計算しますが、事前または事後スクリーニングには後者の2つだけが推奨されます。一致度は、聴取者が他の聴取者と一致するかどうかを分散分析で調べるものです。再現性は、同じテスト信号を再度評価する際の個人の内部信頼性を、他のテスト信号の分散と比較して調べます。弁別可能性は、聴取者が異なる条件のテスト信号を区別できるかどうかを確認することで、一種のテスト間信頼性を分析します。eGauge ではすべてのテスト信号を2回聞く必要があるため、隠れた参照に基づいて聴取者を事後スクリーニングする従来の方法に比べて、短期的には時間的に非効率的です。eGauge には、長期的な視点で使用する場合に利点があります。事後に過剰な失敗率が発見され、サンプルの結果が十分な統計的検出力を欠くという稀なケースで、完全にやり直さなければならないというわずかな可能性をなくします。さらに、初期の非効率性は、採用段階の必要性をなくすことで、一連の実験を通じて償却できます。リスナーが eGauge を使用して信頼できるリスナーであることを証明した場合、テストの性質が大幅に変更されない限り、将来のリスニングテストでも信頼できるリスナーと見なすことができます (たとえば、ステレオテストの信頼できるリスナーは、5.1または22.2構成、さらにはモノラル形式でも、アーティファクトを認識するのが必ずしも同じくらい得意であるとは限りません)。

テスト項目

重要なテスト項目を選択することが重要です。具体的には、エンコードが困難で、アーティファクトが発生しやすい項目です。同時に、テスト項目は生態学的に妥当である必要があります。つまり、放送素材を代表するものでなければならず、リアリティを犠牲にしてエンコードを困難にするように設計された単なる合成信号であってはなりません。重要な素材を選択する方法として、Ekerootらがランク付けによる排除法を提案しています。^[6]^{[詳細な説明が必要]}この方法は最も重要なテスト項目を選択するのに効果的ですが、異なるアーティファクトが発生しやすい多様なテスト項目が含まれることを保証するものではありません。

理想的には、MUSHRAテスト項目は、その全期間にわたって同様の特性を維持する必要があります（例：音楽では一貫した楽器の使用、音声では同じ人の声が同様のリズムとトーンで使用されている）。項目の一部に他の部分と比較して異なるアーティファクトや強いアーティファクトが見られる場合、リスナーが一次元MUSHRA評価を決定することは困難です。これは、オーディオの特性が大きく変動することで起こりやすくなります。^{[7]多くの場合、短い項目は}定常性（知覚の一貫性と恒常性）が高くなるため、変動性が少なくなります。^[8]ただし、定常項目を選択する場合でも、生態学的に妥当な刺激（つまり、ラジオなどの現実世界の状況で出現する可能性のある、または出現する可能性のあるものに類似したオーディオ）には、信号の残りの部分よりもわずかに重要なセクションが含まれることがよくあります（例：スピーチのキーワードや音楽の主要なフレーズなど、刺激の種類によって異なります）。信号の異なるセクションに焦点を当てるリスナーは、それを異なる方法で評価する傾向があるため、定常性は重要です。分析力の高い聞き手は、分析力の低い聞き手よりも、刺激の最も重要な部分を特定する能力が高いようです。^[9]

テスト項目の言語

ITU-T P.800テスト^[10]は、平均オピニオン評点法に基づいており、VOIPなどで使用される音声コーデックの評価によく使用されています。この標準規格では、テストされる音声項目は常にリスナーの母国語でなければならないと規定されています。これらの目的で代わりにMUSHRAを使用すると、言語のマッチングは不要になります。MUSHRA実験は、話し言葉の了解度をテストすることではなく、それらの単語を含むオーディオの品質と可聴アーチファクト（歪みなど）の有無のみをテストすることを目的とします。北京語とドイツ語のリスナーによるMUSHRAの研究では、外国語と母国語のテスト項目の評価に有意な差は見られませんでした。最終結果に違いが見られなかったにもかかわらず、リスナーが外国語の項目を正確に評価するには、より多くの時間と比較の機会（繰り返し）が必要でした。^[11]この補償は、項目が1回しか聞かれず、参照オーディオと比較できないITU-T P.800 ACRテストでは不可能です。このようなテストでは、MUSHRAテストとは異なり、外国語の項目は、リスナーの対象言語の習熟度が低い場合、実際のコーデックの品質に関係なく、低品質であると認識され、評価されます。^[12]

参考文献

^ ITU-R勧告BS.1534
^ ITU-R BS.1116 (2015年2月). 「オーディオシステムにおける小さな障害の主観的評価方法」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要ですCS1 maint: numeric names: authors list (link)
^ ab Schinkel-Bielefeld, N., Lotze, N. and Nagel, F. (2013年5月). 「経験豊富なリスナーと経験の浅いリスナーによるオーディオ品質評価」. The Journal of the Acoustical Society of America . 133 (5): 3246. Bibcode :2013ASAJ..133.3246S. doi :10.1121/1.4805210.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Rumsey, Francis; Zielinski, Slawomir; Kassier, Rafael; Bech, Søren (2005-05-31). 「経験豊富なリスナーによるマルチチャンネルオーディオ品質の評価と、経験の浅いリスナーの嗜好との関係」 . The Journal of the Acoustical Society of America . 117 (6): 3832– 3840. Bibcode :2005ASAJ..117.3832R. doi :10.1121/1.1904305. ISSN 0001-4966. PMID 16018485.
^ Lorho, Gaëtan; Le Ray, Guillaume; Zacharov, Nick (2010-06-13). 「eGauge—オーディオ品質評価における評価者の専門性を示す尺度」.オーディオエンジニアリング協会紀要. 第38回国際音質評価会議.
^ Ekeroot, Jonas; Berg, Jan; Nykänen, Arne (2014-04-25). 「リスニングテストにおけるオーディオ刺激の重要性 - ランキングタスク中の聴取時間」第136回オーディオエンジニアリング協会大会.
^ Max, Neuendorf; Frederik, Nagel (2011-10-19). 「リスニングテストにおける知覚的定常性に関する探索的研究 - パートI：カスタムリスニングテストからの実世界信号」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ Frederik, Nagel; Max, Neuendorf (2011-10-19). 「聴取テストにおける知覚的定常性に関する探索的研究 - パートII：時間変動アーティファクトを含む合成信号」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ Nadja, Schinkel-Bielefeld (2017-05-11). 「MUSHRAテストにおけるオーディオ品質評価 - ループ設定とリスナーの評価への影響」第142回オーディオエンジニアリング協会大会.
^ ITU-T P.800 (1996年8月). 「P.800: 伝送品質の主観的判定方法」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要ですCS1 maint: numeric names: authors list (link)
^ Nadja, Schinkel-Bielefeld; Zhang, Jiandong; Qin, Yili; Katharina, Leschanowsky, Anna; Fu, Shanshan (2017-05-11). 「外国語項目におけるコーディングアーティファクトの認識はより困難か？ ― 北京語およびドイツ語を話す聴取者を対象とした研究」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要ですCS1 maint: multiple names: authors list (link)
^ Blašková, Lubica; Holub, Jan (2008). 「非ネイティブの聴取者は、伝達される音声の質をどのように認識するのか？」(PDF) . Communications . 10 (4): 11– 15. doi :10.26552/com.C.2008.4.11-14. S2CID 196699038.

外部リンク

webMUSHRA: YAMLを使用して構成可能な、MUSHRA準拠のWebオーディオAPIベースの実験ソフトウェア
RateIt: MUSHRA実験を実行するためのGUI
MUSHRAM - Wayback Machineの MUSHRA リスニングテスト用 Matlab インターフェース(2008-10-19 アーカイブ)
MUSHRAリスニングテスト用のMax/MSPインターフェース
MUSHRAを含むさまざまなテストを実行するためのブラウザベースのオーディオ評価ツール - コーディングは不要
BeaqleJS: リスニングテスト用の HTML5 と JavaScript ベースのフレームワーク
mushraJS+Server: mushraJSをベースにした、Erlangウェブサーバーであるmochiwebサーバー

[BS1534-2-1] ITU-R勧告BS.1534

[2] ITU-R BS.1116 (2015年2月). 「オーディオシステムにおける小さな障害の主観的評価方法」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要ですCS1 maint: numeric names: authors list (link)

[:0-3] Schinkel-Bielefeld, N., Lotze, N. and Nagel, F. (2013年5月). 「経験豊富なリスナーと経験の浅いリスナーによるオーディオ品質評価」. The Journal of the Acoustical Society of America . 133 (5): 3246. Bibcode :2013ASAJ..133.3246S. doi :10.1121/1.4805210.{{cite journal}}: CS1 maint: multiple names: authors list (link)

[4] Rumsey, Francis; Zielinski, Slawomir; Kassier, Rafael; Bech, Søren (2005-05-31). 「経験豊富なリスナーによるマルチチャンネルオーディオ品質の評価と、経験の浅いリスナーの嗜好との関係」 . The Journal of the Acoustical Society of America . 117 (6): 3832– 3840. Bibcode :2005ASAJ..117.3832R. doi :10.1121/1.1904305. ISSN 0001-4966. PMID 16018485.

[5] Lorho, Gaëtan; Le Ray, Guillaume; Zacharov, Nick (2010-06-13). 「eGauge—オーディオ品質評価における評価者の専門性を示す尺度」.オーディオエンジニアリング協会紀要. 第38回国際音質評価会議.

[6] Ekeroot, Jonas; Berg, Jan; Nykänen, Arne (2014-04-25). 「リスニングテストにおけるオーディオ刺激の重要性 - ランキングタスク中の聴取時間」第136回オーディオエンジニアリング協会大会.

[7] Max, Neuendorf; Frederik, Nagel (2011-10-19). 「リスニングテストにおける知覚的定常性に関する探索的研究 - パートI：カスタムリスニングテストからの実世界信号」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[8] Frederik, Nagel; Max, Neuendorf (2011-10-19). 「聴取テストにおける知覚的定常性に関する探索的研究 - パートII：時間変動アーティファクトを含む合成信号」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[9] Nadja, Schinkel-Bielefeld (2017-05-11). 「MUSHRAテストにおけるオーディオ品質評価 - ループ設定とリスナーの評価への影響」第142回オーディオエンジニアリング協会大会.

[10] ITU-T P.800 (1996年8月). 「P.800: 伝送品質の主観的判定方法」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要ですCS1 maint: numeric names: authors list (link)

[11] Nadja, Schinkel-Bielefeld; Zhang, Jiandong; Qin, Yili; Katharina, Leschanowsky, Anna; Fu, Shanshan (2017-05-11). 「外国語項目におけるコーディングアーティファクトの認識はより困難か？ ― 北京語およびドイツ語を話す聴取者を対象とした研究」 {{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要ですCS1 maint: multiple names: authors list (link)

[12] Blašková, Lubica; Holub, Jan (2008). 「非ネイティブの聴取者は、伝達される音声の質をどのように認識するのか？」(PDF) . Communications . 10 (4): 11– 15. doi :10.26552/com.C.2008.4.11-14. S2CID 196699038.