平均オピニオンスコア(MOS )は、体感品質(QoE)および電気通信工学の分野で用いられる指標であり、刺激またはシステムの全体的な品質を表します。これは、被験者がシステム品質のパフォーマンスについて評価する、事前に定義された尺度上の個々の「値」の算術平均です。 [ 1 ]このような評価は通常、主観的品質評価テストで収集されますが、アルゴリズムによって推定することもできます。
MOSは、ビデオ、オーディオ、オーディオビジュアルの品質評価に広く用いられる指標ですが、これらのモダリティに限定されるものではありません。ITU -Tは、ITU-T勧告P.800.1において、スコアがオーディオビジュアル、会話、リスニング、トーク、またはビデオ品質テストのいずれから得られたかに応じて、MOSの参照方法を複数定義しています。
MOSは、通常1~5の範囲の有理数で表されます。1は最低品質、5は最高品質です。基礎となるテストで使用されている評価尺度に応じて、他のMOS範囲も考えられます。絶対カテゴリー評価尺度は非常に一般的に使用されており、これは「悪い」から「優れている」までの評価を1~5の数値にマッピングします(下表参照)。
| 評価 | ラベル |
|---|---|
| 5 | 素晴らしい |
| 4 | 良い |
| 3 | 公平 |
| 2 | 貧しい |
| 1 | 悪い |
ITU-T勧告( ITU-T P.800やITU-T P.910など)には、他の標準化された品質評価尺度も存在します。例えば、1~100の範囲の連続尺度を使用することができます。どの尺度を使用するかは、テストの目的によって異なります。特定の状況では、同じ刺激に対して異なる尺度を用いて評価を行った場合、統計的に有意な差が見られないことがあります。[ 2 ]
MOSは、主観的品質評価テストにおいて、被験者が特定の刺激に対して行った単一評価の算術平均として計算されます。つまり、
特定の刺激に対する被験者の個別の評価はどこにありますか。
MOSは特定の数学的特性とバイアスの影響を受けます。一般的に、MOSがエクスペリエンスの質を単一のスカラー値で定量化する上での有用性については、議論が続いています。[ 3 ]
MOSをカテゴリ評価尺度を用いて取得する場合、リッカート尺度と同様に、順序尺度に基づきます。この場合、尺度項目の順位は既知ですが、その間隔は既知ではありません。したがって、中心傾向を得るために個々の評価の平均を計算することは数学的に正しくなく、代わりに中央値を使用する必要があります。[ 4 ]しかし、実際には、MOSの定義においては算術平均を計算しても許容されると考えられています。
カテゴリー評価尺度(ACRなど)では、個々の項目が被験者によって等距離に知覚されないことが示されています。例えば、「良い」と「まあまあ」の間の「差」は、 「良い」 と「素晴らしい」の間の「差」よりも大きい場合があります。知覚される距離は、尺度が翻訳される言語によっても異なる可能性があります。[ 5 ]しかし、尺度の翻訳が得られた結果に有意な影響を与えなかった研究も存在します。[ 6 ]
MOS評価の一般的な取得方法には、他にもいくつかのバイアスが存在します。[ 7 ]非線形的に知覚される尺度に関する前述の問題に加えて、いわゆる「範囲均等化バイアス」があります。被験者は、主観的実験の過程で、評価尺度全体にわたるスコアを与える傾向があります。そのため、提示された品質の範囲が異なる場合、2つの異なる主観的テストを比較することは不可能になります。言い換えれば、MOSは決して絶対的な品質の尺度ではなく、MOSが取得されたテストとの相対的な尺度にすぎません。
上記の理由、そして主観テストにおける知覚品質に影響を与えるその他のいくつかの文脈的要因を考慮し、MOS値は、値が収集された状況が既知であり、かつ報告されている場合にのみ報告されるべきです。したがって、異なる状況やテスト設計から収集されたMOS値を直接比較すべきではありません。勧告ITU-T P.800.2は、 MOS値の報告方法を規定しています。具体的には、P.800.2は次のように述べています。
別々の実験から生成された MOS 値を直接比較することは、それらの実験が比較するように明示的に設計されていない限り意味がありません。その場合でも、そのような比較が有効であることを確認するためにデータを統計的に分析する必要があります。
MOSは歴史的に、受話者が「静かな部屋」に座り、電話の通話品質を知覚的に採点するという主観的な測定法に由来しています。この種の試験方法は電話業界で数十年にわたり使用されており、 ITU-T勧告P.800で標準化されました。同勧告では、「話者は、容積が30~120 m³、残響時間が500ミリ秒未満(できれば200~300ミリ秒)の静かな部屋に座るべきである。室内の騒音レベルは30 dBA未満で、スペクトルに顕著なピークがあってはならない」と規定されています。他のモダリティの要件も、後のITU-T勧告で同様に規定されました。
MOS 評価の取得は、人間の評価者を採用する必要があるため、時間がかかり、費用がかかる場合があります。コーデックの開発やサービス品質の監視などのさまざまなユース ケースでは、品質を繰り返し自動的に評価する必要がありますが、MOS スコアは、通常、人間の MOS 評価を使用して開発およびトレーニングされた客観的な品質モデルによって予測することもできます。このようなモデルを使用する場合、生成される MOS の違いがユーザーに目立つかどうかという疑問が生じます。たとえば、5 段階の MOS スケールで画像を評価する場合、MOS が 5 の画像は MOS が 1 の画像よりも品質が著しく優れていることが予想されます。それとは逆に、MOS が 3.8 の画像が MOS が 3.6 の画像よりも品質が著しく優れているかどうかは明らかではありません。デジタル写真についてユーザーが認識できる最小の MOS の違いを決定するために行われた調査では、ユーザーの 75% がより高品質の画像を検出できるようにするには、約 0.46 の MOS の違いが必要であることが示されました。[ 8 ]しかしながら、画質に対する期待、ひいてはMOSは、ユーザーの期待の変化に伴い時間とともに変化します。その結果、[ 8 ]のような分析手法を用いて決定された最小知覚MOS差も時間とともに変化する可能性があります。