マスキング閾値

音響学（振動、音、超音波、超低周波音などを扱う物理学の一分野）におけるマスキング閾値とは、2つの音が同時に存在し、一方の音がもう一方の音よりも大きい場合、小さい音は大きい音にマスキングされて聞こえない可能性があるというプロセスを指します。^[1]

マスキング閾値とは、「マスカー」と呼ばれる別のノイズが存在する状況で、ある音を聞き取れるようにするために必要な音圧レベルのことです。この閾値は、周波数、マスカーの種類、そしてマスキングされる音の種類によって異なります。この効果は、周波数が近い2つの音の間で最も強く現れます。

音声伝送において、音を知覚できないことにはいくつかの利点があります。例えば、音声エンコードにおいては、聞こえない音を省略することで圧縮率を向上させることができます。これにより、音声のエンコードに必要なビット数が少なくなり、最終的なファイルサイズも小さくなります。

オーディオ圧縮のアプリケーション

1 つのトーンのみで作業することはまれです。ほとんどの音は複数のトーンで構成されています。同じ周波数に多くのマスカーが存在する可能性があります。このような状況では、音を構成する周波数を決定するために、512 または 1024 ポイントを介した高解像度の高速フーリエ変換を使用してグローバルマスキングしきい値を計算する必要があります。人間が聞き取れない帯域幅があるため、個々のしきい値を計算する前に、信号レベル、マスカーの種類、および周波数帯域を知っておく必要があります。静かなときにマスキングしきい値がしきい値を下回ることを避けるため、部分しきい値の計算に最後のしきい値を追加します。^[^{説明が必要}^]これにより、信号対マスク比 (SMR) を計算できます。

スペクトルチャート — 1kHzの音のスペクトル。静かな環境では、閾値以下の音は聞こえません。この閾値はマスキング周波数付近で変化し、近くの音が聞こえにくくなります。マスキング閾値の傾きは、高周波数側よりも低周波数側で急峻になるため、高周波数側の音の方がマスキングされやすくなります。

心理音響モデル

MPEGオーディオエンコード処理では、マスキング閾値が活用されます。この処理には、「心理音響モデル」と呼ばれるブロックがあります。これは、バンドフィルタおよび量子化ブロックと連携して動作します。心理音響モデルは、フィルタバンドから送られてきたサンプルを分析し、高速フーリエ変換を用いて各周波数帯域のマスキング閾値を計算します。使用されるポイント数はMPEGレイヤーによって異なります。これらの閾値を用いて信号対マスク比が決定され、量子化器に送られます。量子化器は、SMRに基づいて各ブロックにビット数を割り当てます。SMRが最も高いブロックは、最大ビット数でエンコードされます。

参考文献

^ 「マスキング - マスキングの上方拡散についてもっと知る | hear-it.org」www.hear-it.org . 2022年4月21日閲覧。

[1] 「マスキング - マスキングの上方拡散についてもっと知る | hear-it.org」www.hear-it.org . 2022年4月21日閲覧。