
パルス符号変調(PCM)を用いたデジタルオーディオにおいて、ビット深度とは各サンプルに含まれる情報のビット数であり、各サンプルの解像度に直接対応します。ビット深度の例としては、1サンプルあたり16ビットを使用するコンパクトディスクデジタルオーディオや、 1サンプルあたり最大24ビットをサポートできるDVDオーディオやブルーレイディスクなどがあります。
基本的な実装では、ビット深度の変化は主に量子化誤差によるノイズレベル、つまり信号対雑音比(SNR)とダイナミックレンジに影響します。しかし、ディザリング、ノイズシェーピング、オーバーサンプリングなどの技術を用いることで、ビット深度を変えずにこれらの影響を軽減することができます。ビット深度はビットレートとファイルサイズ にも影響します。
ビット深度はPCMデジタル信号を記述するのに役立ちます。非可逆圧縮を使用する非PCM形式には、関連するビット深度はありません。[ a ]
PCM信号は、元のアナログ信号を再構成するために必要な情報を含むデジタルオーディオサンプルのシーケンスです。各サンプルは特定の時点における信号の振幅を表し、サンプルは時間的に均一な間隔で配置されています。振幅はサンプルに明示的に格納される唯一の情報であり、通常は整数または浮動小数点数として格納され、サンプルのビット深度(ワード長またはワードサイズとも呼ばれる)と呼ばれる固定桁数の2進数としてエンコードされます。
分解能とは、アナログ値の範囲で表現できる離散値の数のことです。2進整数の分解能は、ワード長が増加するにつれて指数関数的に増加します。1ビットを追加すると分解能は2倍になり、2ビットを追加すると4倍になります。整数ビット深度が表現できる値の数は、2 n ( nはビット深度)で計算できます。[ 1 ]したがって、16ビットシステムの分解能は65,536(2 16)通りです。
整数PCMオーディオデータは通常、2の補数形式の符号付き数値として保存されます。[ 2 ]
現在、ほとんどのオーディオファイル形式とデジタルオーディオワークステーション(DAW) は、サンプルを浮動小数点数で表す PCM 形式をサポートしています。[ 3 ] [ 4 ] [ 5 ] [ 6 ] WAVファイル形式とAIFFファイル形式はどちらも浮動小数点表現をサポートしています。 [ 7 ] [ 8 ]ビットパターンが単一のビット列である整数とは異なり、浮動小数点数は、数学的な関係によって数値が形成される個別のフィールドで構成されています。最も一般的な標準はIEEE 754で、数値が正か負かを表す符号ビット、仮数、および仮数をスケーリングするための 2 の累乗係数を決定する指数の 3 つのフィールドで構成されています。仮数は、IEEE の 2 を基数とする浮動小数点形式では2 進小数として表されます。 [ 9 ]
ビット深度は、再構成信号の信号対雑音比(SNR)を量子化誤差によって決まる最大レベルに制限します。ビット深度は周波数応答には影響を与えず、周波数応答はサンプルレートによって制限されます。
アナログ-デジタル変換(ADC)中に生じる量子化誤差は、量子化ノイズとしてモデル化できます。これは、ADCへのアナログ入力電圧とデジタル出力値との間の丸め誤差です。このノイズは非線形であり、信号に依存します。

理想的なADCでは、量子化誤差が最下位ビット(LSB)間で均一に分布し、信号がすべての量子化レベルにわたって均一に分布している場合、信号対量子化雑音比(SQNR)は次のように計算できます。
ここでbは量子化ビット数であり、結果はデシベル(dB)で測定される。[ 10 ] [ 11 ]
したがって、 CDに収録されている 16 ビット デジタル オーディオの理論上の最大 SNR は 98 dB で、プロ仕様の 24 ビット デジタル オーディオでは 146 dB にまで達します。2011 年現在、デジタル オーディオ コンバーター技術の SNR は、集積回路設計における現実的な制限により、約 123 dB [ 12 ] [ 13 ] [ 14 ] (実質的に21 ビット) に制限されています。[ b ]それでも、これは人間の聴覚システムの性能とほぼ一致しています。[ 17 ] [ 18 ]複数のコンバーターを使用して同じ信号の異なる範囲をカバーすることができ、長期的にはより広いダイナミック レンジを録音するために組み合わせることができますが、短期的には単一のコンバーターのダイナミック レンジによって制限されます。これをダイナミック レンジ拡張と呼びます。[ 19 ] [ 20 ]
| # ビット | SNR (オーディオ) | SNR (ビデオ) | 最小dBステップ差(量子化丸め誤差) | 可能な値の数(サンプルあたり) | 符号付き表現の 範囲(サンプルごと) |
|---|---|---|---|---|---|
| 4 | 25.84デシベル | 34.31デシベル | 1.723 dB | 16 | −8から+7 |
| 8 | 49.93デシベル | 58.92デシベル | 0.1958 dB | 256 | −128から+127 |
| 11 | 67.99デシベル | 77.01デシベル | 0.03321 dB | 2,048 | −1,024から+1,023 |
| 12 | 74.01デシベル | 83.04デシベル | 0.01807 dB | 4,096 | −2,048から+2,047 |
| 16 | 98.09デシベル | 107.12デシベル | 0.001497 dB | 65,536 | −32,768から+32,767 |
| 18 | 110.13デシベル | 0.0004201 dB | 262,144 | −131,072から+131,071 | |
| 20 | 122.17デシベル | 0.0001165 dB | 1,048,576 | −524,288 から +524,287 | |
| 24 | 146.26デシベル | 0.000008717 dB | 16,777,216 | −8,388,608 から +8,388,607 | |
| 32 | 194.42 dB | 4.52669593 × 10 −8 dB | 4,294,967,296 | −2,147,483,648 から+2,147,483,647 | |
| 48 | 290.75デシベル | 1.03295047 × 10 −12 dB | 281,474,976,710,656 | −140,737,488,355,328 から+140,737,488,355,327 | |
| 64 | 387.08 dB | 2.09836113 × 10 −17 dB | 18,446,744,073,709,551,616 | −9,223,372,036,854,775,808 から+9,223,372,036,854,775,807 |
浮動小数点サンプルの解像度は、浮動小数点値が均等間隔ではないため、整数サンプルよりも複雑です。浮動小数点表現では、隣接する2つの値間の間隔は、その値に比例します。
浮動小数点形式と整数形式のトレードオフは、大きな浮動小数点値間の間隔が、同じビット深度の大きな整数値間の間隔よりも大きいことです。大きな浮動小数点数を丸めると、小さな浮動小数点数を丸めるよりも誤差が大きくなりますが、整数を丸めると常に同じレベルの誤差になります。言い換えると、整数は均一な丸めが行われ、常にLSBが0または1に丸められ、浮動小数点形式は均一なSNRを持ち、量子化ノイズレベルは常に信号レベルに一定の比率を持ちます。[ 21 ]浮動小数点ノイズフロアは信号が上昇すると上昇し、信号が下降すると下降するため、ビット深度が十分に低い場合は可聴な変動が生じます。[ 22 ]
デジタルオーディオ処理のほとんどの処理では、サンプルの再量子化が行われるため、アナログ-デジタル変換時に発生する元の量子化誤差と同様の丸め誤差が発生します。ADC処理時の暗黙的な誤差よりも大きな丸め誤差を防ぐために、処理中の計算は入力サンプルよりも高い精度で実行する必要があります。[ 23 ]
デジタル信号処理(DSP)演算は、固定小数点精度または浮動小数点精度のいずれかで実行できます。いずれの場合も、各演算の精度は、入力データの解像度ではなく、処理の各ステップを実行するために使用されるハードウェア演算の精度によって決まります。例えば、 x86プロセッサでは、浮動小数点演算は単精度または倍精度で実行され、固定小数点演算は16ビット、32ビット、または64ビットの解像度で実行されます。したがって、Intelベースのハードウェアで実行されるすべての処理は、ソース形式に関係なく、これらの制約の下で実行されます。[ c ]
固定小数点デジタル信号プロセッサは、多くの場合、特定の信号解像度をサポートするために特定のワード長をサポートします。たとえば、モトローラ 56000 DSP チップは、24 ビットの乗算器と 56 ビットの累算器を使用して、 2 つの 24 ビット サンプルに対して、オーバーフローや切り捨てなしで乗算累算演算を実行します。 [ 24 ]大きな累算器をサポートしていないデバイスでは、固定小数点の結果が切り捨てられ、精度が低下します。エラーは、実行される操作に依存する速度で DSP の複数のステージで増加します。DC オフセットのないオーディオ データに対する相関のない処理ステップでは、エラーは平均が 0 のランダムであると想定されます。この仮定に基づくと、分布の標準偏差がエラー信号を表し、量子化エラーは操作数の平方根に比例します。[ 25 ]畳み込みなどの繰り返し処理を伴うアルゴリズムには、高いレベルの精度が必要です。[ 23 ]無限インパルス応答(IIR)フィルタなどの再帰アルゴリズムでも高い精度が必要です。[ 26 ]特にIIRフィルタの場合、丸め誤差によって周波数応答が劣化し、不安定性が生じる可能性があります。[ 23 ]

量子化誤差によって生じるノイズ(音声処理中に生じる丸め誤差や精度の低下など)は、量子化前に信号に「ディザ」と呼ばれる少量のランダムノイズを加えることで軽減できます。ディザリングにより非線形量子化誤差の挙動が排除され、歪みが非常に少なくなりますが、ノイズフロアがわずかに上昇します。ITU -R 468 ノイズ加重法を使用して測定された 16 ビット デジタル オーディオの推奨ディザは、アライメント レベルより約 66 dB 低い、またはデジタルフルスケールより 84 dB低い値です。これは、マイクロフォンや室内のノイズ レベルに匹敵するため、16 ビット オーディオではほとんど影響がありません。
24ビットおよび32ビットオーディオでは、デジタルコンバータのノイズレベルが適用される可能性のあるディザの必要レベルよりも常に大きいため、ディザリングは必要ありません。24ビットオーディオは理論的には144dBのダイナミックレンジをエンコードでき、32ビットオーディオは192dBを達成できますが、最高のセンサーとマイクでさえ130dBを超えることはほとんどないため、現実世界でこれを達成することはほぼ不可能です。[ 27 ]
ディザは実効ダイナミックレンジを拡大するためにも使用できます。16ビットオーディオの知覚ダイナミックレンジは、人間の耳の周波数応答を利用したノイズシェーピングディザによって120dB以上になります。 [ 28 ] [ 29 ]
ダイナミックレンジとは、システムが記録または再生できる最大信号と最小信号の差です。ディザリングがない場合、ダイナミックレンジは量子化ノイズフロアと相関します。例えば、16ビット整数解像度では約96dBのダイナミックレンジが実現されます。ディザリングを適切に適用することで、デジタルシステムは通常の解像度よりも低いレベルの信号を再生することができ、解像度によって課せられる限界を超えて実効ダイナミックレンジを拡大することができます。[ 30 ]オーバーサンプリングやノイズシェーピングなどの技術を用いることで、量子化誤差を対象周波数帯域外に移動させることで、サンプリングされたオーディオのダイナミックレンジをさらに拡大することができます。
信号の最大レベルがビット深度で許容されるレベルよりも低い場合、録音にはヘッドルームが確保されます。スタジオ録音では、より高いビット深度を使用することで、同じダイナミックレンジを維持しながらヘッドルームを確保できます。これにより、低音量時に量子化誤差を増やすことなく、クリッピングのリスクを軽減できます。
オーバーサンプリングは、サンプルあたりのビット数を変えずにPCMオーディオのダイナミックレンジを拡大する代替手法です。[ 31 ]オーバーサンプリングでは、オーディオサンプルは所望のサンプルレートの倍数で取得されます。量子化誤差は周波数に対して均一に分布すると仮定されるため、量子化誤差の多くは超音波周波数にシフトし、再生時に デジタル-アナログコンバータによって除去できます。
解像度をnビット増加させるには、信号をオーバーサンプリングする必要がある。
例えば、14ビットADCは、16倍オーバーサンプリング(768kHz)で動作させると、16ビット/48kHzのオーディオを生成できます。したがって、オーバーサンプリングPCMでは、同じ解像度を得るために、サンプルあたりのビット数を少なくしてサンプル数を増やします。
ダイナミックレンジは、ソースでオーバーサンプリングを行わず、信号再構成時にオーバーサンプリングを行うことで拡張することもできます。再構成時に16倍のオーバーサンプリングを行うとします。再構成時の各サンプルは、元のサンプルポイントごとに16個のポイントが挿入される点で固有であり、これらはすべてデジタル再構成フィルタによって計算されます。実効ビット深度が増加するメカニズムは前述の通りです。つまり、量子化ノイズの電力は低減されませんが、ノイズスペクトルはオーディオ帯域幅の16倍に分散されます。
歴史的背景:コンパクトディスク規格は、ソニーとフィリップスの共同開発によって誕生しました。ソニーの最初の民生用製品には16ビットDACが搭載され、フィリップスの最初の製品にはデュアル14ビットDACが搭載されていました。14ビットPCMではSNRが84dBと、16ビットPCMよりも12dB低いため、市場だけでなくプロの間でも混乱を招きました。フィリップスは、一次ノイズシェーピングを用いた4倍オーバーサンプリングを実装し、理論上はCDフォーマットの96dBのダイナミックレンジを実現していました。[ 32 ]フィリップスCD100は、20Hz~20kHzのオーディオ帯域でSNRが90dBと評価され、これはソニーのCDP-101と同じでした。[ 33 ] [ 34 ]
信号をオーバーサンプリングすると、すべての周波数で帯域幅の単位あたり量子化ノイズが等しくなり、ダイナミック レンジはオーバーサンプリング比の平方根のみで改善されます。ノイズ シェーピングは、高周波数で追加のノイズを追加して、低周波数でのエラーをキャンセルする手法であり、オーバーサンプリング時にダイナミック レンジが大幅に増加します。n次ノイズ シェーピングの場合、オーバーサンプリングされた信号のダイナミック レンジは、ノイズ シェーピングなしのオーバーサンプリングに比べて 6 n dB 向上します。[ 35 ]たとえば、2 次ノイズ シェーピングを使用して 4 倍オーバーサンプリングでサンプリングされた 20 kHz アナログ オーディオの場合、ダイナミック レンジは 30 dB 増加します。したがって、176 kHz でサンプリングされた 16 ビットの信号は、ノイズ シェーピングなしで 44.1 kHz でサンプリングされた 21 ビットの信号と等しいビット深度になります。
ノイズシェーピングは、一般的にデルタシグマ変調で実装されます。デルタシグマ変調を使用することで、Direct Stream Digitalは、1ビットオーディオと64倍オーバーサンプリングで、オーディオ周波数において理論上120 dBのSNRを実現します。
ビット深度はデジタルオーディオ実装の基本的な特性です。アプリケーションの要件や機器の性能に応じて、異なるビット深度がアプリケーションごとに使用されます。
| 応用 | 説明 | オーディオ形式 |
|---|---|---|
| CD-DA(レッドブック)[ 36 ] | デジタルメディア | 16ビットLPCM |
| DVDオーディオ[ 37 ] | デジタルメディア | 16ビット、20ビット、24ビットLPCM [ A ] |
| スーパーオーディオCD [ 38 ] | デジタルメディア | 1ビットダイレクトストリームデジタル(PDM) |
| ブルーレイディスクオーディオ[ 39 ] | デジタルメディア | 16ビット、20ビット、24ビットLPCMなど[ B ] |
| DVオーディオ[ 40 ] | デジタルメディア | 12ビットおよび16ビットの非圧縮PCM |
| ITU-T勧告G.711 [ 41 ] | 電話の圧縮規格 | 8ビットPCM(圧縮伸長機能付き) [ C ] |
| NICAM -1、NICAM-2、NICAM-3 [ 42 ] | 放送用圧縮規格 | それぞれ10ビット、11ビット、10ビットのPCM(圧縮伸長あり) [ D ] |
| 熱意 | Paul DavisとArdourコミュニティ によるDAW | 32ビット浮動小数点[ 43 ] |
| プロツールズ11 | Avid TechnologyのDAW | 16ビットおよび24ビットまたは32ビット浮動小数点セッションと64ビット浮動小数点ミキシング[ 44 ] |
| ロジックプロX | Apple Inc.による DAW | 16ビットおよび24ビットプロジェクトと32ビットまたは64ビット浮動小数点ミキシング[ 45 ] |
| キューベース | スタインバーグのDAW | オーディオ処理精度を32ビット浮動小数点または64ビット浮動小数点に設定可能[ 46 ] |
| エイブルトンライブ[ 6 ] | AbletonのDAW | 32ビット浮動小数点ビット深度と64ビット加算 |
| 理由7 | Propellerhead SoftwareのDAW | 16ビット、20ビット、24ビットのI/O、32ビットの浮動小数点演算、64ビットの合計演算[ 47 ] |
| リーパー5 | Cockos Inc. の DAW | 8 ビット PCM、16 ビット PCM、24 ビット PCM、32 ビット PCM、32 ビット FP、64 ビット FP、4 ビット IMA ADPCM および 2 ビット cADPCMレンダリング。 8 ビット整数、16 ビット整数、24 ビット整数、32 ビット整数、32 ビット浮動小数点数、および 64 ビット浮動小数点数の混合 |
| GarageBand '11(バージョン6) | Apple Inc. による DAW | 16ビットデフォルト、24ビット実楽器録音[ 48 ] |
| 大胆さ | オープンソースのオーディオエディター | 16ビットおよび24ビットLPCMと32ビット浮動小数点[ 49 ] |
| FLスタジオ | Image-LineのDAW | 16ビットおよび24ビット整数と32ビット浮動小数点数(OSによって制御)[ 50 ] |
ビット深度はビットレートとファイルサイズに影響します。ビットは、コンピューティングやデジタル通信で使用されるデータの基本単位です。ビットレートとは、1秒あたりに送信または受信されるデータ量、具体的にはビット数を指します。MP3などの非可逆圧縮オーディオ形式では、ビットレートはオーディオ信号をエンコードするために使用される情報量を表します。通常はkb/sで測定されます。[ 51 ]
24ビットDACは、多くの場合約16ビットの性能しか発揮できず、最高でも21ビット(ENOB)の性能しか発揮できない。
ダイナミックレンジ(−60 dB入力、A特性):124 dB(標準)ダイナミックレンジ(−60 dB入力、20 kHz帯域幅):122 dB(標準)
SNR('A'加重モノラル@48kHz)、123dB SNR(非加重ステレオ@48kHz)
つまり、32ビットDACは最大21ビットの有効なデータしか出力できず、残りのビットは回路ノイズによってマスクされてしまうのです。
「32ビット対応」DACチップの実際の解像度はすべて24ビット未満です。
人間の聴覚のダイナミックレンジは[約]120dBである。
実用的なダイナミックレンジは、聴力閾値から痛みの閾値[130dB]までと言える。
量子化ノイズのエネルギーを聞き取りにくい周波数に移動させるシェーピングディザを使用することで、16ビットオーディオの実効ダイナミックレンジは実際には120dBに達し、96dBという主張の15倍以上になります。120dBは、同じ部屋のどこかにいる蚊と30センチほど離れた削岩機の音の差よりも大きく、あるいは、人気のない「防音」室と数秒で聴覚障害を引き起こすほどの音量の差よりも大きいです。16ビットは、私たちが聞き取れるすべての音を保存するのに十分であり、永遠に十分な容量です。
における偉大な発見の一つは、小さなランダムノイズ(ディザと呼ぶ)を加えることで切り捨て効果を消すことができるという点だった。さらに重要なのは、加えるべきランダムノイズの種類が
適切
であり、適切なディザを用いることでデジタルシステムの解像度が
無限大に
なるという認識だった。