

圧縮アーティファクト(またはアーティファクト)とは、非可逆圧縮の適用によって生じるメディア(画像、音声、動画など)の顕著な歪みのことです。非可逆データ圧縮では、メディアのデータの一部を破棄することで、必要なディスク容量内に格納できるサイズ、または使用可能な帯域幅(データ レートまたはビット レートと呼ばれる)内で転送(ストリーミング)できるサイズに縮小します。圧縮器が圧縮バージョンに十分なデータを保存できない場合、品質が低下したり、アーティファクトが生じたりします。圧縮アルゴリズムは、主観的に重要度の低い歪みとユーザーにとって不快な歪みを区別できるほどインテリジェントではない可能性があります。
最も一般的なデジタル圧縮アーティファクトは DCT ブロックであり、これはJPEG、MP3、MPEGビデオファイル形式など、多くのデジタルメディア規格で使用される離散コサイン変換(DCT) 圧縮アルゴリズムによって発生します。 [ 1 ] [ 2 ] [ 3 ]これらの圧縮アーティファクトは、高い圧縮が適用されると発生し、[ 1 ] DVDなどの一般的なデジタルメディア、JPEG、MP3、MPEG ファイルなどの一般的なコンピュータファイル形式、ソニーのミニディスク形式などのコンパクトディスクの代替品でよく発生します。非圧縮メディア (レーザーディスク、オーディオ CD、WAVファイルなど) やロスレス圧縮メディア ( FLACやPNGなど) では、圧縮アーティファクトは発生しません。
知覚可能なアーティファクトを最小限に抑えることは、非可逆圧縮アルゴリズムを実装する上で重要な目標です。しかし、芸術的な目的で意図的にアーティファクトが生成されることもあり、これはグリッチアート[ 4 ]やデータモッシング[ 5 ]と呼ばれる手法で表現されます。
技術的に言えば、圧縮アーティファクトとは、非可逆データ圧縮における量子化の結果として生じる特定の種類のデータエラーを指します。変換符号化が使用される場合、圧縮アーティファクトは通常、符号化器の変換空間の基底関数の1つの形をとります。

JPEG圧縮画像のように、量子化のためにブロックベースの離散コサイン変換(DCT)[ 1 ]符号化を実行すると、いくつかの種類のアーティファクトが現れる可能性がある。
パターンマッチングを用いて類似の記号の重複を排除する他の非可逆アルゴリズムは、印刷されたテキストにおいて検出が困難なエラーを引き起こす傾向があります。例えば、数字の「6」と「8」が置き換えられてしまうことがあります。これは、特定のコピー機のJBIG2で発生することが確認されています。[ 6 ] [ 7 ]

低ビットレートでは、非可逆ブロックベース符号化方式はどれも、ピクセルブロックとブロック境界に目に見えるアーティファクトを発生させます。これらの境界は、変換ブロック境界、予測ブロック境界、またはその両方であり、マクロブロック境界と一致する場合もあります。アーティファクトの原因に関わらず、マクロブロッキングという用語は一般的に使用されています。他の名称としては、ブロッキング、 [ 8 ]タイリング、[ 9 ]モザイク、ピクセル化、キルティング、チェッカーボード化などがあります。
ブロックアーティファクトは、ブロック変換符号化の原理そのものから生じます。変換(例えば、離散コサイン変換)はピクセルブロックに適用され、非可逆圧縮を実現するために、各ブロックの変換係数が量子化されます。ビットレートが低いほど、係数は粗く表現され、より多くの係数がゼロに量子化されます。統計的に、画像には高周波コンテンツよりも低周波コンテンツが多く含まれるため、量子化後も低周波コンテンツが残り、結果としてぼやけた低解像度のブロックが生成されます。最も極端なケースでは、ブロックの平均色を表す係数であるDC係数のみが保持され、変換ブロックは再構成後に単色のみになります。
この量子化処理は各ブロックで個別に適用されるため、隣接するブロックでは係数の量子化方法が異なります。その結果、ブロック境界に不連続性が生じます。この不連続性は、効果を隠すようなディテールがほとんどない平坦な領域で最も顕著になります。
画像圧縮の影響を軽減するための様々なアプローチが提案されているが、標準化された圧縮/解凍技術を用い、圧縮の利点(例えば、伝送コストや保存コストの削減)を維持するために、これらの方法の多くは「後処理」、つまり受信時または表示時の画像処理に重点を置いている。あらゆるケースにおいて画質を向上させることが証明された後処理技術は存在しない。そのため、広く受け入れられているものはないが、いくつかの技術は実装され、専用システムに使用されている。例えば、多くの写真編集プログラムには、独自のJPEGアーティファクト低減アルゴリズムが組み込まれている。民生用機器では、この後処理をMPEGノイズ低減と呼ぶことが多い。[ 10 ]
JPEGにおける境界アーティファクトは、高ISO感度写真フィルムに見られるような、より心地よい「粒状感」に変換することができます。量子化係数に2次元周波数に対応する量子化ステップQを乗算するだけでなく、 [- Q /2; Q /2]の範囲の乱数というインテリジェントノイズを逆量子化係数に加えることができます。この手法は、既存および将来の数兆枚のJPEG画像を処理するJPEG解凍装置の不可欠な要素として追加できます。したがって、これは「後処理」技術ではありません。[ 11 ]
リンギングの問題は、エンコード時にDCT値をオーバーシュートさせてリングをクランプすることで軽減できます。[ 12 ]
ポスタリゼーションは通常、低品質、つまりDC値の重要性が低すぎる場合にのみ発生します。量子化テーブルを調整することで改善されます。[ 13 ]

MPEG-1、MPEG-2、MPEG-4などのモーション予測を使用すると、圧縮アーティファクトが解凍されたフレームの複数の世代に残る傾向があり、画像の光学フローとともに移動して、絵画効果とシーン内のオブジェクトとともに移動する「汚れ」の中間の奇妙な効果をもたらします。
圧縮ビットストリーム内のデータエラーは、伝送エラーに起因する場合もあり、大きな量子化エラーに似たエラーを引き起こしたり、データストリームの解析を短時間で完全に中断させ、画像の「途切れ」につながる可能性があります。ビットストリームに重大なエラーが発生した場合、デコーダーは、次の独立して圧縮されたフレームを受信するまで、短時間の間、破損した画像に更新を適用し続け、「ゴーストイメージ」効果を生み出します。MPEG画像符号化では、これらは「Iフレーム」と呼ばれ、「I」は「イントラ」の略です。次のIフレームが到着するまで、デコーダーはエラー隠蔽を実行できます。
ブロック境界の不連続性は、動き補償予測ブロックのエッジで発生する可能性があります。動き補償ビデオ圧縮では、現在の画像は、以前にデコードされたフレームからピクセルブロック(マクロブロック、パーティション、または予測ユニット)をシフトすることで予測されます。隣接する2つのブロックが異なる動きベクトルを使用している場合、ブロック間のエッジで不連続性が生じます。
ビデオ圧縮アーティファクトには、静止画像を構成する画像の圧縮の累積的な結果が含まれます。例えば、連続する静止画像におけるリンギングやその他のエッジの混雑は、エッジの周りにぼやけた点として連続して現れ、物体の周りに蚊が群がっているように見えることからモスキートノイズと呼ばれます。 [ 14 ] [ 15 ]いわゆる「モスキートノイズ」は、MPEG形式などのほとんどのビデオコーディング規格で使用されているブロックベースの離散コサイン変換(DCT)圧縮アルゴリズムによって発生します。[ 3 ]
ブロック境界におけるアーティファクトは、デブロッキングフィルタを適用することで低減できます。静止画符号化と同様に、デコーダ出力に後処理としてデブロッキングフィルタを適用することも可能です。
クローズド予測ループを用いた動き予測ビデオコーディングでは、エンコーダはデコーダ出力を予測参照として用い、そこから将来のフレームを予測します。この目的のため、エンコーダは概念的にデコーダを統合します。この「デコーダ」がデブロッキングを実行すると、デブロックされた画像は動き補償の参照画像として使用され、フレーム間でのブロックアーティファクトの伝播を防ぐことでコーディング効率が向上します。これはインループデブロッキングフィルタと呼ばれます。インループデブロッキングフィルタを規定する標準規格には、VC-1、H.263 Annex J、H.264/AVC、H.265/HEVCなどがあります。
非可逆オーディオ圧縮は、通常、心理音響モデル(人間の聴覚知覚モデル)を用いて行われます。非可逆オーディオ形式では、通常、修正離散コサイン変換などの時間/周波数領域変換が使用されます。心理音響モデルでは、周波数マスキングや時間マスキングなどのマスキング効果が利用されるため、本来は知覚できないはずの音が録音されません。例えば、人間は一般的に、静かな音と、それと似ているが大きくても同時に鳴っている音を知覚できません。非可逆圧縮技術は、この静かな音を識別し、除去しようとします。また、量子化ノイズは、より目立つ音にマスキングされてしまうような場所に「隠される」可能性があります。低圧縮では、小さなブロックサイズで保守的な心理音響モデルが使用されます。
心理音響モデルが不正確であったり、変換ブロックサイズが制限されていたり、あるいは過度な圧縮が用いられたりすると、圧縮アーティファクトが発生する可能性があります。圧縮されたオーディオにおける圧縮アーティファクトは、通常、リンギング、プリエコー、「バーディーアーティファクト」、ドロップアウト、ラトル音、震え音、金属的なリンギング、水中感、ヒスノイズ、あるいは「粒状感」として現れます。
オーディオにおける圧縮アーティファクトの一例として、比較的圧縮率の高いオーディオファイル(例:96 kbit/秒のMP3)における拍手が挙げられます。一般的に、楽音は波形が繰り返し、音量の変化も比較的予測しやすいのに対し、拍手は基本的にランダムであるため、圧縮が困難です。拍手のトラックを高度に圧縮すると、「金属的な響き」やその他の圧縮アーティファクトが生じることがあります。
圧縮アーティファクトは視覚的なスタイルとして意図的に使用されることがあり、「グリッチアート」と呼ばれることもあります。ローザ・メンクマンのグリッチアートは圧縮アーティファクト、特にJPEGデジタル画像やMP3デジタルオーディオなどのほとんどのデジタルメディアデータ圧縮形式に見られる離散コサイン変換ブロック(DCTブロック)を利用しています。[ 16 ]静止画では、ドイツの写真家トーマス・ルフによるJpegsが例として挙げられます。これは、意図的なJPEGアーティファクトを写真のスタイルの基礎として使用しています。[ 17 ] [ 18 ]
ビデオアートで使われる技術の1つにデータモッシングがある。これは2つのビデオをインターリーブし、中間フレームを2つの別々のソースから補間するものである。別の技術では、1つの非可逆ビデオフォーマットから別の非可逆ビデオフォーマットに単純にトランスコードするものであり、これは別々のビデオコーデックが動きと色情報を処理する方法の違いを利用する。[ 19 ]この技術は、2006年にアーティストのベルトラン・プレーンズがクリスチャン・ジャックマンと共同でDivXPrimeで初めて開発され、[ 20 ]スヴェン・ケーニッヒ、タケシ・ムラタ、ジャック・ペルコント、ポール・B・デイビスがペーパーラッドと共同で開発し、最近ではデビッド・オライリーとチェアリフトのミュージックビデオ、ナビル・エルダーキンがカニエ・ウェストの「 Welcome to Heartbreak」ミュージックビデオで使用している。[ 21 ] [ 22 ]
インターネットミームには、意味不明な画像を意図的に圧縮し、時には複数回圧縮して面白おかしく見せるというジャンルもあります。この手法で作成された画像は、「ディープフライド」と呼ばれることがよくあります。[ 23 ]