画像圧縮

画像圧縮は、デジタル画像の保存や伝送コストを削減するために適用されるデータ圧縮の一種です。アルゴリズムは、視覚的知覚と画像データの統計的特性を利用することで、他のデジタルデータに使用される一般的なデータ圧縮方法と比較して優れた結果をもたらします。 ^[¹^]

非可逆および可逆画像圧縮

画像圧縮には、非可逆圧縮と可逆圧縮があります。可逆圧縮はアーカイブ用途に適しており、医療用画像、技術図面、クリップアート、コミックなどでよく使用されます。非可逆圧縮方式は、特に低ビットレートで使用する場合、圧縮アーティファクトが発生します。非可逆圧縮方式は、ビットレートを大幅に削減するために、わずかな（場合によっては知覚できない）忠実度の低下が許容されるアプリケーションで、写真などの自然画像に適しています。わずかな差異しか生じない非可逆圧縮は、視覚的に可逆圧縮と呼ばれることがあります。

非可逆圧縮の方法:

変換コーディング– これは最も一般的に使用される方法です。
- 離散コサイン変換（DCT） – 最も広く用いられている非可逆圧縮方式。フーリエ変換の一種であり、1974年にNasir Ahmed、T. Natarajan、KR Raoによって最初に開発されました。 ^{[ 2 ]} DCTは、離散コサイン変換（DCT-II）のファミリーに属するものとして「DCT-II」と呼ばれることもあります（離散コサイン変換を参照）。一般的に、画像圧縮において最も効率的な方式です。
  - DCT は、最も一般的な非可逆形式であるJPEGや、より最近の HEIFで使用されます。
- さらに最近開発されたウェーブレット変換も広く使用されており、それに続いて量子化とエントロピー符号化が使用されています。
色の量子化-画像内の色空間を少数の「代表的な」色に縮小します。選択された色は、圧縮画像のヘッダーにあるカラーパレットで指定されます。各ピクセルは、カラーパレット内の色のインデックスを参照するだけです。この手法は、ポスタリゼーションを回避するためにディザリングと組み合わせることができます。
- GIF および PNG ファイル形式で使用される、通常 256 色の画像全体のパレット。
- ブロックパレット。通常、4x4 ピクセルの各ブロックに 2 色または 4 色があり、BTC、CCC、S2TC、およびS3TCで使用されます。
クロマサブサンプリング。これは、人間の目が色の空間変化よりも明るさの空間変化をより鋭く認識するという事実を利用し、画像内の色情報の一部を平均化または削除します。
フラクタル圧縮。
最近では、機械学習に基づく手法が、多層パーセプトロン、畳み込みニューラルネットワーク、生成的敵対ネットワーク^{[ 3 ]}、拡散モデル^{[ 4 ]}を用いて適用されています。実装は、 OpenCV、TensorFlow、MATLABのImage Processing Toolbox（IPT）、およびHigh-Fidelity Generative Image Compression（HiFiC）オープンソースプロジェクトで利用可能です。 ^{[ 5 ]}

ロスレス圧縮の方法:

ランレングス符号化- PCXではデフォルトの方式として使用され、 BMP、TGA、TIFFでは可能な方式の1つとして使用されます。
予測符号化 - DPCMで使用される
エントロピー符号化- 最も一般的な2つのエントロピー符号化技術は算術符号化とハフマン符号化である。
LZWなどの適応辞書アルゴリズム（ GIFやTIFFで使用）
DEFLATE – PNG、MNG、TIFFで使用される
チェーンコード

その他の特性

特定の圧縮率 (またはビットレート)で最高の画質を実現することが画像圧縮の主な目的ですが、画像圧縮方式には他にも重要な特性があります。

スケーラビリティとは、一般的に、ビットストリームまたはファイルの操作（解凍や再圧縮なし）によって実現される品質低下を指します。スケーラビリティは、プログレッシブコーディングや埋め込みビットストリームとも呼ばれます。スケーラビリティは、ロスレスコーデックにも見られる性質とは対照的ですが、通常は粗いピクセルから細かいピクセルへのスキャンという形で用いられます。スケーラビリティは、画像のダウンロード中（例えばウェブブラウザ）にプレビューしたり、データベースなどへの可変品質アクセスを提供したりする場合などに特に役立ちます。スケーラビリティにはいくつかの種類があります。

品質プログレッシブまたはレイヤープログレッシブ: ビットストリームは、再構築された画像を連続的に改良します。
解像度プログレッシブ：まず低い解像度で画像をエンコードし、その差をより高い解像度でエンコードする。^{[ 6 ]}^{[ 7 ]}
コンポーネントプログレッシブ: 最初にグレースケールバージョンをエンコードし、次にフルカラーを追加します。

関心領域コーディング。画像の一部は他の部分よりも高い品質でエンコードされます。これはスケーラビリティと組み合わせることができます（関心領域を先にエンコードし、他の部分を後でエンコードする）。

メタ情報。圧縮データには、画像の分類、検索、閲覧に使用できる画像情報が含まれる場合があります。このような情報には、色やテクスチャの統計情報、小さなプレビュー画像、作成者や著作権情報などが含まれます。

処理能力。圧縮アルゴリズムは、エンコードとデコードにそれぞれ異なる処理能力を必要とします。一部の高圧縮アルゴリズムは、高い処理能力を必要とします。

圧縮方式の品質は、多くの場合、ピーク信号対雑音比（S/N比）によって測定されます。これは、画像の非可逆圧縮によって生じるノイズの量を測定するものですが、視聴者の主観的な判断も重要な指標とみなされ、おそらく最も重要な指標と言えるでしょう。

歴史

エントロピー符号化は1940年代後半にシャノン・ファノ符号化^{[ 8 ]}の導入とともに始まりました。これは1952年に発表されたハフマン符号化の基礎となりました。 ^{[ 9 ]}変換符号化は1960年代後半にさかのぼり、 1968年に高速フーリエ変換（FFT）符号化、1969年にアダマール変換が導入されました。 ^{[ 10 ]}

画像データ圧縮における重要な開発は、離散コサイン変換（DCT）であり、 1973年にNasir Ahmed、T. Natarajan、KR Raoによって最初に提案された非可逆圧縮技術です。^[¹¹^] JPEGは、Joint Photographic Experts Group（JPEG）によって1992年に導入されました。^[¹²^] JPEGは画像をはるかに小さいファイルサイズに圧縮し、最も広く使用されている画像ファイル形式になりました。^[¹³^] JPEGはデジタル画像とデジタル写真の広範な普及に大きく貢献し、^[¹⁴^] 2015年の時点で毎日数十億枚のJPEG画像が生成されています。^[¹⁵^]

Lempel–Ziv–Welch（LZW）は、1984年にAbraham Lempel、Jacob Ziv、Terry Welchによって開発された可逆圧縮アルゴリズムです。1987年に導入されたGIF形式で使用されています。 ^[¹⁶^] Phil Katzによって開発され、1996年に指定された可逆圧縮アルゴリズムであるDEFLATEは、 Portable Network Graphics （PNG）形式で使用されています。^[¹⁷^]

JPEG 2000規格は、1997年から2000年にかけて、Touradj Ebrahimi氏（後のJPEG会長）が議長を務めるJPEG委員会によって策定された。^{[ 18 ]}オリジナルのJPEG形式で使用されていたDCTアルゴリズムとは対照的に、JPEG 2000では離散ウェーブレット変換（DWT）アルゴリズムが採用されている。非可逆圧縮アルゴリズムにはCDF 9/7ウェーブレット変換（ 1992年にIngrid Daubechies氏によって開発） ^{[ 19 ]} 、可逆圧縮アルゴリズムにはLe Gall–Tabatabai（LGT）5/3ウェーブレット変換^{[ 20 ]}^{[ 21 ]}（1988年にDidier Le Gall氏とAli J. Tabatabai氏によって開発）^{[ 22 ]}が採用されている。^{[ 19 ]} Motion JPEG 2000拡張機能を含むJPEG 2000技術は、 2004年にデジタルシネマのビデオコーディング規格として選定されました。^[²³^]

注釈と参考文献

^ 「画像データ圧縮」。
^ Ahmed, N.; Natarajan, T.; Rao, KR (1974). 「離散コサイン変換」(PDF) . IEEE Transactions on Computers . 100 (1): 90– 93. Bibcode : 1974ITCmp.100...90A . doi : 10.1109/TC.1974.223784 . S2CID 149806273. 2011年11月25日時点のオリジナル(PDF)からのアーカイブ。
^ Gilad David Maayan (2021年11月24日). 「AIベースの画像圧縮：最先端技術」 . Towards Data Science . 2021年11月25日時点のオリジナルよりアーカイブ。 2023年4月6日閲覧。
^ Bühlmann, Matthias (2022年9月28日). 「安定した拡散ベースの画像圧縮」 . Medium . 2022年11月2日閲覧。
^ 「高忠実度生成画像圧縮」。 2023年4月6日閲覧。
^ Burt, P.; Adelson, E. (1983年4月1日). 「コンパクトな画像コードとしてのラプラシアンピラミッド」. IEEE Transactions on Communications . 31 (4): 532– 540. Bibcode : 1983ITCom..31..532B . CiteSeerX 10.1.1.54.299 . doi : 10.1109/TCOM.1983.1095851 . S2CID 8018433 .
^シャオ、ダン;クロパッチ、ウォルター G. (2010 年 2 月 3 ～ 5 日)。シュパチェク、リボル。フラン、ヴォイテク編（編）。「不規則ラプラシアングラフピラミッド」(PDF)。コンピュータービジョンウィンターワークショップ 2010。ノヴェ・フラディ、チェコ共和国: チェコ・パターン認識協会。2013 年 5 月 27 日にオリジナルからアーカイブ(PDF)されました。
^ Claude Elwood Shannon (1948). Alcatel-Lucent (ed.). "A Mathematical Theory of Communication" (PDF) . Bell System Technical Journal . 27 ( 3–4 ): 379– 423, 623– 656. Bibcode : 1948BSTJ...27..379S . doi : 10.1002/j.1538-7305.1948.tb01338.x . hdl : 11858/00-001M-0000-002C-4314-2 . 2011年5月24日時点のオリジナルよりアーカイブ(PDF) . 2019年4月21日閲覧。
^ David Albert Huffman (1952年9月)、「最小冗長性符号の構築方法」(PDF)、Proceedings of the IRE、第40巻、第9号、pp. 1098– 1101、Bibcode : 1952PIRE...40.1098H、doi : 10.1109/JRPROC.1952.273898、2005年10月8日時点のオリジナルよりアーカイブ(PDF)
^ Pratt, WK; Kane, J.; Andrews, HC (1969). 「アダマール変換画像符号化」. Proceedings of the IEEE . 57 (1): 58– 68. Bibcode : 1969IEEEP..57...58P . doi : 10.1109/PROC.1969.6869 .
^ Ahmed, Nasir (1991年1月). 「離散コサイン変換の考案経緯」 .デジタル信号処理. 1 (1): 4– 5. Bibcode : 1991DSP.....1....4A . doi : 10.1016/1051-2004(91)90086-Z .
^ 「T.81 – 連続階調静止画像のデジタル圧縮および符号化 – 要件およびガイドライン」(PDF) . CCITT . 1992年9月. 2000年8月18日時点のオリジナルよりアーカイブ(PDF) . 2019年7月12日閲覧。
^ 「JPEG画像フォーマットの説明」 BT.com BTグループ2018年5月31日2019年8月5日閲覧。
^ 「JPEGとは何か？毎日目にする目に見えない物体」アトランティック誌、2013年9月24日。 2019年9月13日閲覧。
^ Baraniuk, Chris (2015年10月15日). 「JPEGにコピープロテクションが導入される可能性」 . BBCニュース. BBC . 2019年9月13日閲覧。
^ 「GIF論争：ソフトウェア開発者の視点」 1995年1月27日。 2015年5月26日閲覧。
^ L. Peter Deutsch (1996年5月). DEFLATE圧縮データフォーマット仕様バージョン1.3 . IETF . p. 1. sec. 抄録. doi : 10.17487/RFC1951 . RFC 1951. 2014年4月23日閲覧。
^ Taubman, David; Marcellin, Michael (2012). JPEG2000 画像圧縮の基礎、標準、実践：画像圧縮の基礎、標準、実践. Springer Science & Business Media . ISBN 9781461507994。
^ ^a ^b Unser, M.; Blu, T. (2003). 「JPEG2000ウェーブレットフィルタの数学的特性」(PDF) . IEEE Transactions on Image Processing . 12 (9): 1080– 1090. Bibcode : 2003ITIP...12.1080U . doi : 10.1109/TIP.2003.812329 . PMID 18237979. S2CID 2765169. 2019年10月13日時点のオリジナル(PDF)からのアーカイブ。
^ Sullivan, Gary (2003年12月8日～12日). 「時間的サブバンドビデオ符号化の一般的な特性と設計上の考慮事項」 . ITU-T .ビデオ符号化専門家グループ. 2019年9月13日閲覧。
^ Bovik, Alan C. (2009).ビデオ処理エッセンシャルガイド.アカデミックプレス. p. 355. ISBN 9780080922508。
^ Le Gall, Didier; Tabatabai, Ali J. (1988). 「対称ショートカーネルフィルタと算術符号化技術を用いたデジタル画像のサブバンド符号化」. ICASSP-88., 国際音響・音声・信号処理会議. pp. 761–764, 第2巻. doi : 10.1109/ICASSP.1988.196696 . S2CID 109186495 .
^シュワルツ、チャールズ・S. (2005). 『デジタルシネマを理解する：プロフェッショナルハンドブック』テイラー＆フランシス. p. 147. ISBN 9780240806174。

[1] 「画像データ圧縮」。

[2] Ahmed, N.; Natarajan, T.; Rao, KR (1974). 「離散コサイン変換」(PDF) . IEEE Transactions on Computers . 100 (1): 90– 93. Bibcode : 1974ITCmp.100...90A . doi : 10.1109/TC.1974.223784 . S2CID 149806273. 2011年11月25日時点のオリジナル(PDF)からのアーカイブ。

[3] Gilad David Maayan (2021年11月24日). 「AIベースの画像圧縮：最先端技術」 . Towards Data Science . 2021年11月25日時点のオリジナルよりアーカイブ。 2023年4月6日閲覧。

[4] Bühlmann, Matthias (2022年9月28日). 「安定した拡散ベースの画像圧縮」 . Medium . 2022年11月2日閲覧。

[5] 「高忠実度生成画像圧縮」。 2023年4月6日閲覧。

[6] Burt, P.; Adelson, E. (1983年4月1日). 「コンパクトな画像コードとしてのラプラシアンピラミッド」. IEEE Transactions on Communications . 31 (4): 532– 540. Bibcode : 1983ITCom..31..532B . CiteSeerX 10.1.1.54.299 . doi : 10.1109/TCOM.1983.1095851 . S2CID 8018433 .

[7] シャオ、ダン;クロパッチ、ウォルター G. (2010 年 2 月 3 ～ 5 日)。シュパチェク、リボル。フラン、ヴォイテク編（編）。「不規則ラプラシアングラフピラミッド」(PDF)。コンピュータービジョンウィンターワークショップ 2010。ノヴェ・フラディ、チェコ共和国: チェコ・パターン認識協会。2013 年 5 月 27 日にオリジナルからアーカイブ(PDF)されました。

[Shannon-8] Claude Elwood Shannon (1948). Alcatel-Lucent (ed.). "A Mathematical Theory of Communication" (PDF) . Bell System Technical Journal . 27 ( 3–4 ): 379– 423, 623– 656. Bibcode : 1948BSTJ...27..379S . doi : 10.1002/j.1538-7305.1948.tb01338.x . hdl : 11858/00-001M-0000-002C-4314-2 . 2011年5月24日時点のオリジナルよりアーカイブ(PDF) . 2019年4月21日閲覧。

[Huffman-9] David Albert Huffman (1952年9月)、「最小冗長性符号の構築方法」(PDF)、Proceedings of the IRE、第40巻、第9号、pp. 1098– 1101、Bibcode : 1952PIRE...40.1098H、doi : 10.1109/JRPROC.1952.273898、2005年10月8日時点のオリジナルよりアーカイブ(PDF)

[Hadamard-10] Pratt, WK; Kane, J.; Andrews, HC (1969). 「アダマール変換画像符号化」. Proceedings of the IEEE . 57 (1): 58– 68. Bibcode : 1969IEEEP..57...58P . doi : 10.1109/PROC.1969.6869 .

[Ahmed-11] Ahmed, Nasir (1991年1月). 「離散コサイン変換の考案経緯」 .デジタル信号処理. 1 (1): 4– 5. Bibcode : 1991DSP.....1....4A . doi : 10.1016/1051-2004(91)90086-Z .

[t81-12] 「T.81 – 連続階調静止画像のデジタル圧縮および符号化 – 要件およびガイドライン」(PDF) . CCITT . 1992年9月. 2000年8月18日時点のオリジナルよりアーカイブ(PDF) . 2019年7月12日閲覧。

[13] 「JPEG画像フォーマットの説明」 BT.com BTグループ2018年5月31日2019年8月5日閲覧。

[Atlantic-14] 「JPEGとは何か？毎日目にする目に見えない物体」アトランティック誌、2013年9月24日。 2019年9月13日閲覧。

[15] Baraniuk, Chris (2015年10月15日). 「JPEGにコピープロテクションが導入される可能性」 . BBCニュース. BBC . 2019年9月13日閲覧。

[cloanto-16] 「GIF論争：ソフトウェア開発者の視点」 1995年1月27日。 2015年5月26日閲覧。

[IETF-17] L. Peter Deutsch (1996年5月). DEFLATE圧縮データフォーマット仕様バージョン1.3 . IETF . p. 1. sec. 抄録. doi : 10.17487/RFC1951 . RFC 1951. 2014年4月23日閲覧。

[18] Taubman, David; Marcellin, Michael (2012). JPEG2000 画像圧縮の基礎、標準、実践：画像圧縮の基礎、標準、実践. Springer Science & Business Media . ISBN 9781461507994。

[Unser-19] Unser, M.; Blu, T. (2003). 「JPEG2000ウェーブレットフィルタの数学的特性」(PDF) . IEEE Transactions on Image Processing . 12 (9): 1080– 1090. Bibcode : 2003ITIP...12.1080U . doi : 10.1109/TIP.2003.812329 . PMID 18237979. S2CID 2765169. 2019年10月13日時点のオリジナル(PDF)からのアーカイブ。

[20] Sullivan, Gary (2003年12月8日～12日). 「時間的サブバンドビデオ符号化の一般的な特性と設計上の考慮事項」 . ITU-T .ビデオ符号化専門家グループ. 2019年9月13日閲覧。

[21] Bovik, Alan C. (2009).ビデオ処理エッセンシャルガイド.アカデミックプレス. p. 355. ISBN 9780080922508。

[22] Le Gall, Didier; Tabatabai, Ali J. (1988). 「対称ショートカーネルフィルタと算術符号化技術を用いたデジタル画像のサブバンド符号化」. ICASSP-88., 国際音響・音声・信号処理会議. pp. 761–764, 第2巻. doi : 10.1109/ICASSP.1988.196696 . S2CID 109186495 .

[23] シュワルツ、チャールズ・S. (2005). 『デジタルシネマを理解する：プロフェッショナルハンドブック』テイラー＆フランシス. p. 147. ISBN 9780240806174。

[

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[

[

[

[

[

[

[

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[