視覚情報の忠実度

Objective full-reference image quality assessment

視覚情報忠実度VIF )は、自然風景の統計と人間の視覚システムによって抽出された画像情報の概念に基づいた、完全な参照画像品質評価指標です。[1]これは、2006年にテキサス大学オースティン校の画像およびビデオ工学研究所(LIVE)のHamid R SheikhとAlan Bovik によって開発されました。これは、 Netflixがストリーミングするすべてのエンコードされたビデオの画質を制御するNetflix VMAFビデオ品質監視システムの中核に導入されています。

システムモデル

ソースモデル

ガウススケール混合(GSM)は、画像のステアラブルピラミッド分解のウェーブレット係数を統計的にモデル化するために使用されます。 [2]このモデルは、マルチスケール、マルチ方向分解の特定のサブバンドについて以下で説明されており、他のサブバンドにも同様に拡張できます。特定のサブバンドのウェーブレット係数を とします。ここで、はサブバンド全体の空間インデックスのセットを表し、それぞれが次元ベクトルです。サブバンドは、各係数の重複しないブロックに分割され、各ブロックは に対応します。GSMモデルによれば、は正のスカラーは平均ゼロで共分散のガウスベクトルです。さらに、重複しないブロックは互いに独立しており、ランダムフィールドはから独立していると想定されます C = { C ¯ i : i I } {\displaystyle {\mathcal {C}}=\{{\bar {C}}_{i}:i\in {\mathcal {I}}\}} I {\displaystyle {\mathcal {I}}} C ¯ i {\displaystyle {\bar {C}}_{i}} M {\displaystyle M} M {\displaystyle M} C ¯ i {\displaystyle {\bar {C}}_{i}} C = S U = { S i U ¯ i : i I } , {\displaystyle {\mathcal {C}}={\mathcal {S}}\cdot {\mathcal {U}}=\{S_{i}{\bar {U}}_{i}:i\in {\mathcal {I}}\},} S i {\displaystyle S_{i}} U ¯ i {\displaystyle {\bar {U}}_{i}} C U {\displaystyle \mathbf {C} _{U}} S {\displaystyle {\mathcal {S}}} U {\displaystyle {\mathcal {U}}}

歪みモデル

歪み過程は、ウェーブレット領域における信号減衰と加法性ノイズの組み合わせを用いてモデル化される。数学的には 、歪んだ画像の与えられたサブバンドからのランダム場を とすると、決定論的スカラー場、 は共分散 を持つ平均ゼロのガウスベクトルである。 D = { D ¯ i : i I } {\displaystyle {\mathcal {D}}=\{{\bar {D}}_{i}:i\in {\mathcal {I}}\}} G = { g i : i I } {\displaystyle {\mathcal {G}}=\{g_{i}:i\in {\mathcal {I}}\}} V = { V ¯ i : i I } {\displaystyle {\mathcal {V}}=\{{\bar {V}}_{i}:i\in {\mathcal {I}}\}} V ¯ i {\displaystyle {\bar {V}}_{i}} C V = σ v 2 I {\displaystyle \mathbf {C} _{V}=\sigma _{v}^{2}\mathbf {I} }

D = G C + V . {\displaystyle {\mathcal {D}}={\mathcal {G}}{\mathcal {C}}+{\mathcal {V}}.}

さらに、は、およびから独立するようにモデル化されます V {\displaystyle {\mathcal {V}}} S {\displaystyle {\mathcal {S}}} U {\displaystyle {\mathcal {U}}}

HVSモデル

HVS モデルと NSS の双対性は、HVS のいくつかの側面がソース モデルですでに考慮されていることを意味します。ここで、HVS は、視覚信号の知覚における不確実性が、ソースと歪んだ画像から抽出できる情報量を制限するという仮説に基づいて、さらにモデル化されます。この不確実性の原因は、 HVS モデルでは視覚ノイズとしてモデル化できます。特に、ウェーブレット分解の特定のサブバンドの HVS ノイズは、加法性ホワイト ガウス ノイズとしてモデル化されます。およびランダム フィールドとし、およびは共分散が、であるゼロ平均ガウス ベクトルです。さらに、およびは、HVS の出力における視覚信号を表します。数学的には、およびとなります。およびは、、およびに依存しないランダム フィールドであることに注意してください N = { N ¯ i : i I } {\displaystyle {\mathcal {N}}=\{{\bar {N}}_{i}:i\in {\mathcal {I}}\}} N = { N ¯ i : i I } {\displaystyle {\mathcal {N}}'=\{{\bar {N}}_{i}':i\in {\mathcal {I}}\}} N ¯ i {\displaystyle {\bar {N}}_{i}} N ¯ i {\displaystyle {\bar {N}}_{i}'} C N {\displaystyle \mathbf {C} _{N}} C N {\displaystyle \mathbf {C} _{N}'} E {\displaystyle {\mathcal {E}}} F {\displaystyle {\mathcal {F}}} E = C + N {\displaystyle {\mathcal {E}}={\mathcal {C}}+{\mathcal {N}}} F = D + N {\displaystyle {\mathcal {F}}={\mathcal {D}}+{\mathcal {N}}'} N {\displaystyle {\mathcal {N}}} N {\displaystyle {\mathcal {N}}'} S {\displaystyle {\mathcal {S}}} U {\displaystyle {\mathcal {U}}} V {\displaystyle {\mathcal {V}}}

VIF指数

与えられたサブバンドからのすべてのブロックのベクトルを とします。同様に定義されます。最大尤度推定値を とします。参照から抽出される情報量は次のように得られます C ¯ N = ( C ¯ 1 , C ¯ 2 , , C ¯ N ) {\displaystyle {\bar {C}}^{N}=({\bar {C}}_{1},{\bar {C}}_{2},\ldots ,{\bar {C}}^{N})} S N , D ¯ N , E ¯ N {\displaystyle S^{N},{\bar {D}}^{N},{\bar {E}}^{N}} F ¯ N {\displaystyle {\bar {F}}^{N}} s N {\displaystyle s^{N}} S N {\displaystyle S^{N}} C N {\displaystyle C^{N}} C U {\displaystyle \mathbf {C} _{U}}

I ( C ¯ N ; E ¯ N | S ¯ N = s N ) = 1 2 i = 1 N log 2 ( | s i 2 C U + σ n 2 I | | σ n 2 I | ) , {\displaystyle I({\bar {C}}^{N};{\bar {E}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}\left({\frac {|s_{i}^{2}\mathbf {C} _{U}+\sigma _{n}^{2}\mathbf {I} |}{|\sigma _{n}^{2}\mathbf {I} |}}\right),}

一方、テスト画像から抽出される情報量は次のように与えられる。

I ( C ¯ N ; F ¯ N | S ¯ N = s N ) = 1 2 i = 1 N log 2 ( | g i 2 s i 2 C U + ( σ v 2 + σ n 2 ) I | | ( σ v 2 + σ n 2 ) I | ) . {\displaystyle I({\bar {C}}^{N};{\bar {F}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}\left({\frac {|g_{i}^{2}s_{i}^{2}\mathbf {C} _{U}+(\sigma _{v}^{2}+\sigma _{n}^{2})\mathbf {I} |}{|(\sigma _{v}^{2}+\sigma _{n}^{2})\mathbf {I} |}}\right).}

ウェーブレット分解のサブバンドのブロックを で表し、他の変数についても同様に、VIFインデックスは次のように定義されます。 N {\displaystyle N} j {\displaystyle j} C ¯ N , j {\displaystyle {\bar {C}}^{N,j}}

VIF = j subbands I ( C ¯ N , j ; F ¯ N , j S N , j = s N , j ) j subbands I ( C ¯ N , j ; E ¯ N , j S N , j = s N , j ) . {\displaystyle {\textrm {VIF}}={\frac {\sum _{j\in {\textrm {subbands}}}I({\bar {C}}^{N,j};{\bar {F}}^{N,j}\mid S^{N,j}=s^{N,j})}{\sum _{j\in {\textrm {subbands}}}I({\bar {C}}^{N,j};{\bar {E}}^{N,j}\mid S^{N,j}=s^{N,j})}}.}

パフォーマンス

LIVE画像品質評価データベース上の歪んだ画像のVIF指標スコアと対応する人間の意見スコアとの間のスピアマン順位相関係数(SROCC)は0.96と評価されている。[引用が必要]

参考文献

  1. ^ Sheikh, Hamid; Bovik, Alan (2006). 「画像情報と視覚品質」. IEEE Transactions on Image Processing . 15 (2): 430– 444. Bibcode :2006ITIP...15..430S. doi :10.1109/tip.2005.859378. PMID  16479813.
  2. ^ Simoncelli, Eero; Freeman, William (1995). 「ステアラブルピラミッド:マルチスケール微分計算のための柔軟なアーキテクチャ」.国際画像処理会議論文集. 第3巻. pp.  444– 447. doi :10.1109/ICIP.1995.537667. ISBN 0-7803-3122-2. S2CID  1099364。
  • テキサス大学画像・映像工学研究所
  • VIFインデックスの実装
  • LIVE画像品質評価データベース
Retrieved from "https://en.wikipedia.org/w/index.php?title=Visual_information_fidelity&oldid=1297472835"