ビデオ超解像度

VSR法とSISR法の出力の比較。VSR法は時間情報を用いてより詳細な情報を復元します。

ビデオ超解像VSR)は、与えられた低解像度のビデオフレームから高解像度のビデオフレームを生成するプロセスです。単一画像超解像(SISR)とは異なり、主な目的は、粗いディテールを維持しながらより細かいディテールを復元するだけでなく、動きの一貫性を維持することです。

このタスクには多くのアプローチがありますが、この問題は依然として一般的ではなく、困難なままです。

数学的な説明

ほとんどの研究では、フレームの劣化過程は次のように考えられています。

{y}{×}s+{n}{\displaystyle \{y\}=(\{x\}*k)\downarrow {_{s}}+\{n\}}

どこ:

{×}{\displaystyle \{x\}}— オリジナルの高解像度フレームシーケンス、
{\displaystyle k}— ぼかしカーネル、
{\displaystyle *}— 畳み込み演算、
s{\displaystyle \downarrow {_{s}}}— ダウンスケーリング操作、
{n}{\displaystyle \{n\}}— 加法ノイズ、
{y}{\displaystyle \{y\}}— 低解像度のフレーム シーケンス。

超解像は逆演算であるため、その課題は、フレームシーケンスから元のフレームシーケンスに近づくようにフレームシーケンスを推定することです。より良い結果を得るには、与えられた入力に対して、ブラーカーネル、ダウンスケーリング演算、加法ノイズを推定する必要があります。 {ׯ}{\displaystyle \{{\overline {x}}\}}{y}{\displaystyle \{y\}}{ׯ}{\displaystyle \{{\overline {x}}\}}{×}{\displaystyle \{x\}}

ビデオ超解像アプローチは、追加の時間次元を活用する必要があるため、画像超解像アプローチよりも多くのコンポーネントを持つ傾向があります。複雑な設計は珍しくありません。VSRの最も重要なコンポーネントは、伝播、アライメント、集約、アップサンプリングという4つの基本機能によって構成されます。[ 1 ]

  • 伝播とは、特徴が時間的に伝播する方法を指します。
  • 位置ずれした画像や特徴に適用される空間変換に関する位置合わせの懸念
  • 集約は、整列した特徴を組み合わせる手順を定義します
  • アップサンプリングは、集約された特徴を最終的な出力画像に変換する方法を表します。

方法

動画を扱う場合、時間情報を利用することでアップスケーリングの品質を向上させることができます。単一画像の超解像手法も使用可能で、隣接するフレームとは独立して高解像度のフレームを生成しますが、効果は低く、時間的な不安定性が生じます。動画の超解像タスクを最適化問題として捉える従来の手法もいくつかあります。昨年発表されたディープラーニングに基づく動画アップスケーリング手法は、従来の手法よりも優れた性能を発揮しています。

伝統的な方法

ビデオのアップスケーリングには、従来からいくつかの手法があります。これらの手法は、自然な好みを利用し、フレーム間の動きを効果的に推定しようとします。高解像度のフレームは、自然な好みと推定された動きの両方に基づいて再構成されます。

周波数領域

まず、低解像度のフレームを周波数領域に変換します。この領域で高解像度のフレームを推定します。最後に、この結果フレームを空間領域に変換します。いくつかの方法ではフーリエ変換を使用します。これは、キャプチャされた信号のスペクトルを拡張し、解像度を向上させるのに役立ちます。これらの方法には、重み付き最小二乗理論[ 2 ]合計最小二乗(TLS)アルゴリズム、[ 3 ]空間可変[ 4 ]または時空間[ 5 ]可変フィルタリングを使用するなど、さまざまなアプローチがあります。他の方法では、隣接する局所領域での類似点を見つけるのに役立つウェーブレット変換を使用します。[ 6 ]その後、第2世代のウェーブレット変換がビデオの超解像度に使用されました。[ 7 ]

空間領域

反復逆投影法は、低解像度フレームと高解像度フレームの間に何らかの関数を仮定し、反復プロセスの各ステップでその推定関数を改善しようとする。[ 8 ]特定のコスト関数を定義する凸集合への投影(POCS)も反復法に使用できる。[ 9 ]

反復適応フィルタリングアルゴリズムは、カルマンフィルタを用いて低解像度フレームから高解像度フレームへの変換を推定する。[ 10 ]最終結果を改善するために、これらの手法では低解像度シーケンス間の時間的相関を考慮する。一部のアプローチでは、高解像度シーケンス間の時間的相関も考慮される。[ 11 ]カルマンフィルタを近似するには、最小平均二乗法(LMS)を用いるのが一般的である。[ 12 ]また、最急降下法[ 13 ]最小二乗法(LS)、[ 14 ]再帰最小二乗法(RLS)も使用できる。[ 14 ]

直接法は、フレーム間の動きを推定し、参照フレームをアップスケールし、隣接フレームを高解像度の参照フレームにワープする。結果を生成するために、これらのアップスケールされたフレームは、メディアンフィルタ[ 15 ]、 [ 16 ]、加重メディアンフィルタ[ 17] 、適応正規化平均化、AdaBoost分類器[ 18 ] 、またはSVDベースのフィルタによって融合される。[ 19 ]

ノンパラメトリックアルゴリズムは、動き推定とフレーム融合を1つのステップに統合します。これはパッチの類似性を考慮して実行されます。融合の重みは、非局所平均フィルタによって計算できます。[ 19 ]類似パッチの探索を強化するために、回転不変性類似度尺度[ 20 ]や適応パッチサイズ[ 21 ]を使用することができます。フレーム内類似度の計算は、細部やエッジの保持に役立ちます。[ 22 ]融合のパラメータは、カーネル回帰によっても計算できます。[ 23 ]

確率的手法では、統計理論を用いて課題を解決します。最大尤度(ML)法は、より確率の高い画像を推定します。[ 24 ] [ 25 ]別のグループの手法では、最大事後確率(MAP)推定を使用します。MAPの正則化パラメータは、ティホノフ正則化によって推定できます。[ 26 ]マルコフ確率場(MRF)はMAPと併用されることが多く、隣接するパッチの類似性を維持するのに役立ちます。[ 27 ]フーバーMRFは、シャープなエッジを維持するために使用されます。[ 28 ]ガウスMRFは、一部のエッジを滑らかにすることができますが、ノイズを除去します。[ 29 ]

ディープラーニングベースの手法

動き推定と動き補償によって調整

アライメントを用いたアプローチでは、まず隣接するフレームをターゲットフレームに位置合わせします。フレームの位置合わせは、動き推定動き補償(MEMC)を行うか、変形可能畳み込み(DC)を使用することで実現できます。動き推定は、フレーム間のピクセルの動きに関する情報を提供します。動き補償は、動き情報に基づいてフレームを別のフレームに位置合わせするワーピング操作です。このような手法の例:

  • Deep-DE [ 30 ](ディープドラフトアンサンブル学習)は、一連のSR特徴マップを生成し、それらをまとめて処理して最終フレームを推定する。
  • VSRnet [ 31 ]はSRCNN(単一画像超解像モデル)に基づいていますが、複数のフレームを入力として受け取ります。入力フレームはまずDruleasアルゴリズムによって整列されます。
  • VESPCN [ 32 ]は、動きを推定して補正する空間動き補正変換モジュール(MCT)を使用する。次に、特徴抽出とそれらを融合するために一連の畳み込みを実行する。
  • DRVSR [ 33 ](詳細表示型ディープビデオ超解像)は、動き推定動き補償、そして融合という3つの主要なステップから構成されています。動き補償トランスフォーマー(MCT)は動き推定に使用されます。サブピクセル動き補償層(SPMC)は動きを補償します。融合ステップでは、エンコーダー・デコーダーアーキテクチャとConvLSTMモジュールを使用して、空間次元と時間次元の両方から情報を統合します。
  • RVSR [ 34 ](ロバストビデオ超解像)には、空間アライメントと時間適応の2つのブランチがあります。最終フレームは、ブランチの出力の加重和です。
  • FRVSR [ 35 ](フレーム再帰型ビデオ超解像)は、低解像度の光学フローを推定し、それを高解像度にアップサンプリングし、この高解像度の光学フローを使用して前の出力フレームをワープする。
  • STTN [ 36 ](時空間変換ネットワーク)は、Unetに基づくU型ネットワークによって光学フローを推定し、三線補間法によって動きを補正する。
  • SOF-VSR [ 37 ](ビデオ超解像のための超解像オプティカルフロー)は、高解像度のオプティカルフローを粗いものから細かいものへと計算する。次に、空間から深度への変換によって低解像度のオプティカルフローを推定する。最終的な超解像結果は、低解像度のフレームをアラインメントさせることで得られる。
  • TecoGAN [ 38 ](時間的にコヒーレントなGAN )は、生成器識別器から構成される。生成器は連続するフレーム間のLRオプティカルフローを推定し、この近似HRオプティカルフローから出力フレームを生成する。識別器は生成器の品質を評価する。
  • TOFlow [ 39 ](タスク指向フロー)は、オプティカルフローネットワークと再構成ネットワークを組み合わせたものである。推定されたオプティカルフローは、ビデオ超解像などの特定のタスクに適している。
  • MMCNN [ 40 ](マルチメモリ畳み込みニューラルネットワーク)は、フレームをターゲット1と整列させ、特徴抽出、詳細融合、特徴再構成モジュールを通じて最終的なHR結果を生成する。
  • RBPN [ 41 ]再帰型逆投影ネットワーク)。各再帰型投影モジュールの入力は、前のフレームの特徴、フレームの結果の特徴、および隣接フレーム間の光学フローである。
  • MEMC-Net [ 42 ](動き推定および動き補償ネットワーク)は、動き推定ネットワークとカーネル推定ネットワークの両方を使用して、フレームを適応的にワープする。
  • RTVSR [ 43 ](リアルタイムビデオ超解像)は、推定された畳み込みカーネルを使用してフレームを整列させる。
  • マルチブートVSR [ 44 ](多段階マルチ参照ブートストラッピング法)はフレームを整列させ、2段階のSR再構成を行って品質を向上させる。
  • BasicVSR [ 45 ]はフレームを光学フローで整列させ、それらの特徴を再帰的な双方向スキームで融合する。
  • IconVSR [ 45 ]はBasicVSRを改良したもので、再帰結合伝播方式を採用している。
  • UVSR [ 46 ](ビデオ超解像のためのアンロールネットワーク)は、アンロール最適化アルゴリズムを適応させてVSR問題を解決した。

変形可能な畳み込みによって整列

隣接するフレームをターゲットフレームに合わせるもう一つの方法は、変形可能な畳み込みです。通常の畳み込みはカーネルを固定しますが、変形可能な畳み込みでは最初のステップでカーネルのシフトを推定してから畳み込みを行います。このような方法の例:

  • EDVR [ 47 ] (強化変形ビデオ復元)は、位置合わせのためのピラミッド、カスケーディング、変形可能(PCD)モジュールと、融合のための時間空間注意(TSA)モジュールの2つの主要なモジュールに分けられます。
  • DNLN [ 48 ](変形可能非局所ネットワーク)は、変形可能な畳み込みに基づくアライメントモジュールと、階層的特徴融合モジュール(HFFB)による品質向上と非局所的注意モジュールを備えている。
  • TDAN [ 49 ](時間的に変形可能なアライメントネットワーク)は、アライメントモジュールと再構成モジュールから構成される。アライメントは、特徴抽出とアライメントに基づく変形可能な畳み込みによって実行される。
  • ビデオ超解像のためのマルチステージ特徴融合ネットワーク[ 50 ]は、フレームの位置合わせにマルチスケール拡張変形畳み込みを使用し、位置合わせされたフレームを統合するためにモジュラティブ特徴融合ブランチを使用する。

ホモグラフィーで整列

いくつかの方法では、フレーム間の ホモグラフィを計算してフレームを位置合わせします。

  • TGA [ 51 ](Temporal Group Attention )は、入力フレームを時間差に応じてN個のグループに分割し、各グループから独立して情報を抽出する。フレームを整列させるために使用されるホモグラフィーに基づく高速空間アライメントモジュール

空間的に非整列

アライメントのないメソッドは、最初のステップとしてアライメントを実行せず、入力フレームを処理するだけです。

  • VSRResNet [ 52 ]はGANと同様に生成器識別器から構成される。生成器は入力フレームをアップサンプリングし、特徴を抽出してそれらを融合する。識別器は結果の高解像度フレームの品質を評価する。
  • FFCVSR [ 53 ](フレームと特徴コンテキストビデオ超解像)は、整列していない低解像度のフレームを取り、高解像度の前のフレームを出力することで、高周波の詳細を同時に復元し、時間的な一貫性を維持する。
  • MRMNet [ 54 ](マルチ解像度混合ネットワーク)は、ボトルネック、交換、残差の3つのモジュールで構成されています。ボトルネックユニットは、入力フレームと同じ解像度の特徴を抽出します。交換モジュールは、隣接するフレーム間で特徴を交換し、特徴マップを拡大します。残差モジュールは、交換後の特徴を抽出します。
  • STMN [ 55 ](時空間マッチングネットワーク)は、離散ウェーブレット変換を用いて時間的特徴を融合する。非局所マッチングブロックは超解像とノイズ除去を統合する。最終段階では、グローバルウェーブレット領域上でSR結果が得られる。
  • MuCAN [ 56 ](マルチ対応集約ネットワーク)は、時間的特徴とクロススケール非局所対応を融合する時間的マルチ対応戦略を使用して、フレーム内の自己相似性を抽出する。

3D畳み込み

2D畳み込みは空間領域で動作しますが、3D畳み込みは空間情報と時間情報の両方を使用します。動き補償を行い、時間的な一貫性を維持します。

  • DUF [ 57 ](動的アップサンプリングフィルタ)は、動き補償に変形可能な3D畳み込みを使用する。このモデルは、特定の入力フレームのカーネルを推定する。
  • FSTRN [ 58 ](高速時空間残差ネットワーク)には、LRビデオ浅い特徴抽出ネット(LFENet)、LR特徴融合およびアップサンプリングモジュール(LSRNet)、および2つの残差モジュール(時空間およびグローバル)が含まれています。
  • 3DSRnet [ 59 ](3次元超解像ネットワーク)は、3次元畳み込みを用いて時空間情報を抽出します。このモデルは、シーンの変化を検出するフレームに対しても特別なアプローチを採用しています。
  • MP3D [ 60 ](マルチスケールピラミッド3D畳み込みネットワーク)は、3D畳み込みを使用して空間的特徴と時間的特徴を同時に抽出し、それを3Dサブピクセル畳み込みによる再構成モジュールに通してアップサンプリングする。
  • DMBN [ 61 ](動的多分岐ネットワーク)は、複数の解像度からの情報を活用するための3つの分岐を持つ。最終的に、分岐からの情報は動的に融合される。

リカレントニューラルネットワーク

再帰型畳み込みニューラル ネットワークは、時間的な依存関係を保存することでビデオの超解像度を実行します。

  • STCN [ 62 ](時空間畳み込みネットワーク)は、空間モジュールで特徴を抽出し、それを再帰時間モジュールと最終的な再構成モジュールに渡す。時間的な一貫性は、長短期記憶(LSTM)メカニズムによって維持される。
  • BRCN [ 63 ](双方向再帰畳み込みネットワーク)には、前方融合と後方融合の2つのサブネットワークがあります。ネットワークの結果は、2つの分岐の出力の組み合わせです。
  • RISTN [ 64 ]残差可逆時空間ネットワーク)は、空間モジュール、時間モジュール、再構成モジュールから構成される。空間モジュールは残差可逆ブロック(RIB)で構成され、空間的特徴を効果的に抽出する。空間モジュールの出力は時間モジュールで処理され、時間的情報を抽出した後、重要な特徴を融合する。最終結果は再構成モジュールで逆畳み込み演算によって計算される。
  • RRCN [ 65 ](残差再帰畳み込みネットワーク)は双方向再帰ネットワークであり、残差画像を計算する。そして、最終結果は、バイキュービックアップサンプリングされた入力フレームを加算することで得られる。
  • RRN [ 66 ](再帰残差ネットワーク)は、残差ブロックの再帰シーケンスを使用して空間情報と時間情報を抽出する。
  • BTRPN [ 67 ] (双方向時間再帰伝播ネットワーク)は双方向再帰スキームを使用する。チャネルアテンションメカニズムを用いて2つの分岐から得られた最終結果を組み合わせる。
  • RLSP [ 68 ](再帰潜在状態伝播)隠れ状態を通して時間情報を非常に効率的に伝播する完全畳み込みネットワークセル
  • RSDN [ 69 ](再帰的構造詳細ネットワーク)は入力フレームを構造と詳細の要素に分割し、それらを2つの並列ストリームで処理する。

ビデオ

非局所的手法は、空間情報と時間情報の両方を抽出します。重要な考え方は、すべての可能な位置を重み付け和として用いることです。この戦略は、局所的アプローチ(漸進的融合非局所的手法)よりも効果的である可能性があります。この手法では、非局所的残差ブロックによって時空間的特徴を抽出し、それらを漸進的融合残差ブロック(PFRB)によって融合します。これらのブロックの結果が残差画像です。最終結果は、バイキュービックアップサンプリングされた入力フレーム を加算することで得られます。

  • NLVSR [ 70 ](新しいビデオ超解像ネットワーク)は、時空間非局所操作によってフレームをターゲットフレームに位置合わせする。位置合わせされたフレームからの情報を統合するために、注目度に基づくメカニズムが使用される。
  • MSHPFNL [ 71 ]は、広範囲の依存関係を抽出するために、マルチスケール構造とハイブリッド畳み込みも採用している。ちらつきゴーストなどのアーティファクトを回避するために、生成的敵対的学習法を用いている。

メトリクス

上:元のシーケンス。下:VSR法の出力のPSNR(ピーク信号対雑音比)の視覚化。

ビデオ超解像度アルゴリズムのパフォーマンスを推定する一般的な方法は、いくつかの指標を使用することです。

現時点では、ビデオ超解像技術が実際の細部を復元できるかどうかを検証するための客観的な指標はそれほど多くありません。この分野では現在、研究が進められています。

ビデオ超解像アルゴリズムの性能を評価するもう一つの方法は、主観評価を体系化することです。被験者は対応するフレームを比較し、最終的な平均オピニオンスコア(MOS)は算術平均全体評価として計算されます。

データセット

動画の超解像におけるディープラーニングのアプローチは従来のアプローチよりも優れているものの、評価には高品質なデータセットの構築が不可欠です。モ​​デルの微細なディテール、テキスト、複雑な構造を持つオブジェクトを復元し、大きな動きやノイズに対処できる能力を検証することが重要です。

データセットの比較
データセットビデオ平均動画長さグラウンドトゥルース解像度フレーム内の動き細部まで
ビデオ4443フレーム720×480ファストモーションなしテキストなしの小さな詳細
SPMCS3031フレーム960×540スローモーションたくさんの小さな詳細
Vimeo-90K(テストSRセット)78247フレーム448×256速くて難しくて多様な動きがたくさん詳細は少なく、いくつかのシーケンスにテキストがあります
Xiph HD(コンプリートセット)702秒640×360から4096×2160速くて難しくて多様な動きがたくさん詳細は少なく、いくつかのシーケンスにテキストがあります
ウルトラビデオデータセット 4K1610秒4096×2160多様な動き詳細はほとんどなく、テキストもなし
REDS(テストSR)30100フレーム1280×720速くて難しくて多様な動きがたくさん詳細はほとんどなく、テキストもなし
時空SR5100フレーム1280×720多様な動き細かい詳細やテキストなし
ハーモニック4096×2160
CDVL1920×1080

ベンチマーク

動画超解像に関するベンチマークは、企業やカンファレンスによっていくつか開催されました。こうしたチャレンジの目的は、多様なアルゴリズムを比較し、そのタスクにおける最先端のアルゴリズムを見つけることです。

ベンチマークの比較
ベンチマーク主催者データセット高級感メトリクス
NTIRE 2019チャレンジCVPR(コンピュータービジョンとパターン認識)レッズ4PSNRSSIM
Youku-VESRチャレンジ 2019優酷優酷-VESR4PSNRVMAF
AIM 2019チャレンジECCV(欧州コンピュータビジョン会議)ヴィド3oC16PSNRSSIMMOS
AIM 2020チャレンジECCV(欧州コンピュータビジョン会議)ヴィド3oC16PSNRSSIM、LPIPS
モバイルビデオ修復チャレンジICIP(国際画像処理会議)、クワイPSNRSSIMMOS
MSU ビデオ超解像度ベンチマーク 2021MSU(モスクワ国立大学)4ERQAv1.0、シフト補正付き PSNRおよびSSIM 、QRCRv1.0、CRRMv1.0
MSU 超解像ビデオ圧縮ベンチマーク 2022MSU(モスクワ国立大学)4ERQAv2.0、PSNRMS-SSIMVMAF、LPIPS

NTIRE 2019チャレンジ

NTIRE 2019チャレンジはCVPRが主催し、ビデオ超解像の2つのトラック、クリーン(バイキュービック法による劣化のみ)とブラー(ブラーを先に付加)を提案しました。各トラックには100人以上の参加者があり、14件の最終結果が提出されました。 データセットREDSは、このチャレンジのために収集されました。データセットは、100フレームずつのビデオ30本で構成されています。グラウンドトゥルースフレームの解像度は1280×720です。テストされたスケールファクターは4です。モデルの性能評価には、PSNRとSSIMが使用されました。参加者の最も優れた結果は、以下の表に示されています。

トップチーム
チームモデル名PSNR (クリーントラック)SSIM (クリーントラック)PSNR (ブラートラック)SSIM (ぼかしトラック)画像あたりの実行時間(秒)(クリーントラック)画像あたりの実行時間(秒)(ぼかしトラック)プラットフォームグラフィックオープンソース
こんにちはVSREDVR31.790.896230.170.86472.7883.562パイトーチタイタンXpはい
UIUC-IFPWDVR30.810.874829.460.84300.9800.980パイトーチテスラV100はい
スーパーリオールRDN、 RCAN、DUFのアンサンブル31.130.881112万パイトーチテスラV100いいえ
サイバーバースサンディエゴレックネット31.000.882227.710.80673.0003.000テンソルフローRTX 2080 Tiはい
TTIRBPN30.970.880428.920.83331.3901.390パイトーチタイタンXはい
NERCMSPFNL30.910.878228.980.83076.0206.020パイトーチGTX 1080 Tiはい
XJTU-IAIRFSTDN28.860.830113,000パイトーチGTX 1080 Tiいいえ

Youku-VESRチャレンジ 2019

Youku-VESRチャレンジは、Youkuオンライン動画視聴アプリケーションで実際に発生する画質劣化やノイズへのモデルの対応能力を検証するために開催されました。提案されたデータセットは、長さ4~6秒の動画1000本で構成されています。グラウンドトゥルースフレームの解像度は1920×1080です。テストのスケールファクターは4です。性能評価にはPSNRとVMAF指標を使用しました。上位の手法は表のとおりです。

トップチーム
チームPSNRVMAF
アベンジャーズ・アッセンブル37.85141.617
NJU_L137.68141.227
ALONG_NTES37.63240.405

AIM 2019チャレンジ

このコンテストはECCVが主催し、動画の超解像に関する2つのトラックがありました。最初のトラックでは、参照フレームの忠実度(PSNRSSIMで測定)を検証します。2つ目のトラックでは、動画の知覚品質(MOS)を検証します。データセットは、120フレームずつの動画シーケンス328本で構成されています。グラウンドトゥルースフレームの解像度は1920×1080です。テストされたスケールファクターは16です。上位の手法は表のとおりです。

トップチーム
チームモデル名PSNRSSIMMOS画像あたりの実行時間(秒)プラットフォームGPU/CPUオープンソース
フェンリングlwbEDVRに基づく22.530.64最初の結果0.35パイトーチタイタンX×4いいえ
NERCMSPFNL22.350.630.51パイトーチ2× 1080 Tiいいえ
ベースラインRLSP21.750.600.09テンソルフロータイタンXPいいえ
HIT-XLabEDSRに基づく21.450.602番目の結果60.00パイトーチV100いいえ

AIM 2020チャレンジ

チャレンジの条件はAIM 2019チャレンジと同じです。上位のメソッドは表の通りです。

トップチーム
チームモデル名パラメータ番号PSNRSSIM画像あたりの実行時間(秒)GPU/CPUオープンソース
キリンUKEVESRネット45.29M22.830.64506.1秒1 × 2080 Ti 6いいえ
チーム-WVU29.51M22.480.63784.9秒1 × タイタンXPいいえ
BOE-IOT-AIBD3D-MGBP53M22.480.63044.83秒1 × 1080いいえ
シニアxxxEDVRに基づく22.430.63534秒1 × V100いいえ
ZZXマハ31.14M22.280.63214秒1 × 1080 Tiいいえ
リルファインネット22.080.625613秒いいえ
TTISTARnetに基づく21.910.61650.249秒いいえ
CET CVラボ21.770.61120.04秒1 × P100いいえ

MSU ビデオ超解像度ベンチマーク

MSUビデオ超解像ベンチマークはMSUによって主催され、3種類のモーション、2種類の解像度低下方法、そしてデータセット内の8種類のコンテンツが提案されました。グラウンドトゥルースフレームの解像度は1920×1280です。テストされたスケールファクターは4です。14のモデルがテストされました。モデルの性能評価には、シフト補正を用いたPSNRとSSIMが使用されました。また、ERQAv1.0、QRCRv1.0、CRRMv1.0といった新しい指標も提案されました。[ 72 ]上位の手法は表に示されています。

トップメソッド
モデル名マルチフレーム主観的ERQAv1.0PSNRSSIMQRCRv1.0CRRMv1.0画像あたりの実行時間(秒)オープンソース
DBVSRはい5.5610.73731.0710.8940.6290.992はい
LGFNはい5.0400.74031.2910.8980.6290.9961.499はい
ダイナVSR-Rはい4.7510.70928.3770.8650.5570.9975.664はい
TDANはい4.0360.70630.2440.8830.5570.994はい
DUF-28Lはい3.9100.64525.8520.8300.5490.9932.392はい
RRN-10Lはい3.8870.62724.2520.7900.5570.9890.390はい
リアルSRいいえ3.7490.69025.9890.7670.0000.886はい

MSU 超解像ビデオ圧縮ベンチマーク

MSUビデオ圧縮ベンチマークにおけるMSU超解像は、MSUによって実施されました。このベンチマークは、圧縮されたビデオを扱うモデルの能力をテストします。データセットは、異なるビデオコーデック規格と異なるビットレートで圧縮された9本のビデオで構成されています。モデルは、主観スコアに対するBSQレート[ 73 ]によってランク付けされています。グラウンドトゥルースフレームの解像度は1920×1080です。テストされたスケールファクターは4です。17のモデルがテストされました。グラウンドトゥルースビデオの圧縮には5つのビデオコーデックが使用されました。表に、超解像手法とビデオコーデックの上位の組み合わせを示します。

トップメソッド
モデル名BSQ率(主観スコア)BSQレート(ERQAv2.0)BSQレート(VMAF)BSQレート(PSNR)BSQレート(MS-SSIM)BSQレート(LPIPS)オープンソース
リアルSR + x2640.1960.7700.7750.6750.4870.591はい
ahq-11 + x2640.2710.8830.7530.8730.7190.656いいえ
SwinIR + x2640.3040.7600.6426.2680.7360.559はい
リアルESRGAN + x2640.3355.5800.6987.8740.8810.733はい
スウィンIR + x2650.3461.5751.3048.1304.6411.474はい
COMISR + x2640.3670.9691.3026.0810.6721.118はい
リアルSR + x2650.5021.6221.6171.0641.0331.206はい

応用

動画を扱う多くの分野では、ダウンスケーリングを含む様々な種類の動画劣化に対処しています。動画の解像度は、光学的な劣化やカメラセンサーのサイズ制限など、測定機器の不完全性によって低下することがあります。また、光量不足や天候条件によっても動画にノイズが発生します。物体やカメラの動きによっても動画の画質は低下します。超解像技術は、元の動画を復元するのに役立ちます。これは、以下のような幅広い用途で役立ちます。

  • ビデオ監視(カメラから撮影したビデオの品質を向上させ、車のナンバーや顔を認識するため)
  • 医用画像診断(臨床分析や医療介入のために臓器や組織をよりよく発見する)
  • 法医学(刑事手続き中の捜査を支援するため)
  • 天文学(星や惑星のビデオの品質を向上させるため)
  • リモートセンシング(物体の観察を容易にする)
  • 顕微鏡検査(顕微鏡の能力を強化するため)

また、物体検出顔認識文字認識(前処理ステップとして)といったタスクの解決にも役立ちます。高解像度のコンピューターディスプレイやテレビ の発展に伴い、超解像への関心が高まっています。

カメラを「揺らす」ことで自然な手の動きをシミュレートする

ビデオの超解像度は、最近のスマートフォンやカメラの一部で実用化されており、デジタル写真の再構成に使用されています。

デジタル写真の細部を復元するのは困難な作業です。なぜなら、写真自体が既に不完全だからです。カメラのセンサー素子は光の強度のみを測定し、色を直接測定することはできないからです。部分的な色情報から写真を復元するには、デモザイクと呼ばれるプロセスが使用されます。1枚のフレームだけでは、不足している色を補うのに十分なデータが得られませんが、連続して撮影された複数の画像から、不足している情報の一部を得ることができます。このプロセスはバースト撮影と呼ばれ、連続した複数のフレームから1枚の高品質な画像を復元するために使用できます。

スマートフォンや手持ちカメラで連続写真を多数撮影すると、手振れの影響でフレーム間に必ず多少のブレが生じます。この手振れを有効活用するには、複数の画像の情報を組み合わせる必要があります。まず、1枚の画像を「ベース」または参照フレームとして選択し、他のすべてのフレームをそのフレームを基準に位置合わせします。

デバイスが安定しているため(例えば三脚に設置されているなど)、手ブレが全く見られない状況もあります。カメラを意図的にわずかに動かすことで、自然な手ブレをシミュレートする方法があります。この動きは非常に小さいので、通常の写真に支障をきたすことはありません。Google Pixel 3 [ 74 ]では、完全に静止した状態(例えば窓に押し付けるなど)でファインダーをピンチズームで最大限に操作することで、これらの動きを観察できます。

参照

参考文献

  1. ^ Chan, Kelvin CK, et al. 「BasicVSR:ビデオ超解像度とその先へ向けた必須コンポーネントの探求」 IEEE/CVFコンピュータービジョンおよびパターン認識会議議事録。2021年。
  2. ^ Kim, SP; Bose, NK; Valenzuela, HM (1989). 「ノイズアンダーサンプリングフレームからの高解像度画像の再構成」.制御情報科学講義ノート. 第129巻. ベルリン/ハイデルベルク: Springer-Verlag. pp.  315– 326. doi : 10.1007/bfb0042742 . ISBN 3-540-51424-4
  3. ^ Bose, NK; Kim, HC; Zhou, B. (1994). 「アンダーサンプリングされたノイズとぼやけたフレームのシーケンスからの画像再構成におけるTLSアルゴリズムの性能分析」. Proceedings of 1st International Conference on Image Processing . Vol. 3. IEEE Comput. Soc. Press. pp.  571– 574. doi : 10.1109/icip.1994.413741 . ISBN 0-8186-6952-7
  4. ^ Tekalp, AM; Ozkan, MK; Sezan, MI (1992). 「低解像度画像シーケンスからの高解像度画像再構成と空間可変画像復元」[議事録] ICASSP-92: 1992 IEEE 国際音響・音声・信号処理会議. IEEE. pp. 169–172 vol.3. doi : 10.1109/icassp.1992.226249 . ISBN 0-7803-0532-9
  5. ^ Goldberg, N.; Feuer, A.; Goodwin, GC (2003). 「時空間フィルタリングを用いた超解像度再構成」. Journal of Visual Communication and Image Representation . 14 (4). Elsevier BV: 508– 525. doi : 10.1016/s1047-3203(03)00042-7 . ISSN 1047-3203 . 
  6. ^ Mallat, S (2010). 「スパース混合推定量を用いた超解像」. IEEE Transactions on Image Processing . 19 (11) . Institute of Electrical and Electronics Engineers (IEEE): 2889– 2900. Bibcode : 2010ITIP...19.2889M . doi : 10.1109/tip.2010.2049927 . ISSN 1057-7149 . PMID 20457549. S2CID 856101 .   
  7. ^ Bose, NK; Lertrattanapanich, S.; Chappalli, MB (2004). 「第2世代ウェーブレットによる超解像」.信号処理:画像通信. 19 (5). Elsevier BV: 387– 391. doi : 10.1016/j.image.2004.02.001 . ISSN 0923-5965 . 
  8. ^ Cohen, B.; Avrin, V.; Dinstein, I. (2000). 「画像シーケンスの解像度向上のための多相逆投影フィルタリング」. 2000 IEEE 国際音響・音声・信号処理会議. 議事録 (カタログ番号 00CH37100) . 第4巻. IEEE. pp.  2171– 2174. doi : 10.1109/icassp.2000.859267 . ISBN 0-7803-6293-4
  9. ^ Katsaggelos, AK (1997). 「ビデオシーケンスの解像度を向上させる反復重み付け正規化アルゴリズム」.国際画像処理会議論文集. IEEE Comput. Soc. pp.  474– 477. doi : 10.1109/icip.1997.638811 . ISBN 0-8186-8183-7
  10. ^ Farsiu, Sina; Elad, Michael; Milanfar, Peyman (2006-01-15). 「超解像度への実践的アプローチ」 Apostolopoulos, John G.; Said, Amir (編). Visual Communications and Image Processing 2006 . Vol. 6077. SPIE. p. 607703. doi : 10.1117/12.644391 .
  11. ^ Jing Tian; Kai-Kuang Ma (2005). 「超解像画像シーケンス再構成のための新たな状態空間アプローチ」. IEEE International Conference on Image Processing 2005. IEEE. pp. I-881. doi : 10.1109/icip.2005.1529892 . ISBN 0-7803-9134-9
  12. ^ Costa, Guilherme Holsbach; Bermudez, Jos Carlos Moreira (2007). 「超解像画像再構成に適用されるLMSアルゴリズムの統計的分析」. IEEE Transactions on Signal Processing . 55 (5). Institute of Electrical and Electronics Engineers (IEEE): 2084– 2095. Bibcode : 2007ITSP...55.2084C . doi : 10.1109/tsp.2007.892704 . ISSN 1053-587X . S2CID 52857681 .  
  13. ^ Elad, M.; Feuer, A. (1999). 「連続画像シーケンスの超解像度再構成」. Proceedings 1999 International Conference on Image Processing (Cat. 99CH36348) . Vol. 3. IEEE. pp.  459– 463. doi : 10.1109/icip.1999.817156 . ISBN 0-7803-5467-2
  14. ^ a b Elad, M.; Feuer, A. (1999). 「画像シーケンスの超解像度復元:適応フィルタリングアプローチ」. IEEE Transactions on Image Processing . 8 (3). Institute of Electrical and Electronics Engineers (IEEE): 387– 395. Bibcode : 1999ITIP....8..387E . doi : 10.1109/83.748893 . ISSN 1057-7149 . PMID 18262881 .  
  15. ^ Pickering, M.; Frater, M.; Arnold, J. (2005). 「超解像度スプライト生成への堅牢なアプローチ」. IEEE International Conference on Image Processing 2005. IEEE. pp. I-897. doi : 10.1109/icip.2005.1529896 . ISBN 0-7803-9134-9
  16. ^ Nasonov, Andrey V.; Krylov, Andrey S. (2010). 「加重メディアンフィルタリングを用いた高速スーパーレゾリューション」. 2010 第20回国際パターン認識会議. IEEE. pp.  2230– 2233. doi : 10.1109/icpr.2010.546 . ISBN 978-1-4244-7542-1
  17. ^ Simonyan, K.; Grishin, S.; Vatolin, D.; Popov, D. (2008). 「分類による高速ビデオ超解像度」. 2008 第15回IEEE国際画像処理会議. IEEE. pp.  349– 352. doi : 10.1109/icip.2008.4711763 . ISBN 978-1-4244-1765-0
  18. ^ Nasir, Haidawati; Stankovic, Vladimir; Marshall, Stephen (2011). 「超解像画像再構成のための特異値分解に基づく融合」. 2011 IEEE International Conference on Signal and Image Processing Applications (ICSIPA) . IEEE. pp.  393– 398. doi : 10.1109/icsipa.2011.6144138 . ISBN 978-1-4577-0242-6
  19. ^ Protter, M.; Elad, M.; Takeda, H.; Milanfar, P. (2009). 「非局所的手段の超解像度再構成への一般化」. IEEE Transactions on Image Processing . 18 (1). Institute of Electrical and Electronics Engineers (IEEE): 36– 51. Bibcode : 2009ITIP...18...36P . doi : 10.1109 / tip.2008.2008067 . ISSN 1057-7149 . PMID 19095517. S2CID 2142115 .   
  20. ^ Zhuo, Yue; Liu, Jiaying ; Ren, Jie; Guo, Zongming (2012). 「回転不変性と探索ウィンドウの再配置を備えた非局所的超解像」2012 IEEE 国際音響・音声・信号処理会議 (ICASSP) . IEEE. pp.  853– 856. doi : 10.1109/icassp.2012.6288018 . ISBN 978-1-4673-0046-9
  21. ^ Cheng, Ming-Hui; Chen, Hsuan-Ying; Leou, Jin-Jang (2011). 「モバイルサーチ戦略と適応パッチサイズを用いたビデオ超解像度再構成」.信号処理. 91 (5). Elsevier BV: 1284– 1297. Bibcode : 2011SigPr..91.1284C . doi : 10.1016/j.sigpro.2010.12.016 . ISSN 0165-1684 . S2CID 17920263 .  
  22. ^ Huhle, Benjamin; Schairer, Timo; Jenke, Philipp; Straßer, Wolfgang (2010). 「非局所フィルタを用いたノイズ除去と解像度向上のためのレンジ画像とカラー画像の融合」. Computer Vision and Image Understanding . 114 (12). Elsevier BV: 1336– 1345. doi : 10.1016/j.cviu.2009.11.004 . ISSN 1077-3142 . 
  23. ^武田 宏之; ファルシウ シナ; ミランファー ペイマン (2007). 「画像処理と再構成のためのカーネル回帰」. IEEE Transactions on Image Processing . 16 (2). 米国電気電子学会 (IEEE): 349– 366. Bibcode : 2007ITIP...16..349T . doi : 10.1109/tip.2006.888330 . ISSN 1057-7149 . PMID 17269630. S2CID 12116009 .   
  24. ^ Elad, M.; Feuer, A. (1997). 「複数のぼやけた、ノイズの多い、かつサンプル不足の測定画像から単一の超解像画像を復元する」. IEEE Transactions on Image Processing . 6 (12). Institute of Electrical and Electronics Engineers (IEEE): 1646– 1658. Bibcode : 1997ITIP....6.1646E . doi : 10.1109/83.650118 . ISSN 1057-7149 . PMID 18285235 .  
  25. ^ Farsiu, Sina; Robinson, Dirk; Elad, Michael; Milanfar, Peyman (2003-11-20). 「ロバストなシフトと加算による超解像へのアプローチ」. Tescher, Andrew G. (編). Applications of Digital Image Processing XXVI . Vol. 5203. SPIE. p. 121. doi : 10.1117/12.507194 .
  26. ^ Chantas, GK; Galatsanos, NP; Woods, NA (2007). 「高速レジストレーションと最大事後再構成に基づく超解像度」. IEEE Transactions on Image Processing . 16 (7). Institute of Electrical and Electronics Engineers (IEEE): 1821– 1830. Bibcode : 2007ITIP...16.1821C . doi : 10.1109 / tip.2007.896664 . ISSN 1057-7149 . PMID 17605380. S2CID 1811280 .   
  27. ^ Rajan, D.; Chaudhuri, S. (2001). 「マルコフ確率場を用いたぼやけた観測データからの超解像度画像の生成」. 2001 IEEE 国際音響・音声・信号処理会議. 議事録 (カタログ番号 01CH37221) . 第3巻. IEEE. pp.  1837– 1840. doi : 10.1109/icassp.2001.941300 . ISBN 0-7803-7041-4
  28. ^ Zibetti, Marcelo Victor Wust; Mayer, Joceli (2006). 「外れ値ロバストかつエッジ保存型同時超解像」2006年国際画像処理会議IEEE pp.  1741– 1744. doi : 10.1109/icip.2006.312718 . ISBN 1-4244-0480-0
  29. ^ Joshi, MV; Chaudhuri, S.; Panuganti, R. (2005). 「ズーム観察からの画像超解像度のための学習ベース手法」. IEEE Transactions on Systems, Man, and Cyber​​netics - Part B: Cyber​​netics . 35 (3). Institute of Electrical and Electronics Engineers (IEEE): 527– 537. Bibcode : 2005ITSMB..35..527J . doi : 10.1109/ tsmcb.2005.846647 . ISSN 1083-4419 . PMID 15971920. S2CID 3162908 .   
  30. ^ Liao, Renjie; Tao, Xin; Li, Ruiyu; Ma, Ziyang; Jia, Jiaya (2015). 「ディープドラフト・アンサンブル学習によるビデオ超解像度」. 2015 IEEE International Conference on Computer Vision (ICCV) . IEEE. pp.  531– 539. doi : 10.1109/iccv.2015.68 . ISBN 978-1-4673-8391-2
  31. ^ Kappeler, Armin; Yoo, Seunghwan; Dai, Qiqin; Katsaggelos, Aggelos K. (2016). 「畳み込みニューラルネットワークによるビデオ超解像度」. IEEE Transactions on Computational Imaging . 2 (2). Institute of Electrical and Electronics Engineers (IEEE): 109– 122. Bibcode : 2016ITCI....2..109K . doi : 10.1109/tci.2016.2532323 . ISSN 2333-9403 . S2CID 9356783 .  
  32. ^ Caballero, Jose; Ledig, Christian; Aitken, Andrew; Acosta, Alejandro; Totz, Johannes; Wang, Zehan; Shi, Wenzhe (2016-11-16). 「時空間ネットワークと動き補償によるリアルタイムビデオ超解像度」arXiv : 1611.05250v2 [ cs.CV ].
  33. ^タオ、シン;ガオ、ホンユン。リャオ、レンジェ。ワン・ジュエ。ジア、ジアヤ(2017)。 「細部まで鮮明な映像超解像」。2017 IEEE コンピューター ビジョン国際会議 (ICCV)。 IEEE。pp 4482–4490。arXiv : 1704.02738土井10.1109/iccv.2017.479ISBN 978-1-5386-1032-9
  34. ^ Liu, Ding; Wang, Zhaowen; Fan, Yuchen; Liu, Xianming; Wang, Zhangyang; Chang, Shiyu; Huang, Thomas (2017). 「学習した時間的ダイナミクスによるロバストなビデオ超解像度」. 2017 IEEE International Conference on Computer Vision (ICCV) . IEEE. pp.  2526– 2534. doi : 10.1109/iccv.2017.274 . ISBN 978-1-5386-1032-9
  35. ^ Sajjadi, Mehdi SM; Vemulapalli, Raviteja; Brown, Matthew (2018). 「フレームリカレントビデオ超解像度」. 2018 IEEE/CVF コンピュータビジョンとパターン認識会議. IEEE. pp.  6626– 6634. arXiv : 1801.04590 . doi : 10.1109/cvpr.2018.00693 . ISBN 978-1-5386-6420-9
  36. ^ Kim, Tae Hyun; Sajjadi, Mehdi SM; Hirsch, Michael; Schölkopf, Bernhard (2018). 「ビデオ修復のための時空間トランスフォーマーネットワーク」. Computer Vision – ECCV 2018 . Lecture Notes in Computer Science. Vol. 11207. Cham: Springer International Publishing. pp.  111– 127. doi : 10.1007/978-3-030-01219-9_7 . ISBN 978-3-030-01218-2. ISSN  0302-9743 .
  37. ^ Wang, Longguang; Guo, Yulan; Liu, Li; Lin, Zaiping; Deng, Xinpu; An, Wei (2020). 「HRオプティカルフロー推定を用いたディープビデオスーパーレゾリューション」. IEEE Transactions on Image Processing . 29. Institute of Electrical and Electronics Engineers (IEEE): 4323– 4336. arXiv : 2001.02129 . Bibcode : 2020ITIP...29.4323W . doi : 10.1109 / tip.2020.2967596 . ISSN 1057-7149 . PMID 31995491. S2CID 210023539 .   
  38. ^ Chu, Mengyu; Xie, You; Mayer, Jonas; Leal-Taixé, Laura; Thuerey, Nils (2020-07-08). 「GANベースの動画生成における自己教師による時間的コヒーレンスの学習」. ACM Transactions on Graphics . 39 (4). Association for Computing Machinery (ACM). arXiv : 1811.09393 . doi : 10.1145/3386569.3392457 . ISSN 0730-0301 . S2CID 209460786 .  
  39. ^ Xue, Tianfan; Chen, Baian; Wu, Jiajun; Wei, Donglai; Freeman, William T. (2019-02-12). 「タスク指向フローによるビデオエンハンスメント」. International Journal of Computer Vision . 127 (8). Springer Science and Business Media LLC: 1106– 1125. arXiv : 1711.09078 . doi : 10.1007/s11263-018-01144-2 . ISSN 0920-5691 . S2CID 40412298 .  
  40. ^ Wang, Zhongyuan; Yi, Peng; Jiang, Kui; Jiang, Junjun; Han, Zhen; Lu, Tao; Ma, Jiayi (2019). 「ビデオ超解像度のためのマルチメモリ畳み込みニューラルネットワーク」. IEEE Transactions on Image Processing . 28 (5). Institute of Electrical and Electronics Engineers (IEEE): 2530– 2544. Bibcode : 2019ITIP...28.2530W . doi : 10.1109 / tip.2018.2887017 . ISSN 1057-7149 . PMID 30571634. S2CID 58595890 .   
  41. ^ Haris, Muhammad; Shakhnarovich, Gregory; Ukita, Norimichi (2019). 「ビデオ超解像度のためのリカレントバックプロジェクションネットワーク」. 2019 IEEE/CVF コンピュータビジョンとパターン認識会議 (CVPR) . IEEE. pp.  3892– 3901. arXiv : 1903.10128 . doi : 10.1109/cvpr.2019.00402 . ISBN 978-1-7281-3293-8
  42. ^ Bao, Wenbo; Lai, Wei-Sheng; Zhang, Xiaoyun; Gao, Zhiyong; Yang, Ming-Hsuan (2021-03-01). 「MEMC-Net:動画の補間と画質向上のための動き推定および動き補償駆動型ニューラルネットワーク」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 43 (3). Institute of Electrical and Electronics Engineers (IEEE): 933– 948. arXiv : 1810.08768 . Bibcode : 2021ITPAM..43..933B . doi : 10.1109 / tpami.2019.2941941 . ISSN 0162-8828 . PMID 31722471. S2CID 53046739 .   
  43. ^ Bare, Bahetiyaer; Yan, Bo; Ma, Chenxi; Li, Ke (2019). 「モーション畳み込みカーネル推定によるリアルタイムビデオ超解像度」. Neurocomputing . 367. Elsevier BV: 236– 245. doi : 10.1016/j.neucom.2019.07.089 . ISSN 0925-2312 . S2CID 201264266 .  
  44. ^ Kalarot, Ratheesh; Porikli, Fatih (2019). 「MultiBoot Vsr: ビデオ超解像度のための多段階マルチ参照ブートストラッピング」2019 IEEE/CVF コンピュータビジョンおよびパターン認識ワークショップ (CVPRW) . IEEE. pp.  2060– 2069. doi : 10.1109/cvprw.2019.00258 . ISBN 978-1-7281-2506-0
  45. ^ a b Chan, Kelvin CK; Wang, Xintao; Yu, Ke; Dong, Chao; Loy, Chen Change (2020-12-03). 「BasicVSR:ビデオ超解像度とその先における必須コンポーネントの探求」. arXiv : 2012.02181v1 [ cs.CV ].
  46. ^ベンジャミン・ナオト・チシェ、ジョアナ・フロンテラ・ポンス、アルノー・ウォイゼル、ジャン=リュック・スタルク (2020年11月9日). 「ビデオ超解像度のためのディープアンロールネットワーク」. 2020年 第10回国際画像処理理論・ツール・アプリケーション会議 (IPTA) . IEEE. pp.  1– 6. arXiv : 2102.11720 . doi : 10.1109/ipta50016.2020.9286636 . ISBN 978-1-7281-8750-1
  47. ^ Wang, Xintao; Chan, Kelvin CK; Yu, Ke; Dong, Chao; Loy, Chen Change (2019-05-07). 「EDVR: 拡張変形可能畳み込みネットワークによるビデオ復元」. arXiv : 1905.02716v1 [ cs.CV ].
  48. ^ Wang, Hua; Su, Dewei; Liu, Chuangchuang; Jin, Longcun; Sun, Xianfang; Peng, Xinyi (2019). 「ビデオ超解像度のための変形可能非局所ネットワーク」 . IEEE Access . 7. Institute of Electrical and Electronics Engineers (IEEE): 177734– 177744. arXiv : 1909.10692 . Bibcode : 2019IEEEA...7q7734W . doi : 10.1109/access.2019.2958030 . ISSN 2169-3536 . 
  49. ^ Tian, Yapeng; Zhang, Yulun; Fu, Yun; Xu, Chenliang (2020). 「TDAN: ビデオ超解像度のための時間的に変形可能なアライメントネットワーク」. 2020 IEEE/CVF コンピュータービジョンとパターン認識会議 (CVPR) . IEEE. pp.  3357– 3366. arXiv : 1812.02898 . doi : 10.1109/cvpr42600.2020.00342 . ISBN 978-1-7281-7168-5
  50. ^ Song, Huihui; Xu, Wenjie; Liu, Dong; Liua, Bo; Liub, Qingshan; Metaxas, Dimitris N. (2021). 「ビデオ超解像度のためのマルチステージ特徴融合ネットワーク」. IEEE Transactions on Image Processing . 30 . Institute of Electrical and Electronics Engineers (IEEE): 2923– 2934. Bibcode : 2021ITIP...30.2923S . doi : 10.1109/tip.2021.3056868 . ISSN 1057-7149 . PMID 33560986 . S2CID 231864067 .   
  51. ^磯部隆志;李、松江。ジア、シュウ。元、山信。スラボー、グレゴリー。徐春京。リー、ヤーリー。王盛進。ティアン、チー(2020)。 「時間的グループ注意を伴うビデオ超解像度」。コンピュータ ビジョンとパターン認識 (CVPR) に関する 2020 IEEE/CVF カンファレンス。 IEEE。 pp.  80058014。arXiv : 2007.10595土井10.1109/cvpr42600.2020.00803ISBN 978-1-7281-7168-5
  52. ^ Lucas, Alice; Lopez-Tapia, Santiago; Molina, Rafael; Katsaggelos, Aggelos K. (2019). 「ビデオ超解像度における生成的敵対ネットワークと知覚損失」. IEEE Transactions on Image Processing . 28 (7). Institute of Electrical and Electronics Engineers (IEEE): 3312– 3327. arXiv : 1806.05764 . Bibcode : 2019ITIP ...28.3312L . doi : 10.1109/tip.2019.2895768 . ISSN 1057-7149 . PMID 30714918. S2CID 73415655 .   
  53. ^ Yan, Bo; Lin, Chuming; Tan, Weimin (2019-09-28). 「フレームと特徴コンテキストに基づくビデオ超解像度」. arXiv : 1909.13057v1 [ cs.CV ].
  54. ^ Tian, Zhiqiang; Wang, Yudiao; Du, Shaoyi; Lan, Xuguang (2020-07-10). Yang, You (ed.). 「ビデオ超解像度のためのマルチ解像度混合生成敵対ネットワーク」 . PLOS ONE . 15 (7) e0235352 . Public Library of Science (PLoS). Bibcode : 2020PLoSO..1535352T . doi : 10.1371/journal.pone.0235352 . ISSN 1932-6203 . PMC 7351143. PMID 32649694 .   
  55. ^ Zhu, Xiaobin; Li, Zhuangzi; Lou, Jungang; Shen, Qing (2021). 「時空間マッチングネットワークに基づくビデオ超解像度」.パターン認識. 110 107619. Bibcode : 2021PatRe.11007619Z . doi : 10.1016/j.patcog.2020.107619 . ISSN 0031-3203 . S2CID 225285804 .  
  56. ^李文博;タオ、シン。郭、泰安。チー、ルー。陸、江波。ジア、ジアヤ (2020-07-23)。 「MuCAN: ビデオ超解像度のためのマルチ対応集約ネットワーク」。arXiv : 2007.11803v1 [ cs.CV ]。
  57. ^ Jo, Younghyun; Oh, Seoung Wug; Kang, Jaeyeon; Kim, Seon Joo (2018). 「明示的な動き補償を行わない動的アップサンプリングフィルタを用いたディープビデオ超解像ネットワーク」2018 IEEE/CVF コンピュータビジョンおよびパターン認識会議IEEE. pp.  3224– 3232. doi : 10.1109/cvpr.2018.00340 . ISBN 978-1-5386-6420-9
  58. ^李、盛;彼、鳳翔。デュ、ボー。チャン、レフェイ。徐永豪。タオ、大成 (2019-04-05)。 「ビデオ超解像度のための高速時空間残差ネットワーク」。arXiv : 1904.02870v1 [ cs.CV ]。
  59. ^キム・スイェ、リム・ジョンヨン、ナ・テヨン、キム・ムンチュル (2019). 「シーンチェンジを考慮した3D-CNNSに基づくビデオ超解像」2019 IEEE 国際画像処理会議 (ICIP) . pp.  2831– 2835. doi : 10.1109/ICIP.2019.8803297 . ISBN 978-1-5386-6249-6. S2CID  202763112 .
  60. ^ Luo, Jianping; Huang, Shaofei; Yuan, Yuan (2020). 「マルチスケールピラミッド3D畳み込みネットワークを用いたビデオ超解像度」.第28回ACM国際マルチメディア会議論文集. pp.  1882– 1890. doi : 10.1145/3394171.3413587 . ISBN 978-1-4503-7988-5. S2CID  222278621 .
  61. ^ Zhang, Dongyang; Shao, Jie; Liang, Zhenwen; Liu, Xueliang; Shen, Heng Tao (2020). 「動的再構成戦略を備えたビデオ超解像度のためのマルチブランチネットワーク」. IEEE Transactions on Circuits and Systems for Video Technology . 31 (10): 3954– 3966. doi : 10.1109/TCSVT.2020.3044451 . ISSN 1051-8215 . S2CID 235057646 .  
  62. ^ Aksan, Emre; Hilliges, Otmar (2019-02-18). 「STCN: 確率的時間畳み込みネットワーク」. arXiv : 1902.06568v1 [ cs.LG ].
  63. ^ Huang, Yan; Wang, Wei; Wang, Liang (2018). 「双方向リカレント畳み込みネットワークによるビデオ超解像度」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 40 (4): 1015– 1028. Bibcode : 2018ITPAM..40.1015H . doi : 10.1109/TPAMI.2017.2701380 . ISSN 0162-8828 . PMID 28489532. S2CID 136582 .   
  64. ^朱暁斌;李、荘子。チャン・シャオユウ。リー・チャンシェン;リュウ、ヤキ。シュエ、ジユ(2019)。「ビデオ超解像度のための残差可逆時空間ネットワーク」人工知能に関する AAAI 会議の議事録33 : 5981–5988 .土井: 10.1609/aaai.v33i01.33015981ISSN 2374-3468 
  65. ^ Li, Dingyi; Liu, Yu; Wang, Zengfu (2019). 「非同時性完全再帰畳み込みネットワークを用いたビデオ超解像度」. IEEE Transactions on Image Processing . 28 (3): 1342– 1355. Bibcode : 2019ITIP...28.1342L . doi : 10.1109/TIP.2018.2877334 . ISSN 1057-7149 . PMID 30346282. S2CID 53044490 .   
  66. ^磯部隆志;朱、方。ジア、シュウ。王盛進(2020-08-13)。 「ビデオ超解像度のための時間モデリングの再考」。arXiv : 2008.05765v2 [ eess.IV ]。
  67. ^ Han, Lei; Fan, Cien; Yang, Ye; Zou, Lian (2020). 「ビデオ超解像度のための双方向時間再帰伝播ネットワーク」 . Electronics . 9 (12): 2085. doi : 10.3390/electronics9122085 . ISSN 2079-9292 . 
  68. ^ Fuoli, Dario; Gu, Shuhang; Timofte, Radu (2019-09-17). 「リカレント潜在空間伝播による効率的なビデオ超解像度」arXiv : 1909.08080 [ eess.IV ].
  69. ^磯部隆志;ジア、シュウ。グー、シュハン。李、松江。王盛進。ティアン、チー (2020-08-02)。 「再帰構造詳細ネットワークによるビデオ超解像度」。arXiv : 2008.00455v1 [ cs.CV ]。
  70. ^ Zhou, Chao; Chen, Can; Ding, Fei; Zhang, Dengyin (2021). 「非局所アライメントネットワークによるビデオ超解像度」 . IET画像処理. 15 (8): 1655– 1667. doi : 10.1049/ipr2.12134 . ISSN 1751-9659 . 
  71. ^ Yi, Peng; Wang, Zhongyuan; Jiang, Kui; Jiang, Junjun; Lu, Tao; Ma, Jiayi (2020). 「リアルで一貫性のあるビデオ超解像度を実現するプログレッシブフュージョン生成敵対ネットワーク」. IEEE Transactions on Pattern Analysis and Machine Intelligence . PP (5): 2264– 2280. doi : 10.1109 / TPAMI.2020.3042298 . ISSN 0162-8828 . PMID 33270559. S2CID 227282569 .   
  72. ^ 「MSU VSRベンチマーク手法」 .ビデオ処理. 2021年4月26日. 2021年5月12日閲覧
  73. ^ Zvezdakova, AV; Kulikov, DL; Zvezdakov, SV; Vatolin, DS (2020). 「BSQレート:ビデオコーデックの性能比較のための新しいアプローチと現行ソリューションの欠点」.プログラミングとコンピュータソフトウェア. 46 (3): 183– 194. doi : 10.1134/S0361768820030111 . S2CID 219157416 . 
  74. ^ 「Pixel 3の超解像ズームでより遠くまで、より良く見える」 Google AIブログ、2018年10月15日。