対応問題は、オプティカルフローとステレオマッチングの計算の基礎となる、画像処理における基本的な問題です。[1]これは、コンピュータビジョンにおいて、ある画像のどの部分が別の画像のどの部分に対応するかを特定する問題を指します。 [2]ここで、差異はカメラの動き、時間の経過、または写真内の物体の動きなどによって生じます。これは、対応する点を互いに重ね合わせる幾何学的変換を求める 画像レジストレーションと関連しています。
対応は、多くの関連アプリケーションにおける重要な構成要素であると言えます。オプティカル フロー(2 つの画像が時間的に連続するもの)、高密度ステレオ ビジョン(2 つの画像がステレオ カメラ ペアから取得されるもの)、モーションからの構造(SfM) とビジュアルSLAM (画像はシーンの異なるが部分的に重複するビューから取得されるもの)、およびシーン間対応 (画像がまったく異なるシーンから取得されるもの) などです。
対応点を見つける簡単な方法はPatchMatchです。現代の対応点探索アルゴリズムはニューラルネットワークを用いて、迅速かつ高精度に対応点を見つけます。著名なコンピュータビジョン研究者である金出武雄氏はかつて、コンピュータビジョンの3つの基本的な問題は「対応、対応、そして対応!」であると有名な言葉を残しています。[3]しかし、この問題は現在では解決済みと考えられています。
基本
対応問題とは、異なる視点から撮影された同じ3Dシーンの2枚以上の画像が与えられた場合、一方の画像内の点の集合を、もう一方の画像でも同一の点として識別する作業を指します。この作業では、一方の画像内の点または特徴をもう一方の画像内の点または特徴と対応させ、対応点または対応特徴(相同点または相同特徴とも呼ばれます)を確立します。画像は、異なる視点、異なる時間、またはシーン内の物体がカメラに対して一般的に動いている状態で撮影される場合があります。ステレオ画像内の対応するピクセルを見つけることは、対応問題として知られています。結果は通常、視差マップであり、一方の画像の各ピクセルに対して、もう一方の画像の対応するピクセルへの変位ベクトルが決定されます。この目的のためには、個々の画像間の点間に一意の対応を確立する必要があります。ピクセルの割り当ては非常に曖昧になる場合があり、必ずしも可能であるとは限らないため、対応問題はアダマールの定義によれば「不良設定」問題とも呼ばれます。[4]さらに、対応問題の解決は、遠近法の歪み、ノイズ、画像間の照明やコントラストの違いによってさらに困難になります。
対応問題は、ステレオ撮影において同一シーンの2枚の画像を用いる場合に発生する可能性がありますが、N視点対応問題に一般化することもできます。後者の場合、画像はN台の異なるカメラが同時に撮影したもの、あるいはシーンに対して相対的に移動する1台のカメラから取得されたもののいずれかです。シーン内の物体がカメラに対して相対的に動いている場合、この問題はさらに複雑になります。
対応問題の典型的な応用例は、パノラマ写真の作成や画像のつなぎ合わせ、つまり重なりがわずかな2枚以上の画像をつなぎ合わせて、より大きな合成画像を作成する際に発生します。この場合、一方の画像をもう一方の画像につなぎ合わせるための変換を計算するために、2枚の画像間で対応する点の集合を特定できる必要があります。
閉塞

ステレオ対応点決定における最も重大な誤差要因の一つは、一方のカメラ視点からしか見えないシーン領域の存在である。シーンのこれらの領域がマッピングされる画像領域には、もう一方のステレオ画像には対応する要素が存在しない。これらの画像領域はオクルージョンと呼ばれる。対応点決定においてオクルージョンが適切に考慮されない場合、アプローチによっては程度の差はあれ誤補正が発生し、結果として深度再構成が不正確になる。したがって、オクルージョンはステレオ画像処理において深刻な問題となる。[6]
絞りの問題

平行光軸を持つステレオジオメトリでは、ステレオ画像ペア内の対応する画像点の変位は常にステレオベースと平行になります。カメラジオメトリを正確に把握することで、視差の方向を事前に決定できるため、対応する画像点の探索が大幅に簡素化されます。しかし、ステレオベースの方向に構造や強度変化が生じない画像領域では問題が生じます。この場合、対応する画像点の変位を検出できません。ステレオスコピーにおける変位の検出は通常、シーンの残りの部分を無視してローカルオペレータによって実行されるため、この問題は、動き解析(オプティカルフロー)において特に重要な、いわゆるアパーチャ問題の特殊なケースとも考えられています。[7]
ステレオ画像処理における制約
対応問題は、その特殊な性質上、他の多くの不良設定問題と同様に、適切な事前知識を利用することによってのみ一意に解くことができます。この事前知識の助けを借りて、解空間は適切に縮小され、問題は「良設定」問題に変換されます。[4]解空間の制約は、一方では撮像プロセスと使用されるカメラの幾何学的形状(エピポーラ制約と一意性制約)に関連し、他方では観測シーンの仮定された特性(連続性、順序、勾配制約)に関連しています。
アルゴリズム
デジタル画像処理における対応する画像要素の割り当ては、様々なアルゴリズムと数学的手法を用いて実現できます。これらの手法は、エラーの発生しやすさや必要な計算量において、場合によっては大きく異なります。
エリアベース
領域ベースの手法では、ステレオ画像の個々の画像領域は、グレースケール値またはピクセルの局所環境に基づいて割り当てられます。画像領域の対応は通常、局所相互相関などの類似度指標を計算することによって決定されます。最も単純なケースでは、最も対応度の高い左画像と右画像間の画像領域のずれによって視差が生じます。これらの手法の中には、対応を決定する前に、まず関心演算子を用いて各画像から特定の特性を持つ領域を選択し、その後、これらの領域を組み合わせるものもあります。[8]
機能ベース
既存のステレオスコピック手法のほとんどは、特徴ベース手法に分類できます。この手法では、まず画像データから、画像をより抽象的なレベルで記述する特徴を抽出します。次に、特徴レベルでの対応分析を行います。一般的に使用される特徴は、エッジ、線または頂点、エッジまたは線分です。画像信号からエッジや線などのグレースケールの変化を抽出する微分フィルタは、これらの手法において重要な役割を果たします。[9]
フェーズベース
いわゆる位相ベース法による視差測定の基礎は、フーリエ変換の変位定理です。しかし、ステレオ画像処理では、カメラシステムから異なる距離にある物体がステレオ画像内で異なる視差値を示すため、画像間の純粋なグローバルシフトは通常不可能です。したがって、ステレオ画像ペア内の対応する画像領域のシフトはローカル演算子を使用して決定する必要があり、位相相関は通常、より小さな画像領域に限定されたフーリエ変換と組み合わせた場合にのみ意味を持ちます。位相ベースの方法の中で最も重要なのは、いわゆる位相差法です。これらの技術では、入力画像をフィルタリングするために使用される複素フィルタペアの応答から位相情報が導出されます。この方法の重要な要件は、フィルタ応答の位相が位置のほぼ線形関数であることです。この特性は、フィルタ伝達関数にオフセットがなく、負の周波数でゼロになる場合に実現できます。この特性は直交動作と呼ばれます。[10]位相情報はフィルタ応答の振幅に対して不変であるため、位相ベースの手法は両眼の照明やコントラストの違いに対しても比較的堅牢です。しかし、位相計算の曖昧さのため、視差値は使用するフィルタの変調波長の半分までしか測定できません。他の多くの手法と同様に、位相ベースの手法も遮蔽の影響を非常に受けやすいです。[6]
曖昧さを排除する
一意性制約によれば、各ピクセルには1つの視差しか割り当てられず、したがって対象空間内の位置も最大で1つしか割り当てられません(半透明の表面は除きます)。しかし、局所的手法や特徴ベースの手法では、曖昧性を排除することはできません(ステレオ画像内の最も類似した領域が必ずしも同じ場所に属するとは限りません)。この問題の解決には、アプローチに応じて異なる手法が用いられます。いわゆる正則化法では、制約(基本情報を参照)を考慮してコスト関数またはエネルギー関数が定式化され、これらの関数内で大域的最小値が求められます。別のアプローチとして、緩和法が挙げられます。この手法をステレオスコピーに適用するほとんどのアプローチでは、まず画像データから特殊な特性を持つ特徴または画像領域が抽出されます。次に、これらの要素が発生する画像座標に、いわゆるノードが割り当てられます。これらのノードにはさらに、それぞれのノードと他の画像内の異なる要素との対応を表す変数のセットが与えられます。これらの変数は、アプローチに応じて確率[1]またはニューロン活動[4](ニューラルネットワーク)として解釈されます。実際の緩和プロセスの開始時に、変数は対応する特徴またはピクセル値の類似性に基づいて初期化されます。その後、変数の値は動的なプロセスで反復的に更新され、制約違反は抑制または低減効果を持ち、制約遵守は強化効果を持ちます。定常状態に達すると、明確な視差マップが得られます。適切なカップリングを用いることで、オクルージョンによる誤帰属も抑制できます。[5]
使用
コンピュータビジョンにおいて、対応問題は、画像のみを入力としてコンピュータが自動的に解くべき場合について研究されます。対応問題が解決され、対応する画像点の集合が得られると、この集合に対して他の手法を適用することで、シーン内の対応する3D点の位置、動き、および/または回転を再構築することができます。
対応問題は粒子画像流速測定技術の基礎でもあり、これは現在、流体力学の分野で流体の動きを定量的に測定するために広く使用されています。
参照
- 立体視
- 視差
- 写真測量
- 奥行き知覚
- 立体視
- コンピュータービジョン
- 基礎行列
- ジョイント互換性分岐限定アルゴリズム
- エピポーラ幾何学
- 画像登録
- バーチフィールド・トマジ類似度
- スケール不変特徴変換(SIFT)
参考文献
- ^ ab Ramin Zabih, John Woodfill (1994)、「視覚的対応関係を計算するための非パラメトリック局所変換」、Computer Vision — ECCV '94、Lecture Notes in Computer Science、vol. 801、Springer、ベルリン、ハイデルベルク、pp. 151– 158、doi :10.1007/bfb0028345、ISBN 3-540-57957-5
- ^ W. Bach; JK Aggarwal (1988年2月29日). 『動きの理解:ロボットと人間の視覚』 Springer Science & Business Media. ISBN 978-0-89838-258-7。
- ^ X. Wang (2019年9月). 時間内での視覚的対応による学習と推論.
- ^ abc Bertero, M.; Poggio, TA; Torre, V. (1988年8月). 「早期視覚における不適切問題」. Proceedings of the IEEE . 76 (8): 869– 889. doi :10.1109/5.5962.
- ^ abc ラルフ トラップ (1998)、「Stereoskopische Korrespondenzbestimmung mit impliziter Detektion von Okklusionen.」、HNI-Verlagsschriftenreihe、vol. 43、HNI-Verlag、ISBN 3-931466-42-6
- ^ ab Trapp, Ralph; Druee, Siegbert; Hartmann, Georg (1998年5月). Burkhardt, H.; Neumann, B. (編). 「暗黙的なオクルージョン検出を伴うステレオマッチング」. Lecture Notes in Computer Science-ECCV 1998. 1407.ベルリン/ハイデルベルク/ニューヨーク: Springer: 17–33 . doi :10.1007/BFb0054731. ISBN 978-3-540-69235-5。
- ^ Bernd Jähne (1993)、Digitale Bildverarbeitung、ベルリン: Springer、doi :10.1007/978-3-662-22662-9、ISBN 3-662-22662-6
- ^ Stephen T. Barnard, William B. Thompson (1980年7月)、「画像の視差分析」、パターン分析と機械知能に関する取引、第2巻、第4号、 333~ 340頁、doi :10.1109/TPAMI.1980.4767032
- ^ D. Marr, E. Hildreth (1980)、「エッジ検出理論」、Proceedings of the Royal Society of London、vol. B 207、no. 1167、pp. 187– 217、doi :10.1098/rspb.1980.0020、PMID 6102765
- ^ Westelius, C.; Knutson, H.; Wiklund, J.; Westin, C. (1994年12月). Crowley, L.; Christensen, HI (編). 「位相ベースの視差推定」. Vision as Process: Basic Research on Computer Vision Systems . Springer: 157– 178. ISBN 978-3-540-58143-7。
外部リンク
- ミドルベリーステレオビジョンページ