アフィン形状適応

アフィン形状適応とは、アフィン平滑化カーネル群内の平滑化カーネルの形状を、特定の画像点の近傍領域における局所画像構造に反復的に適応させる手法である。同様に、アフィン形状適応は、局所画像パッチをアフィン変換で反復的にワープし、ワープされた画像パッチに回転対称フィルタを適用することによっても実現できる。この反復処理が収束すれば、結果として得られる固定点はアフィン不変となる。コンピュータービジョンの分野では、この考え方は、アフィン不変な関心点演算子やアフィン不変なテクスチャ解析手法の定義に利用されてきた。

アフィン適応関心点演算子

スケール適応型ラプラシアンブロブ検出器、または自動スケール選択機能を備えたマルチスケールハリスコーナー検出器から得られる注目点は、空間領域における並進、回転、および均一な再スケーリングに対して不変です。しかしながら、コンピュータビジョンシステムへの入力となる画像は、遠近法による歪みの影響を受けます。遠近法変換に対してより堅牢な注目点を取得するには、アフィン変換に対して不変な特徴検出器を考案するのが自然なアプローチです。

アフィン不変性は、マルチスケールハリス作用素で用いられるのと同じマルチスケール窓付き2次モーメント行列の測定から達成できる。ただし、回転対称ガウスカーネルとの畳み込みによって得られる通常のスケール空間の概念を、形状適応型ガウスカーネルによって得られるアフィンガウススケール空間に拡張する必要がある（Lindeberg 1994, section 15.3; Lindeberg & Garding 1997）。2次元画像について、を正定値2×2行列とする。このとき、非一様ガウスカーネルは次のように定義できる。 $\mu$ $I$ ${\bar {x}}=(x,y)^{T}$ $\Sigma _{t}$

g({\bar {x}};\Sigma )={\frac {1}{2\pi {\sqrt {\operatorname {det} \Sigma _{t}}}}}e^{-{\bar {x}}\Sigma _{t}^{-1}{\bar {x}}/2}

任意の入力画像が与えられた場合、アフィンガウススケール空間は次のように定義される3パラメータスケール空間である。 $I_{L}$

L({\bar {x}};\Sigma _{t})=\int _{\bar {xi}}I_{L}(x-\xi )\,g({\bar {\xi }};\Sigma _{t})\,d{\bar {\xi }}.

次に、2×2行列であるアフィン変換を導入し、変換された画像を次のように定義する。 $\eta =B\xi$ $B$ $I_{R}$

I_{L}({\bar {\xi }})=I_{R}({\bar {\eta }})

。

このとき、とのアフィンスケール空間表現とは、それぞれ次のように関係する。 $L$ $R$ $I_{L}$ $I_{R}$

L({\bar {\xi }},\Sigma _{L})=R({\bar {\eta }},\Sigma _{R})

ただし、アフィン形状行列とは次の関係にあるものとする。 $\Sigma _{L}$ $\Sigma _{R}$

\Sigma _{R}=B\Sigma _{L}B^{T}

。

残念ながら、何が起こっているかを正確に説明しようとすると、数学的な詳細はやや技術的になりますが、重要なメッセージは、アフィンガウススケール空間がアフィン変換に対して閉じているということです。

表記と局所形状行列および積分形状行列が与えられている場合、次のように アフィン適応型マルチスケール2次モーメント行列を導入する。 $\nabla L=(L_{x},L_{y})^{T}$ $\Sigma _{t}$ $\Sigma _{s}$

\mu _{L}({\bar {x}};\Sigma _{t},\Sigma _{s})=g({\bar {x}}-{\bar {\xi }};\Sigma _{s})\,\left(\nabla _{L}({\bar {\xi }};\Sigma _{t})\nabla _{L}^{T}({\bar {\xi }};\Sigma _{t})\right)

任意のアフィン変換のもとで、アフィン適応マルチスケール二次モーメント行列は次のように変換されることがわかる。 ${\bar {q}}=B{\bar {p}}$

\mu _{L}({\bar {p}};\Sigma _{t},\Sigma _{s})=B^{T}\mu _{R}({\bar {q}};B\Sigma _{t}B^{T},B\Sigma _{s}B^{T})B

。

ここでも、多少面倒な技術的詳細は無視して、ここで重要なメッセージは、画像ポイント と間の対応関係が与えられれば、2つの領域におけるマルチスケール2次モーメント行列と測定値からアフィン変換を推定できるということです。 ${\bar {p}}$ ${\bar {q}}$ $B$ $\mu _{L}$ $\mu _{R}$

この研究の重要な結論は、定数倍の単位行列となるようなアフィン変換を見つけることができれば、アフィン変換に対して不変な固定点が得られるという点である（Lindeberg 1994, section 15.4; Lindeberg & Garding 1997）。実用的な実装のために、この性質は主に2つの方法のいずれかで実現できることが多い。最初のアプローチは平滑化フィルタの変換に基づいており、以下の式で構成される。 $B$ $\mu _{R}$

画像領域における2次モーメント行列の推定、 $\mu$
に比例する共分散行列を持つ新しい適応平滑化カーネルを決定する。 $\mu ^{-1}$
形状適応スムージングカーネルによって元の画像をスムージングし、
連続する2つの2次モーメント行列の差が十分に小さくなるまでこの操作を繰り返します。

2 番目のアプローチは、画像領域でのワーピングに基づいており、次のことを意味します。

画像領域での推定、 $\mu$
に比例する局所アフィン変換を推定する。ここで、はの平方根行列を表す。 ${\hat {B}}=\mu ^{1/2}$ $\mu ^{1/2}$ $\mu$
入力画像をアフィン変換で歪ませ、 ${\hat {B}}^{-1}$
が単位行列の定数倍に十分近くなるまでこの操作を繰り返します。 $\mu$

この全体的なプロセスは、アフィン形状適応と呼ばれます（Lindeberg & Garding 1997; Baumberg 2000; Mikolajczyk & Schmid 2004; Tuytelaars & van Gool 2004; Ravela 2004; Lindeberg 2008）。理想的な連続ケースでは、2つのアプローチは数学的に同等です。しかし、実際の実装では、ノイズが存在する場合、通常、最初のフィルタベースのアプローチの方が精度が高く、2番目のワーピングベースのアプローチの方が高速です。

実際には、ここで説明するアフィン形状適応プロセスは、ブロブ検出およびコーナー検出に関する記事で説明されているように、関心点検出の自動スケール選択と組み合わせられることが多く、スケール変化を含むアフィン群全体に対して不変な関心点を取得します。一般的に使用されるマルチスケールハリス演算子に加えて、このアフィン形状適応は、ラプラシアン/ガウス差ブロブ演算子やヘッシアン行列式（Lindeberg 2008）などの他の種類の関心点演算子にも適用できます。アフィン形状適応は、アフィン不変テクスチャ認識やアフィン不変テクスチャセグメンテーションにも使用できます。

アフィン形状適応の概念と密接に関連しているのは、アフィン正規化の概念です。これは、Lindeberg (2013a,b、2021:付録I.3)でさらに説明されているように、アフィン不変参照フレームを定義し、アフィン不変参照フレームで実行されるすべての画像測定がアフィン不変になるようにします。

参照

参考文献

Baumberg, A. (2000). 「広範囲に離れたビュー間での信頼性の高い特徴マッチング」IEEEコンピュータビジョンおよびパターン認識会議論文集. pp. I:1774–1781. doi :10.1109/CVPR.2000.855899.
リンデバーグ、T. (1994). コンピュータビジョンにおけるスケールスペース理論. シュプリンガー. ISBN 0-7923-9418-6。
Lindeberg, T.; Garding, J. (1997). 「局所的な2次元構造のアフィン歪みから3次元奥行き手がかりを推定するための形状適応型スムージング」. Image and Vision Computing . 15 (6): 415– 434. doi :10.1016/S0262-8856(97)01144-X.
Lindeberg, T. (2008). 「スケール空間」. 『コンピュータサイエンスとエンジニアリング百科事典』（ベンジャミン・ワー編）, John Wiley and Sons . 第4巻. pp. 2495– 2504. doi :10.1002/9780470050118.ecse609. ISBN 978-0-470-05011-8。
Lindeberg, T. (2013a). 「受容野レベルにおける視覚操作の不変性」. PLOS ONE . 8 (7): e66990:1–33. arXiv : 1210.0754 . Bibcode :2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . PMC 3716821. PMID 23894283 .
リンデバーグ, T. (2013b). 「一般化された公理的スケール空間理論」.イメージングと電子物理学の進歩. 178 (7): 1– 96. doi :10.1016/B978-0-12-407701-0.00001-7. ISBN 978-0-12-407701-0。
Lindeberg, T. (2021). 「視覚受容野の規範理論」. Heliyon . 7 (1) e05897. doi : 10.1016/j.heliyon.2021.e05897 . PMC 7820928. PMID 33521348 .
Mikolajczyk, K.; Schmid, C. (2004). 「スケールとアフィン不変な関心点検出器」(PDF) . International Journal of Computer Vision . 60 (1): 63– 86. doi :10.1023/B:VISI.0000027790.02288.f2. S2CID 1704741.マルチスケールHarris演算子と自動スケール選択手法およびアフィン形状適応手法の統合.
Tuytelaars, T.; van Gool, L. (2004). 「アフィン不変領域に基づく広く離れたビューのマッチング」(PDF) . International Journal of Computer Vision . 59 (1): 63– 86. doi :10.1023/B:VISI.0000020671.28016.e8. S2CID 5107897. 2010年6月12日時点のオリジナル(PDF)からアーカイブ。
ラベラ, S. (2004). 「アフィン不変性のための受容野の形成」. 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Proceedings, 2004. CVPR 2004.第2巻. pp. 725– 730. doi :10.1109/CVPR.2004.1315236. ISBN 0-7695-2158-4。