堅牢な機能を高速化

Robust local feature detector

コンピュータビジョンにおいて、高速化ロバスト特徴量（SURF）は、特許取得済みのアプリケーションを持つ局所特徴検出器および記述子です。物体認識、画像レジストレーション、分類、3D再構成などのタスクに使用できます。SURFは、スケール不変特徴変換（SIFT）記述子に一部ヒントを得ています。SURFの標準バージョンはSIFTよりも数倍高速であり、その開発者らは、SIFTよりも様々な画像変換に対して堅牢であると主張しています。

SURFは、注目点を検出するために、ヘッセ行列式ブロブ検出器の整数近似値を使用します。これは、事前に計算された積分画像を用いて3回の整数演算で計算できます。特徴記述子は、注目点周辺のハールウェーブレット応答の和に基づいています。これらも積分画像を用いて計算できます。

SURF 記述子は、物体、人物、顔の位置特定と認識、3D シーンの再構築、物体の追跡、関心点の抽出に使用されています。

SURFは、ハーバート・ベイ、ティンネ・トゥイテラーズ、リュック・ヴァン・グールによって初めて発表され、2006年のヨーロッパコンピュータビジョン会議で発表されました。このアルゴリズムの応用は米国で特許を取得しています。^[1] SURFの「直立」バージョン（U-SURFと呼ばれる）は画像の回転に対して不変ではないため、計算速度が速く、カメラがほぼ水平に保たれるアプリケーションに適しています。

画像は、多重解像度ピラミッド法を用いて座標に変換され、元の画像をピラミッド型ガウスまたはラプラシアンピラミッド形状でコピーすることで、同じサイズで帯域幅を削減した画像が得られます。これにより、元の画像にスケール空間と呼ばれる特殊なぼかし効果が得られ、注目点のスケール不変性が確保されます。

アルゴリズムと機能

SURFアルゴリズムはSIFTと同じ原理と手順に基づいていますが、各手順の詳細は異なります。このアルゴリズムは、関心点の検出、局所近傍の記述、マッチングという3つの主要な部分から構成されます。

検出

SURF は、ガウス平滑化の近似として正方形のフィルタを使用します。（SIFT アプローチでは、スケール不変の特徴点を検出するためにカスケードフィルタを使用し、ガウスの差 (DoG) をリスケールされた画像で段階的に計算します。）積分画像を使用すると、正方形で画像をフィルタリングする処理ははるかに高速になります。 $I$

S(x,y)=\sum _{i=0}^{x}\sum _{j=0}^{y}I(i,j)

長方形内の元の画像の合計は、長方形の 4 つの角での評価を必要とする積分画像を使用して迅速に評価できます。

SURFは、ヘッセ行列に基づくブロブ検出器を用いて注目点を検出します。ヘッセ行列の行列式は、点周辺の局所的な変化の尺度として用いられ、この行列式が最大となる点が選択されます。MikolajczykとSchmidによるヘッセ行列-ラプラシアン検出器とは対照的に、SURFはLindebergと同様に、スケールの選択にもヘッセ行列の行列式を用います。画像内の点が与えられた場合、点とスケールにおけるヘッセ行列は次のようになります。 $p=(x,y)$ $I$ $H(p,\sigma )$ $p$ $\sigma$

H(p,\sigma )={\begin{pmatrix}L_{xx}(p,\sigma )&L_{xy}(p,\sigma )\\L_{xy}(p,\sigma )&L_{yy}(p,\sigma )\end{pmatrix}}

ここで、等はガウスの2次導関数と点における像の畳み込みです。 $L_{xx}(p,\sigma )$ $I(x,y)$ $p$

サイズ 9×9 のボックスフィルターは、σ = 1.2 のガウス分布の近似であり、ブロブ応答マップの最低レベル (最高の空間解像度) を表します。

スケール空間表現と関心点の位置

関心点は異なるスケールで検出されることがあります。これは、対応関係の探索には、異なるスケールで比較画像が必要となることがよくあるためです。他の特徴検出アルゴリズムでは、スケール空間は通常、画像ピラミッドとして実現されます。画像はガウスフィルタを用いて繰り返し平滑化され、その後、ピラミッドの次のレベルを得るためにサブサンプリングされます。したがって、マスクの寸法が異なる複数の階または階段が計算されます。

\sigma _{\text{approx}}={\text{current filter size}}\times \left({\frac {\text{base filter scale}}{\text{base filter size}}}\right)

スケール空間は複数のオクターブに分割されます。ここで、オクターブとは、スケールの2倍をカバーする一連の応答マップを指します。SURFでは、スケール空間の最低レベルは9×9フィルタの出力から得られます。

したがって、従来の方法とは異なり、SURF のスケール空間は、異なるサイズのボックスフィルターを適用することによって実装されます。したがって、スケール空間は、画像サイズを反復的に縮小するのではなく、フィルターサイズを拡大することによって分析されます。上記の 9×9 フィルターの出力は、スケールs =1.2 ( σ = 1.2 のガウス導関数に相当 ) における初期スケールレイヤーと見なされます。次のレイヤーは、積分画像の離散的性質と特定のフィルター構造を考慮し、徐々に大きなマスクで画像をフィルター処理することによって取得されます。これにより、サイズが 9×9、15×15、21×21、27×27、... のフィルターが生成されます。3×3×3 近傍での非最大値抑制を適用して、画像内およびスケール上の注目点を特定します。次に、Brown らによって提案された方法を使用して、スケール空間と画像空間でヘッセ行列の行列式の最大値が補間されます。この場合、各オクターブの最初のレイヤー間のスケールの差が比較的大きいため、スケール空間の補間が特に重要になります。

ディスクリプタ

記述子の目的は、画像の特徴について、例えば注目点の近傍におけるピクセルの強度分布を記述するなど、一意かつ堅牢な記述を提供することです。したがって、ほとんどの記述子は局所的に計算されるため、事前に特定された注目点ごとに記述が得られます。

記述子の次元数は、計算の複雑さと点のマッチングにおける堅牢性／精度の両方に直接影響を及ぼします。記述子が短いと、外観の変化に対してより堅牢になる可能性がありますが、十分な識別能力が得られず、結果として誤検知が多すぎる可能性があります。

最初のステップでは、関心点の周囲の円形領域の情報に基づいて、再現可能な方向を固定します。次に、選択された方向に整列した正方形領域を構築し、そこからSURF記述子を抽出します。

オリエンテーションの割り当て

回転不変性を実現するために、関心点の方向を見つける必要があります。関心点の周りの半径の円形近傍内で、x 方向と y 方向の両方の Haar ウェーブレット応答が計算されます。ここで、は関心点が検出されたスケールです。取得された応答は、関心点を中心とするガウス関数によって重み付けされ、水平応答を横軸、垂直応答を縦軸として、2 次元空間内の点としてプロットされます。支配的な方向は、サイズ π/3 のスライド式方向ウィンドウ内のすべての応答の合計を計算することによって推定されます。ウィンドウ内の水平応答と垂直応答が合計されます。2 つの合計応答から、ローカル方向ベクトルが生成されます。そのようなベクトルの最長のベクトルが、全体として関心点の方向を定義します。スライディングウィンドウのサイズは、堅牢性と角度解像度の間の望ましいバランスを実現するために注意深く選択する必要があるパラメーターです。 $6s$ $s$

Haarウェーブレット応答の合計に基づく記述子

点の周囲の領域を記述するために、関心点を中心とし、上記で選択した方向に沿って配置された正方形領域が抽出されます。このウィンドウのサイズは20秒です。

関心領域は4x4の正方形の小領域に分割され、各領域において5x5の等間隔のサンプル点からハールウェーブレット応答が抽出されます。応答はガウス分布で重み付けされます（変形、ノイズ、移動に対する堅牢性を高めるため）。

マッチング

異なる画像から得られた記述子を比較することで、一致するペアを見つけることができます。

参照

参考文献

^ US 2009238460、舟山竜二、柳原弘道、リュック・ヴァン・ゴール、ティンネ・トゥイテラーズ、ハーバート・ベイ、「ROBUST INTEREST POINT DETECTOR AND DESCRIPTOR」、2009年9月24日公開

出典

Herbert Bay、Andreas Ess、Tinne Tuytelaars、Luc Van Gool、「Speeded Up Robust features」、ETH Zurich、Katholieke Universiteit Leuven
アンドレア・マリセラ・プラザ・コルデロ、ホルヘ・ルイス・ザンブラノ・マルティネス、「Estudio y Selección de las Técnicas SIFT、SURF y ASIFT de Reconocimiento de Imágenes para el Diseño de un Prototipo en Dispositivos Móviles」、15 度 Concurso de Trabajos Estudiantiles、EST 2012
AM Romero と M. Cazorla、「視覚的特徴と SLAM の検出器の比較」、エージェントの X ワークショップ、2009 年セティエンブレ、カセレス
PM Panchal、SR Panchal、SK Shah、「SIFTとSURFの比較」、International Journal of Innovative Research in Computer and Communication Engineering Vol. 1、Issue 2、2013年4月
ハーバート・ベイ、アンドレアス・エス、ティンネ・トゥイテラーズ、リュック・ヴァン・グール「SURF：高速化されたロバスト特徴量」、コンピュータビジョンと画像理解（CVIU）、第110巻、第3号、pp. 346–359、2008年
Christopher Evans「OpenSURFライブラリに関するメモ」、ブリストル大学コンピュータサイエンス修士; ソースコードとドキュメントはここにアーカイブされています
J an Knopp、Mukta Prasad、Gert Willems、Radu Timofte、Luc Van Gool、「ロバストな 3 次元分類のための Hough 変換と 3D SURF」、European Conference on Computer Vision (ECCV)、2010

外部リンク

GitHub の SURF
SURFのウェブサイト：高速化された堅牢な機能
Speeded Up Robust Featuresの初版（2006年）
SURF（2008）の改訂版

[1] US 2009238460、舟山竜二、柳原弘道、リュック・ヴァン・ゴール、ティンネ・トゥイテラーズ、ハーバート・ベイ、「ROBUST INTEREST POINT DETECTOR AND DESCRIPTOR」、2009年9月24日公開