星座モデル

星座モデルは、コンピュータビジョンにおけるカテゴリレベルの物体認識のための確率的生成モデルです。他のパーツベースモデルと同様に、星座モデルは、相互に幾何学的な制約を課すN個のパーツの集合によって物体クラスを表現しようとします。異なるパーツ間の幾何学的関係を考慮するため、星座モデルは、画像特徴の位置を明示的に無視する外観のみに基づく表現モデル、あるいは「バッグ・オブ・ワード」表現モデルとは大きく異なります。

物体認識のための生成モデルを定義するという問題は困難です。背景の乱雑さ、遮蔽、視点、照明、スケールの変化といった要因によって、このタスクは著しく複雑になります。理想的には、選択する特定の表現が、これらの要因のできるだけ多くに対して堅牢であることが望まれます。

カテゴリレベルの認識では、クラス内変動という根本的な問題により、問題はさらに困難になります。2つの物体が同じ視覚カテゴリに属していても、その外観は大きく異なる場合があります。しかし、車、自転車、人物などの構造化された物体の場合、同じカテゴリに属する物体の個々のインスタンスは、類似した幾何学的制約を受けます。そのため、車のヘッドライトやタイヤといった物体の特定の部分は、外観と相対的な位置が一貫しています。コンステレーションモデルは、この事実を利用し、特定の物体カテゴリにおけるこれらの部分の相対的な位置、相対的なスケール、外観を明示的にモデル化します。モデルパラメータは教師なし学習アルゴリズムを用いて推定されるため、ラベル付けされていないトレーニング画像セットから、たとえそのセットに「ジャンク」画像や複数のカテゴリに属する物体のインスタンスが含まれていても、物体クラスの視覚的概念を抽出できます。また、外観の変動、オクルージョン、クラッター、検出器エラーなどによってモデル部分が欠落している場合も考慮できます。

歴史

「部品と構造」モデルのアイデアは、1973年にフィッシュラーとエルシュラーガーによって初めて提唱されました。^[1]このモデルはその後、様々な方向に発展・拡張されてきました。ペローナ博士とその同僚によって提唱されたコンステレーションモデルは、このアプローチを確率論的に応用したものです。

1990年代後半、Burlら^[2]^[3]^[4]^[5]は顔認識を目的としてFischlerとElschlagerのモデルを再検討した。その研究では、Burlらはトレーニング画像内の星座パーツを手動で選択して、検出器のセットとそれらを適用すべき相対的な位置の統計モデルを構築した。2000年に、Weberら^[6]^[7]^{[8] [}^9]は、パーツの面倒な手作業によるラベル付けの必要性を排除する、より教師なしの学習プロセスを使用してモデルをトレーニングするという重要なステップを踏んだ。彼らのアルゴリズムは、雑然として遮蔽された画像データでも良いパフォーマンスを発揮した点で特に注目に値するものであった。Fergusら^[10]^[11]はその後、学習ステップを完全に教師なしにして、形状と外観の両方を同時に学習し、パーツの相対的なスケールを明示的に考慮することで、このモデルを改良した。

Weber と Welling らによる方法

最初のステップでは、ハリスコーナー検出などの標準的な関心点検出手法を用いて関心点を生成します。これらの点の近傍から生成された画像特徴は、 k平均法などの適切なアルゴリズムを用いてクラスタリングされます。このベクトル量子化のプロセスでは、これらのクラスタの重心は、特徴的な物体部分の外観を表すものと考えることができます。次に、これらのクラスタを用いて適切な特徴検出器を学習し、画像から候補となる部位の集合を取得します。^[9]

このプロセスの結果、各画像はパーツの集合として表現できるようになりました。各パーツには、前述の外観クラスターのいずれかに対応するタイプと、画像空間における位置が与えられます。

基本的な生成モデル

WeberとWellingはここで、前景と背景の概念を導入しています。前景部分は対象オブジェクトクラスのインスタンスに対応し、背景部分は背景の乱雑さや誤検出に対応します。

Tを異なる種類のパーツの数とします。画像から抽出されたすべてのパーツの位置は、次の「行列」で表すことができます。

X^{o}={\begin{pmatrix}x_{11},x_{12},{\cdots },x_{1N_{1}}\\x_{21},x_{22},{\cdots },x_{2N_{2}}\\\vdots \\x_{T1},x_{T2},{\cdots },x_{TN_{T}}\end{pmatrix}}

ここで、は画像内で観測されたタイプのパーツの数を表します。上付き文字oは、これらの位置がではなく観測可能であることを示します。観測されないオブジェクトパーツの位置は、ベクトルで表すことができます。オブジェクトが異なる前景パーツから構成されると仮定します。表記を簡単にするために、ここではと仮定しますが、モデルはに一般化できます。仮説は、の点がの前景点であることを示すのインデックスの集合として定義されます。生成確率モデルは、結合確率密度によって定義されます。 $N_{i}\,$ $i\in \{1,\dots ,T\}$ $x^{m}\,$ $F\,$ $F=T\,$ $F>T\,$ $h\,$ $h_{i}=j\,$ $x_{ij}\,$ $X^{o}\,$ $p(X^{o},x^{m},h)\,$

モデルの詳細

このセクションの残りの部分では、WeberとWellingのモデルを単一成分モデルについて詳細にまとめます。複数成分モデル^[8]の式は、ここで説明した式を拡張したものです。

結合確率密度をパラメータ化するために、WeberとWellingは補助変数とを導入します。ここでは検出における部分の存在/不在（の場合は、それ以外の場合は）を表す2値ベクトルであり、はの行に含まれる背景候補の数を表すベクトルです。とはによって完全に決定され、のサイズはによって決定されるため、が成り立ちます。分解により、 $b\,$ $n\,$ $b\,$ $b_{i}=1\,$ $h_{i}>0\,$ $b_{i}=0\,$ $n\,$ $n_{i}\,$ $i^{th}$ $X^{o}\,$ $b\,$ $n\,$ $h\,$ $X^{o}\,$ $p(X^{o},x^{m},h)=p(X^{o},x^{m},h,n,b)\,$

p(X^{o},x^{m},h,n,b)=p(X^{o},x^{m}|h,n,b)p(h|n,b)p(n)p(b)\,

背景検出回数に対する確率密度はポアソン分布でモデル化できる。

p(n)=\prod _{i=1}^{T}{\frac {1}{n_{i}!}}(M_{i})^{n_{i}}e^{-M_{i}}

ここで、は画像あたりの種類の背景検出の平均数です。 $M_{i}\,$ $i\,$

部品の数に応じて、確率は長さの明示的な表としてモデル化するか、またはが大きい場合は、個々の部品の存在をそれぞれ制御する独立した確率としてモデル化できます。 $F\,$ $p(b)\,$ $2^{F}\,$ $F\,$ $F\,$

密度は次のようにモデル化される。 $p(h|n,b)\,$

p(h|n,b)={\begin{cases}{\frac {1}{\textstyle \prod _{f=1}^{F}N_{f}^{b_{f}}}},&{\mbox{if }}h\in H(b,n)\\0,&{\mbox{for other }}h\end{cases}}

ここで、はおよびと一致するすべての仮説の集合を表し、はタイプの部品の検出総数を表します。これは、部品の位置に関する情報がない場合、個のを含むすべての一致する仮説が等確率であるという事実を表しています。 $H(b,n)\,$ $b\,$ $n\,$ $N_{f}\,$ $f\,$ $\textstyle \prod _{f=1}^{F}N_{f}^{b_{f}}$

そして最後に、

p(X^{o},x^{m}|h,n)=p_{fg}(z)p_{bg}(x_{bg})\,

ここで、は観測値と欠損値を含むすべての前景検出の座標であり、は背景検出の座標を表します。前景検出は背景とは独立していると仮定されることに注意してください。は平均と共分散を持つ結合ガウス分布としてモデル化されます。 $z=(x^{o}x^{m})\,$ $x_{bg}\,$ $p_{fg}(z)\,$ $\mu \,$ $\Sigma \,$

分類

このモデルの究極の目的は、観測値が与えられた場合に、画像を「物体あり」（クラス）と「物体なし」（クラス）のクラスに分類することです。これを実現するために、WeberとWellingは学習ステップで得た部分検出器を画像に対して網羅的に実行し、様々な検出の組み合わせを検証します。遮蔽を考慮する場合、検出漏れのある組み合わせも許容されます。目標は、以下の比率を考慮して、事後確率が最大となるクラスを選択することです。 $C_{1}\,$ $C_{0}\,$ $X^{o}\,$

{\frac {p(C_{1}|X^{o})}{p(C_{0}|X^{o})}}\propto {\frac {\sum _{h}p(X^{o},h|C_{1})}{p(X^{o},h_{0}|C_{0})}}

ここでは帰無仮説を表し、これはすべての部分を背景ノイズとして説明する。分子では、和には帰無仮説を含むすべての仮説が含まれるが、分母では、物体の不在と整合する唯一の仮説は帰無仮説である。実際には、何らかの閾値を定義し、比率がその閾値を超えた場合に物体のインスタンスが検出されたとみなすことができる。 $h_{0}\,$

モデル学習

関心点検出、特徴量生成、クラスタリングという予備ステップを経て、トレーニング画像全体にわたる候補パーツの大規模な集合が得られます。Weber & Wellingは、モデルを学習するために、まず、モデル構成の可能な範囲、つまり候補パーツの潜在的なサブセットに対して貪欲探索を実行します。これは、ランダム選択から始まる反復的な方法で行われます。その後の反復処理では、モデル内のパーツがランダムに置換され、モデルパラメータが推定され、パフォーマンスが評価されます。モデルパフォーマンスのこれ以上の改善が不可能になった時点で、このプロセスは完了します。

各反復において、モデルパラメータ

\Theta =\{\mu ,\Sigma ,p(b),M\}\,

は期待最大化法を使用して推定されます。およびは、結合ガウス分布の平均と共分散、は部品の存在/不在の2値を支配する確率分布、は部品タイプ全体の背景検出の平均数です。 $\mu \,$ $\Sigma \,$ $p_{fg}(z)\,$ $p(b)\,$ $M\,$

Mステップ

EMは観測データの尤度を最大化することで進行する。

L(X^{o}|\Theta )=\sum _{i=1}^{I}\log \sum _{h_{i}}\int p(X_{i}^{o},x_{i}^{m},h_{i}|\Theta )dx_{i}^{m}

モデルパラメータに関して。これを解析的に達成することは困難であるため、EMはコスト関数の列を反復的に最大化する。 $\Theta \,$

Q({\tilde {\Theta }}|\Theta )=\sum _{i=1}^{I}E[\log p(X_{i}^{o},x_{i}^{m},h_{i}|{\tilde {\Theta }})]

これをパラメータに関して微分し、ゼロに等しくすると、更新規則が生成されます。

{\tilde {\mu }}={\frac {1}{I}}\sum _{i=1}^{I}E[z_{i}]

{\tilde {\Sigma }}={\frac {1}{I}}\sum _{i=1}^{I}E[z_{i}z_{i}^{T}]-{\tilde {\mu }}{\tilde {\mu }}^{T}

{\tilde {p}}({\bar {b}})={\frac {1}{I}}\sum _{i=1}^{I}E[\delta _{b,{\bar {b}}}]

{\tilde {M}}={\frac {1}{I}}\sum _{i=1}^{I}E[n_{i}]

Eステップ

Mステップの更新規則は、事後密度を考慮してEステップで計算される十分な統計量、、、で表現されます。 $E[z]\,$ $E[zz^{T}]\,$ $E[\delta _{b,{\bar {b}}}]\,$ $E[n]\,$

p(h_{i},x_{i}^{m}|X_{i}^{o},\Theta )={\frac {p(h_{i},x_{i}^{m},X_{i}^{o}|\Theta )}{\textstyle \sum _{h_{i}\in H_{b}}\int p(h_{i},x_{i}^{m},X_{i}^{o}|\Theta )dx_{i}^{m}}}

Fergus らの方法

Weberらは、形状モデルと外観モデルを別々に構築しました。候補パーツの集合が選択されると、形状は外観とは独立して学習されます。Fergusらの革新性は、2つではなく3つのモデルパラメータ、すなわち形状、外観、相対スケールを同時に学習することです。これらのパラメータはそれぞれガウス密度で表されます。^[10]

特徴表現

Weberらの方法では、まず関心点の位置を検索するのに対し、FergusらはKadirとBradyの検出器^[12]を用いて、位置（中心）とスケール（半径）の両方において画像内の顕著な領域を検出する。したがって、この方法は位置情報に加えて、関連するスケール情報も抽出する。Fergusらは次に、これらの円形領域を囲む正方形を11 x 11ピクセルパッチ、つまり外観空間における121次元ベクトルに正規化する。そして、主成分分析によってこれらを10～15次元に縮小し、外観情報を得る。 $X\,$ $S\,$ $A\,$

モデル構造

パラメータを持つ特定のオブジェクトクラスモデルが与えられた場合、新しい画像にそのクラスのインスタンスが含まれているかどうかを判定する必要があります。これはベイズ決定によって行われます。 $\Theta \,$

R={\frac {p({\mbox{Object}}|X,S,A)}{p({\mbox{No object}}|X,S,A)}}

={\frac {p(X,S,A|{\mbox{Object}})p({\mbox{Object}})}{p(X,S,A|{\mbox{No object}})p({\mbox{No object}})}}

\approx {\frac {p(X,S,A|\Theta )p({\mbox{Object}})}{p(X,S,A|\Theta _{bg})p({\mbox{No object}})}}

ここで、背景モデルです。この比率を閾値と比較することで、物体の有無を判定します。 $\Theta _{bg}$ $T\,$

可能性は次のように計算されます。

p(X,S,A|\Theta )=\sum _{h\in H}p(X,S,A,h|\Theta )=

\sum _{h\in H}\underbrace {p(A|X,S,h,\Theta )} _{\mbox{Appearance}}\underbrace {p(X|S,h,\Theta )} _{\mbox{Shape}}\underbrace {p(S|h,\Theta )} _{\mbox{Rel. Scale}}\underbrace {p(h|\Theta )} _{\mbox{Other}}

外観

各部位の外観は、外観空間におけるガウス密度でモデル化され、平均および共分散パラメータは他の部位の密度とは独立である。背景モデルはパラメータを持つ。Fergusらは、検出された特徴が与えられた場合、それらの特徴の位置と外観は独立であると仮定している。したがって、外観項の比は次のように帰納される。 $p\,$ $\Theta _{p}^{app}=\{c_{p},V_{p}\}$ $\Theta _{bg}^{app}=\{c_{bg},V_{bg}\}$ $p(A|X,S,h,\Theta )=p(A|h,\Theta )\,$

{\frac {p(A|X,S,h,\Theta )}{p(A|X,S,h,\Theta _{bg})}}={\frac {p(A|h,\Theta )}{p(A|h,\Theta _{bg})}}

=\prod _{p=1}^{P}\left({\frac {G(A(h_{p})|c_{p},V_{p})}{G(A(h_{p})|c_{bg},V_{bg})}}\right)^{b_{p}}

Weber らによれば、は前景部分のインデックスの仮説であり、は仮説内の各部分の遮蔽状態を示すバイナリベクトルです。 $h\,$ $b\,$

形

形状は、特定の仮説における部分の位置の結合ガウス密度によって表現されます。これは、それらの部分がスケール不変空間に変換された後のものです。この変換により、スケール全体にわたる網羅的な探索を実行する必要がなくなります。ガウス密度のパラメータはです。背景モデルは、画像全体にわたって一様分布であると仮定され、その面積はです。前景部分の数をとすると、 $\Theta ^{\mbox{shape}}=\{\mu ,\Sigma \}\,$ $\Theta _{bg}\,$ $\alpha \,$ $f\,$

{\frac {p(X|S,h,\Theta )}{p(X|S,h,\Theta _{bg})}}=G(X(h)|\mu ,\Sigma )\alpha ^{f}

相対スケール

各部分の参照フレームに対するスケールは、パラメータを持つガウス密度によってモデル化されます。各部分は他の部分から独立していると仮定されます。背景モデルは、範囲内でスケール全体にわたって均一に分布すると仮定します。 $p\,$ $\Theta ^{\mbox{scale}}=\{t_{p},U_{p}\}\,$ $\Theta _{bg}\,$ $r\,$

{\frac {p(S|h,\Theta )}{p(S|h,\Theta _{bg})}}=\prod _{p=1}^{P}G(S(h_{p})|t_{p},U_{p})^{d_{p}}r^{f}

遮蔽と特徴検出の統計

{\frac {p(h|\Theta )}{p(h|\Theta _{bg})}}={\frac {p_{\mbox{Poiss}}(n|M)}{p_{\mbox{Poiss}}(N|M)}}{\frac {1}{^{n}C_{r}(N,f)}}p(b|\Theta )

最初の因子は、平均Mを持つポアソン分布を用いて検出された特徴の数をモデル化します。2番目の因子は、仮説変数の「記録」因子として機能します。最後の因子は、すべての可能な遮蔽パターンの確率表です。

学ぶ

モデルパラメータの学習は期待最大化によって達成される。これはWeberらの研究と同様の考え方に基づいて行われる。EステップとMステップの詳細と公式は文献に記載されている。^[11] $\Theta =\{\mu ,\Sigma ,c,V,M,p(b|\Theta ),t,U\}\,$

パフォーマンス

Fergusらが考案したコンステレーションモデルは、バイク、顔、飛行機、そして斑点のある猫の大規模データセットにおいて、一貫して90%を超える分類率を達成しています。^[13]これらのデータセットそれぞれにおいて、コンステレーションモデルは、外観や形状の観点から、オブジェクトクラスの「本質」を捉えることができます。例えば、顔とバイクのデータセットでは、これらのカテゴリのオブジェクトは非常に明確な構造を持っているため、非常にタイトな形状モデルが生成されます。一方、斑点のある猫はポーズが大きく変化するものの、非常に特徴的な斑点模様の外観を持っています。このように、このモデルはどちらのケースでも成功しています。コンステレーションモデルは、一般的に大きな向きの変化を考慮していないことに注意することが重要です。したがって、水平方向の飛行機の画像でモデルを学習した場合、例えば垂直方向の飛行機の画像では、この種の回転を明示的に考慮するようにモデルを拡張しない限り、良好なパフォーマンスを発揮しません。

計算量の観点から見ると、コンステレーションモデルは非常に高価です。画像内の特徴検出数を、物体モデル内の部品数をとすると、仮説空間はとなります。期待値最大化のEステップにおける十分統計量の計算には、すべての仮説の尤度を評価する必要があるため、学習が大きなボトルネックとなります。このため、実用化ではの値のみが使用されており、特徴検出数は通常、画像あたり20～30程度の範囲に抑えられています。 $N\,$ $P\,$ $H\,$ $O(N^{P})\,$ $P\leq 6$ $N\,$

バリエーション

^{複雑さを軽減しようとするバリエーションの一つとして、Fergusら[14]}が提案したスターモデルがあります。このモデルは依存性が低いため、学習を時間軸ではなく時間軸で行うことができます。これにより、より多くのモデルパーツと画像特徴を学習に利用できるようになります。スターモデルはパラメータ数が少ないため、少ない画像で学習した場合の過剰適合の問題を回避するのにも優れています。 $O(N^{2}P)\,$ $O(N^{P})\,$

参考文献

^ Fischler, MA; Elschlager, RA (1973). 「絵画構造の表現とマッチング」. IEEE Transactions on Computers (1): 67– 92. doi :10.1109/TC.1973.223602. S2CID 14554383.
^ M. Burl, T. Leung, P. Perona. 形状統計による顔の位置特定 (1995) ^{[リンク切れ]}
^ T. Leung, M. Burl, P. Perona. ランダムラベル付きグラフマッチングを用いた乱雑なシーンからの顔検出 (1995) ^{[リンク切れ]}
^ M. BurlとP. Perona. 平面オブジェクトクラスの認識 (1996) ^{[リンク切れ]}
^ M. Burl、M. Weber、P. Perona. 局所測光法と大域幾何学を用いた物体認識への確率的アプローチ (1998)
^ M. Weber. 物体認識モデルの教師なし学習. 博士論文. (2000)
^ M. Weber, W. Einhaeuser, M. Welling, P. Perona. 視点不変学習と人間の頭部検出 (2000) ^{[リンク切れ]}
^ ab M. Weber, M. Welling, P. Perona. オブジェクトカテゴリーの自動発見に向けて (2000) ^{[リンク切れ]}
^ ab M. Weber, M. Welling and P. Perona. 認識モデルの教師なし学習 (2000) ^{[リンク切れ]}
^ ab R. Fergus, P. Perona, A. Zisserman. 教師なしスケール不変学習による物体クラス認識 (2003) ^{[リンク切れ]}
^ ab R. Fergus. 視覚的物体カテゴリー認識. 博士論文. (2005)
^ Kadir, Timor; Brady, Michael (2001). 「Saliency, Scale and Image Description」 . International Journal of Computer Vision . 45 (2): 83– 105. doi :10.1023/A:1012460413855. S2CID 825395.
^ R. FergusとP. Perona. Caltechオブジェクトカテゴリデータセット. http://www.vision.caltech.edu/html-files/archive.html (2003)
^ R. Fergus、P. Perona、A. Zisserman. 効率的な学習と網羅的な認識のためのスパースオブジェクトカテゴリモデル (2005)

外部リンク

L. フェイフェイ. 天体分類：星座モデル. 講義スライド. (2005) (リンクは機能していません)

参照

[1] Fischler, MA; Elschlager, RA (1973). 「絵画構造の表現とマッチング」. IEEE Transactions on Computers (1): 67– 92. doi :10.1109/TC.1973.223602. S2CID 14554383.

[2] M. Burl, T. Leung, P. Perona. 形状統計による顔の位置特定 (1995) ^{[リンク切れ]}

[3] T. Leung, M. Burl, P. Perona. ランダムラベル付きグラフマッチングを用いた乱雑なシーンからの顔検出 (1995) ^{[リンク切れ]}

[4] M. BurlとP. Perona. 平面オブジェクトクラスの認識 (1996) ^{[リンク切れ]}

[5] M. Burl、M. Weber、P. Perona. 局所測光法と大域幾何学を用いた物体認識への確率的アプローチ (1998)

[6] M. Weber. 物体認識モデルの教師なし学習. 博士論文. (2000)

[7] M. Weber, W. Einhaeuser, M. Welling, P. Perona. 視点不変学習と人間の頭部検出 (2000) ^{[リンク切れ]}

[weber_towards-8] M. Weber, M. Welling, P. Perona. オブジェクトカテゴリーの自動発見に向けて (2000) ^{[リンク切れ]}

[weber_unsupervised-9] M. Weber, M. Welling and P. Perona. 認識モデルの教師なし学習 (2000) ^{[リンク切れ]}

[object_class_recognition-10] R. Fergus, P. Perona, A. Zisserman. 教師なしスケール不変学習による物体クラス認識 (2003) ^{[リンク切れ]}

[fergus_thesis-11] R. Fergus. 視覚的物体カテゴリー認識. 博士論文. (2005)

[12] Kadir, Timor; Brady, Michael (2001). 「Saliency, Scale and Image Description」 . International Journal of Computer Vision . 45 (2): 83– 105. doi :10.1023/A:1012460413855. S2CID 825395.

[13] R. FergusとP. Perona. Caltechオブジェクトカテゴリデータセット. http://www.vision.caltech.edu/html-files/archive.html (2003)

[14] R. Fergus、P. Perona、A. Zisserman. 効率的な学習と網羅的な認識のためのスパースオブジェクトカテゴリモデル (2005)