星座 モデルは、 コンピュータビジョン におけるカテゴリレベルの物体認識のための 確率的 生成モデル です。他の パーツベースモデルと同様に、星座モデルは、相互に幾何学的な制約を課す N 個のパーツの集合によって物体クラスを表現しようとします 。異なるパーツ間の幾何学的関係を考慮するため、星座モデルは、画像特徴の位置を明示的に無視する外観のみに基づく表現モデル、あるいは「 バッグ・オブ・ワード 」表現モデルとは大きく異なります。
物体認識のための生成モデルを定義するという問題は困難です。背景の乱雑さ、遮蔽、視点、照明、スケールの変化といった要因によって、このタスクは著しく複雑になります。理想的には、選択する特定の表現が、これらの要因のできるだけ多くに対して堅牢であることが望まれます。
カテゴリレベルの認識では、クラス内変動という根本的な問題により、問題はさらに困難になります。2つの物体が同じ視覚カテゴリに属していても、その外観は大きく異なる場合があります。しかし、車、自転車、人物などの構造化された物体の場合、同じカテゴリに属する物体の個々のインスタンスは、類似した幾何学的制約を受けます。そのため、車のヘッドライトやタイヤといった物体の特定の部分は、外観と相対的な位置が一貫しています。コンステレーションモデルは、この事実を利用し、特定の物体カテゴリにおけるこれらの部分の相対的な位置、相対的なスケール、外観を明示的にモデル化します。モデルパラメータは 教師なし学習 アルゴリズムを用いて推定されるため、ラベル付けされていないトレーニング画像セットから、たとえそのセットに「ジャンク」画像や複数のカテゴリに属する物体のインスタンスが含まれていても、物体クラスの視覚的概念を抽出できます。また、外観の変動、オクルージョン、クラッター、検出器エラーなどによってモデル部分が欠落している場合も考慮できます。
歴史
「部品と構造」モデルのアイデアは、1973年にフィッシュラーとエルシュラーガーによって初めて提唱されました。 [1] このモデルはその後、様々な方向に発展・拡張されてきました。ペローナ博士とその同僚によって提唱されたコンステレーションモデルは、このアプローチを確率論的に応用したものです。
1990年代後半、Burlら [2] [3] [4] [5] は顔認識を目的としてFischlerとElschlagerのモデルを再検討した。その研究では、Burlらはトレーニング画像内の星座パーツを手動で選択して、検出器のセットとそれらを適用すべき相対的な位置の 統計モデル を構築した。2000年に、Weberら [6] [7] [8] [ 9] は、パーツの面倒な手作業によるラベル付けの必要性を排除する、より教師なしの学習プロセスを使用してモデルをトレーニングするという重要なステップを踏んだ。彼らのアルゴリズムは、雑然として遮蔽された画像データでも良いパフォーマンスを発揮した点で特に注目に値するものであった。Fergusら [10] [11] はその後、学習ステップを完全に教師なしにして、形状と外観の両方を同時に学習し、パーツの相対的なスケールを明示的に考慮することで、このモデルを改良した。
Weber と Welling らによる方法
最初のステップでは、 ハリス コーナー検出 などの標準的な 関心点検出 手法を用いて関心点を生成します。 これらの点の近傍から生成された 画像特徴は、 k平均法 などの適切なアルゴリズムを用いてクラスタリングされます。この ベクトル量子化 のプロセスでは、これらのクラスタの重心は、特徴的な物体部分の外観を表すものと考えることができます。次に、これらのクラスタを用いて適切な 特徴検出器 を学習し、画像から候補となる部位の集合を取得します。 [9]
このプロセスの結果、各画像はパーツの集合として表現できるようになりました。各パーツには、前述の外観クラスターのいずれかに対応するタイプと、画像空間における位置が与えられます。
基本的な生成モデル
WeberとWellingはここで、前景 と 背景 の概念を導入しています 。 前景 部分は対象オブジェクトクラスのインスタンスに対応し、 背景 部分は背景の乱雑さや誤検出に対応します。
Tを 異なる種類のパーツの数とします 。画像から抽出されたすべてのパーツの位置は、次の「行列」で表すことができます。
X
o
=
(
x
11
,
x
12
,
⋯
,
x
1
N
1
x
21
,
x
22
,
⋯
,
x
2
N
2
⋮
x
T
1
,
x
T
2
,
⋯
,
x
T
N
T
)
{\displaystyle X^{o}={\begin{pmatrix}x_{11},x_{12},{\cdots },x_{1N_{1}}\\x_{21},x_{22},{\cdots },x_{2N_{2}}\\\vdots \\x_{T1},x_{T2},{\cdots },x_{TN_{T}}\end{pmatrix}}}
ここで、 は 画像内で観測された タイプのパーツの数を表します。上付き文字 o は、これらの位置 が ではなく 観測 可能 であることを示します。観測されないオブジェクトパーツの位置は、ベクトル で表すことができます 。オブジェクトが異なる前景パーツから構成されると仮定します 。表記を簡単にするために、ここでは と仮定します が、モデルは に一般化できます 。 仮説 は、の点 が の前景点 であることを示す のインデックスの集合として定義されます 。生成確率モデルは、結合確率密度 によって定義されます 。
N
i
{\displaystyle N_{i}\,}
i
∈
{
1
,
…
,
T
}
{\displaystyle i\in \{1,\dots ,T\}}
x
m
{\displaystyle x^{m}\,}
F
{\displaystyle F\,}
F
=
T
{\displaystyle F=T\,}
F
>
T
{\displaystyle F>T\,}
h
{\displaystyle h\,}
h
i
=
j
{\displaystyle h_{i}=j\,}
x
i
j
{\displaystyle x_{ij}\,}
X
o
{\displaystyle X^{o}\,}
p
(
X
o
,
x
m
,
h
)
{\displaystyle p(X^{o},x^{m},h)\,}
モデルの詳細
このセクションの残りの部分では、WeberとWellingのモデルを単一成分モデルについて詳細にまとめます。複数成分モデル [8] の式は、ここで説明した式を拡張したものです。
結合確率密度をパラメータ化するために、WeberとWellingは補助変数 とを導入します 。ここで は検出における部分の存在/不在( の場合は 、それ以外の場合は )を表す2値ベクトルであり、 は の行に含まれる 背景 候補 の数を表す ベクトルです 。 と はによって完全に決定され 、 のサイズは によって決定されるため 、 が成り立ちます 。分解により、
b
{\displaystyle b\,}
n
{\displaystyle n\,}
b
{\displaystyle b\,}
b
i
=
1
{\displaystyle b_{i}=1\,}
h
i
>
0
{\displaystyle h_{i}>0\,}
b
i
=
0
{\displaystyle b_{i}=0\,}
n
{\displaystyle n\,}
n
i
{\displaystyle n_{i}\,}
i
t
h
{\displaystyle i^{th}}
X
o
{\displaystyle X^{o}\,}
b
{\displaystyle b\,}
n
{\displaystyle n\,}
h
{\displaystyle h\,}
X
o
{\displaystyle X^{o}\,}
p
(
X
o
,
x
m
,
h
)
=
p
(
X
o
,
x
m
,
h
,
n
,
b
)
{\displaystyle p(X^{o},x^{m},h)=p(X^{o},x^{m},h,n,b)\,}
p
(
X
o
,
x
m
,
h
,
n
,
b
)
=
p
(
X
o
,
x
m
|
h
,
n
,
b
)
p
(
h
|
n
,
b
)
p
(
n
)
p
(
b
)
{\displaystyle p(X^{o},x^{m},h,n,b)=p(X^{o},x^{m}|h,n,b)p(h|n,b)p(n)p(b)\,}
背景検出回数に対する確率密度は ポアソン分布 でモデル化できる。
p
(
n
)
=
∏
i
=
1
T
1
n
i
!
(
M
i
)
n
i
e
−
M
i
{\displaystyle p(n)=\prod _{i=1}^{T}{\frac {1}{n_{i}!}}(M_{i})^{n_{i}}e^{-M_{i}}}
ここで 、は画像あたりの種類の背景検出の平均数です 。
M
i
{\displaystyle M_{i}\,}
i
{\displaystyle i\,}
部品の数に応じて 、確率は 長さの明示的な表としてモデル化するか 、または が大きい場合は、 個々の部品の存在をそれぞれ制御する独立した確率としてモデル化できます。
F
{\displaystyle F\,}
p
(
b
)
{\displaystyle p(b)\,}
2
F
{\displaystyle 2^{F}\,}
F
{\displaystyle F\,}
F
{\displaystyle F\,}
密度 は次のようにモデル化される。
p
(
h
|
n
,
b
)
{\displaystyle p(h|n,b)\,}
p
(
h
|
n
,
b
)
=
{
1
∏
f
=
1
F
N
f
b
f
,
if
h
∈
H
(
b
,
n
)
0
,
for other
h
{\displaystyle p(h|n,b)={\begin{cases}{\frac {1}{\textstyle \prod _{f=1}^{F}N_{f}^{b_{f}}}},&{\mbox{if }}h\in H(b,n)\\0,&{\mbox{for other }}h\end{cases}}}
ここで、 はおよび と 一致するすべての仮説の集合を表し 、 は タイプの部品の検出総数を表します 。これは、部品の位置に関する情報がない場合、 個の を含むすべての一致する仮説が等確率であるという事実を表しています 。
H
(
b
,
n
)
{\displaystyle H(b,n)\,}
b
{\displaystyle b\,}
n
{\displaystyle n\,}
N
f
{\displaystyle N_{f}\,}
f
{\displaystyle f\,}
∏
f
=
1
F
N
f
b
f
{\displaystyle \textstyle \prod _{f=1}^{F}N_{f}^{b_{f}}}
そして最後に、
p
(
X
o
,
x
m
|
h
,
n
)
=
p
f
g
(
z
)
p
b
g
(
x
b
g
)
{\displaystyle p(X^{o},x^{m}|h,n)=p_{fg}(z)p_{bg}(x_{bg})\,}
ここで、 は観測値と欠損値を含むすべての前景検出の座標であり、 は 背景検出の座標を表します。前景検出は背景とは独立していると仮定されることに注意してください。は平均 と共分散 を 持つ結合ガウス分布としてモデル化されます 。
z
=
(
x
o
x
m
)
{\displaystyle z=(x^{o}x^{m})\,}
x
b
g
{\displaystyle x_{bg}\,}
p
f
g
(
z
)
{\displaystyle p_{fg}(z)\,}
μ
{\displaystyle \mu \,}
Σ
{\displaystyle \Sigma \,}
分類
このモデルの究極の目的は、 観測値 が与えられた場合に、画像を「物体あり」(クラス )と「物体なし」(クラス)のクラスに分類することです 。これを実現するために、WeberとWellingは学習ステップで得た部分検出器を画像に対して網羅的に実行し、様々な検出の組み合わせを検証します。遮蔽を考慮する場合、検出漏れのある組み合わせも許容されます。目標は、以下の比率を考慮して、事後確率が最大となるクラスを選択することです。
C
1
{\displaystyle C_{1}\,}
C
0
{\displaystyle C_{0}\,}
X
o
{\displaystyle X^{o}\,}
p
(
C
1
|
X
o
)
p
(
C
0
|
X
o
)
∝
∑
h
p
(
X
o
,
h
|
C
1
)
p
(
X
o
,
h
0
|
C
0
)
{\displaystyle {\frac {p(C_{1}|X^{o})}{p(C_{0}|X^{o})}}\propto {\frac {\sum _{h}p(X^{o},h|C_{1})}{p(X^{o},h_{0}|C_{0})}}}
ここで は 帰無仮説 を表し 、これはすべての部分を背景ノイズとして説明する。分子では、和には帰無仮説を含むすべての仮説が含まれるが、分母では、物体の不在と整合する唯一の仮説は帰無仮説である。実際には、何らかの閾値を定義し、比率がその閾値を超えた場合に物体のインスタンスが検出されたとみなすことができる。
h
0
{\displaystyle h_{0}\,}
モデル学習
関心点検出、特徴量生成、クラスタリングという予備ステップを経て、トレーニング画像全体にわたる候補パーツの大規模な集合が得られます。Weber & Wellingは、モデルを学習するために、まず、モデル構成の可能な範囲、つまり候補パーツの潜在的なサブセットに対して貪欲探索を実行します。これは、ランダム選択から始まる反復的な方法で行われます。その後の反復処理では、モデル内のパーツがランダムに置換され、モデルパラメータが推定され、パフォーマンスが評価されます。モデルパフォーマンスのこれ以上の改善が不可能になった時点で、このプロセスは完了します。
各反復において、モデルパラメータ
Θ
=
{
μ
,
Σ
,
p
(
b
)
,
M
}
{\displaystyle \Theta =\{\mu ,\Sigma ,p(b),M\}\,}
は期待最大化法 を使用して推定されます 。 および は、結合ガウス分布 の平均と共分散 、 は 部品の存在/不在の2値を支配する 確率分布 、は部品タイプ全体の背景検出の平均数です。
μ
{\displaystyle \mu \,}
Σ
{\displaystyle \Sigma \,}
p
f
g
(
z
)
{\displaystyle p_{fg}(z)\,}
p
(
b
)
{\displaystyle p(b)\,}
M
{\displaystyle M\,}
Mステップ
EMは観測データの尤度を最大化することで進行する。
L
(
X
o
|
Θ
)
=
∑
i
=
1
I
log
∑
h
i
∫
p
(
X
i
o
,
x
i
m
,
h
i
|
Θ
)
d
x
i
m
{\displaystyle L(X^{o}|\Theta )=\sum _{i=1}^{I}\log \sum _{h_{i}}\int p(X_{i}^{o},x_{i}^{m},h_{i}|\Theta )dx_{i}^{m}}
モデルパラメータに関して 。これを解析的に達成することは困難であるため、EMはコスト関数の列を反復的に最大化する。
Θ
{\displaystyle \Theta \,}
Q
(
Θ
~
|
Θ
)
=
∑
i
=
1
I
E
[
log
p
(
X
i
o
,
x
i
m
,
h
i
|
Θ
~
)
]
{\displaystyle Q({\tilde {\Theta }}|\Theta )=\sum _{i=1}^{I}E[\log p(X_{i}^{o},x_{i}^{m},h_{i}|{\tilde {\Theta }})]}
これをパラメータに関して微分し、ゼロに等しくすると、更新規則が生成されます。
μ
~
=
1
I
∑
i
=
1
I
E
[
z
i
]
{\displaystyle {\tilde {\mu }}={\frac {1}{I}}\sum _{i=1}^{I}E[z_{i}]}
Σ
~
=
1
I
∑
i
=
1
I
E
[
z
i
z
i
T
]
−
μ
~
μ
~
T
{\displaystyle {\tilde {\Sigma }}={\frac {1}{I}}\sum _{i=1}^{I}E[z_{i}z_{i}^{T}]-{\tilde {\mu }}{\tilde {\mu }}^{T}}
p
~
(
b
¯
)
=
1
I
∑
i
=
1
I
E
[
δ
b
,
b
¯
]
{\displaystyle {\tilde {p}}({\bar {b}})={\frac {1}{I}}\sum _{i=1}^{I}E[\delta _{b,{\bar {b}}}]}
M
~
=
1
I
∑
i
=
1
I
E
[
n
i
]
{\displaystyle {\tilde {M}}={\frac {1}{I}}\sum _{i=1}^{I}E[n_{i}]}
Eステップ
Mステップの更新規則は、 事後 密度 を考慮してEステップで計算される
十分な統計量 、、、 で表現されます。
E
[
z
]
{\displaystyle E[z]\,}
E
[
z
z
T
]
{\displaystyle E[zz^{T}]\,}
E
[
δ
b
,
b
¯
]
{\displaystyle E[\delta _{b,{\bar {b}}}]\,}
E
[
n
]
{\displaystyle E[n]\,}
p
(
h
i
,
x
i
m
|
X
i
o
,
Θ
)
=
p
(
h
i
,
x
i
m
,
X
i
o
|
Θ
)
∑
h
i
∈
H
b
∫
p
(
h
i
,
x
i
m
,
X
i
o
|
Θ
)
d
x
i
m
{\displaystyle p(h_{i},x_{i}^{m}|X_{i}^{o},\Theta )={\frac {p(h_{i},x_{i}^{m},X_{i}^{o}|\Theta )}{\textstyle \sum _{h_{i}\in H_{b}}\int p(h_{i},x_{i}^{m},X_{i}^{o}|\Theta )dx_{i}^{m}}}}
Fergus らの方法
Weberらは、形状モデルと外観モデルを別々に構築しました。候補パーツの集合が選択されると、形状は外観とは独立して学習されます。Fergusらの革新性は、2つではなく3つのモデルパラメータ、すなわち形状、外観、相対スケールを同時に学習することです。これらのパラメータはそれぞれガウス密度で表されます。 [10]
特徴表現
Weberらの方法では、まず関心点の位置を検索するのに対し、FergusらはKadirとBradyの検出器 [12] を用いて、位置(中心)とスケール(半径)の両方において画像内の顕著な領域を検出する。したがって、 この方法は位置情報に加えて、関連するスケール情報も抽出する 。Fergusらは次に、これらの円形領域を囲む正方形を11 x 11ピクセルパッチ、つまり外観空間における121次元ベクトルに正規化する。そして、 主成分分析 によってこれらを10~15次元に縮小し、外観情報を得る 。
X
{\displaystyle X\,}
S
{\displaystyle S\,}
A
{\displaystyle A\,}
モデル構造
パラメータを持つ特定のオブジェクトクラスモデルが与えられた場合 、新しい画像にそのクラスのインスタンスが含まれているかどうかを判定する必要があります。これはベイズ決定によって行われます。
Θ
{\displaystyle \Theta \,}
R
=
p
(
Object
|
X
,
S
,
A
)
p
(
No object
|
X
,
S
,
A
)
{\displaystyle R={\frac {p({\mbox{Object}}|X,S,A)}{p({\mbox{No object}}|X,S,A)}}}
=
p
(
X
,
S
,
A
|
Object
)
p
(
Object
)
p
(
X
,
S
,
A
|
No object
)
p
(
No object
)
{\displaystyle ={\frac {p(X,S,A|{\mbox{Object}})p({\mbox{Object}})}{p(X,S,A|{\mbox{No object}})p({\mbox{No object}})}}}
≈
p
(
X
,
S
,
A
|
Θ
)
p
(
Object
)
p
(
X
,
S
,
A
|
Θ
b
g
)
p
(
No object
)
{\displaystyle \approx {\frac {p(X,S,A|\Theta )p({\mbox{Object}})}{p(X,S,A|\Theta _{bg})p({\mbox{No object}})}}}
ここで 、背景モデルです。この比率を閾値と比較することで 、物体の有無を判定します。
Θ
b
g
{\displaystyle \Theta _{bg}}
T
{\displaystyle T\,}
可能性は次のように計算されます。
p
(
X
,
S
,
A
|
Θ
)
=
∑
h
∈
H
p
(
X
,
S
,
A
,
h
|
Θ
)
=
{\displaystyle p(X,S,A|\Theta )=\sum _{h\in H}p(X,S,A,h|\Theta )=}
∑
h
∈
H
p
(
A
|
X
,
S
,
h
,
Θ
)
⏟
Appearance
p
(
X
|
S
,
h
,
Θ
)
⏟
Shape
p
(
S
|
h
,
Θ
)
⏟
Rel. Scale
p
(
h
|
Θ
)
⏟
Other
{\displaystyle \sum _{h\in H}\underbrace {p(A|X,S,h,\Theta )} _{\mbox{Appearance}}\underbrace {p(X|S,h,\Theta )} _{\mbox{Shape}}\underbrace {p(S|h,\Theta )} _{\mbox{Rel. Scale}}\underbrace {p(h|\Theta )} _{\mbox{Other}}}
外観
各部位の 外観は、外観空間におけるガウス密度でモデル化され、平均および共分散パラメータは 他の部位の密度とは独立である。背景モデルはパラメータを持つ 。Fergusらは、検出された特徴が与えられた場合、それらの特徴の位置と外観は独立であると仮定している。したがって、 外観項の比は次のように帰納される。
p
{\displaystyle p\,}
Θ
p
a
p
p
=
{
c
p
,
V
p
}
{\displaystyle \Theta _{p}^{app}=\{c_{p},V_{p}\}}
Θ
b
g
a
p
p
=
{
c
b
g
,
V
b
g
}
{\displaystyle \Theta _{bg}^{app}=\{c_{bg},V_{bg}\}}
p
(
A
|
X
,
S
,
h
,
Θ
)
=
p
(
A
|
h
,
Θ
)
{\displaystyle p(A|X,S,h,\Theta )=p(A|h,\Theta )\,}
p
(
A
|
X
,
S
,
h
,
Θ
)
p
(
A
|
X
,
S
,
h
,
Θ
b
g
)
=
p
(
A
|
h
,
Θ
)
p
(
A
|
h
,
Θ
b
g
)
{\displaystyle {\frac {p(A|X,S,h,\Theta )}{p(A|X,S,h,\Theta _{bg})}}={\frac {p(A|h,\Theta )}{p(A|h,\Theta _{bg})}}}
=
∏
p
=
1
P
(
G
(
A
(
h
p
)
|
c
p
,
V
p
)
G
(
A
(
h
p
)
|
c
b
g
,
V
b
g
)
)
b
p
{\displaystyle =\prod _{p=1}^{P}\left({\frac {G(A(h_{p})|c_{p},V_{p})}{G(A(h_{p})|c_{bg},V_{bg})}}\right)^{b_{p}}}
Weber らによれば、 は 前景部分のインデックスの仮説であり、 は仮説内の各部分の遮蔽状態を示すバイナリ ベクトルです。
h
{\displaystyle h\,}
b
{\displaystyle b\,}
形
形状は、特定の仮説における部分の位置の結合ガウス密度によって表現されます。これは、それらの部分がスケール不変空間に変換された後のものです。この変換により、スケール全体にわたる網羅的な探索を実行する必要がなくなります。ガウス密度のパラメータは です 。背景モデルは 、画像全体にわたって一様分布であると仮定され、その面積は です 。 前景部分の数を とすると、
Θ
shape
=
{
μ
,
Σ
}
{\displaystyle \Theta ^{\mbox{shape}}=\{\mu ,\Sigma \}\,}
Θ
b
g
{\displaystyle \Theta _{bg}\,}
α
{\displaystyle \alpha \,}
f
{\displaystyle f\,}
p
(
X
|
S
,
h
,
Θ
)
p
(
X
|
S
,
h
,
Θ
b
g
)
=
G
(
X
(
h
)
|
μ
,
Σ
)
α
f
{\displaystyle {\frac {p(X|S,h,\Theta )}{p(X|S,h,\Theta _{bg})}}=G(X(h)|\mu ,\Sigma )\alpha ^{f}}
相対スケール
各部分の参照フレームに対するスケールは 、パラメータ を持つガウス密度によってモデル化されます 。各部分は他の部分から独立していると仮定されます。背景モデルは 、範囲 内でスケール全体にわたって均一に分布すると仮定します 。
p
{\displaystyle p\,}
Θ
scale
=
{
t
p
,
U
p
}
{\displaystyle \Theta ^{\mbox{scale}}=\{t_{p},U_{p}\}\,}
Θ
b
g
{\displaystyle \Theta _{bg}\,}
r
{\displaystyle r\,}
p
(
S
|
h
,
Θ
)
p
(
S
|
h
,
Θ
b
g
)
=
∏
p
=
1
P
G
(
S
(
h
p
)
|
t
p
,
U
p
)
d
p
r
f
{\displaystyle {\frac {p(S|h,\Theta )}{p(S|h,\Theta _{bg})}}=\prod _{p=1}^{P}G(S(h_{p})|t_{p},U_{p})^{d_{p}}r^{f}}
遮蔽と特徴検出の統計
p
(
h
|
Θ
)
p
(
h
|
Θ
b
g
)
=
p
Poiss
(
n
|
M
)
p
Poiss
(
N
|
M
)
1
n
C
r
(
N
,
f
)
p
(
b
|
Θ
)
{\displaystyle {\frac {p(h|\Theta )}{p(h|\Theta _{bg})}}={\frac {p_{\mbox{Poiss}}(n|M)}{p_{\mbox{Poiss}}(N|M)}}{\frac {1}{^{n}C_{r}(N,f)}}p(b|\Theta )}
最初の因子は、平均Mを持つポアソン分布 を用いて検出された特徴の数をモデル化します。2 番目の因子は、仮説変数の「記録」因子として機能します。最後の因子は、すべての可能な遮蔽パターンの確率表です。
学ぶ
モデルパラメータの学習は 期待最大化 によって達成される 。これはWeberらの研究と同様の考え方に基づいて行われる。EステップとMステップの詳細と公式は文献に記載されている。 [11]
Θ
=
{
μ
,
Σ
,
c
,
V
,
M
,
p
(
b
|
Θ
)
,
t
,
U
}
{\displaystyle \Theta =\{\mu ,\Sigma ,c,V,M,p(b|\Theta ),t,U\}\,}
Fergusらが考案したコンステレーションモデルは、バイク、顔、飛行機、そして斑点のある猫の大規模データセットにおいて、一貫して90%を超える分類率を達成しています。 [13] これらのデータセットそれぞれにおいて、コンステレーションモデルは、外観や形状の観点から、オブジェクトクラスの「本質」を捉えることができます。例えば、顔とバイクのデータセットでは、これらのカテゴリのオブジェクトは非常に明確な構造を持っているため、非常にタイトな形状モデルが生成されます。一方、斑点のある猫はポーズが大きく変化するものの、非常に特徴的な斑点模様の外観を持っています。このように、このモデルはどちらのケースでも成功しています。コンステレーションモデルは、一般的に大きな向きの変化を考慮していないことに注意することが重要です。したがって、水平方向の飛行機の画像でモデルを学習した場合、例えば垂直方向の飛行機の画像では、この種の回転を明示的に考慮するようにモデルを拡張しない限り、良好なパフォーマンスを発揮しません。
計算量の観点から見ると、コンステレーションモデルは非常に高価です。 画像内の特徴検出数を 、 物体モデル内の部品数を とすると、仮説空間は と なります。 期待値最大化 のEステップにおける十分統計量の計算には、 すべての仮説の尤度を評価する必要があるため、学習が大きなボトルネックとなります。このため、 実用化では の値のみが使用されており、特徴検出数は 通常、画像あたり20~30程度の範囲に抑えられています。
N
{\displaystyle N\,}
P
{\displaystyle P\,}
H
{\displaystyle H\,}
O
(
N
P
)
{\displaystyle O(N^{P})\,}
P
≤
6
{\displaystyle P\leq 6}
N
{\displaystyle N\,}
バリエーション
複雑さを軽減しようとするバリエーションの一つとして、Fergusら[14] が提案したスターモデルがあります。 このモデルは依存性が低いため、学習を 時間軸ではなく時間軸で行うことができます 。これにより、より多くのモデルパーツと画像特徴を学習に利用できるようになります。スターモデルはパラメータ数が少ないため、少ない画像で学習した場合の過剰適合の問題を回避するのにも優れています。
O
(
N
2
P
)
{\displaystyle O(N^{2}P)\,}
O
(
N
P
)
{\displaystyle O(N^{P})\,}
参考文献
^ Fischler, MA; Elschlager, RA (1973). 「絵画構造の表現とマッチング」. IEEE Transactions on Computers (1): 67– 92. doi :10.1109/TC.1973.223602. S2CID 14554383.
^
M. Burl, T. Leung, P. Perona. 形状統計による顔の位置特定 (1995) [ リンク切れ ]
^ T. Leung, M. Burl, P. Perona. ランダムラベル付きグラフマッチングを用いた乱雑なシーンからの顔検出 (1995) [ リンク切れ ]
^ M. BurlとP. Perona. 平面オブジェクトクラスの認識 (1996) [ リンク切れ ]
^ M. Burl、M. Weber、P. Perona. 局所測光法と大域幾何学を用いた物体認識への確率的アプローチ (1998)
^ M. Weber. 物体認識モデルの教師なし学習. 博士論文. (2000)
^ M. Weber, W. Einhaeuser, M. Welling, P. Perona. 視点不変学習と人間の頭部検出 (2000) [ リンク切れ ]
^ ab M. Weber, M. Welling, P. Perona. オブジェクトカテゴリーの自動発見に向けて (2000) [ リンク切れ ]
^ ab M. Weber, M. Welling and P. Perona. 認識モデルの教師なし学習 (2000) [ リンク切れ ]
^ ab R. Fergus, P. Perona, A. Zisserman. 教師なしスケール不変学習による物体クラス認識 (2003) [ リンク切れ ]
^ ab R. Fergus. 視覚的物体カテゴリー認識. 博士論文. (2005)
^ Kadir, Timor; Brady, Michael (2001). 「Saliency, Scale and Image Description」 . International Journal of Computer Vision . 45 (2): 83– 105. doi :10.1023/A:1012460413855. S2CID 825395.
^ R. FergusとP. Perona. Caltechオブジェクトカテゴリデータセット. http://www.vision.caltech.edu/html-files/archive.html (2003)
^ R. Fergus、P. Perona、A. Zisserman. 効率的な学習と網羅的な認識のためのスパースオブジェクトカテゴリモデル (2005)
外部リンク
L. フェイフェイ. 天体分類:星座モデル. 講義スライド. (2005) (リンクは機能していません)
参照