画像検索からのオブジェクト分類

コンピュータビジョンにおいて、画像検索からの物体分類とは、画像検索、すなわちインターネット検索エンジンによって自動的に取得された画像のみを用いて、物体のカテゴリを認識する分類器を学習させる問題です。理想的には、自動画像収集によって、カテゴリ名のみを入力として分類器を学習することが可能になります。この問題は、コンテンツベース画像検索（CBIR）の問題と密接に関連しています。コンテンツベース画像検索の目的は、画像認識のための分類器の学習ではなく、より良い画像検索結果を返すことです。

従来、分類器は手作業でラベル付けされた画像セットを用いて学習されていました。このような画像セットの収集は、多くの場合、非常に時間と労力を要するプロセスです。インターネット検索エンジンを用いて、大量のラベル付き画像セットの取得プロセスを自動化することは、コンピュータービジョン研究を大幅に促進する可能性のある方法として注目されています。^[1]

課題

無関係な画像

インターネット画像検索結果を分類器の学習セットとして使用する場合の問題点の一つは、結果に含まれる無関係な画像の割合が高いことです。Google画像検索などの検索エンジンで物体のカテゴリ名（例えば「飛行機」）を検索すると、返される画像の最大85%がそのカテゴリに無関係であると推定されています。^[1]

クラス内変動

インターネット画像検索結果を分類器のトレーニングセットとして使用する場合のもう一つの課題は、Caltech 101やPascalなどの手動でラベル付けされたデータセットに含まれるカテゴリと比較して、オブジェクトカテゴリ内のばらつきが大きいことです。オブジェクトの画像は、スケール、ポーズ、照明、オブジェクトの数、遮蔽量など、多くの重要な要素において大きく異なる場合があります。

pLSAアプローチ

2005年のFergusらによる論文^[1]では、 pLSA（確率的潜在意味解析）とその拡張モデルが、画像検索からのオブジェクト分類問題に適用されました。pLSAはもともと文書分類のために開発されましたが、その後コンピュータビジョンにも応用されています。pLSAは、画像がバッグ・オブ・ワード・モデルに適合する文書であると仮定しています。

モデル

テキスト文書が単語で構成され、各単語が文書内および文書間で繰り返されるのと同様に、画像はビジュアルワードの組み合わせとしてモデル化できます。テキストワードの集合全体が辞書で定義されているように、ビジュアルワードの集合全体はコードワード辞書で定義されます。

pLSAは文書をトピックにも分割します。記事のトピックが分かれば、そこにどのような単語が出現するかを推測できるのと同様に、画像における単語の分布も、その背後にあるトピックに依存します。pLSAモデルは、トピックという観点から、カテゴリごとに各単語が出現する確率を示します。 $w$ $\displaystyle d$ $\displaystyle z$

$\displaystyle P(w|d)=\sum _{z=1}^{Z}P(w|z)P(z|d)$

このモデルにおける重要な仮定は、とがを与えられた場合、条件付きで独立であるというものである。トピックが与えられた場合、特定の単語がそのトピックの一部として現れる確率は、画像の残りの部分とは独立である。^[2] $\displaystyle w$ $\displaystyle d$ $\displaystyle z$

このモデルの学習では、各文書における観測語の尤度を最大化するとを見つけます。そのために、以下の目的関数を持つ期待値最大化アルゴリズムが使用されます。 $\displaystyle P(w|z)$ $\displaystyle P(z|d)$

$\displaystyle L=\prod _{d=1}^{D}\prod _{w=1}^{W}P(w|d)^{n(w|d)}$

応用

ABS-pLSA

絶対位置pLSA（ABS-pLSA）は、各視覚単語を画像内のX個のビンのいずれかに位置付けることで、位置情報を付与します。ここで、は視覚単語がどのビンに該当するかを表します。新しい式は以下のとおりです。 $\displaystyle x$

$\displaystyle P(w|d)=\sum _{z=1}^{Z}P(w,x|z)P(z|d)$

$\displaystyle P(w,x|z)$ これは、EMアルゴリズムを使用して、元のpLSA問題と同様の方法で解くことができる。 $\displaystyle P(d)$

このモデルの問題点は、並進不変またはスケール不変ではないことです。ビジュアルワードの位置は絶対的なため、画像内のオブジェクトのサイズを変更したり移動したりすると、ビジュアルワードの異なるビンへの空間分布に大きな影響が生じます。

TSI-pLSA

並進・スケール不変pLSA（TSI-pLSA）。このモデルはpLSAを拡張し、画像内の対象物体の空間位置を表す潜在変数を追加します。これにより、視覚単語の位置は、画像内の絶対位置ではなく、この物体の位置に対する相対位置として与えられます。新しい式は以下のとおりです。 $\displaystyle x$

$\displaystyle P(w,x|d)=\sum _{z=1}^{Z}\sum _{c=1}^{C}P(w,x|c,z)P(c)P(z|d)$

ここでも、パラメータとはEM アルゴリズムを使用して解くことができます。は均一分布であると仮定できます。 $\displaystyle P(w,x|c,z)$ $\displaystyle P(d)$ $\displaystyle P(c)$

実装

単語の選択

画像内の単語は4つの異なる特徴検出器を使用して選択された：^[1]

これら4つの検出器を用いて、画像ごとに約700個の特徴が検出されました。これらの特徴は、スケール不変の特徴変換記述子として符号化され、コードブックに含まれる350語のいずれかに一致するようにベクトル量子化されました。コードブックは、多数の物体カテゴリにまたがる多数の画像から抽出された特徴から事前に計算されていました。

可能性のある物体の位置

TSI-pLSAモデルにおける重要な問題の一つは、ランダム変数が取り得る値をどのように決定するかということです。これは4次元ベクトルであり、その成分は物体の重心と、物体の周囲の境界ボックスを定義するx軸とy軸のスケールを表すため、取り得る値の空間は膨大です。物体の位置の候補数を妥当な数に制限するために、まず画像セットに対して通常のpLSAを実行し、各トピックについて、視覚的単語に重み付けされたガウス混合モデルを当てはめます。最大で個のガウス分布が試行されます（1枚の画像に物体が複数存在する場合を考慮します）。は定数です。 $\displaystyle C$ $\displaystyle P(w|z)$ $\displaystyle K$ $\displaystyle K$

パフォーマンス

Fergusらによる論文の著者らは、厳選されたデータセットとGoogle検索で返された画像を用いて、3つのpLSAアルゴリズム（pLSA、ABS-pLSA、TSI-pLSA）の性能を比較しました。性能は、テストセット内の画像を画像が含まれているか背景のみが含まれているかに分類する際のエラー率として測定されました。

予想通り、Google データで直接トレーニングすると、準備されたデータでトレーニングするよりもエラー率が高くなります。^[1]テストされたオブジェクトカテゴリの約半分で、ABS-pLSA と TSI-pLSA は通常の pLSA よりも大幅に優れたパフォーマンスを発揮し、7 つのカテゴリのうち 2 つのカテゴリのみで TSI-pLSA が他の 2 つのモデルよりも優れたパフォーマンスを発揮しました。

オプティモール

OPTIMOL（増分モデル学習による自動オンライン画像収集）は、モデル学習と検索を同時に行うことで、オンライン画像検索からオブジェクトカテゴリを学習するという問題にアプローチします。OPTIMOLは、対象オブジェクトカテゴリのモデルを更新しながら、同時により関連性の高い画像を検索する反復モデルです。^[3]

一般的な枠組み

OPTIMOLは、カテゴリー学習に使用される特定のモデルに依存しない、汎用的な反復フレームワークとして提示されました。アルゴリズムは以下のとおりです。

キーワードを検索してインターネットから大量の画像をダウンロードする
シード画像でデータセットを初期化する
データセットに はさらに多くの画像が必要です:
- 最近追加されたデータセット画像を使用してモデルを学習する
- 更新されたモデルを使用してダウンロードした画像を分類する
- 承認された画像をデータセットに追加する

各学習ラウンドでは、最後に追加された画像のみが使用されることに注意してください。これにより、任意の数の入力画像に対してアルゴリズムを実行できます。

モデル

2つのカテゴリ（対象物体と背景）は、階層的ディリクレ過程（HDP）としてモデル化される。pLSAアプローチと同様に、画像はバッグ・オブ・ワード・モデルで記述できると仮定する。HDPは、カテゴリ内およびカテゴリ間の画像における不特定多数のトピックの分布をモデル化する。単一カテゴリ内の画像間のトピックの分布は、ディリクレ過程（非パラメトリック確率分布の一種）としてモデル化される。クラス間でトピックを共有できるようにするために、これらのディリクレ過程はそれぞれ、別のディリクレ過程からのサンプルとしてモデル化される。HDPは2005年にTehらによって初めて記述された。 ^[4]

実装

初期化

データセットは初期化するか、学習対象となる物体カテゴリの優れた見本となるオリジナルの画像群をシードとして用意する必要があります。これらの画像は、検索エンジンが返す最初のページ程度の画像（後続の画像よりも優れている傾向がある）を使用して自動的に収集できます。あるいは、初期画像を手動で収集することもできます。

モデル学習

HDPの様々なパラメータを増分的に学習するために、潜在変数に対してギブスサンプリングが用いられます。これは、データセットに新しい画像セットが組み込まれるたびに実行されます。ギブスサンプリングとは、一連のランダム変数から繰り返しサンプリングを行い、それらの分布を近似することです。サンプリングとは、対象のランダム変数が依存する他のランダム変数の状態に基づいて、そのランダム変数の値を生成することです。十分なサンプル数があれば、その値の妥当な近似値を得ることができます。

分類

各反復において、およびは、前回のギブスサンプリング後に学習したモデルから取得できます。ここで、はトピック、はカテゴリ、は単一のビジュアルワードです。したがって、画像が特定のクラスに属する確率は次のようになります。 $\displaystyle P(z|c)$ $\displaystyle P(x|z,c)$ $\displaystyle z$ $\displaystyle c$ $\displaystyle x$

$\displaystyle P(I|c)=\prod _{i}\sum _{j}P(x_{i}|z_{j},c)P(z_{j}|c)$

これは、反復処理ごとに新しい候補画像ごとに計算され、画像は最も高い尤度を持つカテゴリに属すると分類されます。

データセットと「キャッシュセット」への追加

ただし、データセットに組み込む資格を得るには、画像がより厳しい条件を満たす必要があります。

$\displaystyle {\frac {P(I|c_{f})}{P(I|c_{b})}}>{\frac {\lambda _{Ac_{b}}-\lambda _{Rc_{b}}}{\lambda _{Rc_{f}}-\lambda _{Ac_{f}}}}{\frac {P(c_{b})}{P(c_{f})}}$

ここで、とはそれぞれ前景（物体）と背景のカテゴリであり、定数の比率は偽陽性と偽陰性を受け入れるリスクを表します。これらは反復ごとに自動的に調整され、偽陽性のコストは偽陰性のコストよりも高く設定されます。これにより、より優れたデータセットが収集されます。 $\displaystyle c_{f}$ $\displaystyle c_{b}$

上記の基準を満たして画像が承認され、データセットに組み込まれた後も、その画像は「学習用画像セット」、つまり学習に使用する画像セットに組み込まれる前に、別の基準を満たす必要があります。このセットは、承認済み画像セットの多様なサブセットとなることを意図しています。モデルが承認済み画像すべてで学習されると、モデルはより高度に特化し、以前の画像と非常に類似した画像のみを受け入れるようになる可能性があります。

パフォーマンス

OPTIMOL メソッドのパフォーマンスは、次の 3 つの要素によって定義されます。

画像収集能力：OPTIMOLは、Webから大量の良質な画像を自動的に収集できることが分かっています。OPTIMOLで取得した画像セットのサイズは、Caltech 101など、同じカテゴリの人間がラベル付けした大規模な画像セットのサイズを上回っています。
分類精度：分類精度は、前述のpLSA法によって得られた分類器の精度と比較されました。OPTIMOLは7つのオブジェクトカテゴリで72.0%の精度を達成し、OPTIMOLは74.8%の精度を達成しました。
バッチ学習との比較：モデルの他のすべての条件が一定である場合、OPTIMOLの増分学習が従来のバッチ学習手法よりも優れているかどうかは重要な問題です。分類器が増分学習を行う場合、つまり、以前の画像から学習した内容に基づいて次の画像を選択する場合、以下の3つの重要な結果が得られます。
- 増分学習によりOPTIMOLはより良いデータセットを収集できる
- 増分学習により、OPTIMOLはより速く学習することができます（無関係な画像を破棄することにより）
- 増分学習は分類器のROC曲線に悪影響を与えない。実際、増分学習は改善をもたらした。

コンテンツベースの画像検索におけるオブジェクトの分類

通常、画像検索では画像に関連付けられたテキストのみが利用されます。コンテンツベースの画像検索における課題は、画像自体に含まれる視覚情報を考慮することで検索結果を改善することです。いくつかのCBIR手法では、画像検索結果で学習した分類器を用いて検索を絞り込みます。言い換えれば、画像検索からのオブジェクト分類はシステムの一部です。例えばOPTIMOLは、以前の反復処理で収集された画像で学習した分類器を用いて、返されるデータセットに追加の画像を選択します。

画像検索からオブジェクトカテゴリをモデル化する CBIR メソッドの例は次のとおりです。

ファーガスら、2004 ^[5]
バーグとフォーサイス、2006年^[6]
柳井とバーナード、2006 ^[7]

参考文献

^ abcde Fergus, R.; Fei-Fei, L.; Perona, P.; Zisserman, A. (2005). 「Googleの画像検索からオブジェクトカテゴリを学習する」(PDF) . Proc. IEEE International Conference on Computer Vision . 2007年6月9日時点のオリジナル(PDF)からアーカイブ。 2008年1月16日閲覧。
^ ホフマン、トーマス (1999). 「確率的潜在意味解析」(PDF) .人工知能における不確実性. 2007年7月10日時点のオリジナル(PDF)からアーカイブ。
^ Li, Li-Jia; Wang, Gang; Fei-Fei, Li (2007). 「OPTIMOL: 増分モデル学習による自動オンライン画像収集」(PDF) . Proc. IEEE Conference on Computer Vision and Pattern Recognition . オリジナル(PDF)から2007年6月9日にアーカイブ。 2008年1月16日閲覧。
^ Teh, Yw; Jordan, MI; Beal, MJ; Blei, David (2006). 「階層的ディリクレ過程」(PDF) . Journal of the American Statistical Association . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . doi :10.1198/016214506000000302. S2CID 7934949.
^ Fergus, R.; Perona, P.; Zisserman, A. (2004). 「Google画像のための視覚カテゴリフィルタ」(PDF) . Proc. 8th European Conf. on Computer Vision .
^ Berg, T.; Forsyth, D. (2006). 「ウェブ上の動物たち」. Proc. Computer Vision and Pattern Recognition . doi :10.1109/CVPR.2006.57.
^ Yanai, K; Barnard, K. (2005). 「確率的ウェブ画像収集」ACM SIGMM マルチメディア情報検索ワークショップ.

参照

[fergus-1] Fergus, R.; Fei-Fei, L.; Perona, P.; Zisserman, A. (2005). 「Googleの画像検索からオブジェクトカテゴリを学習する」(PDF) . Proc. IEEE International Conference on Computer Vision . 2007年6月9日時点のオリジナル(PDF)からアーカイブ。 2008年1月16日閲覧。

[hofmann-2] ホフマン、トーマス (1999). 「確率的潜在意味解析」(PDF) .人工知能における不確実性. 2007年7月10日時点のオリジナル(PDF)からアーカイブ。

[li-3] Li, Li-Jia; Wang, Gang; Fei-Fei, Li (2007). 「OPTIMOL: 増分モデル学習による自動オンライン画像収集」(PDF) . Proc. IEEE Conference on Computer Vision and Pattern Recognition . オリジナル(PDF)から2007年6月9日にアーカイブ。 2008年1月16日閲覧。

[teh-4] Teh, Yw; Jordan, MI; Beal, MJ; Blei, David (2006). 「階層的ディリクレ過程」(PDF) . Journal of the American Statistical Association . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . doi :10.1198/016214506000000302. S2CID 7934949.

[5] Fergus, R.; Perona, P.; Zisserman, A. (2004). 「Google画像のための視覚カテゴリフィルタ」(PDF) . Proc. 8th European Conf. on Computer Vision .

[6] Berg, T.; Forsyth, D. (2006). 「ウェブ上の動物たち」. Proc. Computer Vision and Pattern Recognition . doi :10.1109/CVPR.2006.57.

[7] Yanai, K; Barnard, K. (2005). 「確率的ウェブ画像収集」ACM SIGMM マルチメディア情報検索ワークショップ.