コンピュータビジョン では、バッグオブワード (BoW )モデル (バッグオブビジュアルワードモデル (BoVW )とも呼ばれる) [ 1 ] [ 2 ] を、画像の特徴を 単語として扱うことで、画像分類 や画像検索 に適用することができます。文書分類 において、バッグオブワード は単語の出現回数のスパースベクトル 、つまり語彙のスパースヒストグラムです。 コンピュータビジョン では、バッグオブビジュアルワード は局所的な画像特徴の語彙の出現回数のベクトルです。
BoWモデルに基づく画像表現 BoWモデルを用いて画像を表現するには、画像を文書として扱うことができます。同様に、画像内の「単語」も定義する必要があります。これを実現するには、通常、特徴検出 、特徴記述、コードブック生成という3つのステップが含まれます。[ 1 ] [ 2 ] [ 3 ] BoWモデルの定義は、「独立した特徴に基づくヒストグラム表現」です。[ 4 ] コンテンツベースの画像索引作成および検索(CBIR)は、この画像表現技術の初期の採用例であると考えられます。[ 5 ]
特徴表現 特徴検出後、各画像は複数の局所パッチに抽象化されます。特徴表現手法は、パッチを数値ベクトルとして表現する方法を扱います。これらのベクトルは特徴記述子と呼ばれます。優れた記述子は、強度、回転、スケール、アフィン変換などの変動をある程度処理できる必要があります。最も有名な記述子の一つは、スケール不変特徴変換 (SIFT)です。[ 6 ] SIFTは各パッチを128次元ベクトルに変換します。このステップの後、各画像は同じ次元(SIFTでは128次元)のベクトルの集合となり、異なるベクトルの順序は重要ではなくなります。
コードブック生成 BoWモデルの最終ステップは、ベクトル表現されたパッチを「コードワード」(テキスト文書の単語に相当)に変換し、「コードブック」(単語辞書に相当)を作成することです。コードワードは、複数の類似したパッチの代表と考えることができます。簡単な方法の一つは、すべてのベクトルに対してk平均法クラスタリングを実行することです。 [ 7 ] コードワードは、学習されたクラスターの中心として定義されます。クラスターの数は、コードブックのサイズ(単語辞書のサイズに相当)です。
したがって、画像内の各パッチはクラスタリング プロセスを通じて特定のコードワードにマッピングされ、画像はコードワードの ヒストグラムによって表すことができます。
BoWモデルに基づく学習と認識 コンピュータビジョンの研究者は、物体分類 などの画像関連タスクにBoWモデルを活用するための学習手法をいくつか開発してきました。これらの手法は、教師なしモデルと教師ありモデルの2つのカテゴリに大別できます。複数ラベルの分類問題では、混同行列を 評価指標として使用できます。
教師なしモデル このセクションの表記法をいくつか示します。コードブックのサイズが であると仮定します。 V {\displaystyle V}
わ {\displaystyle w} : 各パッチは、1つの成分が1で、他のすべての成分が0であるV次元ベクトルです(k-meansクラスタリング設定では、1つの成分が1である場合、そのクラスタが属することを示します)。コードブック内の 番目のコードワードは、 に対して と表すことができます。わ {\displaystyle w} わ {\displaystyle w} v {\displaystyle v} わ v = 1 {\displaystyle w^{v}=1} わ あなた = 0 {\displaystyle w^{u}=0} あなた ≠ v {\displaystyle u\neq v} わ {\displaystyle \mathbf {w} } : 各画像は で表され、画像内のすべてのパッチはわ = [ わ 1 、 わ 2 、 ⋯ 、 わ 北 ] {\displaystyle \mathbf {w} =[w_{1},w_{2},\cdots ,w_{N}]} d j {\displaystyle d_{j}} :画像コレクション内の 番目の画像j {\displaystyle j} c {\displaystyle c} : 画像のカテゴリz {\displaystyle z} : パッチのテーマまたはトピックπ {\displaystyle \pi } : 混合比率BoWモデルは自然言語処理におけるBoWモデルの類似性を持つため、テキスト領域で開発された生成モデルをコンピュータビジョンにも応用できます。ここでは、単純なナイーブベイズモデルと階層的ベイズモデルについて解説します。
ナイーブベイズ 最も単純なものはナイーブベイズ 分類器である。[ 2 ] グラフィカルモデル の言語を用いると、ナイーブベイズ分類器 は以下の式で記述される。このモデルの基本的な考え方(あるいは仮定)は、各カテゴリがコードブック上で独自の分布を持ち、各カテゴリの分布が観測的に異なるというものである。顔カテゴリと車のカテゴリを例に挙げてみよう。顔カテゴリは「鼻」「目」「口」を表すコードワードを強調するかもしれないが、車のカテゴリは「車輪」「窓」を表すコードワードを強調するかもしれない。訓練例の集合が与えられると、分類器は異なるカテゴリに対して異なる分布を学習する。分類の決定は次のように行われる。
c ∗ = 引数 最大 c p ( c | わ ) = 引数 最大 c p ( c ) p ( わ | c ) = 引数 最大 c p ( c ) ∏ n = 1 北 p ( わ n | c ) {\displaystyle c^{*}=\arg \max _{c}p(c|\mathbf {w} )=\arg \max _{c}p(c)p(\mathbf {w} |c)=\arg \max _{c}p(c)\prod _{n=1}^{N}p(w_{n}|c)} ナイーブ ベイズ分類器はシンプルでありながら効果的であるため、通常は比較のためのベースライン メソッドとして使用されます。
階層的ベイズモデル ナイーブベイズモデルの基本的な仮定は、必ずしも成り立たない場合があります。例えば、自然風景の画像には複数の異なるテーマが含まれている場合があります。 確率的潜在意味解析 (pLSA)[ 8 ] [ 9 ] と潜在ディリクレ配分法 (LDA)[ 10 ] は、テキスト領域における2つの一般的なトピックモデルであり、同様の複数の「テーマ」問題に対処します。LDAを例に挙げましょう。LDAを用いて自然風景画像をモデル化することは、文書分析と類似しています。
画像カテゴリはドキュメント カテゴリにマッピングされます。 テーマの混合比率はトピックの混合比率をマップします。 テーマ インデックスはトピック インデックスにマップされます。 コードワードは単語にマッピングされます。 この方法は、13の自然風景 カテゴリーにおける自然風景の分類において非常に有望な結果を示しています。[ 3 ]
教師ありモデル 画像はBoWモデルに基づいて表現されるため、サポートベクターマシン (SVM)[ 2 ] やAdaBoost [ 11 ] など、テキストドキュメントの分類に適した任意の識別モデル を試すことができます。カーネルトリックは 、SVMなどのカーネルベースの分類器を使用する場合にも適用できます。ピラミッドマッチカーネルは、BoWモデルに基づいて新しく開発されたものです。異なるカーネル(EMDカーネルやカーネルなど)を持つ機械学習 分類器によって学習されたBoWモデル表現を使用するローカル特徴アプローチは、テクスチャ認識やオブジェクト認識の分野で広くテストされています。[ 12 ] 多数のデータセットで非常に有望な結果が報告されています。このアプローチ[ 12 ] は、PASCAL Visual Object Classes Challenge で非常に印象的な結果を達成しました。 X 2 {\displaystyle X^{2}}
ピラミッドマッチカーネル ピラミッドマッチカーネル[ 13 ] は、BoW特徴量、または高次元の特徴セットを多次元マルチ解像度ヒストグラムにマッピングする高速アルゴリズム(従来の二次複雑度ではなく線形複雑度)カーネル関数(マーサーの条件を満たす )である。これらのマルチ解像度ヒストグラムの利点は、共起する特徴を捕捉できる点である。ピラミッドマッチカーネルは、データポイントを徐々にサイズが増加する離散領域にビニングすることで、マルチ解像度ヒストグラムを構築する。したがって、高解像度では一致しないポイントも、低解像度では一致する可能性がある。ピラミッドマッチカーネルは、明示的な検索や距離の計算を行わずに、近似類似度マッチを実行する。代わりに、ヒストグラムを交差させて最適な一致を近似する。したがって、計算時間は特徴数に比例する。他のカーネル手法と比較して、ピラミッドマッチカーネルははるかに高速でありながら、同等の精度を提供する。ピラミッドマッチカーネルはETH-80データベース とCaltech 101データベース に適用され、有望な結果が得られました。[ 13 ] [ 14 ]
限界と最近の進展 BoW の悪名高い欠点の 1 つは、画像表現において非常に重要なパッチ間の空間関係を無視することです。研究者らは空間情報を組み込むいくつかの方法を提案しています。特徴レベルの向上については、相関図の 特徴が特徴の空間的な共起を捉えることができます。[ 15 ] 生成モデルの場合、コードワードの相対位置[ 16 ] [ 17 ] も考慮されます。人間の行動の階層的な形状と外観のモデル[ 18 ] は、混合比率と BoW 特徴の間に新しい部分層 (星座モデル ) を導入し、層内の部分間の空間関係を捉えます。識別モデルの場合、空間ピラミッド マッチ[ 19 ] は、画像を次第に細かいサブ領域に分割し、各サブ領域内のローカル フィーチャのヒストグラムを計算することによってピラミッド マッチングを実行します。最近、画像の幅と高さで正規化された空間座標による局所画像記述子( SIFT )の拡張は、BoWモデルに空間情報を導入する堅牢でシンプルな空間座標符号化アプローチであることが証明されています[ 20 ] [ 21 ] 。
BoWモデルは、視点不変性とスケール不変性についてはまだ十分に検証されておらず、その性能は不明瞭である。また、物体のセグメンテーションと位置推定におけるBoWモデルの効果も十分に理解されていない。[ 4 ]
分類パイプラインの体系的な比較により、1次および2次の統計量(局所的に集約された記述子のベクトル(VLAD)[ 22 ] およびフィッシャーベクトル(FV) )のエンコードにより、BoWに比べて分類精度が大幅に向上し、コードブックのサイズも縮小されるため、コードブック生成の計算量が削減されることがわかりました。[ 23 ] さらに、2017年のBoWのコーディングとプーリング手法の詳細な比較[ 21 ] では、2次統計量をスパースコーディングや電力正規化などの適切なプーリングと組み合わせると、フィッシャーベクトルよりもさらに優れたパフォーマンスを発揮し、 オックスフォードフラワーデータセット102 などの一部の物体認識データセットでは畳み込みニューラルネットワーク の単純なモデルの結果に近づくことさえできることが示されています。
参照
参考文献 ^ a b Video Google: ビデオ内のオブジェクトマッチングのためのテキスト検索アプローチ 。2003年10月13-16日。2003年。doi : 10.1109 /ICCV.2003.1238663 。^ a b c d G. Csurka; C. Dance; LX Fan; J. Willamowski & C. Bray (2004). 「キーポイントバッグを用いた視覚分類」 ECCV 国際コンピュータビジョン統計学習ワークショップ論文集 . ^ a b Fei-Fei Li; Perona, P. (2005). 「自然シーンカテゴリー学習のためのベイズ階層モデル」. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) . 第2巻. pp. 524– 531. doi : 10.1109/CVPR.2005.16 . ISBN 978-0-7695-2372-9 . S2CID 6387937 .^ a b L. Fei-Fei、R. Fergus、A. Torralba。 「物体カテゴリーの認識と学習、CVPR 2007短期コース」 。 ^ Qiu, G. (2002). 「コンテンツベースのカラー画像検索のための有彩色パターンと無彩色パターンのインデックス作成」 (PDF) . パターン認識 . 35 (8): 1675– 1686. Bibcode : 2002PatRe..35.1675Q . doi : 10.1016/S0031-3203(01)00162-5 . ^ Vidal-Naquet; Ullman (1999). 「有益な特徴と線形分類による物体認識」 (PDF) . 第9回IEEE国際コンピュータビジョン会議論文集 . pp. 1150– 1157. CiteSeerX 10.1.1.131.1283 . doi : 10.1109/ICCV.2003.1238356 . ISBN 978-0-7695-1950-0 . S2CID 15620181 .^ T. Leung; J. Malik (2001). 「3次元テキストンを用いた材質の視覚的外観の表現と認識」 (PDF) . International Journal of Computer Vision . 43 (1): 29– 44. doi : 10.1023/A:1011126920638 . S2CID 14915716 . ^ T. Hoffman (1999). 「確率的潜在意味解析」 (PDF) . 第15回人工知能における不確実性に関する会議議事録 . 2007年7月10日時点の オリジナル (PDF)からアーカイブ。 2007年12月10日 閲覧 。 ^ シビック、J.;ブリティッシュコロンビア州ラッセル。エフロス、AA;ジッサーマン、A.ウェストバージニア州フリーマン (2005)。 「画像内の物体とその位置の発見」 (PDF) 。 第 10 回 IEEE コンピュータ ビジョン国際会議 (ICCV'05) 第 1 巻 。 p. 370. CiteSeerX 10.1.1.184.1253 。 土井 : 10.1109/ICCV.2005.77 。 ISBN 978-0-7695-2334-7 . S2CID 206769491 . 2020年1月31日時点のオリジナル (PDF)からアーカイブ 。2007年12月10日 閲覧。^ D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ed.). "Latent Dirichlet Allocation" (PDF) . Journal of Machine Learning Research . 3 ( 4–5 ): 993– 1022. doi : 10.1162/jmlr.2003.3.4-5.993 . 2008年8月22日時点の オリジナル (PDF) からアーカイブ。 2007年12月10日 閲覧 。 ^ Serre, T.; Wolf, L.; Poggio, T. (2005). 「視覚皮質に着想を得た特徴を用いた物体認識」 (PDF) . 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) . 第2巻. p. 994. CiteSeerX 10.1.1.71.5276 . doi : 10.1109/CVPR.2005.254 . ISBN 978-0-7695-2372-9 . S2CID 260426 .オリジナル (PDF) から2017年7月6日にアーカイブ。2007年12月10日 閲覧。^ a b Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik ; Cordelia Schmid (2007). 「テクスチャと物体カテゴリーの分類のための局所特徴とカーネル:包括的な研究」 (PDF) . International Journal of Computer Vision . 73 (2): 213– 238. doi : 10.1007/s11263-006-9794-4 . S2CID 1486613. 2018年4月13日時点の オリジナル (PDF) からアーカイブ。 2008年1月16日 閲覧 。 ^ a b Grauman, K.; Darrell, T. (2005). 「ピラミッドマッチカーネル:画像特徴セットを用いた識別的分類」 (PDF) . 第10回IEEE国際コンピュータビジョン会議 (ICCV'05) 第1巻 . p. 1458. CiteSeerX 10.1.1.644.6159 . doi : 10.1109/ICCV.2005.239 . ISBN 978-0-7695-2334-7 . S2CID 13036203 .^ Jianchao Yang、Kai Yu、Yihong Gong、Huang, T. (2009). 「画像分類のためのスパースコーディングを用いた線形空間ピラミッドマッチング」 . 2009 IEEE Conference on Computer Vision and Pattern Recognition . p. 1794. doi : 10.1109/CVPR.2009.5206757 . ISBN 978-1-4244-3992-8 . S2CID 440212 . 2019年3月20日時点のオリジナルよりアーカイブ 。2011年9月9日 閲覧。^ Savarese, S.; Winn, J.; Criminisi, A. (2006). 「相関による外観と形状の識別的オブジェクトクラスモデル」 (PDF) . 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06) . Vol. 2. p. 2033. CiteSeerX 10.1.1.587.8853 . doi : 10.1109/CVPR.2006.102 . ISBN 978-0-7695-2597-6 . S2CID 1457124 . 2013年10月29日時点のオリジナル (PDF)からアーカイブ 。2007年12月10日 閲覧。^ Sudderth, EB; Torralba, A.; Freeman, WT; Willsky, AS (2005). 「シーン、オブジェクト、パーツの階層的モデルの学習」 (PDF) . 第10回IEEE国際コンピュータビジョン会議 (ICCV'05) 第1巻 . p. 1331. CiteSeerX 10.1.1.128.7259 . doi : 10.1109/ICCV.2005.137 . ISBN 978-0-7695-2334-7 . S2CID 6153430 . 2019年2月3日にオリジナル (PDF)からアーカイブ 。2007年12月10日 閲覧。^ E. Sudderth、A. Torralba、W. Freeman、A. Willsky (2005). 「変換ディリクレ過程を用いた視覚シーンの記述」 (PDF) . Proc. of Neural Information Processing Systems . ^ Niebles, Juan Carlos; Li Fei-Fei (2007). 「人間の行動分類のための形状と外観の階層モデル」 (PDF) . 2007 IEEE Conference on Computer Vision and Pattern Recognition . p. 1. CiteSeerX 10.1.1.173.2667 . doi : 10.1109/CVPR.2007.383132 . ISBN 978-1-4244-1179-5 . S2CID 9213242 .^ Lazebnik, S. ; Schmid, C. ; Ponce, J. (2006). 「特徴バッグを超えて:自然シーンカテゴリー認識のための空間ピラミッドマッチング」 (PDF) . 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06) . Vol. 2. p. 2169. CiteSeerX 10.1.1.651.9183 . doi : 10.1109/CVPR.2006.68 . ISBN 978-0-7695-2597-6 . S2CID 2421251 . 2018年5月8日にオリジナル (PDF)からアーカイブ 。2007年12月10日 閲覧。^ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (2013-05-01). 「視覚概念検出における中レベル特徴コーディングアプローチとプーリング戦略の比較」. Computer Vision and Image Understanding . 117 (5): 479– 492. doi : 10.1016/j.cviu.2012.10.010 . ISSN 1077-3142 . ^ a b Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (2017-02-24). 「bags-of-wordsのための高次出現プーリング:視覚的概念検出」 (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 39 (2): 313– 326. doi : 10.1109/TPAMI.2016.2545667 . hdl : 10044/1/39814 . ISSN 0162-8828 . PMID 27019477 . ^ Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (2010-06-01). 「局所記述子の集約によるコンパクトな画像表現」. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (PDF) . pp. 3304– 3311. doi : 10.1109/CVPR.2010.5540039 . ISBN 978-1-4244-6984-0 . S2CID 1912782 .^ Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (2017-02-24). 「花の画像を用いた植物種の分類 ― 局所特徴表現の比較研究」 . PLOS ONE . 12 (2) e0170629. Bibcode : 2017PLoSO..1270629S . doi : 10.1371/ journal.pone.0170629 . ISSN 1932-6203 . PMC 5325198. PMID 28234999 .
外部リンク