カリフォルニア工科大学101

画像のデータセット

Caltech 101は、2003年9月に作成され、カリフォルニア工科大学Fei-Fei Li、Marco Andreetto、Marc 'Aurelio Ranzato、Pietro Peronaによって編集されたデジタル画像データセットです。コンピュータービジョンの研究と技術を促進することを目的としており、画像認識の分類と分類を含む技術に最も適しています。Caltech 101には合計9,146枚の画像が含まれており、101の異なるオブジェクトカテゴリ(時計アリピアノなど)と背景カテゴリに分割されています。画像には、各画像のアウトラインを説明する一連の注釈と、表示用のMatlabスクリプトが付属しています。

目的

ほとんどのコンピュータービジョンおよび機械学習アルゴリズムは、サンプル入力を用いて学習することで機能します。これらのアルゴリズムが効果的に機能するには、大規模かつ多様な学習データセットが必要です。例えば、ポール・ヴィオラとマイケル・J・ジョーンズが使用したリアルタイム顔検出手法は、4,916個の手作業でラベル付けされた顔を用いて学習されました。[1]

興味のあるポイントを切り取ったり、サイズ変更したり、手動でマークを付けたりするのは面倒で時間がかかります。

歴史的に、コンピュータービジョン研究で使用されるデータセットのほとんどは、取り組んでいるプロジェクトの特定のニーズに合わせて調整されてきました。コンピュータービジョン技術を比較する際の大きな問題は、ほとんどのグループが独自のデータセットを使用していることです。データセットごとに特性が異なる場合があり、異なる手法から報告された結果を直接比較することが困難になります。例えば、画像サイズ、画質、画像内のオブジェクトの相対的な位置、遮蔽や乱雑さのレベルの違いによって、結果が異なる可能性があります。[2]

Caltech 101 データ セットは、これらの一般的な問題の多くを軽減することを目的としています。

  • 画像は切り取られ、サイズが変更されます。
  • 多くのカテゴリが表現されており、単一クラスと複数クラスの両方の認識アルゴリズムに適しています。
  • オブジェクトの詳細なアウトラインがマークされます。
  • 一般に利用できる Caltech 101 は、異なるデータ セットによる偏りなく、さまざまなアルゴリズムを比較するための共通標準として機能します。

しかし、その後の研究では、制御されていない自然画像(Caltech 101データセットなど)に基づくテストは深刻な誤解を招き、間違った方向に進歩を導く可能性があることが示されました。[3]

データセット

画像

Caltech 101 データ セットは、合計 9,146 枚の画像で構成され、101 の異なるオブジェクト カテゴリと追加の背景/乱雑なカテゴリに分割されています。

各オブジェクトカテゴリには40~800枚の画像が含まれます。顔などの一般的で人気のあるカテゴリは、他のカテゴリよりも画像数が多くなる傾向があります。

各画像は約300×200ピクセルです。飛行機バイクなどの方向を持つ物体の画像は左右対称になるように反転され、建物などの垂直方向の構造物は軸からずれるように回転されています。

注釈

各画像には、一連の注釈が提供されます。各注釈には、オブジェクトが位置する大まかな境界ボックスと、オブジェクトを囲む人間が指定した詳細な輪郭という2つの情報が含まれています。

注釈にはMatlabスクリプトが付属しています。画像とそれに対応する注釈ファイルを読み込み、Matlabの図として表示します。

用途

Caltech 101データセットは、複数のコンピュータービジョン認識および分類アルゴリズムの学習とテストに使用されました。Caltech 101を使用した最初の論文は、ワンショット学習に対する増分ベイズアプローチでした[4]。 これは、他のクラスの事前知識に基づいて、わずかな例のみを使用してオブジェクトを分類する試みです。

Caltech 101の画像は注釈とともに、Caltechでの別の単発学習論文にも使用されました。[5]

Caltech 101 データ セットの使用を報告するその他のコンピューター ビジョンの論文には次のものがあります。

  • 低歪み対応を用いた形状マッチングと物体認識。Alexander C. Berg、Tamara L. Berg Jitendra Malik。CVPR 2005
  • ピラミッドマッチカーネル:画像特徴セットを用いた識別的分類 K. GraumanとT. Darrell. 国際コンピュータビジョン会議 (ICCV), 2005 [6]
  • 生成モデルとフィッシャーカーネルを組み合わせた物体クラス認識Holub, AD. Welling, M. Perona, P. 国際コンピュータビジョン会議 (ICCV), 2005 [7]
  • 視覚野に着想を得た特徴を用いた物体認識.T. Serre, L. Wolf, T. Poggio.2005年IEEEコンピュータソサエティ会議コンピュータビジョンとパターン認識(CVPR 2005)の議事録,IEEEコンピュータソサエティ出版,サンディエゴ,2005年6月[8]
  • SVM-KNN:視覚カテゴリー認識のための識別的最近傍分類 Hao Zhang、Alex Berg、Michael Maire、Jitendra Malik . CVPR、2006 [9]
  • バッグ・オブ・フィーチャーズを超えて:自然シーンカテゴリー認識のための空間ピラミッドマッチング。スヴェトラーナ・ラゼブニクコーデリア・シュミット、ジーン・ポンセ。CVPR、2006年[10]
  • 物体分類のためのマルチスケールフィルタバンクの実証的研究 MJ Mar韓-Jim閚ez、N. P閞ez de la Blanca. 2005年12月[11]
  • ジム・マッチとデビッド・G・ロウ「スパースで局所的な特徴を用いた多クラス物体認識」pp. 11–18, CVPR 2006, IEEE Computer Society Press, ニューヨーク, 2006年6月[12]
  • 生成フレームワークにおける従属領域またはオブジェクト分類の利用 G. Wang, Y. Zhang, L. Fei-Fei. IEEE Comp. Vis. Patt. Recog. 2006 [13]

分析と比較

利点

Caltech 101 には、他の同様のデータ セットに比べていくつかの利点があります。

  • 均一なサイズとプレゼンテーション:
    • 各カテゴリ内のほぼすべての画像は、画像サイズと対象物の相対位置が均一です。Caltech 101のユーザーは、通常、画像を使用する前にトリミングや拡大縮小を行う必要はありません。
  • 乱雑さ/閉塞感の低さ:
    • 認識に関わるアルゴリズムは通常、物体固有の特徴を記憶することで機能します。しかし、撮影された画像の多くは、程度の差はあれ背景の乱雑さを含んでいるため、アルゴリズムが誤って構築される可能性があります。
  • 詳細な注釈

弱点

Caltech 101データセット[3] [14]の弱点は 、意図的なトレードオフである可能性もあるが、データセット自体の限界によるものもある。Caltech 101のみに依拠した論文は、しばしば却下される。

弱点は次のとおりです:

  • データ セットがきれいすぎる:
    • 画像は非常に均一な表示で、左から右に整列しており、通常は遮蔽されていません。そのため、画像は、アルゴリズムが後で想定する実際の入力を必ずしも反映しているとは限りません。実際の状況では、画像はより雑然としており、遮蔽されており、対象物体の相対的な位置と方向に大きなばらつきが見られます。この均一性により、カテゴリの平均を用いて概念を導出することが可能になりますが、これは現実的ではありません。
  • カテゴリーの数は限られています:
    • Caltech 101 データ セットは、考えられるオブジェクト カテゴリのほんの一部しか表していません。
  • 一部のカテゴリには画像がほとんど含まれていません。
    • 一部のカテゴリは他のカテゴリほど適切に表示されておらず、画像が 31 枚しかないものもあります。
    • これは、次のことを意味します。トレーニングに使用する画像の数は 30 以下である必要がありますが、これはすべての目的には十分ではありません。 t r 1つの n 30 {\displaystyle \mathrm {N} _{\mathrm {train} }\leq 30}
  • 操作によるエイリアシングとアーティファクト:

その他のデータセット

  • Caltech 256は、2007年に作成された別の画像データセットです。Caltech 101の後継であり、Caltech 101のいくつかの弱点に対処することを目的としています。全体的に、Caltech 101よりも難しいデータセットですが、同様の問題を抱えています。これには[3]が含まれます。
    • 30,607枚の画像、より多くのカテゴリをカバー
    • カテゴリーごとの最小画像数を80枚に引き上げ
    • 画像が左右揃えになっていません
    • 画像表示のバリエーションが広がる
  • LabelMeは、 MITコンピュータ科学・人工知能研究所(CSAIL)で作成されたオープンで動的なデータセットです。LabelMeは、大規模な画像データセットの作成という問題に対して、異なるトレードオフを伴う独自のアプローチを採用しています。
    • 106,739 枚の画像、41,724 枚の注釈付き画像、および 203,363 個のラベル付きオブジェクト。
    • ユーザーはアップロードによってデータセットに画像を追加したり、既存の画像にラベルや注釈を追加したりできます。
    • LabelMe はオープンな性質を持っているため、Caltech 101 よりもはるかに広い範囲をカバーする画像が豊富にあります。ただし、どの画像をアップロードするか、各画像にどのようなラベルを付けて注釈を付けるかについては各人が決定するため、画像の一貫性は低くなります。
  • VOC 2008は、視覚的分類手法のベンチマークのための画像収集を目指す欧州の取り組みです。Caltech 101/256と比較すると、収集されるカテゴリ数は少なく(約20)、各カテゴリの画像数はより多くなっています。
  • オーバーヘッドイメージ研究データセット(OIRDS)は、画像とツールの注釈付きライブラリです。[15] OIRDS v1.0は、オーバーヘッドイメージに注釈が付けられた乗用車オブジェクトで構成されています。OIRDSの乗用車には、乗用車、トラック、バンなどが含まれます。オブジェクトの輪郭に加えて、OIRDSには、画像のコンテキストにおける車両を定量化する主観的および客観的な統計が含まれています。例えば、画像の乱雑さ、鮮明度、ノイズ、車両の色といった主観的な指標に加え、地上解像度(GSD)、時刻、通算日といったより客観的な統計も含まれています。
    • 約900枚の画像(約1800枚の注釈付き画像を含む)
    • オブジェクトあたり約30個の注釈
    • オブジェクトあたり約60の統計的尺度
    • オブジェクトのコンテキストの幅広いバリエーション
    • 上空からの映像は乗用車のみに限定
  • MICC-Flickr 101は、2012年にフィレンツェ大学メディア統合コミュニケーションセンター(MICC)で作成された画像データセットです。Caltech 101をベースにしており、Flickrから収集されています。MICC-Flickr 101 [16]は、Caltech 101の主な欠点であるクラス間変動の低さを修正し、ユーザータグによるソーシャルアノテーションを提供しています。MICC-Flickr 101は、扱いやすい数のカテゴリ(101)で構成された標準的で広く使用されているデータセットに基づいているため、制約のあるシナリオ(Caltech 101)におけるオブジェクト分類のパフォーマンスと、同じ101カテゴリにおける「野外」でのオブジェクト分類(MICC-Flickr 101)を比較するために使用できます。

参照

参考文献

  1. ^ Viola, Paul; Jones, Michael J. (2004). 「ロバストなリアルタイム顔検出」. International Journal of Computer Vision . 57 (2): 137– 154. doi :10.1023/B:VISI.0000013087.49260.fb. S2CID  2796017.
  2. ^ Oertel, Carsten; Colder, Brian; Colombe, Jeffrey; High, Julia; Ingram, Michael; Sallee, Phil (2008). 「視覚認識の自動化における現在の課題」. 2008年第37回IEEE応用画像パターン認識ワークショップ. pp.  1– 8. doi :10.1109/AIPR.2008.4906457. ISBN 978-1-4244-3125-0. S2CID  36669995。
  3. ^ abc Pinto, Nicolas; Cox, David D.; Dicarlo, James J. (2008). 「なぜ実世界視覚物体認識は難しいのか?」PLOS Computational Biology . 4 (1): e27. Bibcode :2008PLSCB...4...27P. doi : 10.1371/journal.pcbi.0040027 . PMC 2211529 . PMID  18225950. 
  4. ^ L. Fei-Fei、R. Fergus、P. Perona. 少数の訓練例から生成視覚モデルを学習する:101の物体カテゴリーでテストした増分ベイズ法。IEEE. CVPR 2004、生成モデルベースビジョンに関するワークショップ。2004
  5. ^ L. Fei-Fei; R. Fergus; P. Perona (2006年4月). 「物体カテゴリーのワンショット学習」(PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 28 (4): 594– 611. doi :10.1109/TPAMI.2006.79. PMID  16566508. S2CID  6953475. オリジナル(PDF)から2007年6月9日にアーカイブ。 2008年1月16日閲覧
  6. ^ ピラミッドマッチカーネル:画像特徴セットを用いた識別分類。K. Grauman、T. Darrell。国際コンピュータビジョン会議(ICCV)、2005年
  7. ^ Holub, AD; Welling, M; Perona, P. オブジェクトクラス認識のための生成モデルとフィッシャーカーネルの結合。International Conference on Computer Vision (ICCV), 2005. オリジナルから2007年8月14日アーカイブ。 2008年1月16日閲覧
  8. ^ 視覚皮質に着想を得た特徴を用いた物体認識。T. Serre、L. Wolf、T. Poggio。2005年IEEEコンピュータ協会コンピュータビジョンおよびパターン認識会議(CVPR 2005)の議事録、IEEEコンピュータ協会出版、サンディエゴ、2005年6月
  9. ^ SVM-KNN:視覚カテゴリー認識のための識別的最近傍分類。Hao Zhang、Alex Berg、Michael Maire、Jitendra Malik。CVPR、2006
  10. ^ Bags of Featuresを超えて:自然シーンカテゴリーを認識するための空間ピラミッドマッチング。スヴェトラーナ・ラゼブニクコーデリア・シュミット、ジーン・ポンセ。CVPR、2006
  11. ^ オブジェクト分類のためのマルチスケールフィルタバンクの実証的研究、MJ Mar韓-Jim閚ez、N. P閞ez de la Blanca。2005年12月
  12. ^ ジム・マッチとデビッド・G・ロウによる「スパースで局所的な特徴を用いた多クラス物体認識」、pp. 11–18、CVPR 2006、IEEE Computer Society Press、ニューヨーク、2006年6月
  13. ^ G. Wang; Y. Zhang; L. Fei-Fei (2006). 「生成フレームワークにおける依存領域またはオブジェクト分類の使用」(PDF) . IEEE Comp. Vis. Patt. Recog . オリジナル(PDF)から2007年6月9日にアーカイブ。 2008年1月16日閲覧
  14. ^ J. Ponce; TL Berg; M. Everingham; DA Forsyth; M. Hebert; S. Lazebnik ; M. Marszalek; C. Schmid; BC Russell; A. Torralba; CKI Williams; J. Zhang; A. Zisserman (2006). J. Ponce; M. Hebert; C. Schmid; A. Zisserman (編). 「物体認識におけるデータセットの問題」(PDF) . 「カテゴリーレベルの物体認識に向けて」, Springer-Verlag Lecture Notes in Computer Science. 2016年12月24日時点のオリジナル(PDF )からアーカイブ。2008年2月8日閲覧
  15. ^ F. Tanner、B. Colder、C. Pullen、D. Heagy、C. Oertel、P. Sallee、「Overhead Imagery Research Data Set (OIRDS) – an annotated data library and tools to aid in the development of computer vision algorithms」、2009年6月、<https://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation Archived 2012-11-09 at the Wayback Machine > (2009年12月28日)
  16. ^ 「L. Ballan, M. Bertini, A. Del Bimbo, AM Serain, G. Serra, BF Zaccone. 101のオブジェクトカテゴリーから社会画像を分類するための生成モデルと識別モデルの組み合わせ. パターン認識に関する国際会議 (ICPR), 2012」(PDF) 。 2014年8月26日時点のオリジナル(PDF)からアーカイブ。 2012年7月11日閲覧
  • http://www.vision.caltech.edu/Image_Datasets/Caltech101/ 2013年12月6日アーカイブ- Caltech 101ホームページ(ダウンロードを含む)
  • http://www.vision.caltech.edu/Image_Datasets/Caltech256/ – Caltech 256 ホームページ(ダウンロードを含む)
  • http://labelme.csail.mit.edu/ – LabelMe ホームページ
  • http://www2.it.lut.fi/project/visiq/ – ランダム化された Caltech 101 のダウンロードページ (ダウンロードを含む)
  • http://www.micc.unifi.it/vim/datasets/micc-flickr-101/ – MICC-Flickr101 ホームページ(ダウンロードを含む)
「https://en.wikipedia.org/w/index.php?title=Caltech_101&oldid=1332046897」から取得