8000万枚の小さな画像

Dataset for training machine-learning systems

80 Million Tiny Imagesは、アントニオ・トーラルバ、ロブ・ファーガス、ウィリアム・T・フリーマンが MITとニューヨーク大学との共同研究で構築した、機械学習システムの訓練用データセットです。2008年に公開されました。

このデータセットは760GBのサイズで、8ヶ月かけてワールドワイドウェブから収集した画像を縮小した32×32ピクセルのカラー画像79,302,017枚が含まれています。画像は75,062のクラスに分類されています。各クラスはWordNetにおける非抽象名詞です。画像は複数のクラスに出現する場合があります。このデータセットは、画像を見た際の視覚皮質の神経活動に関する非パラメトリックモデルに基づいています。^[1]^[2]

CIFAR -10データセットは、このデータセットの画像のサブセットを使用していますが、元のラベルが信頼できないため、独立して生成されたラベルを使用しています。CIFAR-10セットには10クラスそれぞれ6000件のサンプルが含まれており、CIFAR-100セットには100の重複しないクラスそれぞれ600件のサンプルが含まれています。^[3]

工事

この問題は、2007年4月に技術報告書で初めて報告されました。当時は構築プロセスの途中で、画像数はわずか7300万枚でした。^[4]完全なデータセットは2008年に公開されました。^[1]

彼らはまずWordNetに含まれる75,846個の非抽象名詞全てを収集し、それぞれの名詞について、Altavista、Ask.com、Flickr、Cydral、Google、Picsearch、Webshotsの7つの画像検索エンジンからスクレイピングを行いました。8ヶ月にわたるスクレイピングの結果、97,245,098枚の画像が取得されました。十分なストレージ容量がなかったため、スクレイピング時に画像は32×32に縮小されました。収集後、分散が0の画像と単語内重複画像を除外し、最終的なデータセットを作成しました。

75,846 個の名詞のうち、75,062 クラスのみに結果があったため、残りの名詞は最終データセットには表示されませんでした。

名詞あたりの画像数はジップ分布に似ており、平均すると名詞あたり1056枚です。一部の名詞が過剰な画像数を占めるのを防ぐため、名詞あたり3000枚という上限が設定されています。^[1]

退職

8000万枚の小さな画像データセットは、2020年に作成者によって使用が中止されました。^[5]研究者アベバ・ビルハネ氏とヴィナイ・プラブ氏による論文で、8000万枚の小さな画像を含む複数の公開画像データセットのラベル付けに人種差別的および女性蔑視的な中傷が含まれており、それらのデータセットで訓練されたモデルに人種的および性的バイアスが見られることが判明したことが発表されたためです。データセットには不快な画像も含まれていました。^[6]^[7]論文発表後、データセットの作成者はデータセットを配布から削除し、他の研究者に対し、さらなる研究に使用せず、データセットのコピーを削除するよう要請しました。^[5]

参照

コンピュータービジョンと画像処理のデータセット一覧

参考文献

^ abc Torralba, Antonio; Fergus, Rob; Freeman, William T. (2008年11月). 「8000万枚の小さな画像：ノンパラメトリックな物体・シーン認識のための大規模データセット」（PDF） . IEEE Transactions on Pattern Analysis and Machine Intelligence . 30 (11): 1958– 1970. Bibcode :2008ITPAM..30.1958T. doi :10.1109/TPAMI.2008.128. ISSN 1939-3539. PMID 18787244. S2CID 7487588.
^ 8000万枚の小さな画像、大規模データマイニング、検索エンジン、アプリケーションのための数値計算ツールと高速アルゴリズムに関するIPAMワークショップ、2007年10月23日
^ A. Krizhevsky. 小さな画像から多層的な特徴を学習する. 技術レポート, 2009. トロント大学
^ A Torralba, R Fergus, WT Freeman. 「小さな画像」. 技術報告. MIT-CSAIL-TR-2007-024, 2007.
^ ab 「80 Million Tiny Images」. groups.csail.mit.edu . 2020年7月2日閲覧。
^ Prabhu, Vinay Uday; Birhane, Abeba (2020-06-24). 「大規模画像データセット：コンピュータービジョンにとってピュロス的な勝利か？」arXiv : 2006.16923 [cs.CY].
^ Quach, Katyanna (2020年7月1日). 「MITが謝罪、AIシステムに人種差別的・女性蔑視的な中傷表現の使用を教えた膨大なデータセットを永久にオフラインに」www.theregister.com . 2020年7月2日閲覧。

外部リンク

[Torralba2008-1] Torralba, Antonio; Fergus, Rob; Freeman, William T. (2008年11月). 「8000万枚の小さな画像：ノンパラメトリックな物体・シーン認識のための大規模データセット」（PDF） . IEEE Transactions on Pattern Analysis and Machine Intelligence . 30 (11): 1958– 1970. Bibcode :2008ITPAM..30.1958T. doi :10.1109/TPAMI.2008.128. ISSN 1939-3539. PMID 18787244. S2CID 7487588.

[2] 8000万枚の小さな画像、大規模データマイニング、検索エンジン、アプリケーションのための数値計算ツールと高速アルゴリズムに関するIPAMワークショップ、2007年10月23日

[3] A. Krizhevsky. 小さな画像から多層的な特徴を学習する. 技術レポート, 2009. トロント大学

[4] A Torralba, R Fergus, WT Freeman. 「小さな画像」. 技術報告. MIT-CSAIL-TR-2007-024, 2007.

[:0-5] 「80 Million Tiny Images」. groups.csail.mit.edu . 2020年7月2日閲覧。

[:1-6] Prabhu, Vinay Uday; Birhane, Abeba (2020-06-24). 「大規模画像データセット：コンピュータービジョンにとってピュロス的な勝利か？」arXiv : 2006.16923 [cs.CY].

[7] Quach, Katyanna (2020年7月1日). 「MITが謝罪、AIシステムに人種差別的・女性蔑視的な中傷表現の使用を教えた膨大なデータセットを永久にオフラインに」www.theregister.com . 2020年7月2日閲覧。