ImageNetプロジェクトは、視覚物体認識ソフトウェアの研究に使用するために設計された大規模な視覚データベースです。1400万枚以上の[ 1 ] [ 2 ]画像が、どのような物体が写っているかを示すためにプロジェクトによって手作業で注釈付けされており、少なくとも100万枚の画像には境界ボックスも提供されています。[ 3 ] ImageNetには2万以上のカテゴリが含まれており、[ 2 ]「風船」や「イチゴ」などの典型的なカテゴリは数百枚の画像で構成されています。[ 4 ]サードパーティの画像URLの注釈データベースはImageNetから直接無料で入手できますが、実際の画像はImageNetが所有しているわけではありません。[ 5 ] 2010年以来、ImageNetプロジェクトは毎年ソフトウェアコンテスト「ImageNet Large Scale Visual Recognition Challenge(ILSVRC)」を開催しており、ソフトウェアプログラムが物体やシーンを正しく分類・検出することを競っています。このコンテストでは、重複しない1000個のクラスの「トリミングされた」リストを使用します。[ 6 ]
AI研究者のフェイフェイ・リーは、 2006年にImageNetのアイデアに取り組み始めました。ほとんどのAI研究がモデルとアルゴリズムに焦点を当てていた当時、リーはAIアルゴリズムのトレーニングに利用できるデータの拡張と改善を望んでいました。[ 7 ] 2007年、リーはWordNetの作成者の1人であるプリンストン大学のクリスティアン・フェルバウム教授と会い、プロジェクトについて話し合いました。この会談の結果、リーはWordNetの約22,000の名詞から始めて、その多くの機能を使用してImageNetを構築することになりました。[ 8 ]彼女はまた、平均的な人が約30,000種類の異なるオブジェクトを認識するという1987年の推定[ 9 ]にも触発されました。 [ 10 ]
プリンストン大学の助教授として、リーはImageNetプロジェクトに取り組む研究者チームを編成しました。彼らは画像の分類にAmazon Mechanical Turkを使用しました。ラベル付けは2008年7月に開始され、2010年4月に終了しました。167か国から49,000人の作業員が、1億6,000万枚以上の候補画像をフィルタリングおよびラベル付けしました。 [ 11 ] [ 8 ] [ 12 ]彼らは1,400万枚の画像それぞれを3回ラベル付けするのに十分な予算を持っていました。[ 10 ]
当初の計画では、カテゴリごとに1万枚の画像、4億枚の画像で4万カテゴリ、それぞれ3回検証することになっていました。彼らは、人間が1秒あたり最大2枚の画像を分類できることを発見しました。このペースでは、19人の人間の労働年(休憩なし)がかかると推定されました。[ 13 ]
彼らは、2009年にフロリダで開催されたコンピュータビジョンとパターン認識に関する会議(CVPR)で、「ImageNet:大規模階層型データセットのプレビュー」と題したポスターとして、初めてデータベースを発表しました。 [ 14 ] [ 8 ] [ 15 ] [ 16 ]このポスターは、2009年の視覚科学協会で再利用されました。[ 17 ]
2009年、アレックス・バーグは物体の位置特定をタスクとして追加することを提案しました。リーは2009年にPASCALビジュアルオブジェクトクラスコンテストに協力を申し出ました。その結果、 2010年にはImageNet大規模視覚認識チャレンジが開始されました。このチャレンジは1000のクラスと物体の位置特定を備えており、PASCAL VOCは20クラスと19,737枚の画像(2010年)しかありませんでした。[ 6 ] [ 8 ]
2012年9月30日、AlexNet [ 18 ]と呼ばれる畳み込みニューラルネットワーク(CNN)は、ImageNet 2012 Challengeでトップ5エラー15.3%を達成しました。これは、次点のエラーよりも10.8パーセントポイント以上低い数値です。畳み込みニューラルネットワークの使用は、トレーニング中にグラフィックス処理装置(GPU)を使用することで実現可能になりました。[ 18 ] GPUはディープラーニング革命の不可欠な要素です。エコノミスト誌によると、「突然、AIコミュニティだけでなく、テクノロジー業界全体で人々の注目が集まり始めました。」[ 4 ] [ 19 ] [ 20 ]
2015年、AlexNetは、テストセットで3.57%のエラーを記録し、ImageNet 2015コンテストで優勝した、100層を超えるMicrosoftの非常にディープなCNNに性能で負けました。[ 21 ]
アンドレイ・カルパシーは2014年に集中的な努力をすれば5.1%のエラー率を達成できると推定し、彼の研究室の約10人はより少ない努力で約12~13%のエラー率を達成したと推定しました。[ 22 ] [ 23 ]最大限の努力をすれば、人間は2.4%に到達できると推定されました。[ 6 ]
ImageNetはアノテーションプロセスをクラウドソーシングしています。画像レベルのアノテーションは、「この画像にはトラがいます」や「この画像にはトラがいません」など、画像内のオブジェクトクラスの有無を示します。オブジェクトレベルのアノテーションは、示されたオブジェクト(の見える部分)の周囲に境界ボックスを提供します。ImageNetは、広範なWordNetスキーマのバリエーションを使用してオブジェクトを分類し、きめ細かい分類を示すために120の犬種のカテゴリを追加しています。 [ 6 ]
2012年、ImageNetはMechanical Turkの世界最大の学術ユーザーでした。平均的な作業者は1分あたり50枚の画像を識別しました。[ 2 ]
ImageNet全体の当初の計画では、約5万枚のシンセットにまたがる、約5000万枚のクリーンで多様性のあるフル解像度の画像が含まれる予定でした。[ 15 ]これは達成されませんでした。
2010年4月30日時点の要約統計:[ 24 ]
ImageNetのカテゴリはWordNetの概念からフィルタリングされました。各概念は複数の同義語(例:「子猫」と「若い猫」)を含む可能性があるため、「同義語セット」または「synset」と呼ばれます。WordNet 3.0には10万以上のsynsetがあり、その大部分(8万以上)は名詞です。ImageNetデータセットは、これらを視覚的に図示できる 可算名詞である21,841のsynsetにフィルタリングしました。
WordNet 3.0の各synsetには、「WordNet ID」(wnid)があります。これは、品詞と「オフセット」(一意の識別番号)を連結したものです。ImageNetには名詞のみが含まれているため、すべてのwnidは「n」で始まります。たとえば、synset「犬、飼い犬、Canis familiaris 」のwnidは「n02084071」です。[ 25 ]
ImageNetのカテゴリは、レベル1(「哺乳類」など)からレベル9(「ジャーマン・シェパード」など)までの9つのレベルに分類されます。[ 13 ]
画像は、複数の言語の同義語を使用して、オンライン画像検索(Google、Picsearch、MSN、Yahoo、Flickrなど)から収集されました。例:ジャーマン・シェパード、ジャーマン・ポリス・ドッグ、ジャーマン・シェパード・ドッグ、アルザス語、オーヴェジェロ・アレマン、パストーレ・テデスコ、德国牧羊犬。[ 26 ]
ImageNetは、さまざまな解像度のRGB形式の画像で構成されています。たとえば、ImageNet 2012の「魚」カテゴリでは、解像度は4288 x 2848から75 x 56の範囲です。機械学習では、これらは通常、ニューラルネットワークによるさらなる処理の前に、標準的な一定解像度に前処理され、白色化されます
例えば、PyTorchでは、ImageNet画像はデフォルトでピクセル値を0と1の間になるように割り算し、[0.485, 0.456, 0.406]を減算し、[0.229, 0.224, 0.225]で割ることで正規化されます。これらはImageNetの平均と標準偏差なので、入力データは白色化されます。 [ 27 ]
各画像には、正確に1つのwnidがラベル付けされます。
ImageNet-1Kのdense SIFT特徴量(生のSIFT記述子、量子化されたコードワード、および各記述子/コードワードの座標)は、 bag of visual words用に設計されており、ダウンロード可能です。[ 28 ]
オブジェクトの境界ボックスは約3000の一般的なシンセット[ 29 ]で利用可能であり、各シンセットには平均150枚の画像が含まれていました[ 30 ] 。
さらに、一部の画像には属性があります。彼らは約400の人気のあるシンセットに対して25の属性を公開しました。[ 31 ] [ 32 ]
完全な元のデータセットはImageNet-21Kと呼ばれています。ImageNet-21kには、21,841のクラスに分割された14,197,122枚の画像が含まれています。いくつかの論文では、これをまとめてImageNet-22kと呼んでいます。[ 33 ]
ImageNet-21kの完全版は2011年秋にリリースされましたfall11_whole.tar。ImageNet-21kには、公式の学習・検証・テストの分割はありません。クラスによっては1~10個のサンプルしか含まれないものもあれば、数千個のサンプルが含まれるものもあります。[ 33 ]
ImageNetデータセットには、さまざまなコンテキストで使用される様々なサブセットがあり、「バージョン」と呼ばれることもあります。[ 18 ]
ImageNetで最もよく使用されるサブセットの1つは、「ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017 画像分類および位置推定データセット」です。これは、研究文献ではImageNet-1KまたはILSVRC2017とも呼ばれ、1,000クラスを含む元のILSVRCチャレンジを反映しています。ImageNet-1Kには、1,281,167枚の学習画像、50,000枚の検証画像、100,000枚のテスト画像が含まれています。[ 34 ]
ImageNet-1Kの各カテゴリはリーフカテゴリであり、ImageNet-21Kとは異なり、その下に子ノードはありません。例えば、ImageNet-21Kでは単に「哺乳類」に分類された画像がいくつかありますが、ImageNet-1Kでは「ジャーマン・シェパード」の下に子単語がないため、「ジャーマン・シェパード」のようなカテゴリに分類された画像しかありません。[ 26 ]
ImageNetを構築したWordNetでは、「人物」サブツリーに2832個のシノセットが含まれていました。2018年から2020年にかけて、これらの人物シノセットを徹底的にフィルタリングしたため、ImageNet-21kのダウンロードは削除されました。この2832個のシノセットのうち、1593個は「潜在的に不快」と判断されました。残りの1239個のうち、1081個は実際には「視覚的」ではないと判断されました。その結果、残ったシノセットは158個のみでした。そのうち、「さらなる調査」のために100枚以上の画像を含むものはわずか139個でした。[ 12 ] [ 35 ] [ 36 ]
2021年冬、ImageNet-21kが更新されました。学習済みモデルにおける「問題のある行動」を防ぐため、「人物」サブツリーの2702のカテゴリが削除されました。その結果、「人物」サブツリーには130のシンセットのみが残りました。さらに、2021年には、ImageNet-1kが更新され、997の非人物カテゴリに現れる顔をぼかしました。ImageNet-1kの全1,431,093枚の画像のうち、243,198枚(17%)に少なくとも1つの顔が含まれていることがわかりました。顔の総数は562,626枚です。これらの顔をぼかしたデータセットでモデルを学習しても、パフォーマンスの低下は最小限に抑えられることがわかりました。[ 37 ] [ 38 ]
ImageNet-Cは、2019年に構築されたImageNetの敵対的摂動バージョンです。[ 39 ]
ImageNetV2は、オリジナルのImageNetと同じ手法で構築された、それぞれ10,000枚のテストセット3つを含む新しいデータセットでした。[ 40 ]
ImageNet-21K-Pは、ImageNet-21Kのフィルタリングおよびクリーニングされたサブセットで、11,221のカテゴリから12,358,688枚の画像が含まれています。すべての画像は224 x 224ピクセルにサイズ変更されました。[ 33 ]
| 名称 | 公開 | クラス | トレーニング | 検証 | テスト | サイズ |
|---|---|---|---|---|---|---|
| PASCAL VOC | 2005 | 20 | ||||
| ImageNet-1K | 2009 | 1,000 | 1,281,167 | 50,000 | 100,000 | 130 GB |
| ImageNet-21K | 2011 | 21,841 | 14,197,122 | 1.31 TB | ||
| ImageNetV2 | 2019 | 30,000 | ||||
| ImageNet-21K-P | 2021 | 11,221 | 11,797,632 | 561,052 | 250 GB [ 33 ] |

ILSVRCは、2005年に設立された、約2万枚の画像と20のオブジェクトクラスのみを含む小規模なPASCAL VOCチャレンジの「足跡をたどる」ことを目指しています。 [ 6 ] ImageNetを「民主化」するために、Fei-Fei LiはPASCAL VOCチームに、2010年から開始される共同研究を提案しました。この共同研究では、研究チームが与えられたデータセットでアルゴリズムを評価し、いくつかの視覚認識タスクでより高い精度を達成するために競い合います。[ 8 ]
結果として生まれた毎年恒例のコンテストは、現在ImageNet Large Scale Visual Recognition Challenge(ILSVRC)として知られています。ILSVRCでは、完全なImageNetスキーマによって分類される120種類の犬種のうち90種類を含む、わずか1000個の画像カテゴリまたは「クラス」の「トリミングされた」リストを使用しています。[ 6 ]
2010年代には画像処理が劇的に進歩しました
2010年の第1回大会には11チームが参加しました。優勝チームは線形サポートベクターマシン(SVM)でした。特徴量はHoGとLBPの稠密グリッドで、局所座標コーディングとプーリングによってスパース化されています。[ 41 ]分類精度は52.9%、トップ5精度は71.8%を達成しました。このシステムは、3台の8コアマシン(デュアルクアッドコア2GHz Intel Xeon CPU)で4日間トレーニングされました。[ 42 ]
2011年の第2回大会はチーム数が少なく、別のSVMがトップ5エラー率25%で優勝しました。[ 10 ]優勝チームは、Florent PerronninとJorge SanchezによるXRCEでした。このシステムは、量子化された[ 43 ] フィッシャーベクトル上で動作する別の線形SVMでした。[ 44 ] [ 45 ]トップ5精度は74.2%を達成しました
2012年、 AlexNetと呼ばれる深層畳み込みニューラルネットは、トップ5の精度で84.7%を達成し、大きな飛躍を遂げました。[ 46 ] 2位は、SVM、SIFT、色統計、フィッシャーベクトルなどの従来の汎用アーキテクチャを使用したオックスフォードVGGでした。[ 47 ]その後数年間で、トップ5の精度は90%を超えました。2012年のブレークスルーは「以前からあったすべての要素を組み合わせた」ものでしたが、劇的な定量的改善は、業界全体の人工知能ブームの始まりを示しました。[ 4 ]
2013年には、上位にランクインしたほとんどのエントリで畳み込みニューラルネットワークが使用されていました。物体位置推定の優勝エントリは、物体の分類と位置推定を同時に行うアーキテクチャであるOverFeatでした。 [ 48 ]分類の優勝エントリは、Clarifaiによる複数のCNNのアンサンブルでした。[ 6 ]
2014年までに、50を超える機関がILSVRCに参加しました。[ 6 ]分類の優勝者はGoogLeNetでした。[ 49 ]位置推定の優勝者はVGGNetでした。2017年には、38の競合チームのうち29チームが95%以上の精度を達成しました。[ 50 ] 2017年にImageNetは、自然言語を使用して3Dオブジェクトを分類するという、より困難な新しいチャレンジを2018年に開始すると発表しました。3Dデータの作成は既存の2D画像に注釈を付けるよりもコストがかかるため、データセットは小さくなることが予想されます。この分野での進歩の応用は、ロボットナビゲーションから拡張現実まで多岐にわたります。[ 1 ]
2015年の優勝作品はResNetで、人間のパフォーマンスを上回りました。[ 21 ] [ 51 ]しかし、チャレンジの主催者の一人であるオルガ・ルサコフスキーが2015年に指摘したように、ILSVRCは1000カテゴリを超えており、人間はより多くのカテゴリを認識でき、また(プログラムとは異なり)画像のコンテキストを判断することもできます。[ 52 ]
2016年の優勝作品はCUImageで、 Inception v3、Inception v4、Inception ResNet v2、ResNet 200、Wide ResNet 68、Wide ResNet 3の6つのネットワークからなるアンサンブルモデルでした。 [ 53 ]次点は、InceptionモジュールとResNetを組み合わせたResNeXtでした。[ 54 ]
2017年の優勝者はSqueeze-and-Excitation Network(SENet)で、トップ5の誤差を2.251%に削減しました。[ 55 ]
コンテストの主催者は2017年に、ベンチマークが解決され、もはや課題がなくなったため、2017年のコンテストが最後のコンテストになると述べました。また、3D画像に関する新しいコンテストを開催すると述べました。[ 1 ]しかし、そのようなコンテストは実現しませんでした。
ImageNet-1k検証セットのラベルの6%以上が間違っていると推定されています。[ 56 ]また、ImageNet-1kの約10%に曖昧なラベルや誤ったラベルが含まれており、モデルの予測と元のImageNetラベルを提示された場合、人間のアノテーターは元のImageNetで学習された2020年の最先端モデルの予測を好むことが分かっており、これはImageNet-1kが飽和状態にあることを示唆しています。[ 57 ]
2019年に行われたImageNetとWordNetの多層構造(分類、オブジェクトクラス、ラベル付け)の歴史に関する研究では、あらゆる種類の画像に対するほとんどの分類アプローチにバイアス[要説明]が深く根付いていることが説明されました。 [ 58 ] [ 59 ] [ 60 ] [ 61 ] ImageNetは、さまざまなバイアスの原因に対処するために取り組んでいます。[ 62 ]
WordNetの使用における欠点の1つは、カテゴリがImageNetに最適なものよりも「格上げ」される可能性があることです。「ほとんどの人は、この珍しい種類のディプロドクスよりも、レディー・ガガやiPod miniに興味がある。」[説明が必要]
2007年にプリンストン大学に戻り助教授に就任したリーがImageNetのアイデアについて話したとき、教員の協力を得るのに苦労しました。最終的に、コンピュータアーキテクチャを専門とする教授が協力者として加わることに同意しました。
のアプローチについて読んだリーは、2006年にプリンストン大学を訪れた際に、WordNetの継続的な研究に影響を与えた研究者であるクリスティアン・フェルバウム教授と会いました
{{cite journal}}:ジャーナルの引用には|journal=(ヘルプが必要です)
{{cite journal}}:ジャーナルの引用には|journal=(ヘルプが必要です)