画像データセット

ImageNetプロジェクトは、視覚物体認識ソフトウェアの研究に使用するために設計された大規模な視覚データベースです。1400万枚以上の[ 1 ] [ 2 ]画像が、どのような物体が写っているかを示すためにプロジェクトによって手作業で注釈付けされており、少なくとも100万枚の画像には境界ボックスも提供されています。[ 3 ] ImageNetには2万以上のカテゴリが含まれており、[ 2 ]「風船」や「イチゴ」などの典型的なカテゴリは数百枚の画像で構成されています。[ 4 ]サードパーティの画像URLの注釈データベースはImageNetから直接無料で入手できますが、実際の画像はImageNetが所有しているわけではありません。[ 5 ] 2010年以来、ImageNetプロジェクトは毎年ソフトウェアコンテスト「ImageNet Large Scale Visual Recognition Challenge(ILSVRC)」を開催しており、ソフトウェアプログラムが物体やシーンを正しく分類・検出することを競っています。このコンテストでは、重複しない1000個のクラスの「トリミングされた」リストを使用します。[ 6 ]

歴史

[編集]

AI研究者のフェイフェイ・リーは、 2006年にImageNetのアイデアに取り組み始めました。ほとんどのAI研究がモデルとアルゴリズムに焦点を当てていた当時、リーはAIアルゴリズムのトレーニングに利用できるデータの拡張と改善を望んでいました。[ 7 ] 2007年、リーはWordNetの作成者の1人であるプリンストン大学のクリスティアン・フェルバウム教授と会い、プロジェクトについて話し合いました。この会談の結果、リーはWordNetの約22,000の名詞から始めて、その多くの機能を使用してImageNetを構築することになりました。[ 8 ]彼女はまた、平均的な人が約30,000種類の異なるオブジェクトを認識するという1987年の推定[ 9 ]にも触発されました。 [ 10 ]

プリンストン大学の助教授として、リーはImageNetプロジェクトに取り組む研究者チームを編成しました。彼らは画像の分類にAmazon Mechanical Turkを使用しました。ラベル付けは2008年7月に開始され、2010年4月に終了しました。167か国から49,000人の作業員が、1億6,000万枚以上の候補画像をフィルタリングおよびラベル付けしました。 [ 11 ] [ 8 ] [ 12 ]彼らは1,400万枚の画像それぞれを3回ラベル付けするのに十分な予算を持っていました。[ 10 ]

当初の計画では、カテゴリごとに1万枚の画像、4億枚の画像で4万カテゴリ、それぞれ3回検証することになっていました。彼らは、人間が1秒あたり最大2枚の画像を分類できることを発見しました。このペースでは、19人の人間の労働年(休憩なし)がかかると推定されました。[ 13 ]

彼らは、2009年にフロリダで開催されたコンピュータビジョンとパターン認識に関する会議(CVPR)で、「ImageNet:大規模階層型データセットのプレビュー」と題したポスターとして、初めてデータベースを発表しました。 [ 14 ] [ 8 ] [ 15 ] [ 16 ]このポスターは、2009年の視覚科学協会で再利用されました。[ 17 ]

2009年、アレックス・バーグは物体の位置特定をタスクとして追加することを提案しました。リーは2009年にPASCALビジュアルオブジェクトクラスコンテストに協力を申し出ました。その結果、 2010年にはImageNet大規模視覚認識チャレンジが開始されました。このチャレンジは1000のクラスと物体の位置特定を備えており、PASCAL VOCは20クラスと19,737枚の画像(2010年)しかありませんでした。[ 6 ] [ 8 ]

ディープラーニングにおける意義

[編集]

2012年9月30日、AlexNet [ 18 ]と呼ばれる畳み込みニューラルネットワーク(CNN)は、ImageNet 2012 Challengeでトップ5エラー15.3%を達成しました。これは、次点のエラーよりも10.8パーセントポイント以上低い数値です。畳み込みニューラルネットワークの使用は、トレーニング中にグラフィックス処理装置(GPU)を使用することで実現可能になりました。[ 18 ] GPUはディープラーニング革命の不可欠な要素です。エコノミスト誌によると、「突然、AIコミュニティだけでなく、テクノロジー業界全体で人々の注目が集まり始めました。」[ 4 ] [ 19 ] [ 20 ]

2015年、AlexNetは、テストセットで3.57%のエラーを記録し、ImageNet 2015コンテストで優勝した、100層を超えるMicrosoft非常にディープなCNNに性能で負けました。[ 21 ]

アンドレイ・カルパシーは2014年に集中的な努力をすれば5.1%のエラー率を達成できると推定し、彼の研究室の約10人はより少ない努力で約12~13%のエラー率を達成したと推定しました。[ 22 ] [ 23 ]最大限の努力をすれば、人間は2.4%に到達できると推定されました。[ 6 ]

データセット

[編集]

ImageNetはアノテーションプロセスをクラウドソーシングしています。画像レベルのアノテーションは、「この画像にはトラがいます」や「この画像にはトラがいません」など、画像内のオブジェクトクラスの有無を示します。オブジェクトレベルのアノテーションは、示されたオブジェクト(の見える部分)の周囲に境界ボックスを提供します。ImageNetは、広範なWordNetスキーマのバリエーションを使用してオブジェクトを分類し、きめ細かい分類を示すために120の犬種のカテゴリを追加しています。 [ 6 ]

2012年、ImageNetはMechanical Turkの世界最大の学術ユーザーでした。平均的な作業者は1分あたり50枚の画像を識別しました。[ 2 ]

ImageNet全体の当初の計画では、約5万枚のシンセットにまたがる、約5000万枚のクリーンで多様性のあるフル解像度の画像が含まれる予定でした。[ 15 ]これは達成されませんでした。

2010年4月30日時点の要約統計:[ 24 ]

  • 空でないシンセットの総数:21841
  • 画像総数:14,197,122枚
  • バウンディングボックス注釈付き画像数:1,034,908枚
  • SIFT特徴量付きシノニムセット数:1000
  • SIFT特徴量付き画像数:120万枚

カテゴリ

[編集]

ImageNetのカテゴリはWordNetの概念からフィルタリングされました。各概念は複数の同義語(例:「子猫」と「若い猫」)を含む可能性があるため、「同義語セット」または「synset」と呼ばれます。WordNet 3.0には10万以上のsynsetがあり、その大部分(8万以上)は名詞です。ImageNetデータセットは、これらを視覚的に図示できる 可算名詞である21,841のsynsetにフィルタリングしました。

WordNet 3.0の各synsetには、「WordNet ID」(wnid)があります。これは、品詞と「オフセット」(一意の識別番号)を連結したものです。ImageNetには名詞のみが含まれているため、すべてのwnidは「n」で始まります。たとえば、synset「犬、飼い犬、Canis familiaris 」のwnidは「n02084071」です。[ 25 ]

ImageNetのカテゴリは、レベル1(「哺乳類」など)からレベル9(「ジャーマン・シェパード」など)までの9つのレベルに分類されます。[ 13 ]

画像形式

[編集]

画像は、複数の言語の同義語を使用して、オンライン画像検索(GooglePicsearchMSNYahooFlickrなど)から収集されました。例:ジャーマン・シェパード、ジャーマン・ポリス・ドッグ、ジャーマン・シェパード・ドッグ、アルザス語、オーヴェジェロ・アレマン、パストーレ・テデスコ、德国牧羊犬[ 26 ]

ImageNetは、さまざまな解像度のRGB形式の画像で構成されています。たとえば、ImageNet 2012の「魚」カテゴリでは、解像度は4288 x 2848から75 x 56の範囲です。機械学習では、これらは通常、ニューラルネットワークによるさらなる処理の前に、標準的な一定解像度に前処理され、白色化されます

例えば、PyTorchでは、ImageNet画像はデフォルトでピクセル値を0と1の間になるように割り算し、[0.485, 0.456, 0.406]を減算し、[0.229, 0.224, 0.225]で割ることで正規化されます。これらはImageNetの平均と標準偏差なので、入力データは白色化されます。 [ 27 ]

ラベルとアノテーション

[編集]

各画像には、正確に1つのwnidがラベル付けされます。

ImageNet-1Kのdense SIFT特徴量(生のSIFT記述子、量子化されたコードワード、および各記述子/コードワードの座標)は、 bag of visual words用に設計されており、ダウンロード可能です[ 28 ]

オブジェクトの境界ボックスは約3000の一般的なシンセット[ 29 ]で利用可能であり、各シンセットには平均150枚の画像が含まれていました[ 30 ] 。

さらに、一部の画像には属性があります。彼らは約400の人気のあるシンセットに対して25の属性を公開しました。[ 31 ] [ 32 ]

  • :黒、青、茶、灰色、緑、オレンジ、ピンク、赤、紫、白、黄
  • 模様:斑点模様、縞模様
  • 形状:細長い、丸い、長方形、正方形
  • 質感:毛皮のような、滑らかな、ざらざらした、光沢のある、金属的な、植物のような、木製の、濡れた

ImageNet-21K

[編集]

完全な元のデータセットはImageNet-21Kと呼ばれています。ImageNet-21kには、21,841のクラスに分割された14,197,122枚の画像が含まれています。いくつかの論文では、これをまとめてImageNet-22kと呼んでいます。[ 33 ]

ImageNet-21kの完全版は2011年秋にリリースされましたfall11_whole.tar。ImageNet-21kには、公式の学習・検証・テストの分割はありません。クラスによっては1~10個のサンプルしか含まれないものもあれば、数千個のサンプルが含まれるものもあります。[ 33 ]

ImageNet-1K

[編集]

ImageNetデータセットには、さまざまなコンテキストで使用される様々なサブセットがあり、「バージョン」と呼ばれることもあります。[ 18 ]

ImageNetで最もよく使用されるサブセットの1つは、「ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017 画像分類および位置推定データセット」です。これは、研究文献ではImageNet-1KまたはILSVRC2017とも呼ばれ、1,000クラスを含む元のILSVRCチャレンジを反映しています。ImageNet-1Kには、1,281,167枚の学習画像、50,000枚の検証画像、100,000枚のテスト画像が含まれています。[ 34 ]

ImageNet-1Kの各カテゴリはリーフカテゴリであり、ImageNet-21Kとは異なり、その下に子ノードはありません。例えば、ImageNet-21Kでは単に「哺乳類」に分類された画像がいくつかありますが、ImageNet-1Kでは「ジャーマン・シェパード」の下に子単語がないため、「ジャーマン・シェパード」のようなカテゴリに分類された画像しかありません。[ 26 ]

その後の開発

[編集]

ImageNetを構築したWordNetでは、「人物」サブツリーに2832個のシノセットが含まれていました。2018年から2020年にかけて、これらの人物シノセットを徹底的にフィルタリングしたため、ImageNet-21kのダウンロードは削除されました。この2832個のシノセットのうち、1593個は「潜在的に不快」と判断されました。残りの1239個のうち、1081個は実際には「視覚的」ではないと判断されました。その結果、残ったシノセットは158個のみでした。そのうち、「さらなる調査」のために100枚以上の画像を含むものはわずか139個でした。[ 12 ] [ 35 ] [ 36 ]

2021年冬、ImageNet-21kが更新されました。学習済みモデルにおける「問題のある行動」を防ぐため、「人物」サブツリーの2702のカテゴリが削除されました。その結果、「人物」サブツリーには130のシンセットのみが残りました。さらに、2021年には、ImageNet-1kが更新され、997の非人物カテゴリに現れる顔をぼかしました。ImageNet-1kの全1,431,093枚の画像のうち、243,198枚(17%)に少なくとも1つの顔が含まれていることがわかりました。顔の総数は562,626枚です。これらの顔をぼかしたデータセットでモデルを学習しても、パフォーマンスの低下は最小限に抑えられることがわかりました。[ 37 ] [ 38 ]

ImageNet-Cは、2019年に構築されたImageNetの敵対的摂動バージョンです。[ 39 ]

ImageNetV2は、オリジナルのImageNetと同じ手法で構築された、それぞれ10,000枚のテストセット3つを含む新しいデータセットでした。[ 40 ]

ImageNet-21K-Pは、ImageNet-21Kのフィルタリングおよびクリーニングされたサブセットで、11,221のカテゴリから12,358,688枚の画像が含まれています。すべての画像は224 x 224ピクセルにサイズ変更されました。[ 33 ]

データセット一覧
名称 公開 クラス トレーニング 検証 テスト サイズ
PASCAL VOC 2005 20
ImageNet-1K 2009 1,000 1,281,167 50,000 100,000 130 GB
ImageNet-21K 2011 21,841 14,197,122 1.31 TB
ImageNetV2 2019 30,000
ImageNet-21K-P 2021 11,221 11,797,632 561,052 250 GB [ 33 ]

ImageNetチャレンジの歴史

[編集]
ImageNetのエラー率の履歴(チームごとの最高結果と年間最大10件のエントリーを表示)。AlexNetの2012年のエントリーがはっきりと確認できます

ILSVRCは、2005年に設立された、約2万枚の画像と20のオブジェクトクラスのみを含む小規模なPASCAL VOCチャレンジの「足跡をたどる」ことを目指しています。 [ 6 ] ImageNetを「民主化」するために、Fei-Fei LiはPASCAL VOCチームに、2010年から開始される共同研究を提案しました。この共同研究では、研究チームが与えられたデータセットでアルゴリズムを評価し、いくつかの視覚認識タスクでより高い精度を達成するために競い合います。[ 8 ]

結果として生まれた毎年恒例のコンテストは、現在ImageNet Large Scale Visual Recognition Challenge(ILSVRC)として知られています。ILSVRCでは、完全なImageNetスキーマによって分類される120種類の犬種のうち90種類を含む、わずか1000個の画像カテゴリまたは「クラス」の「トリミングされた」リストを使用しています。[ 6 ]

2010年代には画像処理が劇的に進歩しました

2010年の第1回大会には11チームが参加しました。優勝チームは線形サポートベクターマシン(SVM)でした。特徴量はHoGLBPの稠密グリッドで、局所座標コーディングとプーリングによってスパース化されています。[ 41 ]分類精度は52.9%、トップ5精度は71.8%を達成しました。このシステムは、3台の8コアマシン(デュアルクアッドコア2GHz Intel Xeon CPU)で4日間トレーニングされました。[ 42 ]

2011年の第2回大会はチーム数が少なく、別のSVMがトップ5エラー率25%で優勝しました。[ 10 ]優勝チームは、Florent PerronninとJorge SanchezによるXRCEでした。このシステムは、量子化された[ 43 ] フィッシャーベクトル上で動作する別の線形SVMでした[ 44 ] [ 45 ]トップ5精度は74.2%を達成しました

2012年、 AlexNetと呼ばれる深層畳み込みニューラルネットは、トップ5の精度で84.7%を達成し、大きな飛躍を遂げました。[ 46 ] 2位は、SVM、SIFT、色統計、フィッシャーベクトルなどの従来の汎用アーキテクチャを使用したオックスフォードVGGでした。[ 47 ]その後数年間で、トップ5の精度は90%を超えました。2012年のブレークスルーは「以前からあったすべての要素を組み合わせた」ものでしたが、劇的な定量的改善は、業界全体の人工知能ブームの始まりを示しました。[ 4 ]

2013年には、上位にランクインしたほとんどのエントリで畳み込みニューラルネットワークが使用されていました。物体位置推定の優勝エントリは、物体の分類と位置推定を同時に行うアーキテクチャであるOverFeatでした。 [ 48 ]分類の優勝エントリは、Clarifaiによる複数のCNNのアンサンブルでした。[ 6 ]

2014年までに、50を超える機関がILSVRCに​​参加しました。[ 6 ]分類の優勝者はGoogLeNetでした。[ 49 ]位置推定の優勝者はVGGNetでした。2017年には、38の競合チームのうち29チームが95%以上の精度を達成しました。[ 50 ] 2017年にImageNetは、自然言語を使用して3Dオブジェクトを分類するという、より困難な新しいチャレンジを2018年に開始すると発表しました。3Dデータの作成は既存の2D画像に注釈を付けるよりもコストがかかるため、データセットは小さくなることが予想されます。この分野での進歩の応用は、ロボットナビゲーションから拡張現実まで多岐にわたります。[ 1 ]

2015年の優勝作品はResNetで、人間のパフォーマンスを上回りました。[ 21 ] [ 51 ]しかし、チャレンジの主催者の一人であるオルガ・ルサコフスキーが2015年に指摘したように、ILSVRCは1000カテゴリを超えており、人間はより多くのカテゴリを認識でき、また(プログラムとは異なり)画像のコンテキストを判断することもできます。[ 52 ]

2016年の優勝作品はCUImageで、 Inception v3、Inception v4、Inception ResNet v2、ResNet 200、Wide ResNet 68、Wide ResNet 3の6のネットワークからなるアンサンブルモデルでした。 [ 53 ]次点は、InceptionモジュールとResNetを組み合わせたResNeXtでした。[ 54 ]

2017年の優勝者はSqueeze-and-Excitation Network(SENet)で、トップ5の誤差を2.251%に削減しました。[ 55 ]

コンテストの主催者は2017年に、ベンチマークが解決され、もはや課題がなくなったため、2017年のコンテストが最後のコンテストになると述べました。また、3D画像に関する新しいコンテストを開催すると述べました。[ 1 ]しかし、そのようなコンテストは実現しませんでした。

ImageNetのバイアス

[編集]

ImageNet-1k検証セットのラベルの6%以上が間違っていると推定されています。[ 56 ]また、ImageNet-1kの約10%に曖昧なラベルや誤ったラベルが含まれており、モデルの予測と元のImageNetラベルを提示された場合、人間のアノテーターは元のImageNetで学習された2020年の最先端モデルの予測を好むことが分かっており、これはImageNet-1kが飽和状態にあることを示唆しています。[ 57 ]

2019年に行われたImageNetとWordNetの多層構造(分類、オブジェクトクラス、ラベル付け)の歴史に関する研究では、あらゆる種類の画像に対するほとんどの分類アプローチにバイアス[要説明]が深く根付いていることが説明されました。 [ 58 ] [ 59 ] [ 60 ] [ 61 ] ImageNetは、さまざまなバイアスの原因に対処するために取り組んでいます。[ 62 ]

WordNetの使用における欠点の1つは、カテゴリがImageNetに最適なものよりも「格上げ」される可能性があることです。「ほとんどの人は、この珍しい種類のディプロドクスよりも、レディー・ガガやiPod miniに興味がある。」[説明が必要]

参照

[編集]

参考文献

[編集]
  1. ^ a b c 「新たなコンピュータービジョンの課題は、ロボットに3Dで見る方法を教えることを目指している」。New Scientist。2017年4月7日2018年2月3日閲覧
  2. ^ a b c ジョン・マークオフ(2012年11月19日)「ウェブ画像のための、検索と発見のための新しい技術の創出」ニューヨーク・タイムズ。 2018年2月3日閲覧
  3. ^ 「ImageNet」。2020年9月7日 2020年9月7日時点のオリジナルからアーカイブ。 2022年10月11日閲覧。
  4. ^ a b c 「機能しない状態からニューラルネットワーキングへ」エコノミスト2016年6月25日2018年2月3日閲覧。
  5. ^ 「ImageNetの概要」。ImageNet 2022年10月15日閲覧
  6. ^ a b c d e f g h ルサ コフスキー、オルガ;鄧、佳。スー、ハオ。クラウス、ジョナサン。サシーシュ、サンジーブ。マ、ショーン。黄志恒。カルパシー、アンドレイ。コスラ、アディティヤ。バーンスタイン、マイケル。バーグ、アレクサンダー C.フェイフェイ、リー(2015 年 12 月 1 日)「ImageNet 大規模視覚認識チャレンジ」コンピュータビジョンの国際ジャーナル115 ( 3) : 211–252.arXiv : 1409.0575 土井10.1007/s11263-015-0816-yISSN 1573-1405 
  7. ^ Hempel, Jesse (2018年11月13日). 「フェイフェイ・リーの人類にとってより良いAIの探求」 . Wired . 2019年5月5日閲覧2007年にプリンストン大学に戻り助教授に就任したリーがImageNetのアイデアについて話したとき、教員の協力を得るのに苦労しました。最終的に、コンピュータアーキテクチャを専門とする教授が協力者として加わることに同意しました。
  8. ^ a b c d e Gershgorn, Dave (2017年7月26日). 「AI研究、そしておそらく世界を変革したデータ」 . Quartz . Atlantic Media Co. 2017年7月26日閲覧。WordNetのアプローチについて読んだリーは、2006年にプリンストン大学を訪れた際に、WordNetの継続的な研究に影響を与えた研究者であるクリスティアン・フェルバウム教授と会いました
  9. ^ ビーダーマン、アーヴィング(1987). 「構成要素による認識:人間の画像理解の理論」 . Psychological Review . 94 (2): 115–117 . doi : 10.1037/0033-295x.94.2.115 . ISSN 0033-295X . PMID 3575582.  
  10. ^ a b c リー、ティモシー・B. (2024年11月11日). 頑固なコンピュータ科学者がいかにして偶然にディープラーニングブームを起こしたか」 . Ars Technica . 2024年11月12日閲覧.
  11. ^ リー、フェイフェイ; デン、ジア (2017).私たちはどこにいたのか? 私たちはどこへ向かうのか? (PDF) . Beyond ImageNet Large Scale Visual Recognition Challenge, CVPR 2017ワークショップ (プレゼンテーション).
  12. ^ a b Yang, Kaiyu; Qinami, Klint; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2019年9月17日). 「より公平なデータセットに向けて:ImageNet階層における人物サブツリーの分布のフィルタリングとバランス調整」 . image-net.org .
  13. ^ a b Li, FF. ImageNet. 「クラウドソーシング、ベンチマーク、その他のクールなもの」. CMU VASC Semin 16 (2010): 18-25.
  14. ^ 「CVPR 2009:IEEE Computer Society Conference on Computer Vision and Pattern Recognition」 . tab.computer.org . 2024年11月13日閲覧
  15. ^ a b Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009)、「ImageNet:大規模階層型画像データベース」(PDF)2009年コンピュータビジョンとパターン認識会議、オリジナル(PDF)から2021年1月15日にアーカイブ、 2017年7月26日閲覧
  16. ^ Li, Fei-Fei (2015年3月23日)、「コンピュータに画像を理解するように教える方法」 、 2018年12月16日閲覧
  17. ^ Deng, Jia, et al. 「大規模画像オントロジーの構築と分析」 Vision Sciences Society 186.2 (2009)
  18. ^ a b c Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017年6月). 「ImageNet分類と深層畳み込みニューラルネットワーク」(PDF) . Communications of the ACM . 60 (6): 84– 90. doi : 10.1145/3065386 . ISSN 0001-0782 . S2CID 195908774. 2017年5月24日閲覧.   
  19. ^ 「機械が人間に勝つタスクが増加」 . Financial Times . 2017年11月30日. 2018年2月3日閲覧
  20. ^ ガーシュゴーン、デイブ(2018年6月18日)「AIがシリコンバレーを支配するほど優れた存在になるまでの裏話」 Quartz 2018年12月10日閲覧
  21. ^ a b 何、カイミン、張、シアンユ、任、シャオチン、孫、ジアン(2016年)「画像認識のための深層残差学習」2016 IEEEコンピュータビジョンおよびパターン認識会議(CVPR)。pp . 770–  778。arXiv1512.03385。doi 10.1109 /CVPR.2016.90。ISBN  978-1-4673-8851-1 S2CID  206594692
  22. ^ 「Google Chat の新しいコミュニティ機能と Currents のアップデート」2015年5月22日時点のオリジナルからのアーカイブ
  23. ^ Karpathy, Andrej (2014年9月2日). 「ImageNetでConvNetと対戦して学んだこと」 Andrej Karpathyのブログ
  24. ^ 「ImageNetの概要と統計(2010年4月30日更新)」。2013年1月15日。 2013年1月15日時点のオリジナルよりアーカイブ。 2024年11月13日閲覧
  25. ^ 「ImageNet APIドキュメント」 。2013年1月22日。 2013年1月22日時点のオリジナルよりアーカイブ。 2024年11月13日閲覧
  26. ^ a b Berg, Alex, Jia Deng, L. Fei-Fei. 「Large scale visual recognition challenge 2010」。2010年11月。
  27. ^ 「ImageNetとは異なる画像正規化の標準偏差と平均値 · Issue #20 · openai/CLIP」。GitHub 2024年9月19日閲覧
  28. ^ 「ImageNet」。2013年4月5日。 2013年4月5日時点のオリジナルよりアーカイブ。 2024年11月13日閲覧
  29. ^ https://web.archive.org/web/20181030191122/http://www.image-net.org/api/text/imagenet.sbow.obtain_synset_list
  30. ^ 「ImageNet」 。 2013年4月5日時点のオリジナルよりアーカイブ。
  31. ^ 「ImageNet」 。 2019年12月22日時点のオリジナルよりアーカイブ
  32. ^ Russakovsky, Olga; Fei-Fei, Li (2012). 「大規模データセットにおける属性学習」 . Kutulakos, Kiriakos N. (編).コンピュータビジョンのトレンドとトピック. コンピュータサイエンス講義ノート. 第6553巻. ベルリン、ハイデルベルク:Springer. pp.  1– 14. doi : 10.1007/978-3-642-35749-7_1 . ISBN 978-3-642-35749-7.
  33. ^ a b c d Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (2021年8月5日). 「ImageNet-21Kの大規模事前学習」. arXiv : 2104.10972 [ cs.CV ]
  34. ^ 「ImageNet」 . www.image-net.org . 2022年10月19日閲覧
  35. ^ Yang, Kaiyu; Qinami, Klint; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2020年1月27日). 「より公平なデータセットに向けて:ImageNet階層における人物サブツリーの分布のフィルタリングとバランス調整」 . 2020年公平性、説明責任、透明性に関する会議議事録. ACM. pp.  547– 558. doi : 10.1145/3351095.3375709 . ISBN 978-1-4503-6936-7.
  36. ^ 「NSF Award Search: Award # 1763642」 . www.nsf.gov . 2025年6月7日閲覧
  37. ^ 「ImageNetウェブサイトとデータセットの更新」 . www.image-net.org . 2024年11月13日閲覧
  38. ^ Yang, Kaiyu; Yau, Jacqueline H.; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2022年6月28日). 「ImageNetにおける顔難読化の研究」 .第39回国際機械学習会議議事録. PMLR: 25313–25330
  39. ^ Hendrycks, Dan; Dietterich, Thomas (2019). 「一般的な破損と摂動に対するニューラルネットワークの堅牢性のベンチマーク」arXiv : 1903.12261 [ cs.LG ].
  40. ^ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (2019年5月24日). 「ImageNet分類器はImageNetに一般化できるか?」36回国際機械学習会議論文集. PMLR: 5389–5400 .
  41. ^ ImageNet分類:高速記述子コーディングと大規模SVMトレーニング
  42. ^ Lin, Yuanqing; Lv, Fengjun; Zhu, Shenghuo; Yang, Ming; Cour, Timothee; Yu, Kai; Cao, Liangliang; Huang, Thomas (2011年6月). 「大規模画像分類:高速特徴抽出とSVMトレーニング」 . CVPR 2011. IEEE. pp.  1689– 1696. doi : 10.1109/cvpr.2011.5995477 . ISBN 978-1-4577-0394-2.
  43. ^サンチェス、ホルヘ ペロニン、フロレント(2011年6月)。 「大規模画像分類のための高次元シグネチャ圧縮」。CVPR 2011。IEEE。pp. 1665– 1672。doi 10.1109 /cvpr.2011.5995504。ISBN 978-1-4577-0394-2.
  44. ^ フローレント・ペロニン、ホルヘ・サンチェス、トーマス・メンシンク (2010)。「大規模画像分類のためのフィッシャーカーネルの改良」。コスタス・ダニリディス、ペトロス・マラゴス、ニコス・パラギオス (編)。コンピュータビジョン – ECCV 2010。コンピュータサイエンス講義ノート。第6314巻。ベルリン、ハイデルベルク:シュプリンガー。pp.  143– 156。doi : 10.1007 / 978-3-642-15561-1_11。ISBN  978-3-642-15561-1.
  45. ^ 「XRCE@ILSVRC2011:LSVRのための圧縮フィッシャーベクトル」、フローレン・ペロニンとホルヘ・サンチェス、ゼロックス・リサーチセンター・ヨーロッパ(XRCE)
  46. ^ 「ImageNet大規模視覚認識コンペティション2012(ILSVRC2012)
  47. ^ Russakovsky, Olga; Deng, Jia; Huang, Zhiheng; Berg, Alexander C.; Fei-Fei, Li (2013). 「アボカドからズッキーニまでの検出:これまでの成果と今後の展望」 : 2064– 2071. {{cite journal}}ジャーナルの引用には|journal=ヘルプが必要です)
  48. ^ Sermanet, Pierre; Eigen, David; Zhang, Xiang; Mathieu, Michael; Fergus, Rob; LeCun, Yann (2013). 「OverFeat:畳み込みネットワークを用いた統合認識、位置特定、検出」arXiv : 1312.6229 [ cs.CV ]
  49. ^ Szegedy, Christian; Wei Liu; Yangqing Jia; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015年6月). 「畳み込みの深化」. 2015 IEEE Con​​ference on Computer Vision and Pattern Recognition (CVPR) . IEEE. pp.  1– 9. arXiv : 1409.4842 . doi : 10.1109/CVPR.2015.7298594 . ISBN 978-1-4673-6964-0.
  50. ^ ガーシュゴーン、デイブ(2017年9月10日)「Quartz版人工知能ガイド:人工知能とは何か、なぜ重要なのか、そして私たちは恐れるべきか?」 Quartz 2018年2月3日閲覧
  51. ^マークオフ、ジョン(2015年12月10日)「人工知能における学習の進歩は人間の能力に匹敵する」ニューヨーク・タイムズ。 2016年6月22日閲覧
  52. ^ アーロン、ジェイコブ(2015年9月21日)「チューリングテストは忘れよう ― AIを判断するより良い方法がある」ニュー・サイエンティスト。 2016年6月22日閲覧
  53. ^ 「Ilsvrc2016
  54. ^ Xie, Saining; Girshick, Ross; Dollar, Piotr; Tu, Zhuowen; He, Kaiming (2017).ディープニューラルネットワークのための集約残差変換(PDF) .コンピュータビジョンとパターン認識に関する会議. pp.  1492– 1500. arXiv : 1611.05431 . doi : 10.1109/CVPR.2017.634 .
  55. ^ Hu, Jie; Shen, Li; Albanie, Samuel; Sun, Gang; Wu, Enhua (2017). 「スクイーズ・アンド・エキサイテーション・ネットワーク」. arXiv : 1709.01507 [ cs.CV ]
  56. ^ Northcutt, Curtis G.; Athalye, Anish; Mueller, Jonas (2021年11月7日) 「テストセットにおける広範なラベルエラーが機械学習ベンチマークを不安定にするarXiv : 2103.14749
  57. ^ Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (2020年6月12日) 「ImageNetはもう終わりか?arXiv : 2006.07159
  58. ^ 「あなたにラベルを貼るバイラルアプリは、あなたが思っているものとは全く違う」 Wired . ISSN 1059-1028 . 2019年9月22日閲覧。  
  59. ^ Wong, Julia Carrie (2019年9月18日). 「バイラルセルフィーアプリImageNet Rouletteは楽しそうだった ― 人種差別的な中傷を浴びせられるまでは」 The Guardian . ISSN 0261-3077 . 2019年9月22日閲覧 
  60. ^ クロフォード、ケイト、パグレン、トレバー(2019年9月19日)「AIの発掘:機械学習のためのトレーニングセットの政治学」2019年9月22日閲覧
  61. ^ ライオンズ、マイケル(2020年12月24日)「AIの発掘:ギャラリーの中の象」。arXiv 2009.01215。doi10.5281/zenodo.4037538 {{cite journal}}ジャーナルの引用には|journal=ヘルプが必要です)
  62. ^ より公平なデータセットに向けて:ImageNet階層における人物サブツリーの分布のフィルタリングとバランス調整」。image -net.org。2019年9月17日。 2019年9月22日閲覧

一次資料

[編集]
[編集]