CIFAR-10

CIFAR-10データセット(カナダ高等研究院)は、機械学習コンピュータービジョンアルゴリズムの学習に一般的に使用される画像のコレクションです。機械学習研究で最も広く使用されているデータセットの1つです。[ 1 ] [ 2 ] CIFAR-10データセットには、10の異なるクラスに分類された32×32のカラー画像が60,000枚含まれています。[ 3 ] 10の異なるクラスは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックを表しています。各クラスには6,000枚の画像があります。[ 4 ]

写真内の物体を認識するコンピュータアルゴリズムは、多くの場合、例から学習します。CIFAR-10は、コンピュータに物体の認識方法を学習させるために使用できる画像セットです。CIFAR-10の画像は低解像度(32×32)であるため、このデータセットを利用することで、研究者は様々なアルゴリズムを迅速に試し、どのアルゴリズムが効果的かを確認することができます。

CIFAR-10は、2008年に作成された8000万枚の小さな画像データセットのラベル付きサブセットで、2009年に公開されました。データセットが作成されたとき、学生たちはすべての画像にラベルを付ける作業に対して報酬を受け取りました。[ 5 ]

さまざまな種類の畳み込みニューラル ネットワークは、 CIFAR-10 の画像認識に最も優れている傾向があります。

CIFAR-10の最先端の結果を主張する研究論文

これは、CIFAR-10データセットにおいて最先端の結果を達成したと主張する研究論文の一部をまとめた表です。すべての論文が、画像の反転やシフトといった同じ前処理手法を標準化しているわけではありません。そのため、ある論文での最先端的成果の主張は、以前の最先端的成果の主張よりもエラー率が高くても、依然として有効である可能性があります。

論文タイトルエラー率(%)出版日
CIFAR-10における畳み込み深層信念ネットワーク[ 6 ]21.1 2010年8月
マックスアウト・ネットワークス[ 7 ]9.382013年2月13日
ワイド残余ネットワーク[ 8 ]4.02016年5月23日
強化学習によるニューラルアーキテクチャ探索[ 9 ]3.652016年11月4日
分数マックスプーリング[ 10 ]3.472014年12月18日
密結合畳み込みネットワーク[ 11 ]3.462016年8月24日
シェイクシェイク正則化[ 12 ]2.862017年5月21日
ニューラルネットワークの結合アンサンブル[ 13 ]2.682017年9月18日
ShakeDrop正規化[ 14 ]2.67 2018年2月7日
カットアウトを用いた畳み込みニューラルネットワークの改良正則化[ 15 ]2.56 2017年8月15日
画像分類器アーキテクチャ探索のための正規化進化[ 16 ]2.13 2018年2月6日
画像分類におけるリカレントニューラルネットワークの再考とその他の改善[ 17 ]1.64 2020年7月31日
AutoAugment:データから拡張ポリシーを学習する[ 18 ]1.48 2018年5月24日
ニューラルアーキテクチャ探索に関する調査[ 19 ]1.33 2019年5月4日
GPipe:パイプライン並列処理を用いた巨大ニューラルネットワークの効率的な学習[ 20 ]1.00 2018年11月16日
背景情報を用いたクラス活性化の不確実性の低減[ 21 ]0.95 2023年5月5日
1枚の画像は16×16語の価値がある:大規模な画像認識のためのトランスフォーマー[ 22 ]0.5 2021

ベンチマーク

CIFAR-10は、ニューラルネットワークをより高速かつ安価に実行するために競い合うチームのパフォーマンスベンチマークとしても使用されています。DAWNBenchウェブサイトにはベンチマークデータが掲載されています

参照

参考文献

  1. ^ 「AIの進歩の測定」電子フロンティア財団。2017年6月12日。2018年10月7日時点のオリジナルよりアーカイブ2026年1月22日閲覧
  2. ^ 「Popular Datasets Over Time | Kaggle」 . www.kaggle.com . 2017年12月11日閲覧
  3. ^ Hope, Tom; Resheff, Yehezkel S.; Lieder, Itay (2017-08-09). TensorFlowを学ぶ:ディープラーニングシステム構築ガイド. O'Reilly Media, Inc. pp. 64–. ISBN 978149197848120181月22日閲覧
  4. ^アンジェロフ, プラメン; ゲゴフ, アレクサンダー; ジェーン, クリスティーナ; シェン, チアン (2016年9月6日).計算知能システムの進歩:第16回英国計算知能ワークショップ(2016年9月7日~9日、英国ランカスター)における発表論文. シュプリンガー・インターナショナル・パブリッシング. pp. 441–. ISBN 978331946562320181月22日閲覧
  5. ^アレックス・クリジェフスキー(2009). 「小さな画像から多層の特徴を学習する」(PDF) .
  6. ^ 「CIFAR-10 上の畳み込みディープビリーフネットワーク」(PDF)
  7. ^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013-02-13). 「Maxout Networks」. arXiv : 1302.4389 [ stat.ML ].
  8. ^ Zagoruyko, Sergey; Komodakis, Nikos (2016-05-23). 「Wide Residual Networks」. arXiv : 1605.07146 [ cs.CV ].
  9. ^ Zoph, Barret; Le, Quoc V. (2016-11-04). 「強化学習によるニューラルアーキテクチャ探索」. arXiv : 1611.01578 [ cs.LG ].
  10. ^グラハム、ベンジャミン (2014年12月18日). 「分数マックスプーリング」. arXiv : 1412.6071 [ cs.CV ].
  11. ^ Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q.; van der Maaten, Laurens (2016-08-24). 「高密度接続畳み込みネットワーク」. arXiv : 1608.06993 [ cs.CV ].
  12. ^ Gastaldi, Xavier (2017-05-21). 「Shake-Shake 正規化」. arXiv : 1705.07485 [ cs.LG ].
  13. ^ Dutt, Anuvabh (2017-09-18). 「ニューラルネットワークの結合アンサンブル」. arXiv : 1709.06053 [ cs.CV ].
  14. ^山田芳裕;岩村正和;黄瀬浩一(2018-02-07)。 「深層残差学習のためのシェイクドロップ正則化」。IEEE アクセス7 : 186126 186136。arXiv : 1802.02375土井10.1109/ACCESS.2019.2960566S2CID 54445621 
  15. ^ Terrance, DeVries; W., Taylor, Graham (2017-08-15). 「カットアウトを用いた畳み込みニューラルネットワークの正規化の改善」arXiv : 1708.04552 [ cs.CV ].{{cite arXiv}}: CS1 maint: 複数の名前: 著者リスト (リンク)
  16. ^ Real, Esteban; Aggarwal, Alok; Huang, Yanping; Le, Quoc V. (2018-02-05). 「カットアウトを用いた画像分類器アーキテクチャ検索のための正規化進化」. arXiv : 1802.01548 [ cs.NE ].
  17. ^ Nguyen, Huu P.; Ribeiro, Bernardete (2020-07-31). 「画像分類におけるリカレントニューラルネットワークの再考とその他の改善点」arXiv : 2007.15161 [ cs.CV ].
  18. ^ Cubuk, Ekin D.; Zoph, Barret; Mane, Dandelion; Vasudevan, Vijay; Le, Quoc V. (2018-05-24). 「AutoAugment: データからの拡張ポリシーの学習」. arXiv : 1805.09501 [ cs.CV ].
  19. ^ウィストゥバ、マーティン;アンブリッシュ州ラワット。ペダパティ、テジャスウィニ (2019-05-04)。 「ニューラルアーキテクチャ検索に関する調査」。arXiv : 1905.01392 [ cs.LG ]。
  20. ^黄、延平;チェン、ヨンロン。チェン、デハオ。イ・ヒョクジュン;ンギアム、ジクアン。ル、クオック V.志峰、志峰(2018-11-16)。 「GPipe: パイプライン並列処理を使用した巨大ニューラル ネットワークの効率的なトレーニング」。arXiv : 1811.06965 [ cs.CV ]。
  21. ^ Kabir, Hussain (2023-05-05). 「背景情報を用いたクラス活性化の不確実性の低減」. arXiv : 2305.03238 [ cs.CV ].
  22. ^ Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob; Houlsby, Neil (2021). 「1つの画像は16×16ワードに相当する:大規模な画像認識のためのトランスフォーマー」 .国際表現学習会議. arXiv : 2010.11929 .

類似データセット

  • CIFAR-100:CIFAR-10に似ていますが、100クラス、それぞれ600枚の画像が含まれています
  • CIFAR-10H : 人間の知覚の不確実性でラベル付けされた CIFAR-10。
  • ImageNet (ILSVRC): 1000クラス、100万枚のカラー画像。ImageNet画像は平均469x387の高解像度です。
  • ストリートビュー家屋番号(SVHN):10クラス(0~9の数字)の約60万枚の画像。32×32のカラー画像も収録。
  • 8000 万枚の小さな画像のデータセット: CIFAR-10 はこのデータセットのラベル付きサブセットです。