
| シリーズの一部 |
| 機械学習 とデータマイニング |
|---|
統計学と機械学習における二重降下法とは、モデルのテストセットにおけるエラー率がパラメータ数の増加とともに最初は減少し、その後ピークに達し、その後再び減少するという現象である。[2]この現象は、従来の機械学習における過学習に関する仮定と矛盾するため、驚くべきものと考えられてきた。[3]
この増加は通常、補間閾値付近で発生します。補間閾値では、パラメータの数がトレーニングデータポイントの数と等しくなります(モデルがトレーニングデータに適合するのに十分な大きさになります)。より正確には、モデル/トレーニング手順が平均してほぼ0のトレーニングエラーを達成できるサンプルの最大数です。[4]
歴史
後に特定のモデルにおける二重降下と呼ばれるようになる現象の初期の観察は1989年に遡る。[5] [6]
「二重降下」という用語は、 2019年にベルキンらによって造語され、 [3]、この現象が多くのモデルで示されるより広い概念として人気を博した。[8] [9]この用語の発展は、モデル内のパラメータが多すぎると大きな過剰適合誤差(バイアスと分散のトレードオフの外挿)が生じるという従来の認識と、[10] 2010年代のいくつかの最新の機械学習技術は大規模なモデルでより良いパフォーマンスを発揮する傾向があるという経験的観察との間の矛盾が認識されたことに促された。[7] [11]
理論モデル
二重降下は、等方性ガウス共変量と等方性ガウスノイズを伴う線形回帰で発生する。[12]
熱力学的極限における二重降下モデルはレプリカトリックを用いて解析され、その結果は数値的に確認された。[13]
多くの研究[14] [15]は、二重降下法は有効次元の概念を用いて説明できることを示唆している。ネットワークは多数のパラメータを持つ場合があるが、実際には、局所ヘッセ曲率で測定される汎化性能に関係するのはそれらのパラメータのサブセットのみである。この説明は、 PAC-ベイズ圧縮に基づく汎化境界[16]によって形式化されており、より複雑でないモデルはソロモンオフ事前分布の下でより良く汎化することが期待される。
参照
参考文献
- ^ Rocks, Jason W. (2022). 「オーバーフィッティングなしの記憶:オーバーパラメータ化モデルにおけるバイアス、分散、補間」. Physical Review Research . 4 (1) 013201. arXiv : 2010.13933 . Bibcode :2022PhRvR...4a3201R. doi :10.1103/PhysRevResearch.4.013201. PMC 9879296. PMID 36713351 .
- ^ 「Deep Double Descent」. OpenAI . 2019年12月5日. 2022年8月12日閲覧。
- ^ ab Schaeffer, Rylan; Khona, Mikail; Robertson, Zachary; Boopathy, Akhilan; Pistunova, Kateryna; Rocks, Jason W.; Fiete, Ila Rani; Koyejo, Oluwasanmi (2023-03-24). 「二重降下の謎を解明:深層学習パズルの原因を特定、解釈、そして解明する」arXiv : 2303.14151v1 [cs.LG].
- ^ Nakkiran, Preetum; Kaplun, Gal; Bansal, Yamini; Yang, Tristan; Barak, Boaz; Sutskever, Ilya (2019-12-04), Deep Double Descent: Where Bigger Models and More Data Hurt, arXiv, doi :10.48550/arXiv.1912.02292, arXiv:1912.02292 , 2025-12-24取得
- ^ Vallet, F.; Cailton, J.-G.; Refregier, Ph (1989年6月). 「ブール関数学習のための擬似逆解の線形および非線形拡張」 . Europhysics Letters . 9 (4): 315. Bibcode :1989EL......9..315V. doi :10.1209/0295-5075/9/4/003. ISSN 0295-5075.
- ^ Loog, Marco; Viering, Tom; Mey, Alexander; Krijthe, Jesse H.; Tax, David MJ (2020-05-19). 「二重の降下の簡潔な前史」. Proceedings of the National Academy of Sciences . 117 (20): 10625– 10626. arXiv : 2004.04328 . Bibcode :2020PNAS..11710625L. doi : 10.1073/pnas.2001875117 . ISSN 0027-8424. PMC 7245109. PMID 32371495 .
- ^ ab Belkin, Mikhail; Hsu, Daniel; Ma, Siyuan; Mandal, Soumik (2019-08-06). 「現代の機械学習の実践とバイアスと分散のトレードオフの調和」. Proceedings of the National Academy of Sciences . 116 (32): 15849– 15854. arXiv : 1812.11118 . doi : 10.1073/pnas.1903070116 . ISSN 0027-8424. PMC 6689936. PMID 31341078 .
- ^ Spigler, Stefano; Geiger, Mario; d'Ascoli, Stéphane; Sagun, Levent; Biroli, Giulio; Wyart, Matthieu (2019-11-22). 「過少パラメータ化から過度パラメータ化へのジャミング遷移は損失ランドスケープと一般化に影響を与える」. Journal of Physics A: Mathematical and Theoretical . 52 (47): 474001. arXiv : 1810.09665 . doi :10.1088/1751-8121/ab4c8b. ISSN 1751-8113.
- ^ Viering, Tom; Loog, Marco (2023-06-01). 「学習曲線の形状:レビュー」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 45 (6): 7799– 7819. arXiv : 2103.10948 . Bibcode :2023ITPAM..45.7799V. doi :10.1109/TPAMI.2022.3220744. ISSN 0162-8828. PMID 36350870.
- ^ Geman, Stuart ; Bienenstock, Élie ; Doursat, René (1992). 「ニューラルネットワークとバイアス/分散のジレンマ」(PDF) . Neural Computation . 4 : 1– 58. doi :10.1162/neco.1992.4.1.1. S2CID 14215320.
- ^ Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (2021年12月29日). 「Deep double descent: where bigger models and more data hurt」. Journal of Statistical Mechanics: Theory and Experiment . 2021 (12). IOP Publishing Ltd and SISSA Medialab srl: 124003. arXiv : 1912.02292 . Bibcode :2021JSMTE2021l4003N. doi :10.1088/1742-5468/ac3a74. S2CID 207808916.
- ^ Nakkiran, Preetum (2019-12-16). 「線形回帰におけるデータの増加は有害となる可能性がある:サンプルワイズ二重降下法」arXiv : 1912.07242v1 [stat.ML].
- ^ Advani, Madhu S.; Saxe, Andrew M.; Sompolinsky, Haim (2020-12-01). 「ニューラルネットワークにおける一般化誤差の高次元ダイナミクス」. Neural Networks . 132 : 428–446 . doi : 10.1016/j.neunet.2020.08.022 . ISSN 0893-6080. PMC 7685244. PMID 33022471 .
- ^ Maddox, Wesley J.; Benton, Gregory W.; Wilson, Andrew Gordon (2020). 「深層モデルにおけるパラメータカウントの再考:実効次元性の再考」arXiv : 2003.02139 [cs.LG].
- ^ ウィルソン、アンドリュー・ゴードン (2025). 「ディープラーニングはそれほど神秘的でも異質でもない」. arXiv : 2503.02113 [cs.LG].
- ^ ロトフィ, サナエ; フィンジ, マーク; カプール, サニヤム; ポタプチンスキー, アンドレス; ゴールドブラム, ミカ; ウィルソン, アンドリュー G. (2022). PAC-ベイズ圧縮境界は汎化を説明できるほど厳密(PDF) . ニューラル情報処理システムの進歩. 第35巻. pp. 31459– 31473.
さらに読む
- ミハイル・ベルキン、ダニエル・スー、ジ・シュー (2020). 「弱特徴量に対する二重降下法の2つのモデル」SIAM Journal on Mathematics of Data Science . 2 (4): 1167– 1180. arXiv : 1903.07571 . doi : 10.1137/20M1336072 .
- マウント、ジョン(2024年4月3日)「m = n機械学習の異常」
- Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (2021年12月29日). 「ディープ・ダブル・ディセント:モデル規模の拡大とデータ量の増大がもたらす弊害」. Journal of Statistical Mechanics: Theory and Experiment . 2021 (12). IOP Publishing Ltd and SISSA Medialab srl: 124003. arXiv : 1912.02292 . Bibcode : 2021JSMTE2021l4003N. doi : 10.1088/1742-5468/ac3a74. S2CID 207808916.
- 宋美、アンドレア・モンタナリ(2022年4月)「ランダム特徴回帰の一般化誤差:精密漸近解析と二重降下曲線」純粋応用数学通信誌75 ( 4): 667– 766. arXiv : 1908.05355 . doi :10.1002/cpa.22008. S2CID 199668852.
- Xiangyu Chang、Yingcong Li、Samet Oymak、Christos Thrampoulidis (2021). 「モデル圧縮におけるオーバーパラメータ化の証明可能な利点:二重降下法からニューラルネットワークの枝刈りまで」AAAI人工知能会議論文集35 (8) . arXiv : 2012.08749 .
- マヌーチェル・アミニアン:「二重降下の特徴づけ」、SIAMニュース、第58巻、第10号(2025年12月)。
外部リンク
- ブレント・ワーネス、ジャレッド・ウィルバー。「Double Descent:パート1:ビジュアル紹介」
- ブレント・ワーネス、ジャレッド・ウィルバー。「二重降下:パート2:数学的説明」
- evhub で「Deep Double Descent」を理解する。