Podwójny spadek
.png)
Podwójny spadek[2] (ang. double descent) – w statystyce i uczeniu maszynowym to zjawisko, w którym model z małą liczbą parametrów i model z nadzwyczaj dużą liczbą parametrów wykazują mały błąd treningu, ale model, którego liczba parametrów jest w przybliżeniu taka sama jak liczba punktów danych użytych do trenowania modelu, będzie miał znacznie większy błąd testu niż model z dużo większą liczbą parametrów[3]. Zjawisko to uznano za zaskakujące, ponieważ przeczy ono założeniom dotyczącym nadmiernego dopasowania w klasycznym uczeniu maszynowym[4].
Historia
Wczesne obserwacje zjawiska, które później nazwano podwójnym zstąpieniem w określonych modelach, pochodzą z 1989 r[5].
Termin "double descent" został zaproponowany przez Belkina i in.[6] w 2019 r.[4] kiedy zjawisko to zyskało popularność jako szersza koncepcja zauważona przez wiele modeli[7][8]. Popularyzacja tego sformułowania został spowodowane sprzecznością pomiędzy powszechnie panującą opinią, że zbyt wiele parametrów w modelu skutkuje znacznym błędem nadmiernego dopasowania (ekstrapolacją kompromisu między odchyleniem a wariancją)[9] i empirycznymi obserwacjami z lat 2010., zgodnie z którymi niektóre nowoczesne techniki uczenia maszynowego mają tendencję do lepszego działania w przypadku większych modeli[6][10].
Podwójny spadek występuje w regresji liniowej z izotropowymi współczynnikami Gaussa i izotropowym szumem Gaussa.
Przypisy
- ↑ Jason W. Rocks, Pankaj Mehta, Memorizing without overfitting: Bias, variance, and interpolation in over-parameterized models, arXiv, 24 lutego 2022, DOI: 10.48550/arXiv.2010.13933 [dostęp 2025-04-07].
- ↑ Stanisław Kaźmierczak, Problem podwójnego spadku (Double descent) [online], pages.mini.pw.edu.pl [dostęp 2025-04-07].
- ↑ Deep double descent [online], openai.com, 23 stycznia 2020 [dostęp 2025-04-07] (ang.).
- 1 2 Rylan Schaeffer i inni, Double Descent Demystified: Identifying, Interpreting & Ablating the Sources of a Deep Learning Puzzle, arXiv, 24 marca 2023, DOI: 10.48550/arXiv.2303.14151 [dostęp 2025-04-07].
- ↑ Marco Loog i inni, A Brief Prehistory of Double Descent, arXiv, 7 kwietnia 2020, DOI: 10.48550/arXiv.2004.04328 [dostęp 2025-04-07].
- 1 2 Mikhail Belkin i inni, Reconciling modern machine learning practice and the bias-variance trade-off, arXiv, 10 września 2019, DOI: 10.48550/arXiv.1812.11118 [dostęp 2025-04-07].
- ↑ Mikhail Belkin i inni, Reconciling modern machine learning practice and the bias-variance trade-off, arXiv, 10 września 2019, DOI: 10.48550/arXiv.1812.11118 [dostęp 2025-04-07].
- ↑ Tom Viering, Marco Loog, The Shape of Learning Curves: a Review, arXiv, 5 listopada 2022, DOI: 10.48550/arXiv.2103.10948 [dostęp 2025-04-07].
- ↑ Stuart Geman. Neural networks and the bias/variance dilemma. „Neural Computation”. 4, s. 1–58, 1992. DOI: 10.1162/neco.1992.4.1.1.
- ↑ Preetum Nakkiran i inni, Deep Double Descent: Where Bigger Models and More Data Hurt, arXiv, 4 grudnia 2019, DOI: 10.48550/arXiv.1912.02292 [dostęp 2025-04-07].