Переобучение: проблема для моделей науки о данных
В науке о данных переоснащение может стать серьезной проблемой для модели. Это происходит, когда «алгоритм, к сожалению, не может точно работать с невидимыми данными, что противоречит его цели» (IBM Cloud Education, 2021, параграф 1). Для интерполяции «кривая «двойного спуска» включает в себя U-образную кривую компромисса между смещением и дисперсией, показывая, как увеличение пропускной способности модели за пределами точки интерполяции приводит к улучшению производительности» (Belkin et al., 2019, стр. 15849). ). Таким образом, переобучение не является проблемой для всех моделей, поскольку некоторые могут извлечь выгоду из двойного спуска (Провост и Фосетт, 2013). В классическом смысле три причины, по которым переобучение является проблемой, которую следует учитывать для всех моделей, включают в себя шум, высокую дисперсию и низкую систематическую ошибку. Во-первых, модели, подвергшиеся переоснащению, могут начать изучать нерелевантную информацию (Бильбао и Бильбао, 2017). Во-вторых, из-за этой проблемы все модели могут приобретать высокий уровень дисперсии (Le et al., 2018). В-третьих, последнее явление приводит к более низкому отклонению от «оптимальной точки» (Rocks and Mehta, 2022). Другими словами, эти причины могут в разной степени влиять на все модели.
Однако в некоторых случаях переобучение может не быть проблемой, если порог интерполяции нарушен. К трем основным причинам относятся модели индуктивного смещения, такие как случайные функции Фурье, нейронные сети SGD и случайные леса (Belkin et al., 2019). Во-первых, для случайных функций Фурье можно «включить глубокую архитектуру в обучение ядра, что значительно повышает гибкость и богатство машин ядра» (Xie et al., 2019, стр. 1). Во-вторых, «скорость сходимости SGD к глобальному минимуму и обеспечение гарантий обобщения этого глобального минимума, не зависящих от размера сети» (Brutzkus et al., 2017, стр. 1). В-третьих, «интерполированные классификаторы, по-видимому, повсеместно распространены в многомерных данных, их можно наблюдать в глубоких сетях, машинах ядра, бустинге и случайных лесах» (Белкин, Сюй и Митра, 2018, стр. 1). Таким образом, недавние данные показывают, что переобучение после определенного момента во всех сложных моделях становится менее серьезной проблемой.
Когда дело доходит до организационного примера, Google можно использовать, чтобы показать, как переобучение переплетается с компромиссом между смещениями и отклонениями и представляет собой проблему, которую следует учитывать для всех моделей. По словам Питера Норвига, директора по исследованиям Google: «У нас нет лучших алгоритмов. У нас просто больше данных» (McAfee и Brynjolfsson, 2012, п. 9). Переоснащение приводит к «крайне неточным результатам, если только у вас нет вмешательства человека для проверки выходных переменных» (Delua, 2021, параграф 19). Другими словами, у компании было много данных, но не было средств для их надлежащего контроля и уменьшения отклонений. Таким образом, переоснащение стало основным фактором риска для его моделей, что потребовало корректировок, вмешательств и профилактических мер.
Критический анализ крупным планом показывает, что переоснащение является проблемой для всех моделей, но некоторые из них имеют тенденцию улучшаться после интерполяции. Поэтому переоснащение не следует рассматривать как проблему, затрагивающую только классические версии, поскольку оно также может стать помехой для последних фреймворков. Более продвинутые модели обучения должны учитывать, что пересечение точки интерполяции может быть эффективным решением для повышения производительности. Однако пожилым людям необходимо придерживаться обычных мер по предотвращению, таких как раннее прекращение или надзор. Таким образом, переобучение представляет собой угрозу увеличения дисперсии, которая устраняет необходимую степень предвзятости, приводящую к созданию чрезмерно сложных моделей или моделей с недостаточной генерацией. «Двойной спуск» всегда следует учитывать при работе с достаточным количеством данных, чтобы пройти точку переобучения.
Список литературы
Белкин М. и др. (2019) «Сочетание современной практики машинного обучения и классического компромисса между предвзятостью и дисперсией», PNAS, 116 (32), стр. 15849-15854. Веб.
Белкин М., Сюй DJ и Митра П. (2018) «Переоснащение или идеальное соответствие? Границы риска для интерполирующих правил классификации и регрессии», «Достижения в области нейронных систем обработки информации», 31, стр. 1–29. Веб.
Бильбао И. и Бильбао Дж. (2017) «Проблема переобучения и чрезмерное обучение в эпоху данных: особенно для искусственных нейронных сетей», Восьмая Международная конференция по интеллектуальным вычислениям и информационным системам, 2017, стр. 173- 177. Веб.
Бруцкус А. и др. (2017) «SGD изучает сверхпараметризованные сети, которые доказуемо обобщают линейно разделимые данные», Arxiv, 1710, стр. 1–17.
Делуа, Дж. (2021) Обучение под наблюдением и без учителя: в чем разница? Веб.
IBM Cloud Education. (2021) Переобучение. Веб.
Ле, XBD и др. (2018) «Переоснащение при автоматизированном ремонте программ на основе семантики», Empirical Software Engineering, 23, стр. 3007-3033.
Макафи А. и Бриньолфссон Э. (2012) «Большие данные: революция в управлении», Harvard Business Review, Web.
Провост Ф. и Фосетт Т. (2013) Наука о данных для бизнеса: что вам нужно знать об интеллектуальном анализе данных и аналитическом мышлении. 1-е изд. Севастополь: О’Рейли Медиа.
Рокс, Дж. В., и Мехта, П. (2022). «Запоминание без переобучения: смещение, дисперсия и интерполяция в чрезмерно параметризованных моделях», Physical Review Research, 4 (1), стр. 1–10.
Се, Дж. и др. (2019) «Глубокое обучение ядра с помощью случайных функций Фурье», Arxiv, 1910, стр. 1–8.