Переобучение: увеличение данных, выбор функций и методы ансамбля
Процесс машинного обучения в области данных и аналитики может столкнуться с множеством различных проблем. Среди них переобучение, которое является результатом потери систематической ошибки и увеличения дисперсии (Провост и Фосетт, 2013). Другими словами, переоснащение — это «концепция в науке о данных, которая возникает, когда статистическая модель точно соответствует обучающим данным» (IBM Cloud Education, 2021, параграф 1). В целом проблема может возникнуть при наличии больших объемов данных (Delua, 2021). Однако переоснащение может перестать быть проблемой после достижения точки интерполяции, что проявляется в «двойном спуске» (Белкин и др., 2019). Таким образом, «переобучение относится к состоянию, когда модель полностью соответствует данным обучения, но не может обобщить невидимые данные тестирования» (Кумар, 2021, параграф 2). Поэтому проблему необходимо предотвращать и избегать, используя различные методы.
Помимо ранней остановки, обучения на большем количестве данных и регуляризации, есть еще три метода борьбы с переобучением. К ним относятся увеличение данных, выбор функций и ансамблевые методы (IBM Cloud Education, 2021). В случае увеличения данных они «могут повысить производительность своих моделей и расширить ограниченные наборы данных, чтобы воспользоваться возможностями больших данных» (Шортен и Хошгофтаар, 2019, стр. 1). Ключевым ограничением является тот факт, что это нужно делать экономно. Когда дело доходит до выбора функций, общая избыточность параметров устраняется путем удаления ненужных (Meyer et al., 2018). Однако это может привести к чрезмерному упрощению модели, если исключить критические параметры. Метод ансамбля, такой как повышение или пакетирование, можно использовать для создания выборок данных и их независимого обучения (Ying, 2019). Недостатком является требование наличия внешних факторов, таких как консенсус между несколькими моделями (Салман и Лю, 2019). Таким образом, все методы эффективны при правильном использовании, но всегда следует учитывать ограничения.
Критический анализ увеличения данных, выбора признаков и ансамблевых методов показывает, что их можно согласовать с компромиссом между смещениями и отклонениями в машинном обучении. Следует отметить, что переоснащение — это проблема уменьшения систематической ошибки и увеличения дисперсии. Увеличение данных — это процесс добавления к данным некоторого шума для уменьшения идеального соответствия и увеличения систематической ошибки. Выбор признаков в принципе аналогичен предыдущему методу, поскольку удаление некоторых избыточных параметров также увеличивает смещение. Ансамблевой метод направлен на уменьшение дисперсии, поскольку обучается несколько независимых выборок, что приводит к лучшим и более точным оценкам.
Примером банковской организации может служить Банк Индии. Ансамблевой метод можно дополнительно проиллюстрировать тем, что «модель повышения градиента превосходит учащегося базового дерева решений, что указывает на то, что ансамблевая модель работает лучше, чем отдельные модели» (Чопра и Бхиларе, 2018, стр. 129). Другими словами, при применении этих мер к моделям кредитного скоринга, наряду со многими другими проблемами, удалось избежать или свести к минимуму переобучение. Такой подход дает организации конкурентоспособность и преимущество, поскольку для правильной оценки кредитных единиц он использует объем, скорость и разнообразные данные (McAfee and Brynjolfsson, 2012). Все три метода могут использоваться эффективно, но ансамблевый метод, вероятно, будет наиболее эффективным, поскольку он анализирует несколько независимых выборок. Другими словами, дисперсия уменьшается из-за небольших расхождений в каждом несвязанном прогоне, которые все получены из одного и того же пула внешних данных.
Список литературы
Белкин М. и др. (2019) «Сочетание современной практики машинного обучения и классического компромисса между предвзятостью и дисперсией», PNAS, 116 (32), стр. 15849-15854. Веб.
Чопра А. и Бхиларе П. (2018) «Применение ансамблевых моделей в моделях кредитного скоринга», Business Perspectives and Research, 6 (2), стр. 129–141. Веб.
Делуа, Дж. (2021) Обучение под наблюдением и без учителя: в чем разница? Веб.
IBM Cloud Education. (2021) Переобучение. Веб.
Кумар, С. (2021) «3 метода, позволяющие избежать переобучения деревьев решений», Towards Data Science. Веб.
Макафи А. и Бриньольфссон Э. (2012) «Большие данные: революция в управлении», Harvard Business Review, Web.
Мейер, Х. и др. (2018) «Повышение производительности пространственно-временных моделей машинного обучения с использованием прямого выбора функций и целенаправленной проверки», Environmental Modeling & Software, 101, стр. 1–9.
Провост Ф. и Фосетт Т. (2013) Наука о данных для бизнеса: что вам нужно знать об интеллектуальном анализе данных и аналитическом мышлении. 1-е изд. Севастополь: О’Рейли Медиа.
Салман С. и Лю X. (2019) «Механизм переоснащения и избегание в глубоких нейронных сетях», ArXiv, 1901, стр. 1–8. Веб.
Шортен, К., и Хошгофтаар, Т.М. (2019) «Опрос по увеличению данных изображений для глубокого обучения», Журнал больших данных, 6 (60), стр. 1–48.
Ин, X. (2019) «Обзор переобучения и его решений», Journal of Physics: Conference Series, 1168 (2), стр. 1–6.