Определить, какие стратегии предотвращения переобучения в глубоком обучении объективно являются лучшими, сложно. В работе с большими данными задействованы многочисленные технологические и человеческие факторы и контексты (Мэттьюз, 2018). Эффективность таких методов, как ранняя остановка, регуляризация, энтропийное взвешивание, увеличение данных и дополнительные данные обучения, зависит от таких субъективных переменных, как структура нейронной сети, содержимое наборов данных, а также опыт и профессиональные навыки ответственного инженера по обработке данных. Однако первые две модели можно считать сравнительно лучшими, чем остальные, перечисленные, поскольку они быстро выполняются. Эти меры относительно просты с точки зрения вмешательства в процедуру примерки и выполнения новых команд и регулировок (Бахети, 2022). Они не создают шума в данных и не усложняют структуру модели; ранняя остановка и регуляризация также обладают свойством универсальности (Бахети, 2022). Эти технические качества являются центральными и решающими в такой трудоемкой отрасли, как нейронные сети.
Проанализированные методы улучшения и коррекции нейронных сетей не идеальны, и каждая из них имеет свои ограничения и недостатки. Многие из них вызваны необходимостью поддерживать баланс между предвзятостью и дисперсией (Белкин и др., 2019). Например, регуляризация приводит к тому, что дата инженера делает его модель менее репрезентативной для набора данных (Wickramasinghe, 2021). И наоборот, ранняя остановка создает высокую предвзятость в нейронной сети (Wüthrich, 2020). Увеличение данных — относительно безопасный метод корректировки, но он требует больших знаний и человеческих ресурсов (Soni, 2022). Добавление дополнительных обучающих данных сопряжено с риском чрезмерного усложнения процесса подбора и требует от наблюдателя значительной точности и аккуратности (Бахети, 2022). Взвешивание по энтропии — относительно новый способ предотвращения переобучения, и существует мало знаний о его побочных эффектах, что является его основным ограничением (Kumar et al., 2021). Тема превосходства одних мер против переобучения над другими весьма субъективна и контекстуальна.
Цифровизация и высокие технологии привнесли в организационные операции и управление подход, основанный на данных. Большие данные слились с аналитикой и частично заменили их в мире бизнеса, что привело к повышению его производительности (McAfee and Brynjolfsson, 2012). Ожидается, что компании, тесно связанные с программным обеспечением и маркетингом, оказались основными бенефициарами появления и внедрения практических методологий больших данных (Провост и Фосетт, 2013). Одним из них является «Нептун», основное внимание которого сосредоточено на разработке и совершенствовании процессов, связанных с искусственным интеллектуальным анализом данных и интерпретацией различной информации (Сангхви, 2022). Они широко используют раннюю остановку, советуют другим об этой практике и предоставляют соответствующие рекомендации. V7 — еще одна группа специалистов по данным, компьютерам и программированию, которая непосредственно занимается глубоким обучением (Бахети, 2022). Они применяют все известные на сегодняшний день методы борьбы с переобучением, включая регуляризацию. Они считают этот метод коррекции нейронной сети универсальным и простым в использовании.
Список литературы
Бахети, П. (2022) Что такое переобучение в глубоком обучении и как этого избежать. Веб.
Белкин М. и др. (2019) «Примирение современной практики машинного обучения и компромисса между смещением и дисперсией», PNAS, 116 (32). Веб.
Кумар Р. и др. (2021) «Выявление преимуществ метода энтропийных весов для многокритериальной оптимизации операций механической обработки: критический обзор», Журнал исследований материалов и технологий, 10, стр. 1471-1492.
Мэтьюз, К. (2018) Понимание субъективности в науке о данных. Веб.
Макафи А. и Бриньольфссон Э. (2012) «Большие данные: революция в управлении», Harvard Business Review, Web.
Провост Ф. и Фосетт Т. (2013) Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении. Севастополь, Калифорния: O’Reilly Media.
Сангви, Р. (2022) Ранняя остановка с Нептуном. Веб.
Сони, П. (2022) Увеличение данных: методы, преимущества и приложения. Веб.
Викрамасингхе, С. (2021) Смещение и дисперсия в машинном обучении: концепции и учебные пособия. Веб.
Вютрих, М.В. (2020) «Регуляризация смещения в моделях нейронных сетей для определения цен на страхование», European Actuarial Journal, 10 (1), стр. 179–202.