Статья Автор: Деникина Н.В., Деникин А.В.

Проблема переобучения

Проблема переобучения в задачах регрессии


В мире машинного обучения существует множество задач, которые решаются с помощью различных алгоритмов. Одной из таких задач является регрессия, где наша цель — предсказать числовое значение на основе входных данных. Однако, в процессе обучения моделей возникает проблема, называемая переобучением. В этой статье мы разберем, что такое переобучение, какие его причины и как с ним бороться.
 

Что такое переобучение?

Переобучение (или оверфиттинг) происходит, когда модель слишком хорошо запоминает обучающие данные, включая их шум и аномалии. В результате такая модель может выдавать высокую точность на обучающей выборке, но показывать плохие результаты на новых, невидимых данных. Другими словами, модель не смогла научиться обобщать и предсказывать на основе общих закономерностей.

Причины переобучения


1. Сложность модели: Если модель слишком сложна (например, она имеет много параметров или неровных функций), она может подключаться к особенностям данных, что ведет к переобучению.
2. Недостаток данных: Когда обучающая выборка небольшая, модель может запомнить индивидуальные образцы, что также приводит к плохой обобщающей способности.
3. Шум в данных: В случае, если данные содержат много шума или ошибок, модель будет обучаться не на реальных закономерностях, а на случайных колебаниях.
 

Задача

Анна наблюдала за температурой воздуха в течение пяти дней и записала результаты:
День Температура (ºС)
1 3
2 7
3 5
4 11
5 8
 
Анна решила попробовать предсказать температуру с помощью разных способов.
Её младший брат предложил самый простой вариант: просто взять одно среднее число. Он посчитал, что температура всегда будет 6.8°C.
В школе Анна недавно изучала квадратичные уравнения и решила попробовать приблизить данные параболой. Она вывела формулу: 𝑦 = −(1/2)𝑥2 + 4𝑥
Её дедушка, увлекающийся математикой, предложил гораздо более сложную формулу – многочлен пятой степени:
𝑦 = −52 + (413/4)𝑥 − (1493/24)𝑥2 + (61/4)𝑥3 − (31/24)𝑥4

На шестой день температура составила 6°C.
Анна решила проверить, чей способ предсказания оказался наиболее точным для этой новой ситуации.

Подумайте над следующими вопросами
  1. Какой способ, по-вашему, будет лучшим?
  2. Почему?
  3. Может ли самая сложная формула ошибиться?
Печать