Проблема переобучения в задачах регрессии
В мире машинного обучения существует множество задач, которые решаются с помощью различных алгоритмов. Одной из таких задач является регрессия, где наша цель — предсказать числовое значение на основе входных данных. Однако, в процессе обучения моделей возникает проблема, называемая переобучением. В этой статье мы разберем, что такое переобучение, какие его причины и как с ним бороться.
Что такое переобучение?
Переобучение (или оверфиттинг) происходит, когда модель слишком хорошо запоминает обучающие данные, включая их шум и аномалии. В результате такая модель может выдавать высокую точность на обучающей выборке, но показывать плохие результаты на новых, невидимых данных. Другими словами, модель не смогла научиться обобщать и предсказывать на основе общих закономерностей.
Причины переобучения
1.
Сложность модели: Если модель слишком сложна (например, она имеет много параметров или неровных функций), она может подключаться к особенностям данных, что ведет к переобучению.
2.
Недостаток данных: Когда обучающая выборка небольшая, модель может запомнить индивидуальные образцы, что также приводит к плохой обобщающей способности.
3.
Шум в данных: В случае, если данные содержат много шума или ошибок, модель будет обучаться не на реальных закономерностях, а на случайных колебаниях.
Задача
Анна наблюдала за температурой воздуха в течение пяти дней и записала результаты:
День |
Температура (ºС) |
1 |
3 |
2 |
7 |
3 |
5 |
4 |
11 |
5 |
8 |
Анна решила попробовать предсказать температуру с помощью разных способов.
Её младший брат предложил самый простой вариант: просто взять одно среднее число. Он посчитал, что температура всегда будет 6.8°C.
В школе Анна недавно изучала квадратичные уравнения и решила попробовать приблизить данные параболой. Она вывела формулу: 𝑦 = −(1/2)𝑥2 + 4𝑥
Её дедушка, увлекающийся математикой, предложил гораздо более сложную формулу – многочлен пятой степени:
𝑦 = −52 + (413/4)𝑥 − (1493/24)𝑥2 + (61/4)𝑥3 − (31/24)𝑥4
На шестой день температура составила 6°C.
Анна решила проверить, чей способ предсказания оказался наиболее точным для этой новой ситуации.
Подумайте над следующими вопросами
- Какой способ, по-вашему, будет лучшим?
- Почему?
- Может ли самая сложная формула ошибиться?