Сформулируем выводы, к которым можно прийти после оценки моделей
1) Качество на обучающих данных ≠ Качество на новых данных
Модель |
Ошибка дни 1-5 |
Ошибка день 6 |
Среднее (брат) |
~2.2°C |
0.8°C ✓✓ |
Парабола (Анна) |
~1.4°C |
0°C ✓✓✓ |
Многочлен (дедушка) |
~0°C🏆 |
12°C ❌❌ |
КЛЮЧЕВОЙ ВЫВОД:
Многочлен идеально "запомнил" дни 1-5, но катастрофически провалился на дне 6! Это и есть ПЕРЕОБУЧЕНИЕ.
Представьте, что вы готовитесь к контрольной. Есть три способа:
- Брат (среднее): Выучил только общую идею темы → понимает плохо, но хоть что-то
- Анна (парабола): Разобралась в теме и понимает закономерности → справится с любой задачей!
- Дедушка (многочлен 5°): Заучил наизусть все задачи из учебника → если попадётся точно такая же задача, решит идеально! Но если попадётся новая задача — растеряется!"
2) Модели по-разному ведут себя на знакомых и незнакомых данных
Модель брата (константа y = 6.8)
Характеристики:
- ❌ Недообучение (Underfitting)
- Не улавливает никаких закономерностей
- Всегда одно и то же число
- Игнорирует связь между днём и температурой
Модель
слишком простая — она даже не пытается найти закономерность
Модель Анны (парабола y = -0.5x² + 4x)
Характеристики:
- ✅ Хорошая модель (Good fit)
- Улавливает общий тренд
- Не идеально подходит к данным, но обобщает хорошо
- Умеренная сложность
Модель находит баланс — не слишком простая и не слишком сложная
Модель дедушки (многочлен 5-й степени)
Характеристики:
- ❌ Переобучение (Overfitting)
- Идеально проходит через ВСЕ точки обучения
- У нас 5 точек → многочлен 5-й степени может пройти через них точно
- Но ведёт себя хаотично между точками и за их пределами
Модель запомнила данные, но не научилась обобщать. Она "зазубрила" вместо "понимания".
ЗОЛОТОЕ ПРАВИЛО: Модель должна быть настолько простой, насколько возможно, но не проще! (Альберт Эйнштейн)
А мто может быть проще параболы? Конечно же прямая.
Линейная регрессия (прямая линия):
├── ✅ Достаточно простая → НЕ переобучается
├── ✅ Достаточно сложная → улавливает тренд
├── ✅ Всего 2 параметра (k и b)
└── ✅ ЗОЛОТАЯ СЕРЕДИНА между средним и параболой!
Вывод: Для многих задач прямая линия - это идеальный баланс!