Статья Автор: Деникина Н.В., Деникин А.В.

Градусник предсказатель. Выводы

Сформулируем выводы, к которым можно прийти после оценки моделей

1) Качество на обучающих данных ≠ Качество на новых данных

Модель Ошибка дни 1-5 Ошибка день 6
Среднее (брат) ~2.2°C 0.8°C  ✓✓
Парабола (Анна) ~1.4°C 0°C  ✓✓✓
Многочлен (дедушка) ~0°C🏆 12°C   ❌❌
 

КЛЮЧЕВОЙ ВЫВОД:
Многочлен идеально "запомнил" дни 1-5, но катастрофически провалился на дне 6! Это и есть ПЕРЕОБУЧЕНИЕ.

Представьте, что вы готовитесь к контрольной. Есть три способа:

  1. Брат (среднее): Выучил только общую идею темы → понимает плохо, но хоть что-то
  2. Анна (парабола): Разобралась в теме и понимает закономерности → справится с любой задачей!
  3. Дедушка (многочлен 5°): Заучил наизусть все задачи из учебника → если попадётся точно такая же задача, решит идеально! Но если попадётся новая задача — растеряется!"

2) Модели по-разному ведут себя на знакомых и незнакомых данных

Модель брата (константа y = 6.8)

Характеристики:

  • Недообучение (Underfitting)
  • Не улавливает никаких закономерностей
  • Всегда одно и то же число
  • Игнорирует связь между днём и температурой
Модель слишком простая — она даже не пытается найти закономерность
 
Модель Анны (парабола y = -0.5x² + 4x)

Характеристики:

  • Хорошая модель (Good fit)
  • Улавливает общий тренд
  • Не идеально подходит к данным, но обобщает хорошо
  • Умеренная сложность

Модель находит баланс — не слишком простая и не слишком сложная

Модель дедушки (многочлен 5-й степени)

Характеристики:

  • Переобучение (Overfitting)
  • Идеально проходит через ВСЕ точки обучения
  • У нас 5 точек → многочлен 5-й степени может пройти через них точно
  • Но ведёт себя хаотично между точками и за их пределами

Модель запомнила данные, но не научилась обобщать. Она "зазубрила" вместо "понимания".
 


 
ЗОЛОТОЕ ПРАВИЛО: Модель должна быть настолько простой, насколько возможно, но не проще! (Альберт Эйнштейн)

А мто может быть проще параболы? Конечно же прямая.

Линейная регрессия (прямая линия):
├── ✅ Достаточно простая → НЕ переобучается
├── ✅ Достаточно сложная → улавливает тренд
├── ✅ Всего 2 параметра (k и b)
└── ✅ ЗОЛОТАЯ СЕРЕДИНА между средним и параболой!

Вывод: Для многих задач прямая линия - это идеальный баланс!
Печать