Поздравляю! Вы только что прошли один из самых насыщенных уроков по машинному обучению. Давайте разберёмся, что вы теперь знаете и умеете.
Концептуальное понимание
- Разница между задачами: Теперь вы понимаете, что регрессия предсказывает числа (например, цену квартиры), а классификация определяет категорию (спам/не спам, болен/здоров).
- Проблема линейной регрессии: Вы увидели, почему линейная регрессия не подходит для классификации — она может выдать вероятность -0.3 или 1.5, что совершенно невозможно!
- Двухшаговый процесс: Вы освоили главную схему логистической регрессии — сначала вычисляется линейная комбинация (z = w·x + b), затем она магически превращается в вероятность через сигмоиду.
Математические основы
- Функция сигмоиды: Вы теперь знаете формулу σ(z) = 1/(1 + e-z) и её свойства — она всегда возвращает значения от 0 до 1 и симметрична относительно 0.5.
- Скалярное произведение: Вы научились работать с многомерными признаками, вычисляя z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b. Это позволяет учитывать не один, а множество факторов одновременно!
- Log-Loss: Вы познакомились с функцией ошибки, которая показывает, насколько хорошо модель предсказывает. Чем меньше Log-Loss, тем лучше работает ваша модель.
Практические навыки
- Ручные вычисления: Вы можете взять признаки (например, температуру пациента), коэффициенты модели и пройти весь путь: от признаков → через z → к вероятности → к классу.
- Программирование на Python: Вы написали функцию classify_patient(), которая реализует всю логику классификации. Это настоящий код, который работает!
- Оптимизация модели: Вы узнали про метод полного перебора параметров — простой, но действенный способ найти лучшую модель.
Главная схема, которую вы освоили:
x → z = w·x + b → p = σ(z) → Класс
Вы теперь понимаете логистическую регрессию и теоретически, и практически. Вы можете решать упражнения с калькулятором, объяснять концепции своими словами и писать работающий код на Python. Это именно то, что нужно data scientist'у!