Обучение с учителем (Supervised Learning) — это один из основных подходов в машинном обучении, где модель обучается на размеченных данных (данных с известными ответами). Основные задачи обучения с учителем — это классификация и регрессия. Рассмотрим их подробнее.
1. Классификация
Классификация — это задача, в которой модель предсказывает дискретные категории (классы) на основе входных данных. Примеры задач классификации:
-
Определение, является ли письмо спамом или нет (спам/не спам).
-
Классификация изображений (например, кошка/собака).
-
Определение тональности текста (положительный/отрицательный отзыв).
Основные этапы классификации:
-
Подготовка данных:
-
Сбор данных: например, набор писем с метками "спам" и "не спам".
-
Предобработка данных: очистка текста (удаление стоп-слов, приведение к нижнему регистру), токенизация, векторизация (например, с использованием TF-IDF или word2vec).
-
Выбор модели:
-
Обучение модели:
-
Модель обучается на размеченных данных, где для каждого примера известен правильный класс.
-
Например, для задачи "спам/не спам" модель учится находить закономерности в тексте, которые отличают спам от не спама.
-
Оценка модели:
-
Используются метрики, такие как точность (accuracy), точность (precision), полнота (recall), F1-мера.
-
Пример: если модель правильно классифицировала 95 из 100 писем, её точность составляет 95%.
-
Применение модели:
2. Регрессия
Регрессия — это задача, в которой модель предсказывает непрерывные значения на основе входных данных. Примеры задач регрессии:
-
Предсказание цены дома на основе его характеристик (площадь, количество комнат, местоположение).
-
Прогнозирование температуры на завтра.
-
Оценка времени доставки товара.
Основные этапы регрессии:
-
Подготовка данных:
-
Сбор данных: например, набор данных о домах с указанием их характеристик и цен.
-
Предобработка данных: обработка пропущенных значений, нормализация или стандартизация числовых признаков, кодирование категориальных признаков (например, One-Hot Encoding).
-
Выбор модели:
-
Обучение модели:
-
Модель обучается на размеченных данных, где для каждого примера известен правильный ответ (например, цена дома).
-
Например, для задачи предсказания цены дома модель учится находить зависимости между характеристиками дома (площадь, количество комнат) и его ценой.
-
Оценка модели:
-
Используются метрики, такие как среднеквадратичная ошибка (MSE), средняя абсолютная ошибка (MAE), коэффициент детерминации (R²).
-
Пример: если MSE модели составляет 1000, это означает, что средний квадрат ошибки предсказания цены дома равен 1000.
-
Применение модели:
Примеры задач и алгоритмов
Пример 1: Классификация (спам/не спам)
-
Данные: Набор писем с метками "спам" и "не спам".
-
Признаки: Текст письма (после предобработки и векторизации).
-
Модель: Логистическая регрессия.
-
Обучение: Модель учится отличать спам от не спама на основе слов в письмах.
-
Применение: Модель предсказывает, является ли новое письмо спамом.
Пример 2: Регрессия (предсказание цен на дома)
-
Данные: Набор данных о домах (площадь, количество комнат, местоположение, цена).
-
Признаки: Числовые и категориальные характеристики дома.
-
Модель: Случайный лес.
-
Обучение: Модель учится предсказывать цену дома на основе его характеристик.
-
Применение: Модель оценивает стоимость нового дома.
Различия между классификацией и регрессией
Характеристика |
Классификация |
Регрессия |
Тип выходных данных |
Дискретные классы (например, 0 или 1). |
Непрерывные значения (например, цена). |
Пример задачи |
Спам/не спам. |
Предсказание цены дома. |
Метрики оценки |
Точность, F1-мера, AUC-ROC. |
MSE, MAE, R². |
Алгоритмы |
Логистическая регрессия, SVM. |
Линейная регрессия, Random Forest. |
Заключение
Обучение с учителем — это мощный инструмент для решения задач классификации и регрессии. Ключевые шаги включают подготовку данных, выбор модели, обучение, оценку и применение. В зависимости от задачи (дискретной или непрерывной) выбираются соответствующие алгоритмы и метрики. Например, для классификации спама используется логистическая регрессия, а для предсказания цен — случайный лес или градиентный бустинг.