Одно разбиение на train/test может быть не очень репрезентативным — результат зависит от случайности разбиения. Кросс-валидация решает эту проблему:
Данные делятся на k частей (обычно 5). Модель обучается k раз, каждый раз используя разные части для обучения и теста. Итоговая оценка — среднее по всем k запускам.
Функция cross_val_score делает это автоматически.
Задание
Создайте второй ноутбук.
- Подготавьте данные (весь датасет, без разделения на train/test)
- Создайте модель LogisticRegression с параметрами: max_iter=1000, random_state=42
- Примените кросс-валидацию с 5 фолдами, используя метрику 'roc_auc'
- Выведите среднее значение ROC AUC по всем фолдам с округлением до 4 знаков
- Выведите стандартное отклонение ROC AUC с округлением до 4 знаков
В ответе укажите:
- Каково среднее значение ROC AUC по кросс-валидации?
- Каково стандартное отклонение ROC AUC?
Все значения с точностью до 4-х знаков после запятой.