Олимпиадный тренинг

Задача . Кросс-валидация для надежной оценки


Задача

Темы:

Одно разбиение на train/test может быть не очень репрезентативным — результат зависит от случайности разбиения. Кросс-валидация решает эту проблему:

Данные делятся на k частей (обычно 5). Модель обучается k раз, каждый раз используя разные части для обучения и теста. Итоговая оценка — среднее по всем k запускам.

Функция cross_val_score делает это автоматически.
 


Задание

Создайте второй ноутбук. 

  1. Подготавьте данные (весь датасет, без разделения на train/test)
  2. Создайте модель LogisticRegression с параметрами: max_iter=1000, random_state=42
  3. Примените кросс-валидацию с 5 фолдами, используя метрику 'roc_auc'
  4. Выведите среднее значение ROC AUC по всем фолдам с округлением до 4 знаков
  5. Выведите стандартное отклонение ROC AUC с округлением до 4 знаков

В ответе укажите:
  1. Каково среднее значение ROC AUC по кросс-валидации?
  2. Каково стандартное отклонение ROC AUC?
Все значения с точностью до 4-х знаков после запятой. 
 

time 1000 ms
memory 256 Mb
Правила оформления программ и список ошибок при автоматической проверке задач

Статистика успешных решений по компиляторам
Комментарий учителя