Олимпиадный тренинг

Задача . Кросс-валидация для надежной оценки

Задача

Темы:

Одно разбиение на train/test может быть не очень репрезентативным — результат зависит от случайности разбиения. Кросс-валидация решает эту проблему:

Данные делятся на k частей (обычно 5). Модель обучается k раз, каждый раз используя разные части для обучения и теста. Итоговая оценка — среднее по всем k запускам.

Функция cross_val_score делает это автоматически.

Задание

Создайте второй ноутбук.

Подготавьте данные (весь датасет, без разделения на train/test)
Создайте модель LogisticRegression с параметрами: max_iter=1000, random_state=42
Примените кросс-валидацию с 5 фолдами, используя метрику 'roc_auc'
Выведите среднее значение ROC AUC по всем фолдам с округлением до 4 знаков
Выведите стандартное отклонение ROC AUC с округлением до 4 знаков

В ответе укажите:

Каково среднее значение ROC AUC по кросс-валидации?
Каково стандартное отклонение ROC AUC?

Все значения с точностью до 4-х знаков после запятой.

time 1000 ms
memory 256 Mb
Правила оформления программ и список ошибок при автоматической проверке задач

Статистика успешных решений по компиляторам

Комментарий учителя

Ваш ответ

Для проверки решения задачи необходимо зарегистрироваться или авторизоваться!