Олимпиадный тренинг

Задача . Практикуемся на реальных данных - 11


Задача

Темы:

Если ты играл в шахматы, то наверняка задумывался о том, чтобы выучить пару-тройку игровых комбинаций. Предлагаем посмотреть на них с точки зрения анализа данных. 

Сегодня мы предлагаем проанализировать датасет из 20058 наблюдений с сайта lichess.org. Датасет доступен на платформе kaggle.com

А еще мы сохранили его здесь.


Структура датасета: 
Каждая строка — это данные наблюдения за игрой.
id — идентификатор игры;
rated — оцениваемая игра или нет;
created_at — время начала игры;
last_move_at — время последнего хода;
turns — количество ходов;
victory_status — статус игры;
winner — победитель (Ч/Б);
white_id — идентификатор игрока, играющего белыми;
white_rating — рейтинг игрока (Б);
black_id — идентификатор игрока, играющего черными;
black_rating — рейтинг игрока (Ч);
moves — ходы в стандартных шахматных обозначениях;
opening_eco — стандартный код для каждого типа дебюта;
opening_name — название дебюта;
opening_ply — количество ходов на дебютных этапах;


В этот раз мы решили немного оттолкнуться от привычного формата ответов на формальные вопросы. Тебе предстоит ответить на актуальный исследовательский вопрос:  

  • С чего стоит начинать игру типичному игроку в равной (c сопоставимыми рейтингами) игре?

Чтобы решать исследовательский вопрос было проще, а работа шла плавно, выполни эти пункты: 

  • Очисть данные от тех наблюдений, где рейтинги отличаются более чем на 100 единиц.
  • Для извлечения базовых стратегий из столбца (opening_name) извлекай то, что до двоеточия.

time 1000 ms
memory 256 Mb
Правила оформления программ и список ошибок при автоматической проверке задач

Статистика успешных решений по компиляторам
Комментарий учителя