Если ты играл в шахматы, то наверняка задумывался о том, чтобы выучить пару-тройку игровых комбинаций. Предлагаем посмотреть на них с точки зрения анализа данных.
Сегодня мы предлагаем проанализировать датасет из 20058 наблюдений с сайта lichess.org. Датасет доступен на платформе kaggle.com
А еще мы сохранили его здесь.
Структура датасета:
Каждая строка — это данные наблюдения за игрой.
id — идентификатор игры;
rated — оцениваемая игра или нет;
created_at — время начала игры;
last_move_at — время последнего хода;
turns — количество ходов;
victory_status — статус игры;
winner — победитель (Ч/Б);
white_id — идентификатор игрока, играющего белыми;
white_rating — рейтинг игрока (Б);
black_id — идентификатор игрока, играющего черными;
black_rating — рейтинг игрока (Ч);
moves — ходы в стандартных шахматных обозначениях;
opening_eco — стандартный код для каждого типа дебюта;
opening_name — название дебюта;
opening_ply — количество ходов на дебютных этапах;
В этот раз мы решили немного оттолкнуться от привычного формата ответов на формальные вопросы. Тебе предстоит ответить на актуальный исследовательский вопрос:
- С чего стоит начинать игру типичному игроку в равной (c сопоставимыми рейтингами) игре?
Чтобы решать исследовательский вопрос было проще, а работа шла плавно, выполни эти пункты:
- Очисть данные от тех наблюдений, где рейтинги отличаются более чем на 100 единиц.
- Для извлечения базовых стратегий из столбца (opening_name) извлекай то, что до двоеточия.