Предлагаем поработать над пониманием структуры данных и нетривиальным форматированием, существующих наблюдений для получения итоговых ответов.
Представь, что у тебя есть компания, занимающаяся краткосрочной арендой велосипедов. Ты набрали данные по статистике использования этих велосипедов и теперь хочешь проанализировать закономерности: когда велосипедов нужно больше, когда меньше. Например, компания планирует техосмотр и нужно понять, когда ты можешь безболезненно убрать часть велосипедов с улиц.
Для работы мы предлагаем датасет с информацией об аренде велосипедов в Лондоне в 2015-2017. Исходный датасет содержал в себе столбец с датами в формате POSIXct (формат времени с точностью до секунды). Но мы упростили работу, выделив год, месяц и день в отдельных столбцах: «year», «month» и «day».
Другие обозначения:
cnt — число арендованных велосипедов в этот час;
t1 — фактическая температура;
t2 — температура «ощущается как»;
hum — влажность;
wind_speed — скорость ветра km/h;
weather_code — код типа погоды;
is_holiday — праздник или нет (1-0).
Кстати, напомним, что файлы типа *.csv — это формат comma separated values (т.е значения одной переменной отделяются от значений другой переменной запятой), и его открывает обычный Microsoft Excel.
Задание:
- Найдите небольшую аномалию/выбросы в полученных результатах и убрите ненужные данные (обратите внимание на количество наблюдений в каждом из представленных годов);