Давайте рассмотрим актуальную на сегодняшний день статистику заболеваемости Сovid-19 в странах ЕС/ЕАС. Представьте, что вы начали планировать свое путешествие по Европе, но ваша заинтересованность о распространенности вируса сподвигла вас на мысль об исследовании актуальных данных о распространении и опасности этого вируса в странах ЕС. Таким образом, вы поставили себе задачу ответить на несколько вопросов.
В файле joined_data.csv содержатся данные по распространению covid-19 в странах ЕС. Каждая строка — это данные за день о количествах заражений и летальных исходов в определенной стране.
Переменные:
dateRep — дата наблюдения;
country_name — название страны;
cases — количество случаев заражений в указанную дату в стране из колонки country_name;
deaths — количество летальных исходов в указанный день в стране из колонки country_name;
Land.area..sq..km. — территория страны в кв.км.
Но есть ещё две таблицы: data.csv и land-area-km.csv, которые являются основой таблицы, с которой вы будете работать. Способ получения данных прямо с вебсайта и предобработку данных мы покажем вам в разборе решения, но мы не ожидаем от вас дополнительных действий, и объединенные данные уже свели за вас в файл joined_data.csv.
Кстати, напомним, что файлы типа *.csv — это формат comma separated variables (т.е значения одной переменной отделяются от значений другой переменной запятой), и его открывает обычный Microsoft Excel.
Разведочный анализ данных (разминка):
- Определить самую безопасную/опасную страну для поездки в коронавирусные выходные. В данном задании предполагается придумать свой способ определения таких стран.
В первой строке надо написать самую безопасную, во второй самую опасную страну.