Урок 2: Категориальные графики и распределения
В первом уроке мы искали связь между двумя числами (счет и чаевые). Но что, если мы хотим сравнить категории? Например, кто оставляет больше чаевых: мужчины или женщины? В какие дни недели посетителей больше всего? Для этого в Seaborn есть специальные инструменты.
1. Подсчет категорий: Countplot
Если нам нужно просто посчитать количество записей в каждой категории, используем sns.countplot(). Это аналог гистограммы, но для текстовых/категориальных данных.
2. Столбчатые диаграммы: Barplot
barplot не просто считает количество, он вычисляет среднее значение (по умолчанию) для каждой категории. Черные линии на столбиках — это доверительные интервалы (показывают разброс данных).
3. Ящики с усами: Boxplot
Один из самых важных графиков в анализе данных. Он показывает не только среднее, но и медиану, квартили и выбросы (аномальные значения, которые отображаются точками).
4. Гистограммы распределения: Histplot
Чтобы понять, как вообще распределены наши данные (например, какие суммы счетов встречаются чаще всего), используется гистограмма.
(Параметр kde=True добавляет плавную линию тренда, а bins=20 разбивает данные на 20 колонок).
🛠 Практическое задание
Задание 1: Кто щедрее? Используя график barplot, построй визуализацию, которая покажет средний размер чаевых (tip) в зависимости от пола клиента (sex).
Задание 2: Поиск аномалий В ресторане иногда оставляют аномально большие чаевые.