📁 Загрузка и знакомство с данными
-
Загрузите файл titanic.csv в DataFrame.
-
Выведите первые 10 строк датасета.
-
Выведите последние 5 строк датасета.
-
Посмотрите информацию о столбцах и типах данных.
-
Узнайте размер датасета (количество строк и столбцов).
🔍 Работа со столбцами
-
Выведите список всех названий столбцов.
-
Выберите и выведите только столбцы Name, Gender, Age.
-
Переименуйте столбец Name на FullName.
-
Создайте новый столбец Age_plus_10, который равен Age + 10.
-
Удалите столбец Cabin.
🧹 Работа с пропусками
-
Посчитайте количество пропусков в каждом столбце. df.isna().sum()
-
Замените пропущенные значения в Age на средний возраст. .fillna(mean_age)
-
Удалите строки, в которых пропущено значение Embarked. df.dropna(subset=['Embarked'])
-
Проверьте, остались ли пропуски в датасете.
-
Посчитайте количество строк до и после очистки данных.
📊 Фильтрация и группировка
🔹 ФИЛЬТРАЦИЯ (выбор строк)
🟢 Базовый уровень
-
Отфильтруйте всех пассажиров старше 60 лет.
-
Найдите всех пассажиров младше 12 лет.
-
Выведите всех пассажиров женского пола.
-
Отфильтруйте пассажиров 1-го класса (Pclass == 1).
-
Найдите пассажиров, заплативших за билет больше 100.
🟡 Условия посложнее
-
Отфильтруйте мужчин старше 18 лет.
-
Найдите женщин младше 30 лет из 1-го класса.
-
Отберите пассажиров, которые не выжили (Survived == 0).
-
Найдите пассажиров 2-го или 3-го класса.
-
Найдите пассажиров с известным номером каюты (Cabin не NaN).
🔵 Несколько условий
-
Отфильтруйте пассажиров младше 18 лет и не выживших.
-
Найдите женщин, которые выжили и были в 1-м классе.
-
Отфильтруйте пассажиров старше 50 лет с билетами дешевле 20.
-
Найдите пассажиров, путешествовавших без родственников
(SibSp == 0 и Parch == 0)
-
Отберите пассажиров с фамилией Smith.
🔹 ГРУППИРОВКА (groupby)
🟢 Базовый уровень
-
Посчитайте количество пассажиров по полу.
-
Посчитайте количество пассажиров по классам (Pclass).
-
Найдите средний возраст пассажиров.
-
Посчитайте количество выживших и погибших.
-
Найдите среднюю цену билета.
🟡 Группировка по одному признаку
-
Найдите средний возраст пассажиров по полу.
-
Посчитайте среднюю цену билета по классу.
-
Посчитайте количество пассажиров по порту посадки (Embarked).
-
Найдите процент выживших по полу.
-
Найдите средний возраст выживших пассажиров.
🔵 Группировка по нескольким признакам
-
Найдите средний возраст по полу и классу.
-
Посчитайте количество пассажиров по полу и факту выживания.
-
Найдите среднюю цену билета по классу и порту посадки.
-
Посчитайте количество выживших по классу.
-
Найдите средний возраст детей (<18 лет) по полу.
🔴 Продвинутые (но всё ещё без визуализации)
-
Найдите класс с самым высоким процентом выживших.
-
Определите порт посадки с самой высокой средней ценой билета.
-
Найдите пол с наибольшей средней продолжительностью жизни (возраст).
-
Посчитайте долю выживших среди пассажиров без родственников.
-
Найдите топ-5 самых дорогих билетов среди выживших.
🧠 Бонус-идеи (очень полезно для практики)
-
Создайте столбец IsChild (возраст < 18) и посчитайте выживаемость.
-
Создайте столбец FamilySize = SibSp + Parch + 1 и сгруппируйте данные.
-
Разбейте возраст на группы (0–12, 13–18, 19–40, 41+).
-
Посчитайте среднюю цену билета для одиноких и семейных пассажиров.
-
Сравните выживаемость пассажиров с каютой и без каюты.