Дубликаты - одинаковые строки в данных, которые могут исказить анализ.
Основные методы
df.duplicated() - находит дубликаты (возвращает True/False)
df.drop_duplicates() - удаляет дубликаты
df.nunique() - количество уникальных значений
Параметры drop_duplicates()
subset - столбцы для проверки дубликатов
keep - какую копию оставить (
'first',
'last',
False)
ignore_index - пересоздает аккуратный последовательный индекс (0, 1, 2, 3, 4...).
Пример
df_clean = df.drop_duplicates() # Удалить полные дубликаты
df_partial = df.drop_duplicates(subset=['name']) # По имени
df_last = df.drop_duplicates(keep='last') # Оставить последний
Задание
1) Посчитайте количество полных дубликатов в прикрепленном датасете (программа должна вывести целое число)
2) Удалите все полные дубликаты и выведите размер получившегося датасета.