Задание на анализ данных
1) Выберите датасет по интересующей вас тематике
Зайдите на сайт Kaggle и выберите датасет.
Ниже представлены примеры датасетов (вы можете выбрать любой другой, даже если его нет в списке)
- Датасет: Kaggle — Video Game Sales
- Ссылка: Video Game Sales
- Описание: Данные о продажах видеоигр (название, платформа, год, жанр, издатель, продажи по регионам).
- Датасет: Kaggle — Movies Dataset
- Ссылка: Movies Dataset
- Описание: Информация о фильмах (название, жанр, бюджет, сборы, рейтинг, год, актёры).
- Формат: CSV (подмножество данных, например, movies_metadata.csv).
- Датасет: Kaggle — Pokémon Dataset
- Ссылка: Pokémon Dataset
- Описание: Характеристики покемонов (имя, тип, атака, защита, скорость, поколение).
- Датасет - Students Performance in Exams
-
Ссылка: Students Performance in Exams
-
Описание: Данные об успеваемости школьников по математике, чтению и письму, включая информацию о поле, расе, уровне образования родителей и т. д.
Это примерные датасеты! Ваша задача обосновать свой выбор (почему вам интересен именно этот датасет).
2) Сформулируйте к выбранному датасету 5 гипотез разной сложности
Пример гипотезы к последнему датасету:
Девочки лучше сдают гуманитарные предметы
3) Проверьте каждую из гипотез построив SQL запрос.
Ваше анализ обязательно должен использовать следующие запросы:
✅ Базовые SELECT-запросы
✅ Фильтрацию (WHERE, BETWEEN, IN)
✅ Группировку (GROUP BY, агрегатные функции)
4) Визуализируйте результаты
После выполнения запросов:
- Постройте столбчатые диаграммы (например, средние баллы по полу).
- Создайт таблицы сравнения (подготовка vs. отсутствие подготовки).
- Используйте Excel для построения графиков
5. Сделайте выводы и подготовьте презентацию
- Подтвердите или опровергнуте свои гипотезы.
- Постарайтесь объяснить результаты (например: "Девочки действительно лучше сдают письмо, потому что...").
- Отобразите шаги вашего анализа в виде презентации. В презентации отразите:
- выбранный датасет, его тематика
- гипотезы,
- sql-запросы для проверки ваших гипотез
- результаты выполнения запросов (первые строки, чтобы хорошо было видно на слайде)
- гистограммы, которые использовались для визуализации результата запроса
- ваши выводы по каждой гипотезе
Критерии оценивания
Критерий |
Баллы |
Пояснение |
1. Выбор датасета и обоснование |
1 |
Дано четкое объяснение, почему выбран именно этот датасет (интерес, актуальность, простота анализа). |
2. Формулировка гипотез |
1 |
Предложено 5 гипотез разной сложности, включая как очевидные, так и неочевидные предположения. |
3. Корректность SQL-запросов |
2 |
Запросы работают без ошибок, используют требуемые операции (SELECT , WHERE , GROUP BY , агрегатные функции). |
4. Глубина анализа |
1 |
Проверены все гипотезы, результаты интерпретированы (не просто вывод данных, но и их объяснение). |
5. Визуализация результатов |
1 |
Построены наглядные графики (столбчатые диаграммы, таблицы сравнения) в Excel или другом инструменте. |
6. Логичность выводов |
1 |
Выводы соответствуют данным, гипотезы подтверждены/опровергнуты аргументированно. |
7. Оформление презентации |
1 |
Презентация включает: постановку задачи, методы анализа, ключевые графики, выводы. Логичная структура, читаемый дизайн. |