Статья Автор: Деникина Н.В., Деникин А.В.

Анализ данных с помощью sqllite

Задание на анализ данных

1) Выберите датасет по интересующей вас тематике

Зайдите на сайт Kaggle и выберите датасет. 

Ниже представлены примеры датасетов (вы можете выбрать любой другой, даже если его нет в списке)

-  Датасет: Kaggle — Video Game Sales  

   - Ссылка: Video Game Sales

   - Описание: Данные о продажах видеоигр (название, платформа, год, жанр, издатель, продажи по регионам).  

 

Датасет: Kaggle — Movies Dataset  

   - Ссылка: Movies Dataset  

   - Описание: Информация о фильмах (название, жанр, бюджет, сборы, рейтинг, год, актёры).  

   - Формат: CSV (подмножество данных, например, movies_metadata.csv).  

 

Датасет: Kaggle — Pokémon Dataset  

   - Ссылка: Pokémon Dataset

   - Описание: Характеристики покемонов (имя, тип, атака, защита, скорость, поколение).  
 

- Датасет - Students Performance in Exams

  • СсылкаStudents Performance in Exams

  • Описание: Данные об успеваемости школьников по математике, чтению и письму, включая информацию о поле, расе, уровне образования родителей и т. д.


Это примерные датасеты! Ваша задача обосновать свой выбор (почему вам интересен именно этот датасет).
 

2) Сформулируйте к выбранному датасету 5 гипотез разной сложности 

Пример гипотезы к последнему датасету:  
Девочки лучше сдают гуманитарные предметы

3) Проверьте каждую из гипотез построив SQL запрос. 


Ваше анализ обязательно должен использовать следующие запросы: 
✅ Базовые SELECT-запросы
✅ Фильтрацию (WHERE, BETWEEN, IN)
✅ Группировку (GROUP BY, агрегатные функции)
 

4) Визуализируйте результаты

После выполнения запросов:

  • Постройте столбчатые диаграммы (например, средние баллы по полу).
  • Создайт таблицы сравнения (подготовка vs. отсутствие подготовки).
  • Используйте Excel для построения графиков
 

5. Сделайте выводы и подготовьте презентацию

  1. Подтвердите или опровергнуте свои гипотезы.
  2. Постарайтесь объяснить результаты (например: "Девочки действительно лучше сдают письмо, потому что...").
  3. Отобразите шаги вашего анализа в виде презентации. В презентации отразите:
    • выбранный датасет, его тематика
    • гипотезы,
    • sql-запросы для проверки ваших гипотез
    • результаты выполнения запросов (первые строки, чтобы хорошо было видно на слайде)
    • гистограммы, которые использовались для визуализации результата запроса
    • ваши выводы по каждой гипотезе



 

Критерии оценивания 

Критерий Баллы Пояснение
1. Выбор датасета и обоснование 1 Дано четкое объяснение, почему выбран именно этот датасет (интерес, актуальность, простота анализа).
2. Формулировка гипотез 1 Предложено 5 гипотез разной сложности, включая как очевидные, так и неочевидные предположения.
3. Корректность SQL-запросов 2 Запросы работают без ошибок, используют требуемые операции (SELECTWHEREGROUP BY, агрегатные функции).
4. Глубина анализа 1 Проверены все гипотезы, результаты интерпретированы (не просто вывод данных, но и их объяснение).
5. Визуализация результатов 1 Построены наглядные графики (столбчатые диаграммы, таблицы сравнения) в Excel или другом инструменте.
6. Логичность выводов 1 Выводы соответствуют данным, гипотезы подтверждены/опровергнуты аргументированно.
7. Оформление презентации 1 Презентация включает: постановку задачи, методы анализа, ключевые графики, выводы. Логичная структура, читаемый дизайн.
Пропустить Навигационные Ссылки.
Чтобы оставить комментарий нужна авторизация
Печать