Статья Автор: Доржиева Арьяна

Анализ файла. Отчёт.


Ссылка на датасет: https://www.kaggle.com/datasets/ziya07/student-health-and-attendance-data 
Формулы для вычисления:
1) медианы: упорядочить все числа и найти то, что по середине.
Это было сделать относительно легко. Так как в моём датасете было чётное количество строк (а именно 15000), то я брала 2 числа из середины (путём обращения по индексу) и находила их среднее арифметическое.
2) моды: найти самое часто встречающееся число. 
Это самое сложное. Я создала словарь, где ключом было само число, а значением - количество раз, когда число встречается в списке. Далее сортировка по значениям, нахождение их максимума. Важно, что мод может быть несколько. Хоть у меня в датасете такого нет, но если бы было, то работало бы корректно (я проверяла).
3) дисперсии: найти среднее квадратов отклонений от среднего.
Создаётся отдельный массив с значениями отклонений (разница i-шного числа и среднего арифмитического), возведённых в квадрат. Затем они суммируются и делятся на количество элементов. 
4) стандартного отклонения: найти корень из дисперсии.
По источникам стандатное отклонение - корень из дисперсии, а среднее отклонение - среднее арифмитическое отклонений. В задании употребляется и то, и то, потому я всё-таки написала в коде вычисление стандартного отклонения.
P.s. https://ru.wikipedia.org/wiki/Среднеквадратическое_отклонение
Описание колонок:
1. Stress level. Диапазон варьируется от 0.5 до 5. Среднее и медиана практически равны, чуть больше 2.5. Дисперсия и стандартное отклонение немаленькие для диапазона.
2. Sleep hours. Диапазон варьируется от 5 до 9. Среднее и медиана практически равны, почти равны 7. Дисперсия и стандартное отклонение относительно средние-маленькие для диапазона. 
3. Anxiety level. Диапазон варьируется от 1 до 10. Медиана больше среднего на 0.5, медиана больше 5.5. Дисперсия и стандартное отклонение большие для диапазона.
4. Mood score. Диапазон варьируется от 1 до 10. Среднее больше медианы, медиана меньше 5.5. Дисперсия и стандартное отклонение большие для диапазона, очень схожи с значениями в колонке anxiety level, хоть и медиана и мода отличаются.
Прикрепленные файлы
student_monnitoring_data.csv
Пропустить Навигационные Ссылки.
Чтобы оставить комментарий нужна авторизация
Печать