ОТЧЕТ:
ОПИСАНИЕ ДАТАСЕТА:
Я выбрала датасет "student lifestyle dataset", который дает детальное представление о моделях образа жизни студентов и их взаимосвязи с успеваемостью, представленной средним баллом.
Кол-во строк: 2000
Кол-во столбцов: 8
Он включает в себя 8 колонок с информацией об учебных часах, внеклассных мероприятиях, сне, общении, физической активности, уровнях стресса и среднем балле аттестата.
Числовые данные :
students_ids = [] # Уникальный номер студента
study_hours_per_day = [] # Часы учебы в день
extracurricular_hours_per_day = [] # Часы внеакадема в день
sleep_hours_per_day = [] # Часы сна в день
social_hours_per_day = [] # Часы общения в день
physical_activity_hours_per_day = [] # Часы физ. активности в день
gpa = []
8 колонка "уровень стресса" (уровень стресса каждого студента выводится на основе часов учебы и сна, что дает представление о том, как факторы образа жизни могут влиять на академические результаты) с содержанием букв мы пропустим и обозначим, как "_".
Все данные охватывают учебный год с августа 2023 года по май 2024 года и отражают образ жизни студентов, в основном из Индии.
ФОРМУЛЫ:
1 )Среднее значение находится по такой формуле:
Чтобы найти среднее значение, нам нужно сумму чисел поделить на количество чисел
mean1 = sum(students_ids) / len(students_ids)
mean2 = sum(study_hours_per_day) / len(study_hours_per_day)
mean3 = sum(extracurricular_hours_per_day) / len(extracurricular_hours_per_day)
mean4 = sum(sleep_hours_per_day) / len(sleep_hours_per_day)
mean5 = sum(social_hours_per_day) / len(social_hours_per_day)
mean6 = sum(physical_activity_hours_per_day) / len(physical_activity_hours_per_day)
mean7 = sum(gpa) / len(gpa)
2) Медиана находится по такой формуле:
Медина-это "серединное" значение
Шаг 1: мы сортируем список
def get_median(array):
array = sorted(array)
i_central = len(array) // 2
Шаг 2: проверяем четность количества элементов
if len(array) % 2 == 0:
Шаг 3: Если четное, то мода это среднее двух серединных элементов
( Например 1, 5, 6, 10. Серединные элементы 5 и 6. (5 + 6) / 2 = 5.5)
return (array[i_central - 1] + array[i_central]) / 2
else:
Шаг 4: Если нечетное, то мода это серединный элемент
( Например 1, 6, 10. Серединный элемент - 6)
return array[i_central]
Шаг 5: Находим все медианы
median1 = get_median(students_ids)
median2 = get_median(study_hours_per_day)
median3 = get_median(extracurricular_hours_per_day)
median4 = get_median(sleep_hours_per_day)
median5 = get_median(social_hours_per_day)
median6 = get_median(physical_activity_hours_per_day)
median7 = get_median(gpa)
3) Мода находится по такой формуле:
Мода— это число, которое встречается в ряду чаще других.
Шаг 1: считаем частоту каждого элемента
def get_mode(array):
frequencies = {i: array.count(i) for i in array}
Шаг 2: находим максимальную частоту
max_freq = max(frequencies.values())
Шаг 3:находим элементы с максимальной частотой
return [i for i in frequencies if frequencies[i] == max_freq]
Шаг 4: находим моду
moda1 = get_mode(students_ids)
moda2 = get_mode(study_hours_per_day)
moda3 = get_mode(extracurricular_hours_per_day)
moda4 = get_mode(sleep_hours_per_day)
moda5 = get_mode(social_hours_per_day)
moda6 = get_mode(physical_activity_hours_per_day)
moda7 = get_mode(gpa)
4) Дисперсия находится по формуле:
Дисперсия - это среднее квадратичное отклонение от среднего значения
def get_variance(array):
Шаг 1: находим среднее значение
mean = sum(array) / len(array)
Шаг 2: считаем сумму квадратов отклонений по определению дисперсии
result = sum((i - mean) 2 for i in array) / len(array)
return result
Шаг 3 : находим
var1 = get_variance(students_ids)
var2 = get_variance(study_hours_per_day)
var3 = get_variance(extracurricular_hours_per_day)
var4 = get_variance(sleep_hours_per_day)
var5 = get_variance(social_hours_per_day)
var6 = get_variance(physical_activity_hours_per_day)
var7 = get_variance(gpa)
5) Формулу стандартного отклонения мы находим по формуле:
Стандартное отклонение — характеристика, использующаяся в статистике для измерения степени изменчивости или разброса данных
Шаг 1: Просто берем корень из дисперсии
std1 = var1 0.5
std2 = var2 0.5
std3 = var3 0.5
std4 = var4 0.5
std5 = var5 0.5
std6 = var6 0.5
std7 = var7 0.5