Статья Автор: Давтян Наре

Самматив CD по информатике



ОТЧЕТ: 
ОПИСАНИЕ ДАТАСЕТА:

Я выбрала датасет "student lifestyle dataset", который  дает детальное представление о моделях образа жизни студентов и их взаимосвязи с успеваемостью, представленной средним баллом.
Кол-во строк: 2000
Кол-во столбцов: 8
Он включает в себя 8 колонок с  информацией об учебных часах, внеклассных мероприятиях, сне, общении, физической активности, уровнях стресса и среднем балле аттестата.
 Числовые данные : 
students_ids = []  # Уникальный номер студента
study_hours_per_day = []  # Часы учебы в день
extracurricular_hours_per_day = []  # Часы внеакадема в день
sleep_hours_per_day = []  # Часы сна в день
social_hours_per_day = []  # Часы общения в день
physical_activity_hours_per_day = []  # Часы физ. активности в день
gpa = [] 


8 колонка "уровень стресса" (уровень стресса каждого студента выводится на основе часов учебы и сна, что дает представление о том, как факторы образа жизни могут влиять на академические результаты)  с содержанием букв мы пропустим и обозначим, как "_".
Все данные охватывают учебный год с августа 2023 года по май 2024 года и отражают образ жизни студентов, в основном из Индии.

ФОРМУЛЫ:

1 )Среднее значение находится по такой формуле: 

Чтобы найти среднее значение, нам нужно сумму чисел поделить на количество чисел

mean1 = sum(students_ids) / len(students_ids)
mean2 = sum(study_hours_per_day) / len(study_hours_per_day)
mean3 = sum(extracurricular_hours_per_day) / len(extracurricular_hours_per_day)
mean4 = sum(sleep_hours_per_day) / len(sleep_hours_per_day)
mean5 = sum(social_hours_per_day) / len(social_hours_per_day)
mean6 = sum(physical_activity_hours_per_day) / len(physical_activity_hours_per_day)
mean7 = sum(gpa) / len(gpa)
 


2) Медиана находится по такой формуле:
Медина-это "серединное" значение

Шаг 1: мы сортируем список
def get_median(array):
    array = sorted(array)  
    i_central = len(array) // 2 


 Шаг 2: проверяем четность количества элементов
    if len(array) % 2 == 0: 

 Шаг 3: Если четное, то мода это среднее двух серединных элементов
        ( Например 1, 5, 6, 10. Серединные элементы 5 и 6. (5 + 6) / 2 = 5.5)
        return (array[i_central - 1] + array[i_central]) / 2
    else:


 Шаг 4: Если нечетное, то мода это серединный элемент
        ( Например 1, 6, 10. Серединный элемент - 6)
        return array[i_central]

Шаг 5: Находим все медианы
median1 = get_median(students_ids)
median2 = get_median(study_hours_per_day)
median3 = get_median(extracurricular_hours_per_day)
median4 = get_median(sleep_hours_per_day)
median5 = get_median(social_hours_per_day)
median6 = get_median(physical_activity_hours_per_day)
median7 = get_median(gpa)


3) Мода находится по такой формуле:
Мода— это число, которое встречается в ряду чаще других.

Шаг 1: считаем частоту каждого элемента
def get_mode(array):
    frequencies = {i: array.count(i) for i in array} 


Шаг 2: находим максимальную частоту
    max_freq = max(frequencies.values())  

Шаг 3:находим элементы с максимальной частотой
    return [i for i in frequencies if frequencies[i] == max_freq]   

Шаг 4: находим моду 
moda1 = get_mode(students_ids)
moda2 = get_mode(study_hours_per_day)
moda3 = get_mode(extracurricular_hours_per_day)
moda4 = get_mode(sleep_hours_per_day)
moda5 = get_mode(social_hours_per_day)
moda6 = get_mode(physical_activity_hours_per_day)
moda7 = get_mode(gpa)



4) Дисперсия находится по формуле:
 Дисперсия - это среднее квадратичное отклонение от среднего значения


  def get_variance(array):
Шаг 1: находим среднее значение
   mean = sum(array) / len(array)   

 Шаг 2: считаем сумму квадратов отклонений по определению дисперсии
    result = sum((i - mean)  2 for i in array) / len(array)
    return result


Шаг 3 : находим 
var1 = get_variance(students_ids)
var2 = get_variance(study_hours_per_day)
var3 = get_variance(extracurricular_hours_per_day)
var4 = get_variance(sleep_hours_per_day)
var5 = get_variance(social_hours_per_day)
var6 = get_variance(physical_activity_hours_per_day)
var7 = get_variance(gpa)


5) Формулу стандартного отклонения мы находим по формуле:
Стандартное отклонение — характеристика, использующаяся в статистике для измерения степени изменчивости или разброса данных

Шаг 1: Просто берем корень из дисперсии
std1 = var1  0.5  
std2 = var2  0.5
std3 = var3  0.5
std4 = var4  0.5
std5 = var5  0.5
std6 = var6  0.5
std7 = var7  0.5
Прикрепленные файлы
student_lifestyle_dataset.csv
Пропустить Навигационные Ссылки.
Чтобы оставить комментарий нужна авторизация
Печать