Статья Автор: Давтян Наре

Самматив CD по информатике

students_ids = []  # Уникальный номер студента
study_hours_per_day = []  # Часы учебы в день
extracurricular_hours_per_day = []  # Часы внеакадема в день
sleep_hours_per_day = []  # Часы сна в день
social_hours_per_day = []  # Часы общения в день
physical_activity_hours_per_day = []  # Часы физ. активности в день
gpa = []

with open("student_lifestyle_dataset.csv", "r") as file:
    file.readline()  # Пропустить первую строку с заголовками
    for line in file:
        a, b, c, d, e, f, g, _ = line.split(',')
        students_ids.append(float(a))  # Student_ID
        study_hours_per_day.append(float(b))  # Study_Hours_Per_Day
        extracurricular_hours_per_day.append(float(c))  # Extracurricular_Hours_Per_Day
        sleep_hours_per_day.append(float(d))  # Sleep_Hours_Per_Day
        social_hours_per_day.append(float(e))  # Social_Hours_Per_Day
        physical_activity_hours_per_day.append(float(f))  # Physical_Activity_Hours_Per_Day
        gpa.append(float(g))  # GPA

# Минимальное значение
min1 = min(students_ids)
min2 = min(study_hours_per_day)
min3 = min(extracurricular_hours_per_day)
min4 = min(sleep_hours_per_day)
min5 = min(social_hours_per_day)
min6 = min(physical_activity_hours_per_day)
min7 = min(gpa)

# максимальное значение
max1 = max(students_ids)
max2 = max(study_hours_per_day)
max3 = max(extracurricular_hours_per_day)
max4 = max(sleep_hours_per_day)
max5 = max(social_hours_per_day)
max6 = max(physical_activity_hours_per_day)
max7 = max(gpa)

# среднее значение
mean1 = sum(students_ids) / len(students_ids)
mean2 = sum(study_hours_per_day) / len(study_hours_per_day)
mean3 = sum(extracurricular_hours_per_day) / len(extracurricular_hours_per_day)
mean4 = sum(sleep_hours_per_day) / len(sleep_hours_per_day)
mean5 = sum(social_hours_per_day) / len(social_hours_per_day)
mean6 = sum(physical_activity_hours_per_day) / len(physical_activity_hours_per_day)
mean7 = sum(gpa) / len(gpa)


# медиана
def get_median(array):
    array = sorted(array)  # Шаг 1: сортируем список
    i_central = len(array) // 2
    # Шаг 2: проверяем четность количества элементов
    if len(array) % 2 == 0:
        # Шаг 3: Если четное, то мода это среднее двух серединных элементов
        # Например 1, 5, 6, 10. Серединные элементы 5 и 6. (5 + 6) / 2 = 5.5
        return (array[i_central - 1] + array[i_central]) / 2
    else:
        # Шаг 3: Если нечетное, то мода это серединный элемент
        # Например 1, 6, 10. Серединный элемент - 6
        return array[i_central]


median1 = get_median(students_ids)
median2 = get_median(study_hours_per_day)
median3 = get_median(extracurricular_hours_per_day)
median4 = get_median(sleep_hours_per_day)
median5 = get_median(social_hours_per_day)
median6 = get_median(physical_activity_hours_per_day)
median7 = get_median(gpa)


# мода
def get_mode(array):
    frequencies = {i: array.count(i) for i in array}  # Шаг 1: считаем частоту каждого элемента
    max_freq = max(frequencies.values())  # Шаг 2: находим максимальную частоту
    return [i for i in frequencies if frequencies[i] == max_freq]  # Шаг 3:находим элементы с максимальной частотой


moda1 = get_mode(students_ids)
moda2 = get_mode(study_hours_per_day)
moda3 = get_mode(extracurricular_hours_per_day)
moda4 = get_mode(sleep_hours_per_day)
moda5 = get_mode(social_hours_per_day)
moda6 = get_mode(physical_activity_hours_per_day)
moda7 = get_mode(gpa)


# дисперсия
def get_variance(array):
    # Дисперсия - это среднее квадратичное отклонение от среднего значения
    mean = sum(array) / len(array)  # Шаг 1: находим среднее значение
    # Шаг 2: считаем сумму квадратов отклонений по определению дисперсии
    result = sum((i - mean) ** 2 for i in array) / len(array)
    return result


var1 = get_variance(students_ids)
var2 = get_variance(study_hours_per_day)
var3 = get_variance(extracurricular_hours_per_day)
var4 = get_variance(sleep_hours_per_day)
var5 = get_variance(social_hours_per_day)
var6 = get_variance(physical_activity_hours_per_day)
var7 = get_variance(gpa)
# стандартное отклонение
std1 = var1 ** 0.5  # Берем корень из дисперсии
std2 = var2 ** 0.5
std3 = var3 ** 0.5
std4 = var4 ** 0.5
std5 = var5 ** 0.5
std6 = var6 ** 0.5
std7 = var7 ** 0.5

# выводим результаты
print('Статистика Student_ID (Уникальный номер студента)')
print(f'Мин: {min1}')
print(f'Макс: {max1}')
print(f'Среднее: {mean1:.2f}')
print(f'Медиана: {median1:.2f}')
print(f'Мода: неприменимо (Student ID уникален и встречается один раз - весь список является модой)')
print(f'Дисперсия: {var1:.2f}')
print(f'Стандартное отклонение: {std1:.2f}')
print()
print('Статистика Study_Hours_Per_Day (Часы учебы студента в день)')
print(f'Мин: {min2}')
print(f'Макс: {max2}')
print(f'Среднее: {mean2:.2f}')
print(f'Медиана: {median2:.2f}')
print(f'Мода: {moda2}')
print(f'Дисперсия: {var2:.2f}')
print(f'Стандартное отклонение: {std2:.2f}')
print()
print('Статистика Extracurricular_Hours_Per_Day (Часы внеакадема студента в день)')
print(f'Мин: {min3}')
print(f'Макс: {max3}')
print(f'Среднее: {mean3:.2f}')
print(f'Медиана: {median3:.2f}')
print(f'Мода: {moda3}')
print(f'Дисперсия: {var3:.2f}')
print(f'Стандартное отклонение: {std3:.2f}')
print()
print('Статистика Sleep_Hours_Per_Day (Часы сна студента в день)')
print(f'Мин: {min4}')
print(f'Макс: {max4}')
print(f'Среднее: {mean4:.2f}')
print(f'Медиана: {median4:.2f}')
print(f'Мода: {moda4}')
print(f'Дисперсия: {var4:.2f}')
print(f'Стандартное отклонение: {std4:.2f}')
print()
print('Статистика Social_Hours_Per_Day (Часы общения студента в день)')
print(f'Мин: {min5}')
print(f'Макс: {max5}')
print(f'Среднее: {mean5:.2f}')
print(f'Медиана: {median5:.2f}')
print(f'Мода: {moda5}')
print(f'Дисперсия: {var5:.2f}')
print(f'Стандартное отклонение: {std5:.2f}')
print()
print('Статистика Physical_Activity_Hours_Per_Day (Часы физ. активности студента в день)')
print(f'Мин: {min6}')
print(f'Макс: {max6}')
print(f'Среднее: {mean6:.2f}')
print(f'Медиана: {median6:.2f}')
print(f'Мода: {moda6}')
print(f'Дисперсия: {var6:.2f}')
print(f'Стандартное отклонение: {std6:.2f}')
print()
print('Статистика GPA студентов')
print(f'Мин: {min7}')
print(f'Макс: {max7}')
print(f'Среднее: {mean7:.2f}')
print(f'Медиана: {median7:.2f}')
print(f'Мода: {moda7}')
print(f'Дисперсия: {var7:.2f}')
print(f'Стандартное отклонение: {std7:.2f}')
print()

ОТЧЕТ:

ОПИСАНИЕ ДАТАСЕТА:

Я выбрала датасет "student lifestyle dataset", который дает детальное представление о моделях образа жизни студентов и их взаимосвязи с успеваемостью, представленной средним баллом.
Кол-во строк: 2000
Кол-во столбцов: 8
Он включает в себя 8 колонок с информацией об учебных часах, внеклассных мероприятиях, сне, общении, физической активности, уровнях стресса и среднем балле аттестата.
Числовые данные :
students_ids = [] # Уникальный номер студента
study_hours_per_day = [] # Часы учебы в день
extracurricular_hours_per_day = [] # Часы внеакадема в день
sleep_hours_per_day = [] # Часы сна в день
social_hours_per_day = [] # Часы общения в день
physical_activity_hours_per_day = [] # Часы физ. активности в день
gpa = []

8 колонка "уровень стресса" (уровень стресса каждого студента выводится на основе часов учебы и сна, что дает представление о том, как факторы образа жизни могут влиять на академические результаты) с содержанием букв мы пропустим и обозначим, как "_".
Все данные охватывают учебный год с августа 2023 года по май 2024 года и отражают образ жизни студентов, в основном из Индии.

ФОРМУЛЫ:

1 )Среднее значение находится по такой формуле:
Чтобы найти среднее значение, нам нужно сумму чисел поделить на количество чисел

mean1 = sum(students_ids) / len(students_ids)
mean2 = sum(study_hours_per_day) / len(study_hours_per_day)
mean3 = sum(extracurricular_hours_per_day) / len(extracurricular_hours_per_day)
mean4 = sum(sleep_hours_per_day) / len(sleep_hours_per_day)
mean5 = sum(social_hours_per_day) / len(social_hours_per_day)
mean6 = sum(physical_activity_hours_per_day) / len(physical_activity_hours_per_day)
mean7 = sum(gpa) / len(gpa)

2) Медиана находится по такой формуле:
Медина-это "серединное" значение

Шаг 1: мы сортируем список
def get_median(array):
array = sorted(array)
i_central = len(array) // 2

Шаг 2: проверяем четность количества элементов
  if len(array) % 2 == 0:

Шаг 3: Если четное, то мода это среднее двух серединных элементов
( Например 1, 5, 6, 10. Серединные элементы 5 и 6. (5 + 6) / 2 = 5.5)
return (array[i_central - 1] + array[i_central]) / 2
else:

Шаг 4: Если нечетное, то мода это серединный элемент
( Например 1, 6, 10. Серединный элемент - 6)
return array[i_central]

Шаг 5: Находим все медианы
median1 = get_median(students_ids)
median2 = get_median(study_hours_per_day)
median3 = get_median(extracurricular_hours_per_day)
median4 = get_median(sleep_hours_per_day)
median5 = get_median(social_hours_per_day)
median6 = get_median(physical_activity_hours_per_day)
median7 = get_median(gpa)

3) Мода находится по такой формуле:
Мода— это число, которое встречается в ряду чаще других.

Шаг 1: считаем частоту каждого элемента
def get_mode(array):
frequencies = {i: array.count(i) for i in array}

Шаг 2: находим максимальную частоту
max_freq = max(frequencies.values())

Шаг 3:находим элементы с максимальной частотой
return [i for i in frequencies if frequencies[i] == max_freq]

Шаг 4: находим моду
moda1 = get_mode(students_ids)
moda2 = get_mode(study_hours_per_day)
moda3 = get_mode(extracurricular_hours_per_day)
moda4 = get_mode(sleep_hours_per_day)
moda5 = get_mode(social_hours_per_day)
moda6 = get_mode(physical_activity_hours_per_day)
moda7 = get_mode(gpa)

4) Дисперсия находится по формуле:
Дисперсия - это среднее квадратичное отклонение от среднего значения

def get_variance(array):
Шаг 1: находим среднее значение
mean = sum(array) / len(array)

Шаг 2: считаем сумму квадратов отклонений по определению дисперсии
result = sum((i - mean) 2 for i in array) / len(array)
return result

Шаг 3 : находим
var1 = get_variance(students_ids)
var2 = get_variance(study_hours_per_day)
var3 = get_variance(extracurricular_hours_per_day)
var4 = get_variance(sleep_hours_per_day)
var5 = get_variance(social_hours_per_day)
var6 = get_variance(physical_activity_hours_per_day)
var7 = get_variance(gpa)

5) Формулу стандартного отклонения мы находим по формуле:
Стандартное отклонение — характеристика, использующаяся в статистике для измерения степени изменчивости или разброса данных

Шаг 1: Просто берем корень из дисперсии
std1 = var1 0.5
std2 = var2 0.5
std3 = var3 0.5
std4 = var4 0.5
std5 = var5 0.5
std6 = var6 0.5
std7 = var7 0.5

Прикрепленные файлы
student_lifestyle_dataset.csv

Загрузка...

Чтобы оставить комментарий, необходимо авторизоваться

💬

Пока нет комментариев. Будьте первым!

Печать