Статья Автор: Degtyareva

summative cd

Я выбрала датасет "fever diagnosis and medicine dataset" , потому что он был первым на сайте kaggle.com , в котором было 3 столбца с числовыми значениями.
В датасете есть 20 столбцов.

Temperature(float),Fever_Severity(string),Age(int),Gender(string),BMI(float),Headache(string),Body_Ache(string),Fatigue(string),Chronic_Conditions(string),Allergies(string),Smoking_History(string),Alcohol_Consumption(string),Humidity(float),AQI(int),Physical_Activity(string),Diet_Type(string),Heart_Rate(int),Blood_Pressure(string),Previous_Medication(string),Recommended_Medication(string).

1)Среднее значение - это среднее арифметическое и вычисляется путем сложения группы чисел, а затем деления на количество этих чисел. 
sum(nums) это сумма всех чисел столбика,
len(nums) это длина всей колонки, то есть количество элементов.
2)Медиана. Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда (поэтому в коде, я делю на 2). Когда количество данных четно, то есть вместо одного есть два центральных значения, берется средняя арифметическая из двух центральных значений
3) Мода -  это значение, которое  на заданном множестве встречается чаще всего. 
moda = max(b, key=b.get)
b - связывает операцию со словарем а, который хранит частоту чисел 
key 
4) Дисперсия показывает статистику того, насколько данные отклоняются от среднего значения. Если результаты близки к середине, то дисперсия низкая, а если отдалены, то высокая. Чем выше дисперсия, тем больше непредсказуемости(это в экономике, но так понятнее). Формула для дисперсии вычисляется как среднее значение квадратов отклонений каждой точки данных от среднего арифметического. Она выглядит так:
σ**2=∑(x−y)**2// n
Где:

x — каждое значение из набора данных,
y — среднее арифметическое значений,
n — количество значений,
σ**2 — дисперсия.

dis = sum((x - avg) ** 2 for x in nums) / len(nums)

(x−avg)∗∗2 — возводит отклонение в квадрат( потому что avg в моем коде это среднее значение)
sum(...) — суммирует все квадраты отклонений.
/ len(nums) — делит сумму на количество значений nn, тем самым вычисляя среднее квадратов отклонений, то есть дисперсию.

5) Стандартное отклонениетвыводится из связи дисперсии и стандартного отклонения:
σ=корень из σ**2?
Чтобы привести результат к тем же единицам измерения, что и исходные данные, из дисперсии берётся квадратный корень.
std = dis ** 0.5 = std**2 **0.5
dis - уже вычисленная дисперсия
она возводится в степень (0,5), потому что это то же, что и нахождение значения (квадратного) корня

file = 'medicine.csv'
cols = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

data = {i: [] for i in cols} #это создание словаря чтобы к каждой колонке были данные именно для этой колонки 

try:
    with open(file, 'r') as f:# открывает файл 
        lines = f.readlines()
        for line in lines[1:]:#перебирает строки начиная со второй потому что в первой заголовки колонок
            values = line.strip().split(',') #создается список значений с отдельными элементами, убираются лишние пробелы 
            for i in cols:#перебирает номера колонок из списка колонок
                try:
                    data[i].append(float(values[i].strip()))#теперь значение в колонках это число float, оно добавляется в список для колонки с тем номеров в данные 
                    continue
                except ValueError:
                    continue
except FileNotFoundError:
    print(f"Файл {file} не найден.")
    exit()#если файл не найден, выводит сообщение и завершает

for i in cols:
    nums = data[i] #в массиве nums теперь данные ( числа из колонки) для колонок
    if len(nums) == 0:
        print(f"Нет данных для колонки {i}. Пропуск.")
        continue
    avg = sum(nums) / len(nums) #считает среднее значение в колонке
    nums.sort()
    mediana = nums[len(nums) // 2] if len(nums) % 2 != 0 else (nums[len(nums) // 2 - 1] + nums[len(nums) // 2]) / 2 #cчитает медиану
    a = {}#создание словаря для подсчета частоты.это словарь, где ключи — числа из списка, а значения — их частота.
    for num in nums:# перебирает все элементы списка nums
        if num in a:
            a[num] += 1 #если число уже есть в словаре, то увеличивается его частота
        else:
            a[num] = 1
    moda = max(a, key=a.get)# считает моду. словарь a хрнит частоту встречаемости чисел
    dispersia = sum((x - avg) ** 2 for x in nums) / len(nums)# считает дисперсию
    std = dispersia ** 0.5 #считает стандартное отклонение
    stats = { 
        "мин": min(nums),
        "макс": max(nums),
        "среднее": avg,
        "медиана": mediana,
        "мода": moda,
        "дисперсия": dispersia,
        "стандартное отклонение": std
    }
    print(f"Статистика для колонки {i}:")
    for key, value in stats.items():
        print(f"  {key}: {value}")#вывод того что получилось

Прикрепленные файлы
medicine.csv
summative.py

Загрузка...

Чтобы оставить комментарий, необходимо авторизоваться

💬

Пока нет комментариев. Будьте первым!

Печать