Статья Автор: Degtyareva

summative cd

Я выбрала датасет "fever diagnosis and medicine dataset" , потому что он был первым на сайте kaggle.com , в котором было 3 столбца с числовыми значениями. 
В датасете есть 20 столбцов. 
Temperature(float),Fever_Severity(string),Age(int),Gender(string),BMI(float),Headache(string),Body_Ache(string),Fatigue(string),Chronic_Conditions(string),Allergies(string),Smoking_History(string),Alcohol_Consumption(string),Humidity(float),AQI(int),Physical_Activity(string),Diet_Type(string),Heart_Rate(int),Blood_Pressure(string),Previous_Medication(string),Recommended_Medication(string).

1)Среднее значение - это среднее арифметическое и вычисляется путем сложения группы чисел, а затем деления на количество этих чисел. 
sum(nums) это сумма всех чисел столбика,
len(nums) это длина всей колонки, то есть количество элементов.
2)Медиана. Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда (поэтому в коде, я делю на 2). Когда количество данных четно, то есть вместо одного есть два центральных значения, берется средняя арифметическая из двух центральных значений
3) Мода -  это значение, которое  на заданном множестве встречается чаще всего. 
moda = max(b, key=b.get)
b - связывает операцию со словарем а, который хранит частоту чисел 
key 
4) Дисперсия показывает статистику того, насколько данные отклоняются от среднего значения. Если результаты близки к середине, то дисперсия низкая, а если отдалены, то высокая. Чем выше дисперсия, тем больше непредсказуемости(это в экономике, но так понятнее). Формула для дисперсии вычисляется как среднее значение квадратов отклонений каждой точки данных от среднего арифметического. Она выглядит так:
σ**2=∑(x−y)**2// n
Где:
  • x — каждое значение из набора данных,
  • y — среднее арифметическое значений,
  • n — количество значений,
  • σ**2 — дисперсия.
dis = sum((x - avg) ** 2 for x in nums) / len(nums) 
  1. (x−avg)∗∗2 — возводит отклонение в квадрат( потому что avg в моем коде это среднее значение)
  2. sum(...) — суммирует все квадраты отклонений. 
  3. / len(nums) — делит сумму на количество значений nn, тем самым вычисляя среднее квадратов отклонений, то есть дисперсию.
5) Стандартное отклонениетвыводится из связи дисперсии и стандартного отклонения:
σ=корень из σ**2?
Чтобы привести результат к тем же единицам измерения, что и исходные данные, из дисперсии берётся квадратный корень.
 std = dis ** 0.5 = std**2 **0.5
dis - уже вычисленная дисперсия
она возводится в степень (0,5), потому что это то же, что и нахождение значения (квадратного) корня 

Прикрепленные файлы
medicine.csv
summative.py
Пропустить Навигационные Ссылки.
Чтобы оставить комментарий нужна авторизация
Печать