Статья Автор: Блинов Никита

Анализ файла csv - Разбор

Я выбрал датасет по потреблению алкогольных напиток в россии по областям и по годам. Колонками являются разные алкогольные напитки(ром, вино, пиво и.т.д.) тип данных-float
"Year" - год (2017-2023)
"Region" - название субъекта федерации России
"Wine" - потребление вина в литрах в год на душу населения
"Beer" - потребление пива в литрах в год на душу населения
"Vodka" - потребление водки в литрах в год на душу населения
"Sparkling wine" - потребление игристого вина в литрах в год на душу населения
"Brandy" - потребление бренди в литрах в год на душу населения
"Сider" - потребление сидра в литрах в год на душу населения
"Liqueurs" - потребление ликеров в литрах по годам на душу населения
"Total alcohol consumption (in liters of pure alcohol per capita)" -
Общее потребление алкоголя в литрах чистого спирта по годам на душу населения
Среднее значение — это сумма всех элементов, разделенная на их количество.
- Дисперсия — это сумма квадратов разностей между каждым значением и средним значением, деленная на количество значений.
- Медиана — необходимо отсортировать массив элементов и выбрать значение, находящееся в середине, при этом округляя вниз, если длина массива нечетная.
- Мода — необходимо создать словарь, где ключами будут уникальные значения из набора данных, а значениями — количество их повторений; затем следует выбрать ключ с наибольшим значением.
- Стандартное отклонение — это квадратный корень из дисперсии.

with open("Consumption of alcoholic beverages in Russia 2017-2023.csv", "r") as file:
    table = []
    for i in file:
        line = i
        words = line.split(",")
        table.append(words)
print(table[0])
for i in range(len(table[0])):
    c = []
    for j in range(1, len(table)):
        try:
            c.append(float(table[j][i]))
        except ValueError:
            break  

    if len(c) == 0:  
        continue

    print(table[0][i])

    listt = sorted(c)
    length = len(listt)
    if length % 2 == 0:
        index = length // 2
        median = (listt[index - 1] + listt[index]) / 2
    else:
        index = length // 2
        median = listt[index]

    average = sum(c) / len(c)

    dispersion = sum((x - average) ** 2 for x in c) / len(c)

    standart_deviation = (sum((x - average) ** 2 for x in c) / len(c)) ** (1 / 2)

    moda = {}
    for num in c:
        moda[num] = moda.get(num, 0) + 1
    moda = max(moda, key=moda.get)

    print("мин", min(c))
    print("макс", max(c))
    print("среднее", average)
    print("медиана", median)
    print("мода", moda)
    print("дисперсия", dispersion)
    print("стандартное отклонение", standart_deviation)


import matplotlib.pyplot as plt

c = []

for i in range(1, len(table)):
    c.append(float(table[i][4]))

plt.plot(c)
plt.show()

Загрузка...

Чтобы оставить комментарий, необходимо авторизоваться

💬

Пока нет комментариев. Будьте первым!

Печать