Статья Автор: Шаранов Платон

Обработка файла. Критерий С. Отчет.

import matplotlib.pyplot as plt
x3 = ["PhD", "High", "School", "Masters", "Bachelors"]
y3 = [9777, 9623, 9623, 9597, 9447]  # Исправлен размер y3 на 4 элемента
plt.bar(x3, y3, color="orange")
plt.xlabel("Education Level")
plt.ylabel("Amount of Students")
plt.title("Education Level")
plt.show()
plt.close()

filename = "Career.csv"

with open(filename) as file:
    lines = file.readlines()  #Чтение всех строк из файла

header = lines[0].split(",")  #Разделение по запятой
data = [line.split(",") for line in lines[1:]]  #Записываем в массив data значения в столбцах

#Создание словаря для хранения данных по колонкам
columns = {col: [] for col in header}

#Заполнение словаря данными
for row in data:
    for i in range(len(row)):
        try:
            columns[header[i]].append(int(row[i]))  #Преобразование строки в число и добавление. Ключу соответсвует название столбца, а значению - массив из элементов столбца
        except ValueError:
            continue  #Если в столбце нет числовых значений

for column in columns:
    values = columns[column]
    if not values:  #Если столбец пустой, пропускаем его
        continue
    n = len(values)
    minimum = min(values)
    maximum = max(values)
    summ = sum(values)
    average = summ / n
    sorted_values = sorted(values)
    
    #Медиана
    if n % 2 == 0:
        median = (sorted_values[n // 2 - 1] + sorted_values[n // 2]) / 2
    else:
        median = sorted_values[n // 2]
    
    #Мода
    frequency = {}
    for v in sorted_values:
        if v in frequency:
            frequency[v] += 1
        else:
            frequency[v] = 1
            
    #Дисперсия и стандартное отклонение
    maximim_frequency = max(frequency.values())
    mode = [key for key, value in frequency.items() if value == maximim_frequency]
    variance = sum((v - average) ** 2 for v in sorted_values) / n
    standard_deviation = variance ** 0.5

    #Вывод статистики для каждой колонки
    print(f"Статистика для {column}:")
    print(f"мин: {minimum}")
    print(f"макс: {maximum}")
    print(f"среднее: {average}")
    print(f"медиана: {median}")
    print(f"мода: {mode}")
    print(f"дисперсия: {variance}")
    print(f"стандартное отклонение: {standard_deviation}")

Распишем код построчно

Часть 1: Построение диаграммы
x3 = ["PhD", "High", "School", "Masters", "Bachelors"]
y3 = [9777, 9623, 9623, 9597, 9447]

x3: Это список категорий (уровней образования).
y3: Это список численных данных, представляющих количество студентов для каждого уровня образования.

plt.bar(x3, y3, color="orange")

plt.bar(x3, y3): Создает столбчатую диаграмму, где x3 — подписи категорий, а y3 — высота столбцов.
color="orange": Указывает цвет столбцов.

plt.xlabel("Education Level")
plt.ylabel("Amount of Students")
plt.title("Education Level")

Добавляет подписи осей и заголовок диаграммы:
- xlabel: подпись для оси X.
- ylabel: подпись для оси Y.
- title: заголовок диаграммы.

plt.show()
plt.close()

plt.show(): Отображает диаграмму.
plt.close(): Закрывает текущую диаграмму, чтобы очистить область рисования.

Часть 2: Чтение и обработка данных
filename = “Career”
with open(filename) as file:
lines = file.readlines()

Открывает файл Career для чтения.
lines = file.readlines(): Читает все строки файла в список lines.

header = lines[0].split(",")
data = [line.split(",") for line in lines[1:]]

header: Содержит заголовки колонок (первая строка файла).
data: Список остальных строк, разбитых на элементы.

columns = {col: [] for col in header}
for row in data:
    for i in range(len(row)):
        try:
            columns[header[i]].append(int(row[i]))
        except ValueError:
            continue

columns: Создает словарь, где ключи — это названия колонок, а значения — списки данных.
append(int(row[i])): Добавляет числовое значение в соответствующий список.
except ValueError: Пропускает нечисловые значения.

Часть 3: Вычисление статистики
for column in columns:
    values = columns[column]
    if not values:
        continue

values: Получает данные для текущей колонки.
Если колонка пуста (нет числовых данных), пропускает её.

Формулы для статистики

Среднее значение (Mean):

Среднее=Сумма всех значений/Количество значений ( sum(values) / len(value) )

Медиана (Median):
- Если количество значений в столбце нечётное: медиана равна среднему члену в массиве
- Если количество значений чётное: медиана равна среднему арифметическому между двумя средними. Сначала надо сортировать массив. Далее взять эти два средних. Они находятся под индексами [n // 2 - 1] и [n // 2], где n – длина всего массива.
Мода (Mode):
- Мода — это значение, которое встречается чаще всего.
- Если несколько значений имеют одинаковую частоту, мода включает все такие значения.
- Моду находим путем добавления в словарь. Ключ – слово, значение – количество в массиве. Далее просто берем ключ по большему значению.
Дисперсия (Variance):

Дисперсия=Сумма квадратов разностей между каждым значением и средним/Количество значений.
Стандартное отклонение (Standard Deviation):
Арифметический корень из дисперсии. Достигается возведением в степень 0,5.

Как строить диаграммы в Python (на примере)

Импорт библиотеки:

import matplotlib.pyplot as plt

Подготовка данных:
- Списки для осей X и Y.

categories = ["A", "B", "C"]
values = [10, 20, 15]

Создание диаграммы:
- Используем функцию plt.bar() для столбчатой диаграммы.

plt.bar(categories, values, color="blue")

Добавление подписей и заголовка:
- Используем функции xlabel(), ylabel(), и title().

plt.xlabel("Категории")
plt.ylabel("Значения")
plt.title("Пример диаграммы")

Отображение диаграммы:

plt.show()

Очистка области рисования (при необходимости):

plt.close()

ССЫЛКА НА ДАТАСЕТ - www.kaggle.com/datasets/jahnavipaliwal/field-of-study-vs-occupation

Прикрепленные файлы
Career.csv

Загрузка...

Чтобы оставить комментарий, необходимо авторизоваться

💬

Пока нет комментариев. Будьте первым!

Печать