Статья Автор: Шаранов Платон

Обработка файла. Критерий С. Отчет.


Распишем код построчно

Часть 1: Построение диаграммы
x3 = ["PhD", "High", "School", "Masters", "Bachelors"]
y3 = [9777, 9623, 9623, 9597, 9447]
  • x3: Это список категорий (уровней образования).
  • y3: Это список численных данных, представляющих количество студентов для каждого уровня образования.
plt.bar(x3, y3, color="orange")
  • plt.bar(x3, y3): Создает столбчатую диаграмму, где x3 — подписи категорий, а y3 — высота столбцов.
  • color="orange": Указывает цвет столбцов.
plt.xlabel("Education Level")
plt.ylabel("Amount of Students")
plt.title("Education Level")
  • Добавляет подписи осей и заголовок диаграммы:
    • xlabel: подпись для оси X.
    • ylabel: подпись для оси Y.
    • title: заголовок диаграммы.
plt.show()
plt.close()
  • plt.show(): Отображает диаграмму.
  • plt.close(): Закрывает текущую диаграмму, чтобы очистить область рисования.


Часть 2: Чтение и обработка данных
filename = “Career”
with open(filename) as file:
    lines = file.readlines()
  • Открывает файл Career для чтения.
  • lines = file.readlines(): Читает все строки файла в список lines.
header = lines[0].split(",")
data = [line.split(",") for line in lines[1:]]
  • header: Содержит заголовки колонок (первая строка файла).
  • data: Список остальных строк, разбитых на элементы.
columns = {col: [] for col in header}
for row in data:
    for i in range(len(row)):
        try:
            columns[header[i]].append(int(row[i]))
        except ValueError:
            continue
  • columns: Создает словарь, где ключи — это названия колонок, а значения — списки данных.
  • append(int(row[i])): Добавляет числовое значение в соответствующий список.
  • except ValueError: Пропускает нечисловые значения.


Часть 3: Вычисление статистики
for column in columns:
    values = columns[column]
    if not values:
        continue
  • values: Получает данные для текущей колонки.
  • Если колонка пуста (нет числовых данных), пропускает её.


Формулы для статистики
  1. Среднее значение (Mean):
Среднее=Сумма всех значений/Количество значений ​( sum(values) / len(value) )
  1. Медиана (Median):
    • Если количество значений в столбце нечётное: медиана равна среднему члену в массиве
    • Если количество значений чётное: медиана равна среднему арифметическому между двумя средними. Сначала надо сортировать массив. Далее взять эти два средних. Они находятся под индексами [n // 2 - 1] и [n // 2], где n – длина всего массива.
  2. Мода (Mode):
    • Мода — это значение, которое встречается чаще всего.
    • Если несколько значений имеют одинаковую частоту, мода включает все такие значения.
    • Моду находим путем добавления в словарь. Ключ – слово, значение – количество в массиве. Далее просто берем ключ по большему значению.
  3. Дисперсия (Variance):
Дисперсия=Сумма квадратов разностей между каждым значением и средним/Количество значений.
Стандартное отклонение (Standard Deviation):
Арифметический корень из дисперсии. Достигается возведением в степень 0,5.

Как строить диаграммы в Python (на примере)
  1. Импорт библиотеки:
import matplotlib.pyplot as plt
  1. Подготовка данных:
    • Списки для осей X и Y.
categories = ["A", "B", "C"]
values = [10, 20, 15]
  1. Создание диаграммы:
    • Используем функцию plt.bar() для столбчатой диаграммы.
plt.bar(categories, values, color="blue")
  1. Добавление подписей и заголовка:
    • Используем функции xlabel(), ylabel(), и title().
plt.xlabel("Категории")
plt.ylabel("Значения")
plt.title("Пример диаграммы")
  1. Отображение диаграммы:
plt.show()
  1. Очистка области рисования (при необходимости):
plt.close()

ССЫЛКА НА ДАТАСЕТ - www.kaggle.com/datasets/jahnavipaliwal/field-of-study-vs-occupation
 
 
Прикрепленные файлы
Career.csv
Пропустить Навигационные Ссылки.
Чтобы оставить комментарий нужна авторизация
Печать