Распишем код построчно
Часть 1: Построение диаграммы
x3 = ["PhD", "High", "School", "Masters", "Bachelors"]
y3 = [9777, 9623, 9623, 9597, 9447]
- x3: Это список категорий (уровней образования).
- y3: Это список численных данных, представляющих количество студентов для каждого уровня образования.
plt.bar(x3, y3, color="orange")
- plt.bar(x3, y3): Создает столбчатую диаграмму, где x3 — подписи категорий, а y3 — высота столбцов.
- color="orange": Указывает цвет столбцов.
plt.xlabel("Education Level")
plt.ylabel("Amount of Students")
plt.title("Education Level")
- Добавляет подписи осей и заголовок диаграммы:
- xlabel: подпись для оси X.
- ylabel: подпись для оси Y.
- title: заголовок диаграммы.
plt.show()
plt.close()
- plt.show(): Отображает диаграмму.
- plt.close(): Закрывает текущую диаграмму, чтобы очистить область рисования.
Часть 2: Чтение и обработка данных
filename = “Career”
with open(filename) as file:
lines = file.readlines()
- Открывает файл Career для чтения.
- lines = file.readlines(): Читает все строки файла в список lines.
header = lines[0].split(",")
data = [line.split(",") for line in lines[1:]]
- header: Содержит заголовки колонок (первая строка файла).
- data: Список остальных строк, разбитых на элементы.
columns = {col: [] for col in header}
for row in data:
for i in range(len(row)):
try:
columns[header[i]].append(int(row[i]))
except ValueError:
continue
- columns: Создает словарь, где ключи — это названия колонок, а значения — списки данных.
- append(int(row[i])): Добавляет числовое значение в соответствующий список.
- except ValueError: Пропускает нечисловые значения.
Часть 3: Вычисление статистики
for column in columns:
values = columns[column]
if not values:
continue
- values: Получает данные для текущей колонки.
- Если колонка пуста (нет числовых данных), пропускает её.
Формулы для статистики
- Среднее значение (Mean):
Среднее=Сумма всех значений/Количество значений ( sum(values) / len(value) )
- Медиана (Median):
- Если количество значений в столбце нечётное: медиана равна среднему члену в массиве
- Если количество значений чётное: медиана равна среднему арифметическому между двумя средними. Сначала надо сортировать массив. Далее взять эти два средних. Они находятся под индексами [n // 2 - 1] и [n // 2], где n – длина всего массива.
- Мода (Mode):
- Мода — это значение, которое встречается чаще всего.
- Если несколько значений имеют одинаковую частоту, мода включает все такие значения.
- Моду находим путем добавления в словарь. Ключ – слово, значение – количество в массиве. Далее просто берем ключ по большему значению.
- Дисперсия (Variance):
Дисперсия=Сумма квадратов разностей между каждым значением и средним/Количество значений.
Стандартное отклонение (Standard Deviation):
Арифметический корень из дисперсии. Достигается возведением в степень 0,5.
Как строить диаграммы в Python (на примере)
- Импорт библиотеки:
import matplotlib.pyplot as plt
- Подготовка данных:
categories = ["A", "B", "C"]
values = [10, 20, 15]
- Создание диаграммы:
- Используем функцию plt.bar() для столбчатой диаграммы.
plt.bar(categories, values, color="blue")
- Добавление подписей и заголовка:
- Используем функции xlabel(), ylabel(), и title().
plt.xlabel("Категории")
plt.ylabel("Значения")
plt.title("Пример диаграммы")
- Отображение диаграммы:
plt.show()
- Очистка области рисования (при необходимости):
plt.close()
ССЫЛКА НА ДАТАСЕТ - www.kaggle.com/datasets/jahnavipaliwal/field-of-study-vs-occupation