Статья Автор: Афонин Дмитрий

Анализ файла. Отчет



wage = []
education = []
expirience = []
age = []
with open("microdata_salari.csv") as f:
    for line in f:
        _, w, _, _, _, ed, ex, a, _, _, _, _ = line.split(',')
        wage.append(float(w))
        education.append(float(ed))
        expirience.append(float(ex))
        age.append(float(a))
wage_min = min(wage)
wage_max = max(wage)
wage_sr = sum(wage)/len(wage)
wage.sort()
if len(wage) % 2 == 0:
    wage_med = (wage[int(len(wage)/2)] + wage[int(len(wage)/2+1)])/2
else:
    wage_med = wage(int((len(wage)+1)/2))
s_w = {}
for el in wage:
    s_w[el] = s_w.get(el, 0) + 1
sorted_s_w_by_values = {key: value for key, value in sorted(s_w.items(), key=lambda item: -item[1])}
sl_w = list(sorted_s_w_by_values.items())
moda_w = []
for i in range(len(sl_w)):
    if int(sl_w[i][1]) == int(sl_w[0][1]):
        moda_w.append(sl_w[i][0])
    else:
        break
disp_w = []
for el in wage:
    disp_w.append((el-wage_sr)**2)
wage_disp = sum(disp_w)/len(wage)
standotkl_w = []
for el in wage:
    standotkl_w.append((el-wage_sr)**2)
wage_otkl = (sum(standotkl_w)/((len(wage))))**(0.5)


education_min = min(education)
education_max = max(education)
education_sr = sum(education)/len(education)
education.sort()
if len(education) % 2 == 0:
    education_med = (education[int(len(education)/2)] + education[int(len(education)/2+1)])/2
else:
    education_med = education(int((len(education)+1)/2))
s_ed = {}
for el in education:
    s_ed[el] = s_ed.get(el, 0) + 1
sorted_s_ed_by_values = {key: value for key, value in sorted(s_ed.items(), key=lambda item: -item[1])}
sl_ed = list(sorted_s_ed_by_values.items())
moda_ed = []
for i in range(len(sl_ed)):
    if sl_ed[i][1] == sl_ed[0][1]:
        moda_ed.append(sl_ed[i][0])
    else:
        break
disp_ed = []
for el in education:
    disp_ed.append((el-education_sr)**2)
education_disp = sum(disp_ed)/len(education)
standotkl_ed = []
for el in education:
    standotkl_ed.append((el-education_sr)**2)
education_otkl = (sum(standotkl_ed)/((len(education))))**(0.5)


expirience_min = min(expirience)
expirience_max = max(expirience)
expirience_sr = sum(expirience)/len(expirience)
expirience.sort()
if len(expirience) % 2 == 0:
    expirience_med = (expirience[int(len(expirience)/2)] + expirience[int(len(expirience)/2+1)])/2
else:
    expirience_med = expirience(int((len(expirience)+1)/2))
s_ex = {}
for el in expirience:
    s_ex[el] = s_ex.get(el, 0) + 1
sorted_s_ex_by_values = {key: value for key, value in sorted(s_ex.items(), key=lambda item: -item[1])}
sl_ex = list(sorted_s_ex_by_values.items())
moda_ex = []
for i in range(len(sl_ex)):
    if sl_ex[i][1] == sl_ex[0][1]:
        moda_ex.append(sl_ex[i][0])
    else:
        break
disp_ex = []
for el in expirience:
    disp_ex.append((el-expirience_sr)**2)
expirience_disp = sum(disp_ex)/len(expirience)
standotkl_ex = []
for el in expirience:
    standotkl_ex.append((el-expirience_sr)**2)
expirience_otkl = (sum(standotkl_ex)/((len(expirience))))**(0.5)
    

age_min = min(age)
age_max = max(age)
age_sr = sum(age)/len(age)
age.sort()
if len(age) % 2 == 0:
    age_med = (age[int(len(age)/2)] + age[int(len(age)/2+1)])/2
else:
    age_med = age(int((len(age)+1)/2))
s_a = {}
for el in age:
    s_a[el] = s_a.get(el, 0) + 1
sorted_s_a_by_values = {key: value for key, value in sorted(s_a.items(), key=lambda item: -item[1])}
sl_a = list(sorted_s_a_by_values.items())
moda_a = []
for i in range(len(sl_a)):
    if sl_a[i][1] == sl_a[0][1]:
        moda_a.append(sl_a[i][0])
    else:
        break
disp_a = []
for el in age:
    disp_a.append((el-age_sr)**2)
age_disp = sum(disp_a)/len(age)
standotkl_a = []
for el in age:
    standotkl_a.append((el-age_sr)**2)
age_otkl = (sum(standotkl_a)/((len(age))))**(0.5)

print("Статистика для зарплаты:")
print('мин:', str(wage_min))
print('макс:', str(wage_max))
print('среднее:', str(wage_sr))
print('медиана:', str(wage_med))
print('мода:', str(moda_w))
print('дисперсия:', str(wage_disp))
print('стандартное отклонение:', str(wage_otkl))
print()
print("Статистика для образования:")
print('мин:', str(education_min))
print('макс:', str(education_max))
print('среднее:', str(education_sr))
print('медиана:', str(education_med))
print('мода:', str(moda_ed))
print('дисперсия:', str(education_disp))
print('стандартное отклонение:', str(education_otkl))
print()
print("Статистика для опыта работы:")
print('мин:', str(expirience_min))
print('макс:', str(expirience_max))
print('среднее:', str(expirience_sr))
print('медиана:', str(expirience_med))
print('мода:', str(moda_ex))
print('дисперсия:', str(expirience_disp))
print('стандартное отклонение:', str(expirience_otkl))
print()
print("Статистика для возраста:")
print('мин:', str(age_min))
print('макс:', str(age_max))
print('среднее:', str(age_sr))
print('медиана:', str(age_med))
print('мода:', str(moda_a))
print('дисперсия:', str(age_disp))
print('стандартное отклонение:', str(age_otkl))
print()

Мною был выбран датасет с данными о зарплате представленных в файле лиц. В нем были данные о зарплате, образовании, опыте работы, возрасте, поле, семейном положении и др. Самыми результативными колонками оказались колонки под номерами 2, 6-8 (а именно зарплата (wage), образование (education), опыт работы (expirience) и возраст (age); остальные имели условные обозначения нулями, единицами и другими цифрами в некоторых случаях)
Для начала создаем массивы колонок, которые мы хотим исследовать. Открываем файл и распределяем колонки по массивам.
Далее приступаем к работе с зарплатами (wage). Минимальное и максимальное значение находим благодаря функциям min() и max(), среднее - с помощью функций sum() и len() (средним будет их частное). Медиана искалась следующим образом:
1. Сортируем список с помощью функции sort()
2. Если длина массива четная (пусть 2n) - то медиана является средним арифметическим элементов с индексами n и n+1.
3. Если же нечетная (2n+1), то медианой будет значение элемента с индексом n+1
Этим алгоритмом я и руководствовался для нахождения медианы (по своей глупости не посчитал число строк в файле, из-за чего в код пришлось вводить эту конструкцию)
Далее мода. Для ее нахождения я создал пустой словарь, в который добавлял в качестве ключа значение зарплаты, а в качестве значения - то, сколько раз это значение встречалось в массиве. Далее я просортировал словарь по убыванию значений, после чего преобразовал его в массив кортежей для дальнейшей работы.
Мне предстояло понять, сколько значений встречалось наибольшее число раз. Для этого я создал пустой массив с модами массива, в который далее добавлю ответ. Затем циклом for я хотел найти, какие ключи имеют значения, равные максимальному (т.е. самому первому). Когда начали идти значения меньше, цикл закончился, тем самым мы получили моду в массиве moda_w
После этого мне предстояло найти дисперсию. Для этого я создал пустой массив, в который добавлял квадраты разностей элементов массива и среднего значения. Затем этот массив я просуммировал и поделил на его длину, тем самым найдя дисперсию (формулу дисперсии я нашел в интернете)
Затем я узнал, что стандартное отклонение - это квадратный корень из дисперсии. Но понял я это слишком поздно, поэтому в коде для стандратного отклонения я пересчитывал дисперсию. Взяв из нее корень, я пришел к итоговому ответу.
Далее сделал все то же самое с образованием, опытом работы и возрастом.
Затем я вывел все данные как в примере и закончил работу!

Прикрепленные файлы
microdata_salari.csv

Загрузка...

Чтобы оставить комментарий, необходимо авторизоваться

💬

Пока нет комментариев. Будьте первым!

Печать