Анализ файла. Критерий СD.
Перейдите на сайт
https://www.kaggle.com/datasets (предварительно зарегистрируйтесь на сайте).
Kaggle.com — это сайт, который позволяет пользователям делиться и работать с большими данными, а также решать задачи в области анализа данных и машинного обучения.
Одной из самых полезных частей Kaggle являются
датасеты — коллекции данных, которые могут быть использованы для анализа, обучения и тестирования моделей машинного обучения.
Ваша задача будет заключаться в простом анализе выбранного вами датасета.
Техническое задание
Цель: Изучить характеристики датасета, закрепить навыки обработки файлов для получения статистических данных, получить навыки применения бибилиотеки matplotlib для визуализации данных.
Задание
1) Выберите датасет по любой интересующей вас тематике и сделайте его описание.
2) Для всех числовых колонок датасета определите:
- Минимальное и максимальные значения.
- Среднее значение.
- Медиану, моду.
- Дисперсию, стандартное отклонение.
Каждый из этих параметров должны выводиться программой, в таком виде:
Статистика для длины лепестка:
мин: 4.3
макс: 7.9
среднее: 5.843333333333335
медиана: 5.8
мода: [5,0]
дисперсия: 0.6811222222222222
стандартное отклонение: 0.8253012917851409
Ваша программа не должна использовать какие-либо импорты (т.е. в программе нельзя использовать
import
)
Задание на 8 баллов
Изучите методы построения графиков с помощью matplotlib (
НЕ используя дополнительные бибилиотеки такие как numpy и pandas)
Как создать отчет по работе
Отчет необходимо создать здесь на сайте в виде "Тетради" (см раздел Тетради в левой панели меню).
Опишите в отчете какой датасет вы выбрали: опишите колонки(поля) датасета (название полей и тип данных каждого поля). Напишите формулы, по которым вычисляются следующие параметры: среднее значение, медиана, мода, дисперсия, стандартное отклонение.
В тетради добавьте код вашей программы. В тетрадь загрузите датасет в виде файла.
В качестве ответа на задание (см следующую задачу) прикрепите ссылку на тетрадь.