Олимпиадный тренинг

Задача . Предсказание цен на дома в Бостоне


Задача

Темы:
Вы работаете с классическим датасетом Boston Housing Dataset, который содержит информацию о ценах на недвижимость в пригородах Бостона. Датасет включает 13 признаков, влияющих на медианную стоимость домов. Ваша задача — построить модель множественной линейной регрессии и проанализировать факторы, влияющие на цену.

Описание признаков:  

Признак Описание Единицы
crim Уровень преступности на душу населения %
zn Доля жилых зон для участков > 25,000 кв. футов %
indus Доля промышленных площадей %
chas Расположение у реки (1 = да, 0 = нет) бинарный
nox Концентрация оксида азота (загрязнение воздуха) ppm
rm Среднее количество комнат в доме количество
age Доля домов, построенных до 1940 года %
dis Средневзвешенное расстояние до центров занятости единицы
rad Индекс доступности радиальных магистралей индекс
tax Ставка налога на имущество $ за $10,000
ptratio Соотношение учеников к учителям число
lstat % населения с низким статусом %
medv Медианная стоимость дома (целевая переменная) $1000

Задание

  1. Загрузите датасет из прикрепленного файла
  2. Выберите 5 наиболее важных признаков для модели:
    • rm (количество комнат)
    • lstat (% населения с низким статусом)
    • ptratio (соотношение учеников к учителям)
    • dis (расстояние до центров занятости)
    • crim (уровень преступности)
  3. Создайте X (признаки) и y (целевая переменная medv)
  4. Создайте и обучите модель LinearRegression
  5. Считайте из консоли количество домов для предсказания, затем для каждого дома поочередно считайте 5 характеристик:
    • rm (количество комнат)

    • lstat (% населения с низким статусом)

    • ptratio (соотношение учеников к учителям)

    • dis (расстояние до центров занятости)

    • crim (уровень преступности)

  6. Сделайте предсказание цен для всех введенных домов

  7. Формат ответа:
    Для каждого дома выведите целую часть предсказанной цены на отдельной строке

Формат входных данных
Первая строка входных данных содержит целое число n - количество домов для предсказания. Затем n раз по 5 чисел с характеристиками каждого дома.

Формат выходных данных
Для каждого дома выведите целую часть предсказанной цены на отдельной строке.

Примечание
1)  Для разделения данных на обучающую и тестовую выборки используйте следующие параметры: test_size=0.2, random_state=42
Примеры
Входные данныеВыходные данные
1 2
6.0 13.0 22.0 3.4 0.8
8.0 3.0 12.0 12.4 0.1
18507
36489

time 10000 ms
memory 256 Mb
Правила оформления программ и список ошибок при автоматической проверке задач

Статистика успешных решений по компиляторам
 Кол-во
Python1
Комментарий учителя