Вы работаете с классическим датасетом
Boston Housing Dataset, который содержит информацию о ценах на недвижимость в пригородах Бостона. Датасет включает 13 признаков, влияющих на медианную стоимость домов. Ваша задача — построить модель множественной линейной регрессии и проанализировать факторы, влияющие на цену.
Описание признаков:
Признак |
Описание |
Единицы |
crim |
Уровень преступности на душу населения |
% |
zn |
Доля жилых зон для участков > 25,000 кв. футов |
% |
indus |
Доля промышленных площадей |
% |
chas |
Расположение у реки (1 = да, 0 = нет) |
бинарный |
nox |
Концентрация оксида азота (загрязнение воздуха) |
ppm |
rm |
Среднее количество комнат в доме |
количество |
age |
Доля домов, построенных до 1940 года |
% |
dis |
Средневзвешенное расстояние до центров занятости |
единицы |
rad |
Индекс доступности радиальных магистралей |
индекс |
tax |
Ставка налога на имущество |
$ за $10,000 |
ptratio |
Соотношение учеников к учителям |
число |
lstat |
% населения с низким статусом |
% |
medv |
Медианная стоимость дома (целевая переменная) |
$1000 |
Задание
- Загрузите датасет из прикрепленного файла
- Выберите 5 наиболее важных признаков для модели:
rm
(количество комнат)
lstat
(% населения с низким статусом)
ptratio
(соотношение учеников к учителям)
dis
(расстояние до центров занятости)
crim
(уровень преступности)
- Создайте X (признаки) и y (целевая переменная
medv
)
- Создайте и обучите модель LinearRegression
- Сделайте предсказание для дома со следующими характеристиками:
rm
= 6.5 (количество комнат)
lstat
= 10.0 (% населения с низким статусом)
ptratio
= 18.0 (соотношение учеников к учителям)
dis
= 4.0 (расстояние до центров занятости)
crim
= 0.5 (уровень преступности)
Формат ответа:
Выведите целую часть предсказанной цены
Примечание
1) Для разделения данных на обучающую и тестовую выборки используйте следующие параметры:
test_size=0.2, random_state=42