Статья Автор: Деникина Н.В., Деникин А.В.

Масштабирование данных. StandardScaler

StandardScaler — это инструмент из sklearn, который преобразует признаки так, чтобы у каждого признака были среднее значение около 0 и стандартное отклонение около 1.

Зачем это нужно?
Если признаки сильно различаются по величинам (например, один от 0 до 1, другой — от 0 до 1000), алгоритм обучения модели может работать хуже и медленнее. Масштабирование помогает сделать работу модели более стабильной и быстрой.


Пример использования StandardScaler
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # вычисляем параметры и масштабируем обучающую выборку
X_test_scaled = scaler.transform(X_test)        # масштабируем тестовую выборку по тем же параметрам

Обратите внимание: для тестовой выборки мы используем уже вычисленные параметры из обучающей выборки (transform без fit), чтобы не допустить утечку данных.

Печать