StandardScaler — это инструмент из sklearn, который преобразует признаки так, чтобы у каждого признака были среднее значение около 0 и стандартное отклонение около 1.
Зачем это нужно?
Если признаки сильно различаются по величинам (например, один от 0 до 1, другой — от 0 до 1000), алгоритм обучения модели может работать хуже и медленнее. Масштабирование помогает сделать работу модели более стабильной и быстрой.
Пример использования StandardScaler
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train) # вычисляем параметры и масштабируем обучающую выборку
X_test_scaled = scaler.transform(X_test) # масштабируем тестовую выборку по тем же параметрам
Обратите внимание: для тестовой выборки мы используем уже вычисленные параметры из обучающей выборки (transform без fit), чтобы не допустить утечку данных.