Масштабирования признаков

Методы в scikit-learn:

  • StandardScaler гарантирует, что для каждого признака среднее будет равно 0, а дисперсия будет равна 1, в результате чего все признаки будут иметь один и тот же масштаб.
  • RobustScaler аналогичен StandardScaler в том плане, что в результате его применения признаки будут иметь один и тот же масштаб. Однако RobustScaler вместо среднего и дисперсии использует медиану и квартили. Это позволяет RobustScaler игнорировать точки данных, которые сильно отличаются от остальных (например, ошибки измерений – выбросы, outliers). Медиана множества чисел – это такое число x, при котором половина значений множества меньше x, а другая половина значений больше x. Нижний квартиль – это число х, ниже которого находится четверть значений, а верхний квартиль – это число х, выше которого находится четверть значений.
  • MinMaxScaler сдвигает данные таким образом, что все признаки находились строго в диапазоне от 0 до 1.
  • Normalizer масштабирует каждую точку данных таким образом, чтобы вектор признаков имел евклидову длину 1. Он проецирует точку данных на окружность с радиусом 1 (или сферу в случае большого числа измерений). Вектор умножается на инверсию своей длины. Подобная нормализация используется тогда, когда важным является направление (но не длина) вектора признаков.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *