Масштабирования признаков

Методы в scikit-learn:

  • StandardScaler гарантирует, что для каждого признака среднее будет равно 0, а дисперсия будет равна 1, в результате чего все признаки будут иметь один и тот же масштаб.
  • RobustScaler аналогичен StandardScaler в том плане, что в результате его применения признаки будут иметь один и тот же масштаб. Однако RobustScaler вместо среднего и дисперсии использует медиану и квартили. Это позволяет RobustScaler игнорировать точки данных, которые сильно отличаются от остальных (например, ошибки измерений – выбросы, outliers). Медиана множества чисел – это такое число x, при котором половина значений множества меньше x, а другая половина значений больше x. Нижний квартиль – это число х, ниже которого находится четверть значений, а верхний квартиль – это число х, выше которого находится четверть значений.
  • MinMaxScaler сдвигает данные таким образом, что все признаки находились строго в диапазоне от 0 до 1.
  • Normalizer масштабирует каждую точку данных таким образом, чтобы вектор признаков имел евклидову длину 1. Он проецирует точку данных на окружность с радиусом 1 (или сферу в случае большого числа измерений). Вектор умножается на инверсию своей длины. Подобная нормализация используется тогда, когда важным является направление (но не длина) вектора признаков.

Добавить комментарий