Анализ главных компонент (PCA)

Анализ главных компонент представляет собой метод, который осуществляет вращение данных с тем, чтобы преобразованные признаки не коррелировали между собой.

Principal component analysis, PCA

Алгоритм сначала находит направление максимальной дисперсии, помеченное как «компонента 1». Речь идет о направлении (или векторе) данных, который содержит большую часть информации. Затем алгоритм находит направление, которое содержит наибольшее количество информации, и при этом ортогонально (расположено под прямым углом) первому направлению. В двумерном пространстве существует только одна возможная ориентация, расположенная под прямым углом.

Направления, найденные с помощью этого алгоритма, называются главными компонентами (principal components), поскольку они являются основными направлениями дисперсии данных. В целом максимально возможное количество главных компонент равно количеству исходных признаков.

Можно использовать PCA для уменьшения размерности, сохранив лишь несколько главных компонент.

РСА является методом машинного обучения без учителя и не использует какой-либо информации о классах при поиске поворота. Он просто анализирует корреляционные связи в данных. Недостаток PCA заключается в том, что оси графика часто сложно интерпретировать. Главные компоненты соответствуют направлениям данных, поэтому они представляют собой комбинации исходных признаков.

Сами главные компоненты сохраняются в в атрибуте components_ объекта PCA в ходе подгонки.

Каждая строка в атрибуте components_ соответствует одной главной компоненте, и они отсортированы по важности (первой приводится первая главная компонента и т.д.).

Столбцы соответствуют атрибуту исходных признаков для объекта PCA.

Добавить комментарий