Анализ главных компонент представляет собой метод, который осуществляет вращение данных с тем, чтобы преобразованные признаки не коррелировали между собой.
Principal component analysis, PCA
Алгоритм сначала находит направление максимальной дисперсии, помеченное как «компонента 1». Речь идет о направлении (или векторе) данных, который содержит большую часть информации. Затем алгоритм находит направление, которое содержит наибольшее количество информации, и при этом ортогонально (расположено под прямым углом) первому направлению. В двумерном пространстве существует только одна возможная ориентация, расположенная под прямым углом.
Направления, найденные с помощью этого алгоритма, называются главными компонентами (principal components), поскольку они являются основными направлениями дисперсии данных. В целом максимально возможное количество главных компонент равно количеству исходных признаков.
Можно использовать PCA для уменьшения размерности, сохранив лишь несколько главных компонент.
РСА является методом машинного обучения без учителя и не использует какой-либо информации о классах при поиске поворота. Он просто анализирует корреляционные связи в данных. Недостаток PCA заключается в том, что оси графика часто сложно интерпретировать. Главные компоненты соответствуют направлениям данных, поэтому они представляют собой комбинации исходных признаков.
Сами главные компоненты сохраняются в в атрибуте components_ объекта PCA в ходе подгонки.
Каждая строка в атрибуте components_ соответствует одной главной компоненте, и они отсортированы по важности (первой приводится первая главная компонента и т.д.).
Столбцы соответствуют атрибуту исходных признаков для объекта PCA.