PCA(Principal component analysis)
- 고차원의 데이터를 저차원의 데이터로 변환 시키는 알고리즘.
: 고차원의 데이터가 실제로 존재하는 차원은 observation 보다 저차원일 것이라는 가정하에 데이터가 진짜로 존재하는 Latent space를 찾는 것이 목표.
- PCA의 가정 : 우리가 가진 데이터는 Linear 할 것이며, 우리가 찾은 선들은 서로 직교하다. 또한 큰 분산을 갖는 축이 중요한 정보를 가지고 있을 것이다.
- 어떠한 데이터들에 대해 어떠한 축을 직선으로 나타 내었을때 가장 큰 분산을 갖는 축을 찾는 것이 목표이며, 그 다음 축은 먼저 찾은 축을 기준으로 직교하는 축들 중에 가장 큰 분산을 갖는 축을 찾음.
: 대각화를 했을때 가장큰 Eigen Value를 가지는 vector가 Principal component 가장 중요한 축이됨.
*비선형 데이터에 취약.
'Study > Data Science' 카테고리의 다른 글
교차 검증(Cross Validation) (0) | 2019.03.06 |
---|---|
Python 감성 분석 및 감성사전 구축. (5) | 2018.12.27 |
PCA & PCR Python numpy code (0) | 2018.11.25 |
NLTK를 이용한 Frequency Distributions, Conditional Frequency Distributions, Stopwords (0) | 2018.11.08 |
python ntlk를 이용한 sent, word tokenize (0) | 2018.11.06 |