PCA(Principal component analysis)

  • 고차원의 데이터를 저차원의 데이터로 변환 시키는 알고리즘.

: 고차원의 데이터가 실제로 존재하는 차원은 observation 보다 저차원일 것이라는 가정하에 데이터가 진짜로 존재하는 Latent space를 찾는 것이 목표.

  • PCA의 가정 : 우리가 가진 데이터는 Linear 할 것이며, 우리가 찾은 선들은 서로 직교하다. 또한 큰 분산을 갖는 축이 중요한 정보를 가지고 있을 것이다.
  • 어떠한 데이터들에 대해 어떠한 축을 직선으로 나타 내었을때 가장 큰 분산을 갖는 축을 찾는 것이 목표이며, 그 다음 축은 먼저 찾은 축을 기준으로 직교하는 축들 중에 가장 큰 분산을 갖는 축을 찾음.
: 대각화를 했을때 가장큰 Eigen Value를 가지는 vector가 Principal component 가장 중요한 축이됨.





*비선형 데이터에 취약.

+ Recent posts