Q : 차원 축소 방법 중에 PCA라고 있던데 설명해주세요.

A : 주성분 분석이라고 불리는 PCA(Principal Component Analysis)의 기본 아이디어는 고차원의 데이터를 낮은 차원으로 환원시키는 차원 감소(Dimensionality Reduction) 기법중 하나입니다. 실제로 PCA는 대상 데이터의 차원과 동일한 차원을 생성하지만 중요한 데이터가 몇개의 차원에 집중되어 있는지, 나머지 차원들은 얼마큼의 정보를 가지고 있는지 확인시켜 줍니다. 다시 요약하면 차원이 많은 원본 데이터에서 주성분을 추출, 그로 인한 데이터 축약을 하는 것입니다.
주성분 분석이라는 통계기법은 데이터의 여러 변수가 서로 강한 상관관계를 가지고 있을 때 매우 유용하게 사용할 수 있습니다. 분석하는 데이터가 100개의 변수를 가지고 있고 이중에서 많은 변수들이 가지는 정보를 몇 개의 변수들로 축약할 수 있다면 기계학습(Machine Learning)학습의 수렴 속도 및 성능을 개선시킬 수 있습니다.
기하학적 예시보다 현실에 비유해서 예시를 들어보겠습니다. 어느 고등학교 한 반에서 국어, 영어, 수학, 과학 4 과목을 평가하였습니다. 그럼 4개의 변수가 생겼습니다. 이 변수들을 2개로 축소하여 이야기 하고 싶습니다. 만약 그렇다면 어떻게 과목을 묶으면 될까요? 바로 비슷한 성격의 과목들, 즉 (국어, 영어)와 (수학, 과학)으로 묶어서 언어, 수리라고 이야기 할 수 있을 겁니다. 이렇게 4개의 변수를 언어, 수리라고 2개의 변수로 축소를 시키는 방법이 PCA입니다.

< 그림 1>
기하학적으로 설명드리면 <그림 1>은 2차원 데이터들의 분포에서 데이터들을 가장 잘 설명할 수 있는 두 벡터로 표현하였고 이 벡터들이 이 데이터의 주성분이 됩니다. 주성분은 원 데이터의 차원과 동일하기 때문에 2차원 그림에서 2개의 주성분이 구해집니다.
<그림 출처 : 위키피디아>