주성분 분석(principal component analysis, PCA)
차원과 차원 축소 우리는 데이터가 가진 속성을 특성이라고 불렀습니다. 전 글에서 다룬 과일 데이터의 경우 10,000개의 픽셀이 있기 때문에 10,000개의 특성이 있다고 할 수 있습니다. 머신러닝에서 이런 특성을 차원(dimension)이라고도 부릅니다. 실무에서 접하게 되는 데이터는 특성의 수가 대체로 큽니다. 데이터의 크기가 크다보니 학습 속도에도 영향을 미치고 다루기가 쉽지 않습니다. 이런 차원을 줄일 수 있다면 저장공간을 절약할 수 있고 학습 속도를 높힐 수 있을 것입니다. 특성이 많으면 선형 모델이 성능이 높아지고 훈련 데이터에 쉽게 과대적합될 수 있습니다. 차원 축소는 데이터를 가장 잘 나타내는 일부 특성을 선택해 데이터 크기를 줄이고 지도 학습 모델의 성능을 향상시킬 수 있는 방법입니다. ..