차원의 저주
- 데이터보다 변수가 많을때 생기는 현상으로, 학습을 느리게 하고 과적합이 발생할 가능성이 높아짐
- 고차원으로 갈수록 전체 공간에서 데이터가 차지하는 영역이 매우 작아짐
- 예측을 위해 훨씬 많은 작업을 해야하고 과적합이 되어 저차원일때보다 예측이 불안정해짐
- 입력 변수의 수가 너무 많으면 잡음(noise)이 발생하여 분류 모형의 정확도 감소함
- 입력 변수 간에 상관관계가 있는 경우 다중공선성이 발생해 모형이 불안정해짐
차원축소의 중요성
- 차원 축소를 통해 모형의 복잡도를 낮춰 예측 모델의 성능을 개선할 수 있음
- 이를 통해 모형의 정확도를 높일 수 있고, 모델 학습 속도가 향상되며, 데이터 시각화가 쉬워짐
Feature selection
- 중요한 변수를 찾는 과정으로 데이터 속에 존재하는 중복되고 상관없는 변수를 제거하여 데이터를 잘 나타내고 출력 변수와 관련니 깊은 입력 변수를 선택하는 과정 (LASSO, Ridge, mRMR, SVM-REF)
Feature extraction
- 기존 변수들의 조합으로 새로운 특징을 생성하는 과정으로 서로 중복되지 않으며 출력 변수에 유의한 특징을 추출함 (PCA, DTW)
'데이터사이언스' 카테고리의 다른 글
K-means와 DBSCAN 비교 (0) | 2019.06.21 |
---|---|
PCA의 목적함수와 제약조건 (0) | 2019.06.21 |
의사결정나무 정리 및 고려사항 (0) | 2019.06.21 |
SVM의 개념 (0) | 2019.06.21 |
선형회귀의 적합성 평가와 과적합을 판단하는 방법 (0) | 2019.06.20 |