본문 바로가기

데이터사이언스

차원의 저주와 해결방법 (feature selection, feature extraction)

차원의 저주

  • 데이터보다 변수가 많을때 생기는 현상으로, 학습을 느리게 하고 과적합이 발생할 가능성이 높아짐
  • 고차원으로 갈수록 전체 공간에서 데이터가 차지하는 영역이 매우 작아짐
  • 예측을 위해 훨씬 많은 작업을 해야하고 과적합이 되어 저차원일때보다 예측이 불안정해짐
  • 입력 변수의 수가 너무 많으면 잡음(noise)이 발생하여 분류 모형의 정확도 감소함
  • 입력 변수 간에 상관관계가 있는 경우 다중공선성이 발생해 모형이 불안정해짐

차원축소의 중요성

  • 차원 축소를 통해 모형의 복잡도를 낮춰 예측 모델의 성능을 개선할 수 있음
  • 이를 통해 모형의 정확도를 높일 수 있고, 모델 학습 속도가 향상되며, 데이터 시각화가 쉬워짐

Feature selection

  • 중요한 변수를 찾는 과정으로 데이터 속에 존재하는 중복되고 상관없는 변수를 제거하여 데이터를 잘 나타내고 출력 변수와 관련니 깊은 입력 변수를 선택하는 과정 (LASSO, Ridge, mRMR, SVM-REF)

Feature extraction

  • 기존 변수들의 조합으로 새로운 특징을 생성하는 과정으로 서로 중복되지 않으며 출력 변수에 유의한 특징을 추출함 (PCA, DTW)