본문 바로가기

카테고리 없음

KNN과 대표적 Distance 정의 (유클리디안, 마할라노비스 거리)

KNN (K-Nearest Neighnors)

  • 비모수 방법론 중 가장 간단하고 널리 사용되는 알고리즘으로 분류 및 회귀 분석에 사용됨
  • 학습 데이터는 입력 변수와 출력 변수로 구성되고 신규 데이터에 대해 입력을 알고 있을 때 출력 값을 예측함
  • KNN의 분류 모형을 그림으로 표현하면 아래와 같음 (출력변수 : 빨강색, 녹색)
  • 새로운 입력 ?의 예측 출력 값은 ? 주변의 학습 데이터의 출력 값에 영향을 받음
  • K는 Neighbor의 수로 사용자가 사전에 정의함
  • K개의 이웃은 거리 지표를 이용하여 탐색함 (Euclidean or Mahalanobis distance)
  • K의 값에 따라 다양한 형태의 decision boundary가 생성됨

유클리디안 거리 (Euclidean distance)

  • 두 점의 X와 Y의 값을 차를 제곱한 것의 합에 루트를 씌움

마할라노비스 거리 (Mahalanobis distance)

  • 데이터의 밀도를 고려한 거리 척도
  • 위 그림에서 푸른색 타원형에 해당하는 마할라노비스 거리는 모두 동일함