KNN (K-Nearest Neighnors)
- 비모수 방법론 중 가장 간단하고 널리 사용되는 알고리즘으로 분류 및 회귀 분석에 사용됨
- 학습 데이터는 입력 변수와 출력 변수로 구성되고 신규 데이터에 대해 입력을 알고 있을 때 출력 값을 예측함
- KNN의 분류 모형을 그림으로 표현하면 아래와 같음 (출력변수 : 빨강색, 녹색)
- 새로운 입력 ?의 예측 출력 값은 ? 주변의 학습 데이터의 출력 값에 영향을 받음
- K는 Neighbor의 수로 사용자가 사전에 정의함
- K개의 이웃은 거리 지표를 이용하여 탐색함 (Euclidean or Mahalanobis distance)
- K의 값에 따라 다양한 형태의 decision boundary가 생성됨
유클리디안 거리 (Euclidean distance)
- 두 점의 X와 Y의 값을 차를 제곱한 것의 합에 루트를 씌움
마할라노비스 거리 (Mahalanobis distance)
- 데이터의 밀도를 고려한 거리 척도
- 위 그림에서 푸른색 타원형에 해당하는 마할라노비스 거리는 모두 동일함