본문 바로가기

카테고리 없음

KNN과 대표적 Distance 정의 (유클리디안, 마할라노비스 거리)

NeoCarus 2019. 6. 20. 20:40

KNN (K-Nearest Neighnors)

비모수 방법론 중 가장 간단하고 널리 사용되는 알고리즘으로 분류 및 회귀 분석에 사용됨
학습 데이터는 입력 변수와 출력 변수로 구성되고 신규 데이터에 대해 입력을 알고 있을 때 출력 값을 예측함
KNN의 분류 모형을 그림으로 표현하면 아래와 같음 (출력변수 : 빨강색, 녹색)
새로운 입력 ?의 예측 출력 값은 ? 주변의 학습 데이터의 출력 값에 영향을 받음
K는 Neighbor의 수로 사용자가 사전에 정의함
K개의 이웃은 거리 지표를 이용하여 탐색함 (Euclidean or Mahalanobis distance)
K의 값에 따라 다양한 형태의 decision boundary가 생성됨

유클리디안 거리 (Euclidean distance)

두 점의 X와 Y의 값을 차를 제곱한 것의 합에 루트를 씌움

마할라노비스 거리 (Mahalanobis distance)

데이터의 밀도를 고려한 거리 척도
위 그림에서 푸른색 타원형에 해당하는 마할라노비스 거리는 모두 동일함

저작자표시 비영리 변경금지

티스토리툴바