본문 바로가기

데이터사이언스

K-means와 DBSCAN 비교

K-means clustering

  • K개 군집의 중심좌표를 고려하여 각 객체를 가까운 군집에 배정하는 반복적 알고리즘
  • 군집의 개수(K)오 초기 중심점에 따라서 결과가 달라짐
  • 이상치가 전체 거리 평균값에 영향을 주어 이상치에 민감한 단점이 있음
  • 이를 개선하기 위해 평균 대신 중간점(medoids)을 사용하는 K-medoids clustering 방법이 있음

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

  • eps-neighbors와 minPts를 사용하여 군집을 구성
    • Eps-neighbors: 한 데이터를 중심으로 epsilone 거리 이내의 데이터들을 한 군집으로 구성
    • minPts: 한 군집은 minPts 보다 많거나 같은 수의 데이터로 구성됨. 만약 minPts보다 적은 수의 데이터가 eps-neighbors를 형성하면 노이즈(noise)로 취급함
  • k-means와 다르게 군집의 수를 설정할 필요가 없음
  • 다양한 모양의 군집이 형성될 수 있으며, 군집끼리 겹치는 경우가 없음
  • 노이즈 개념 덕분에 이상치에 대응이 가능함