K-means clustering
- K개 군집의 중심좌표를 고려하여 각 객체를 가까운 군집에 배정하는 반복적 알고리즘
- 군집의 개수(K)오 초기 중심점에 따라서 결과가 달라짐
- 이상치가 전체 거리 평균값에 영향을 주어 이상치에 민감한 단점이 있음
- 이를 개선하기 위해 평균 대신 중간점(medoids)을 사용하는 K-medoids clustering 방법이 있음
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
- eps-neighbors와 minPts를 사용하여 군집을 구성
- Eps-neighbors: 한 데이터를 중심으로 epsilone 거리 이내의 데이터들을 한 군집으로 구성
- minPts: 한 군집은 minPts 보다 많거나 같은 수의 데이터로 구성됨. 만약 minPts보다 적은 수의 데이터가 eps-neighbors를 형성하면 노이즈(noise)로 취급함
- k-means와 다르게 군집의 수를 설정할 필요가 없음
- 다양한 모양의 군집이 형성될 수 있으며, 군집끼리 겹치는 경우가 없음
- 노이즈 개념 덕분에 이상치에 대응이 가능함
'데이터사이언스' 카테고리의 다른 글
인공지능과 머신러닝 그리고 딥러닝 소개 (0) | 2019.10.22 |
---|---|
연관규칙의 support와 confidence (0) | 2019.06.21 |
PCA의 목적함수와 제약조건 (0) | 2019.06.21 |
차원의 저주와 해결방법 (feature selection, feature extraction) (0) | 2019.06.21 |
의사결정나무 정리 및 고려사항 (0) | 2019.06.21 |