본문 바로가기

머신러닝

(11)
PCA의 목적함수와 제약조건 PCA (Principal Component Analysis) 입력 변수들로 구성된 축 공간을 소수의 새로운 축으로 구성된 공간으로 만들어 가는 과정 (차원 축소) 새로운 축은 입력 변수의 선형결합으로 만들고, 데이터의 변별력이 큰 순서대로 구함 데이터의 변별력이 작은 새로운 축은 무시할 수 있음 주성분 분석에서는 분산이 큰 순서대로 변수의 중요도가 정해진다고 가정함
차원의 저주와 해결방법 (feature selection, feature extraction) 차원의 저주 데이터보다 변수가 많을때 생기는 현상으로, 학습을 느리게 하고 과적합이 발생할 가능성이 높아짐 고차원으로 갈수록 전체 공간에서 데이터가 차지하는 영역이 매우 작아짐 예측을 위해 훨씬 많은 작업을 해야하고 과적합이 되어 저차원일때보다 예측이 불안정해짐 입력 변수의 수가 너무 많으면 잡음(noise)이 발생하여 분류 모형의 정확도 감소함 입력 변수 간에 상관관계가 있는 경우 다중공선성이 발생해 모형이 불안정해짐 차원축소의 중요성 차원 축소를 통해 모형의 복잡도를 낮춰 예측 모델의 성능을 개선할 수 있음 이를 통해 모형의 정확도를 높일 수 있고, 모델 학습 속도가 향상되며, 데이터 시각화가 쉬워짐 Feature selection 중요한 변수를 찾는 과정으로 데이터 속에 존재하는 중복되고 상관없는 ..
Random forest 작동 원리 Random forest 여러 의사결정나무를 생성한 후에 다수결 또는 평균에 따라 출력 변수를 예측하는 알고리즘 의사결정나무와 bagging을 혼합한 형태임 부트스트랩을 이용하여 학습 집합에서 다양한 샘플을 추출함 입력 변수 중 일부의 입력 변수만 사용 변수 중요도 Random forest는 회귀 또는 분류 문제에서 속성 또는 변수 (Xi)의 중요성의 순위를 매길 수 있음 의사결정나무에서는 노드 t에서 속성 Xi가 혼잡도를 얼마나 줄일 수 있는지에 대해서 알 수 있음 Entropy 지수를 활용한 변수 중요도 측정은 다음과 같음 Information gain은 속성 A로 데이터를 분류하는 경우 감소하는 혼잡도로 볼 수 있음 Single model 대비 random forest가 우수한점 예측의 변동성이 줄..
의사결정나무 정리 및 고려사항 의사결정나무 속성 공간을 수직 또는 수평으로 나누는 작업을 반복하는 알고리즘 적용하는 상황 및 고려사함 범주형 입력 변수와 범주형 출력 변수를 가진 데이터의 분류 고객의 신용도 평가 등 경영 문제와 환자의 병 진단 등 의료 문제에 뛰어난 성능을 보이는 경향 연속형 입력 변수와 연속형 출력 변수를 가진 데이터 분류 문제에도 적용이 가능하나 우수한 성능을 보장하지 못함
SVM의 개념 SVM (Support Vector Machines) 분류기와 각 class 데이터 간의 여백(마진)을 크게 하여 일반화 능력을 최대화 하는 것 출력 변수인 class가 다른 데이터를 명확하게 구분할 수 있는 초평면을 구하는 알고리즘 초평면 해 공간에서 마진을 최대화하는 하나의 초평면을 탐색 SVM의 모델링 선형 SVM은 마진을 최대로 하는 초평면을 구하는 알고리즘 두 그룹을 구분한는 무수한 직선 중에 어느 직선이 마진을 최대로 하는가? X공간에 있는 각 점은 직선을 기준으로 양수 또는 음수를 가짐 직선과 support vector의 최소거리보다 직선과 모든 점의 최소 절대거리는 커야 바람직함
분류 모형 성능 지표 (제1종 오류, 제2종 오류, 정확도, 정밀도, 재현율, 특이도) 분류 모형 성능 지표 - 제1종 오류, 제2종 오류 정상과 이상을 예측하는 이진 분류에 대해 confusion matrix를 생성할 수 있음 정상을 positive, 불량을 negative라고 정의하고, 맞출 경우를 True, 틀릴 경우를 False라고 한다면 다음과 같은 confusion matrix가 생성됨 이때 FP(False Positive)와 FN(False Negative)는 각각 제1종 오류와 제2종 오류에 대응함 분류 모형 성능 지표 - 정확도, 정밀도, 재현율, 특이도 정확도(accuracy)는 전체 데이터 중에서 모형으로 예측한 값이 실제 값에 일치하는 비율 Accuracy = 옳게 분류된 데이터의 수 / 전체 데이터의 수 = (TP+TN) / (TP+FN+FP+TN) 정밀도(preci..
분산과 편파성의 트레이드오프 분산(Variance)과 편파성(Bias)는 Tradoff 관계 분산: 전체 데이터의 집합 중 다른 학습 데이터를 이용했을때, f_hat이 변하는 정도 (복잡한 모형일수록 분산이 높음) 편파성: 학습 알고리즘에서 잘못된 가정을 했을때 발생하는 오차 (간단한 모형일수록 편파성이 높음) 복잡한 모형 f_hat(X)을 사용하여 편파성을 줄이면, 반대로 분산이 커짐 (간단한 모형일 경우엔 반대의 현상이 발생) 따라서 분산과 편파성이 작은 모형을 찾아야함 모형의 적합성을 평가하는 방법 Overfitting: 가장 높은 복잡도를 가지므로 학습 집합에 과적합 되어 분산이 높아짐. 따라서 검증데이터의 성능 지표가 Good balance에 비해 안좋음 Underfitting: 가장 낮은 복잡도를 가지므로 편파성이 높아져..
모형의 적합성에 대한 교차검증을 수행하는 방법 k-Fold 교차검증 (k-Fold Cross Validation) 모형의 적합성을 보다 객관적으로 평가하는 방법 데이터를 k(주로 5 또는 10)개 부분으로 나눈 뒤, 그 중 하나를 검증 집함, 나머지를 학습 집합으로 분류함 위 과정을 k번 반복하고 k개의 성능 지표를 평균하여 모형의 적합성을 평가함 LOOCV(Leave-One-Out Cross Validation) 데이터의 수가 적을 때 사용하는 교차검증 방법 총 n(데이터 수 만큼)개의 모델을 만드는데, 각 모델은 하나의 샘플만 제외하면서 모델을 만들고, 그 제외한 샘플로 성능 지표를 계산함 이렇게 도출된 n개의 성능 지표를 평균 내어 최종 성능 지표를 도출함 Time series Cross Validation 데이터가 시계열로 의미가 있을 때 사..