본문 바로가기

데이터사이언스

(27)
의사결정나무 정리 및 고려사항 의사결정나무 속성 공간을 수직 또는 수평으로 나누는 작업을 반복하는 알고리즘 적용하는 상황 및 고려사함 범주형 입력 변수와 범주형 출력 변수를 가진 데이터의 분류 고객의 신용도 평가 등 경영 문제와 환자의 병 진단 등 의료 문제에 뛰어난 성능을 보이는 경향 연속형 입력 변수와 연속형 출력 변수를 가진 데이터 분류 문제에도 적용이 가능하나 우수한 성능을 보장하지 못함
SVM의 개념 SVM (Support Vector Machines) 분류기와 각 class 데이터 간의 여백(마진)을 크게 하여 일반화 능력을 최대화 하는 것 출력 변수인 class가 다른 데이터를 명확하게 구분할 수 있는 초평면을 구하는 알고리즘 초평면 해 공간에서 마진을 최대화하는 하나의 초평면을 탐색 SVM의 모델링 선형 SVM은 마진을 최대로 하는 초평면을 구하는 알고리즘 두 그룹을 구분한는 무수한 직선 중에 어느 직선이 마진을 최대로 하는가? X공간에 있는 각 점은 직선을 기준으로 양수 또는 음수를 가짐 직선과 support vector의 최소거리보다 직선과 모든 점의 최소 절대거리는 커야 바람직함
선형회귀의 적합성 평가와 과적합을 판단하는 방법 R^2 선현회귀 예측 Y_hat이 Y_bar 대비 얼마나 실제값 Y를 잘 설명하는지를 의미함 R^2이 1에 가까울 수록 선형회귀 모형의 설명력이 높다는 것을 뜻함 0~1의 범위를 가지며 다음과 같은 식으로 표현됨 R^2 = SSR/SST = (SST-SSE)/SST = 1 - SSE/SST SST는 total sum of squares약자로 reference인 Y_bar 대비 출력 변수 Y의 총 변동을 의미 SSR는 regression sum of squares의 약자로 SST 중에서 예측 Y_hat이 Y를 설명하는 변동 부분을 의미 SSE는 error sum of squares의 약자로 SST 중에서 예측 Y_hat이 Y를 설명 못하는 변동 부분을 의미 변수 수가 증가하면 자연스례 SSR이 증가하고 R..
Ridge regression과 LASSO regression 회귀계수를 축소하는 이유 영향력이 없는 입력 변수의 계수를 0에 가깝게 가져간다면, 모형에 포함되는 입력 변수의 수를 줄일 수 있음 입력 변수의 수를 줄였을때의 장점 잡음(noise)를 제거해 모형의 정확도를 개선함 모형의 연산 속도가 빨라짐 다중공선성의 문제를 제거해 모형의 해석 능력을 향상시킴 예를들어 입력 변수가 나이, 생년이 있는경우 둘은 같은 의미를 갖기 때문에 하나를 제거함 계수축소법에는 Ridge와 LASSO 방법이 있음 Ridge regression Rigde 회귀에서는 f(beta)에 회귀계수의 제곱의 합을 대입함 λ(람다)는 tuning parameter로 크면 클 수록 보다 많은 회귀계수를 0으로 수렴시킴 적절한 λ의 값은 데이터마다 달라짐 LASSO(Least Absolute Shr..
다중선형회귀에서 다중공선성 문제와 해결방법 다중공선성(Multicollinearity) 입력 변수 간에 독립이 아니고 상관관계가 높은 것을 의미함 각 입력 변수들이 다른 입력 변수에 영향을 받아서 추정되는 회귀계수의 변동성이 심함 따라서, 회귀계수가 더 이상 출력 변수에 대한 상대적인 설명력으로 해석하기 어려워짐 R^2는 높지만 입력 변수들이 대부분 유의하지 않는 경우 다중 공선성이 의심됨 분산 팽창 지수 VIF (Variation Index Factor) VIF는 다중공선성을 확인하는 통계적 지표임 입력 변수들이 서로 독립이라면 어떠한 입력 변수도 다른 입력 변수들로 해석될 수 없음 VIF는 k번째 변수를 제외한 나머지 변수로 회귀모형을 만들어 그 R^2값을 계산하여 다음의 값을 얻음 VIF_k = 1/(1-Rk^2) 위 모형의 설명력 Rk^2..
분류 모형 성능 지표 (제1종 오류, 제2종 오류, 정확도, 정밀도, 재현율, 특이도) 분류 모형 성능 지표 - 제1종 오류, 제2종 오류 정상과 이상을 예측하는 이진 분류에 대해 confusion matrix를 생성할 수 있음 정상을 positive, 불량을 negative라고 정의하고, 맞출 경우를 True, 틀릴 경우를 False라고 한다면 다음과 같은 confusion matrix가 생성됨 이때 FP(False Positive)와 FN(False Negative)는 각각 제1종 오류와 제2종 오류에 대응함 분류 모형 성능 지표 - 정확도, 정밀도, 재현율, 특이도 정확도(accuracy)는 전체 데이터 중에서 모형으로 예측한 값이 실제 값에 일치하는 비율 Accuracy = 옳게 분류된 데이터의 수 / 전체 데이터의 수 = (TP+TN) / (TP+FN+FP+TN) 정밀도(preci..
분산과 편파성의 트레이드오프 분산(Variance)과 편파성(Bias)는 Tradoff 관계 분산: 전체 데이터의 집합 중 다른 학습 데이터를 이용했을때, f_hat이 변하는 정도 (복잡한 모형일수록 분산이 높음) 편파성: 학습 알고리즘에서 잘못된 가정을 했을때 발생하는 오차 (간단한 모형일수록 편파성이 높음) 복잡한 모형 f_hat(X)을 사용하여 편파성을 줄이면, 반대로 분산이 커짐 (간단한 모형일 경우엔 반대의 현상이 발생) 따라서 분산과 편파성이 작은 모형을 찾아야함 모형의 적합성을 평가하는 방법 Overfitting: 가장 높은 복잡도를 가지므로 학습 집합에 과적합 되어 분산이 높아짐. 따라서 검증데이터의 성능 지표가 Good balance에 비해 안좋음 Underfitting: 가장 낮은 복잡도를 가지므로 편파성이 높아져..
모형의 적합성에 대한 교차검증을 수행하는 방법 k-Fold 교차검증 (k-Fold Cross Validation) 모형의 적합성을 보다 객관적으로 평가하는 방법 데이터를 k(주로 5 또는 10)개 부분으로 나눈 뒤, 그 중 하나를 검증 집함, 나머지를 학습 집합으로 분류함 위 과정을 k번 반복하고 k개의 성능 지표를 평균하여 모형의 적합성을 평가함 LOOCV(Leave-One-Out Cross Validation) 데이터의 수가 적을 때 사용하는 교차검증 방법 총 n(데이터 수 만큼)개의 모델을 만드는데, 각 모델은 하나의 샘플만 제외하면서 모델을 만들고, 그 제외한 샘플로 성능 지표를 계산함 이렇게 도출된 n개의 성능 지표를 평균 내어 최종 성능 지표를 도출함 Time series Cross Validation 데이터가 시계열로 의미가 있을 때 사..