다중공선성(Multicollinearity)
- 입력 변수 간에 독립이 아니고 상관관계가 높은 것을 의미함
- 각 입력 변수들이 다른 입력 변수에 영향을 받아서 추정되는 회귀계수의 변동성이 심함
- 따라서, 회귀계수가 더 이상 출력 변수에 대한 상대적인 설명력으로 해석하기 어려워짐
- R^2는 높지만 입력 변수들이 대부분 유의하지 않는 경우 다중 공선성이 의심됨
분산 팽창 지수 VIF (Variation Index Factor)
- VIF는 다중공선성을 확인하는 통계적 지표임
- 입력 변수들이 서로 독립이라면 어떠한 입력 변수도 다른 입력 변수들로 해석될 수 없음
- VIF는 k번째 변수를 제외한 나머지 변수로 회귀모형을 만들어 그 R^2값을 계산하여 다음의 값을 얻음
- VIF_k = 1/(1-Rk^2)
- 위 모형의 설명력 Rk^2가 클수록, VIF_k도 큰 값을 가지게 되며, 일반적으로 VIF_k가 10이상(Rk^2>0.9인 경우)인 입력 변수가 다중공선성 문제를 발생시킨다고 판단하고 제거함
'데이터사이언스' 카테고리의 다른 글
선형회귀의 적합성 평가와 과적합을 판단하는 방법 (0) | 2019.06.20 |
---|---|
Ridge regression과 LASSO regression (0) | 2019.06.20 |
분류 모형 성능 지표 (제1종 오류, 제2종 오류, 정확도, 정밀도, 재현율, 특이도) (1) | 2019.06.19 |
분산과 편파성의 트레이드오프 (0) | 2019.06.18 |
모형의 적합성에 대한 교차검증을 수행하는 방법 (0) | 2019.06.18 |