본문 바로가기

데이터사이언스

다중선형회귀에서 다중공선성 문제와 해결방법

다중공선성(Multicollinearity)

  • 입력 변수 간에 독립이 아니고 상관관계가 높은 것을 의미함
  • 각 입력 변수들이 다른 입력 변수에 영향을 받아서 추정되는 회귀계수의 변동성이 심함
  • 따라서, 회귀계수가 더 이상 출력 변수에 대한 상대적인 설명력으로 해석하기 어려워짐
  • R^2는 높지만 입력 변수들이 대부분 유의하지 않는 경우 다중 공선성이 의심됨

분산 팽창 지수 VIF (Variation Index Factor)

  • VIF는 다중공선성을 확인하는 통계적 지표임
  • 입력 변수들이 서로 독립이라면 어떠한 입력 변수도 다른 입력 변수들로 해석될 수 없음
  • VIF는 k번째 변수를 제외한 나머지 변수로 회귀모형을 만들어 그 R^2값을 계산하여 다음의 값을 얻음
    • VIF_k = 1/(1-Rk^2)
  • 위 모형의 설명력 Rk^2가 클수록, VIF_k도 큰 값을 가지게 되며, 일반적으로 VIF_k가 10이상(Rk^2>0.9인 경우)인 입력 변수가 다중공선성 문제를 발생시킨다고 판단하고 제거함