본문 바로가기

데이터사이언스

선형회귀의 적합성 평가와 과적합을 판단하는 방법

R^2

  • 선현회귀 예측 Y_hat이 Y_bar 대비 얼마나 실제값 Y를 잘 설명하는지를 의미함
  • R^2이 1에 가까울 수록 선형회귀 모형의 설명력이 높다는 것을 뜻함
  • 0~1의 범위를 가지며 다음과 같은 식으로 표현됨
    • R^2 = SSR/SST = (SST-SSE)/SST = 1 - SSE/SST
    • SST는 total sum of squares약자로 reference인 Y_bar 대비 출력 변수 Y의 총 변동을 의미
    • SSR는 regression sum of squares의 약자로 SST 중에서 예측 Y_hat이 Y를 설명하는 변동 부분을 의미
    • SSE는 error sum of squares의 약자로 SST 중에서 예측 Y_hat이 Y를 설명 못하는 변동 부분을 의미

  • 변수 수가 증가하면 자연스례 SSR이 증가하고 R^2 또한 자연스레 증가함
  • 따라서 모형의 성능을 더욱 정확하게 평가하기 위해 Rpred^2와 Radj^2를 이용함
  • R^2에 비해 adjusted R^2나 predicted R^2 지표가 현저히 낮다면 과적합이 존재한다고 짐작

Rpred^2

  • 학습 데이터로 만든 회귀 모형을 검증 데이터로 사용하여 예측 성능을 평가한 지표

Radj^2

  • 모형에 사용된 입력 번수 수만큼 penalty를 주는 지표

n = 학습 데이터 개수, p = 입력 변수 개수