본문 바로가기

데이터사이언스

모형의 적합성에 대한 교차검증을 수행하는 방법

k-Fold 교차검증 (k-Fold Cross Validation)

  • 모형의 적합성을 보다 객관적으로 평가하는 방법
  • 데이터를 k(주로 5 또는 10)개 부분으로 나눈 뒤, 그 중 하나를 검증 집함, 나머지를 학습 집합으로 분류함
  • 위 과정을 k번 반복하고 k개의 성능 지표를 평균하여 모형의 적합성을 평가함

k-Fold Cross Validation (k=5)

LOOCV(Leave-One-Out Cross Validation)

  • 데이터의 수가 적을 때 사용하는 교차검증 방법
  • 총 n(데이터 수 만큼)개의 모델을 만드는데, 각 모델은 하나의 샘플만 제외하면서 모델을 만들고, 그 제외한 샘플로 성능 지표를 계산함
  • 이렇게 도출된 n개의 성능 지표를 평균 내어 최종 성능 지표를 도출함

Time series Cross Validation

  • 데이터가 시계열로 의미가 있을 때 사용하는 교차검증 방법
  • 지난날을 train set으로 두고 예측할 날을 test set으로 두어 각각의 성능 지표를 계산함
  • 이 예측날 값들의 성능 지표를 평균 내어 최종 성능 지표를 도출함

Blue: train set, Red: test set