본문 바로가기

데이터사이언스

데이터 분할 - 학습데이터, 검증데이터, 테스트데이터의 각 열할은?

데이터 분할 방법

 

과적합을 방지하기 위해 전체 데이터를 학습데이터, 검증데이터, 테스트데이터로 나누며 보통 비율은 5:3:2로 정함

  • 학습데이터(training data): 모형 f를 추정하는데 필요함
  • 검증데이터(validation data): 추정한 모형 f가 적합한지 검증함
  • 테스트데이터(testing data): 최종적으로 선택한 모형의 성능을 평가함