데이터사이언스 (27) 썸네일형 리스트형 데이터 분할 - 학습데이터, 검증데이터, 테스트데이터의 각 열할은? 과적합을 방지하기 위해 전체 데이터를 학습데이터, 검증데이터, 테스트데이터로 나누며 보통 비율은 5:3:2로 정함 학습데이터(training data): 모형 f를 추정하는데 필요함 검증데이터(validation data): 추정한 모형 f가 적합한지 검증함 테스트데이터(testing data): 최종적으로 선택한 모형의 성능을 평가함 좋은 머신러닝 모형을 만들기 위한 7가지 단계 데이터 수집 및 전처리 데이터 분할 모형 선택 모형 파라미터 선택 모형 학습 모형 검증 (성능지표) 모형 테스트 머신러닝의 종류 - 지도 학습 vs. 비지도 학습 지도 학습(supervised learning) 출력 변수(Y)가 존재하여 입력 변수(X)와 출력 변수 사이의 관계인 f를 추정하는 데에 초점을 맞춤 회귀(regression): 입력 변수 X에 대해서 연속형 출력 변수 Y를 예측 (ex. 센서값에 따른 wafer 두께 예측) 분류(classification): 입력 변수 X에 대해서 이산형 출력 변수 Y(class)를 예측 (ex. 센서값에 따른 불량 여부 예측) 비지도 학습(unsupervised learning) 출력 변수(Y)가 존재하지 않고, 입력 변수(X) 간의 관계에 초점을 맞춤 입력 변수 값이 유사한 데이터 끼리 그룹핑 해주는 군집분석(cluster analysis), 입력 변수의 차원을 축소하는 PCA(principal component .. 이전 1 2 3 4 다음