본문 바로가기

데이터사이언스

분류 모형 성능 지표 (제1종 오류, 제2종 오류, 정확도, 정밀도, 재현율, 특이도)

분류 모형 성능 지표 - 제1종 오류, 제2종 오류

  • 정상과 이상을 예측하는 이진 분류에 대해 confusion matrix를 생성할 수 있음
  • 정상을 positive, 불량을 negative라고 정의하고, 맞출 경우를 True, 틀릴 경우를 False라고 한다면 다음과 같은 confusion matrix가 생성됨
  • 이때 FP(False Positive)와 FN(False Negative)는 각각 제1종 오류와 제2종 오류에 대응함

분류 모형 성능 지표 - 정확도, 정밀도, 재현율, 특이도

  • 정확도(accuracy)는 전체 데이터 중에서 모형으로 예측한 값이 실제 값에 일치하는 비율
    • Accuracy = 옳게 분류된 데이터의 수 / 전체 데이터의 수 = (TP+TN) /  (TP+FN+FP+TN)
  • 정밀도(precision)는 분류 모형이 불량을 진단하기 위해 얼마나 잘 작동했는지를 보여주는 지표
    • Precision = 옳게 분류된 불량 데이터의 수 / 불량으로 예측한 데이터 = TN / (FN+TN)
  • 재현율(Recall)은 실제 불량 데이터의 수 중에서 실제로 불량이라고 예측한 비율
    • Recall = 옳게 분류된 불량 데이터의 수 / 실제 불량 데이터의 수 = TN / (FP +TN)
  • 특이도(Specificity)는 분류 모형이 정상을 진단하기 위해 잘 작동하는지를 보여주는 지표
    • Specificity = 옳게 분류된 정상 데이터의 수 / 실제 정상 데이터의 수 = TP / (TP + FN)

분류 모형 성능 지표 - G-mean, F1 measure

  • Class imbalanced 문제: 불량 데이터를 탐지하는 것이 중요한데 불량 데이터가 매우 소수일 경우
  • G-mean: 제1종 오류와 제2종 오류 중 성능이 나쁜쪽에 더 가중치를 둠
  • F1 measure: 지표나 불량에 관여하는 지표인 정밀도와 재현율만 고려함