실제 사용되는 머신러닝에는 많은 데이터들이 가공되어 학습되어 구성된다. 이러한 데이터 들이 잘 “러닝”되었는지 혹은 “러닝 과정”이 잘 설계되었는지 검증이 필요하다. 검증을 통해 모델의 성능을 예측할 수 있기 때문이다.
머신러닝의 모델 성능 평가는 – 실제 값과 모델에 의해 예측된 값을 비교하여
두 값의 차이를 구하는 것을 의미한다. 모델 성능 평가 지표 여러가지 중 주요한 것들이다.
[모델 성능 평가지표]
•정확도(Accuracy)
•오차행렬(Confusion Matrix)
•정밀도(Precision)
•재현율(Recall)
•F1-score / ROC-AUC
1 . 정확도(Accuarcy) : 예측 결과 전체 중 정확하게 예측한 비율을 뜻한다 .즉, 실제 데이터에서 예측한 데이터값이 얼마나 동일한지 (잘 예측했는지)를 판단하는 지표이다.
2. 오차 행렬(Confusion matrix) : 학습된 분류 모델이 예측을 수행하면서
얼마나 헷갈리고 있는지도 함께 보여주는 지표

용어 정의:
False Positive (FP) : 관측 결과가 음성이지만, 양성으로 예측되었습니다.
Positive (P) : 관측 결과가 긍정적입니다 (예: 사과입니다).
Negative (N) : 관측 결과가 긍정적이지 않습니다 (예: 사과가 아닙니다).
True Positive (TP) : 관측 결과가 긍정적이며, 긍정적이라고 예측되었습니다.
False Negative (FN) : 관측 결과가 긍정적이지만, 부정적이라고 예측되었습니다.
True Negative (TN) : 관측 결과가 음성이며, 음성으로 예측되었습니다.
3. 정밀도(Precision) : Positive로 예측한 값들 중에 실제로 Positive한 값의 비율
4.재현율 (Recall) : 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율 지표
5.F1 Score : 정밀도와 재현율을 결합한 지표. 높을 수 록 좋은 모델을 의미

6. ROC 곡선과 AUC : ROC 곡선(Receiver Operation Characteristic Curve)과 이에 기반한 AUC(Area Under ROC) 스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표

표 출처_Kaggle.com








댓글 남기기