인공지능 모델 성능 평가 지표 종합 안내서

인공지능 모델 성능 평가 지표 종합 안내서

1. 서론: 인공지능 모델 평가의 원칙

1.1 평가 지표의 본질

인공지능(AI) 및 머신러닝 모델 개발은 건설적인 피드백 원리에 기반하여 작동한다. 모델을 구축하고, 정량적 평가 지표로부터 성능에 대한 피드백을 받아 개선하며, 목표 성능에 도달할 때까지 이 과정을 반복한다.1 평가 지표(Evaluation Metrics)는 모델의 예측 능력, 일반화 성능, 그리고 전반적인 품질을 측정하는 객관적이고 정량적인 척도이다.1 이러한 지표가 없다면 모델의 성능을 체계적으로 평가하거나 여러 모델 간의 우열을 가리는 것이 불가능하다.

평가 지표는 AI 라이프사이클 전반에 걸쳐 핵심적인 역할을 수행한다. 주요 역할은 다음과 같다.

  1. 모델 선택(Model Selection): 다양한 알고리즘이나 하이퍼파라미터 조합으로 생성된 여러 모델 중에서 특정 과업에 가장 적합한 최상의 모델을 선택하는 기준을 제공한다.2

  2. 모델 개선(Model Improvement): 지표를 통해 모델의 강점과 약점을 분석하고, 성능 저하의 원인을 파악하여 모델을 미세 조정(fine-tuning)하는 방향을 제시한다.2

  3. 벤치마킹(Benchmarking): 특정 문제 영역에서 업계 표준이나 최신 연구 모델과 현재 개발된 모델의 성능을 객관적으로 비교할 수 있는 기준점을 마련한다.2

  4. AI 거버넌스(AI Governance): 모델의 성능을 지속적으로 모니터링함으로써 규제 준수 여부를 추적하고, 편향성이나 정확도 저하와 같은 리스크를 완화하며, 모델 행동의 투명성을 확보하는 데 기여한다.3

1.2 올바른 평가 지표 선택을 위한 프레임워크

최적의 평가 지표를 선택하는 것은 단순히 기술적인 결정을 넘어, 해결하고자 하는 문제의 본질과 비즈니스 목표를 깊이 이해하는 과정이다. 최적의 지표는 문제의 종류(분류, 회귀, 군집 등), 데이터의 특성(예: 클래스 불균형), 그리고 최종적으로 달성하고자 하는 비즈니스 목표라는 세 가지 핵심 요소를 종합적으로 고려하여 결정된다.1

예를 들어, 모델이 예측을 틀렸을 때 발생하는 비용이 모든 경우에 동일하지 않다. 오탐지(False Positive)와 미탐지(False Negative)의 비용이 비대칭적인 경우, 이러한 비용 구조를 적절히 반영하는 지표를 선택해야만 모델이 비즈니스 가치를 창출하는 방향으로 최적화될 수 있다.6

이러한 맥락에서 ‘지표-문제 정렬(Metric-Problem Alignment)’ 원칙은 매우 중요하다. 많은 연구 자료에서 “모든 문제에 통용되는 최고의 단일 지표는 없다“는 점이 일관되게 강조된다.1 지표 선택은 기술적 행위를 넘어, 비즈니스 요구사항을 수학적 목표 함수로 변환하는 전략적 결정이다. 예를 들어, 초심자는 직관적이라는 이유로 ’정확도(Accuracy)’를 기본 지표로 선택하는 경향이 있다.4 그러나 사기 탐지나 질병 진단과 같이 데이터가 심각하게 불균형한 상황에서는 정확도가 모델의 실제 성능을 심각하게 왜곡할 수 있다. 99%가 정상 거래이고 1%가 사기 거래인 데이터셋에서, 모든 거래를 ’정상’으로만 예측하는 모델은 99%라는 높은 정확도를 기록하지만, 실제로는 사기 거래를 단 한 건도 탐지하지 못하므로 아무런 가치가 없다.4

질병 진단 시나리오를 생각해보자. 이 경우, 실제 질병이 있는 환자를 병이 없다고 잘못 판단하는 것(False Negative)의 비용은, 건강한 사람을 환자로 오진하여 추가 검사를 진행하게 하는 것(False Positive)의 비용보다 비교할 수 없을 정도로 크다.9 이는 비즈니스 목표가 ’전반적인 예측의 정확성’이 아니라 ’실제 환자를 단 한 명이라도 놓치지 않는 것’에 있음을 의미한다. 따라서 이 경우에는 재현율(Recall)이 최적화해야 할 핵심 지표가 된다.7 이 안내서는 평가 지표 선택을 머신러닝 워크플로우의 가장 중요한 초기 단계 중 하나로 규정하고, 각 지표가 특정 문제 상황과 오류 비용 구조에 어떻게 부합하는지를 심층적으로 분석할 것이다.

2. 분류 모델 평가 지표

분류(Classification) 모델은 데이터를 미리 정의된 범주(클래스) 중 하나로 할당하는 과업을 수행한다. 이러한 모델의 성능은 예측이 실제 값과 얼마나 일치하는지를 다양한 관점에서 측정하는 지표들을 통해 평가된다.

2.1 혼동 행렬: 분류 성능 분석의 기초

혼동 행렬(Confusion Matrix)은 분류 모델의 성능을 시각적으로 명확하게 분석할 수 있는 가장 기본적인 도구이다. 이는 실제 클래스와 모델이 예측한 클래스를 교차하여 표 형태로 정리한 것으로, 모델이 어떤 클래스를 잘 맞추고 어떤 클래스 간에 혼동을 일으키는지를 직관적으로 보여준다.1

특히 이진 분류(Binary Classification) 문제에서는 Positive와 Negative 두 클래스에 대한 예측 결과를 요약하여 2x2 행렬로 표현한다. 이 행렬은 다음과 같은 네 가지 핵심 요소로 구성된다.

  • 진양성 (True Positives, TP): 실제 Positive인 샘플을 Positive로 올바르게 예측한 경우.

  • 진음성 (True Negatives, TN): 실제 Negative인 샘플을 Negative로 올바르게 예측한 경우.

  • 위양성 (False Positives, FP): 실제 Negative인 샘플을 Positive로 잘못 예측한 경우. 이를 ’1종 오류(Type I Error)’라고도 한다.

  • 위음성 (False Negatives, FN): 실제 Positive인 샘플을 Negative로 잘못 예측한 경우. 이를 ’2종 오류(Type II Error)’라고도 한다.

이 네 가지 기본 구성 요소는 이후에 설명될 정확도, 정밀도, 재현율 등 거의 모든 핵심 분류 지표를 계산하는 기초가 된다.11

가치 있는 테이블 1: 혼동 행렬의 구조

예측: Positive (예)예측: Negative (아니오)
실제: Positive (예)True Positive (TP)False Negative (FN)
실제: Negative (아니오)False Positive (FP)True Negative (TN)

이 테이블은 각 지표의 공식을 추상적인 수학식이 아닌, 혼동 행렬의 각 요소를 조합하는 직관적인 과정으로 이해할 수 있도록 돕는다. 다중 클래스 분류 문제에서는 이 행렬이 N x N 형태로 확장되며, 각 셀 (i, j)는 실제 클래스가 i인데 모델이 j로 예측한 샘플의 수를 나타낸다. 대각선 요소는 올바르게 분류된 샘플의 수를, 비대각선 요소는 오분류된 샘플의 수를 의미한다.14

2.2 기본 성능 지표: 정확도, 정밀도, 재현율

혼동 행렬의 값들을 조합하여 모델 성능을 나타내는 여러 단일 지표를 계산할 수 있다.

2.2.1 정확도 (Accuracy)

정확도는 가장 직관적인 성능 지표로, 전체 예측 샘플 중에서 올바르게 예측된 샘플의 비율을 나타낸다.1

\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
정확도는 데이터의 클래스 분포가 균등할 때 유용한 지표가 될 수 있다.4 그러나 클래스 불균형(class imbalance)이 심한 데이터셋에서는 모델의 성능을 심각하게 왜곡할 수 있다는 치명적인 단점이 있다. 예를 들어, 95%가 정상이고 5%가 불량인 데이터에서 모델이 모든 샘플을 ’정상’으로 예측하기만 해도 95%의 정확도를 달성하게 된다. 이 모델은 불량 샘플을 전혀 탐지하지 못하므로 실용적인 가치가 없지만, 정확도 수치만 보면 매우 우수한 모델로 착각할 수 있다.4 따라서 불균형 데이터셋에서는 정확도만으로 모델을 평가해서는 안 되며, 이어지는 정밀도와 재현율을 반드시 함께 고려해야 한다.

2.2.2 정밀도 (Precision)

정밀도는 모델이 Positive로 예측한 샘플들 중에서 실제로 Positive인 샘플의 비율을 측정한다. 이는 ’모델이 Positive라고 예측했을 때, 그 예측을 얼마나 신뢰할 수 있는가?’에 대한 답을 제공한다.13 Positive Predictive Value (PPV)라고도 불린다.11

\text{Precision} = \frac{TP}{TP + FP}
정밀도는 위양성(FP)으로 인한 비용이 클 때 특히 중요한 지표가 된다. 대표적인 예는 다음과 같다.

  • 스팸 메일 필터: 정상적인 메일(Negative)을 스팸(Positive)으로 잘못 분류(FP)하면 사용자는 중요한 정보를 놓칠 수 있다. 이 경우, FP의 비용이 매우 크므로 높은 정밀도가 요구된다.9

  • 유죄 판결 예측: 무고한 사람(Negative)을 유죄(Positive)로 잘못 예측(FP)하는 것은 사회적으로 용납될 수 없는 심각한 오류이다. 따라서 예측의 신중함, 즉 높은 정밀도가 필수적이다.10

2.2.3 재현율 (Recall)

재현율은 실제 Positive인 샘플들 중에서 모델이 Positive로 올바르게 예측한 샘플의 비율을 측정한다. 이는 ’모델이 실제 Positive들을 얼마나 빠짐없이 찾아내는가?’에 대한 답을 제공한다.8 민감도(Sensitivity) 또는 진양성률(True Positive Rate, TPR)이라고도 불린다.11

\text{Recall} = \frac{TP}{TP + FN}
재현율은 위음성(FN)으로 인한 비용이 클 때 매우 중요한 지표가 된다. 즉, 실제 Positive를 놓쳤을 때 심각한 결과가 초래되는 경우에 해당한다.

  • 암 진단: 실제 암 환자(Positive)를 정상(Negative)으로 잘못 진단(FN)하면 치료 시기를 놓쳐 생명이 위험해질 수 있다. 따라서 약간의 오진(FP)을 감수하더라도 모든 실제 환자를 찾아내는 것이 중요하므로, 높은 재현율이 최우선 목표가 된다.7

  • 금융 사기 탐지: 실제 사기 거래(Positive)를 정상 거래(Negative)로 잘못 판단(FN)하면 막대한 금전적 손실이 발생할 수 있다. 이 경우에도 높은 재현율을 통해 가능한 모든 사기 거래를 탐지하는 것이 중요하다.6

2.3 정밀도와 재현율의 상충 관계와 F1 점수

2.3.1 상충 관계 (Trade-off)

정밀도와 재현율은 일반적으로 반비례 관계, 즉 상충 관계(trade-off)에 있다. 하나의 지표를 높이려고 하면 다른 지표가 낮아지는 경향이 나타난다.7 이 관계는 대부분의 분류 모델이 클래스에 대한 확률을 출력하고, 이 확률을 이진 결정으로 변환하기 위해 사용되는 ’분류 임계값(classification threshold)’에 의해 조절된다.1

  • 임계값을 높이면: 모델은 예측 확률이 매우 높은, 즉 더 확실한 경우에만 Positive로 예측하게 된다. 이로 인해 FP가 줄어들어 정밀도는 상승하지만, 일부 애매한 Positive 샘플을 Negative로 예측하게 되어 FN이 늘어나므로 재현율은 하락한다.10

  • 임계값을 낮추면: 모델은 예측 확률이 낮더라도 Positive로 예측하는 경향이 강해진다. 이로 인해 더 많은 실제 Positive를 잡아내어 FN이 줄어들어 재현율은 상승하지만, Negative 샘플을 Positive로 잘못 예측하는 FP가 늘어나므로 정밀도는 하락한다.10

이러한 상충 관계를 시각적으로 분석하기 위해 **정밀도-재현율 곡선(Precision-Recall Curve)**을 사용한다. 이 곡선은 다양한 임계값에 따른 정밀도와 재현율의 변화를 보여주며, 곡선이 오른쪽 상단에 가까울수록(즉, 높은 재현율에서도 높은 정밀도를 유지할수록) 모델의 성능이 우수함을 의미한다.10

2.3.2 F1 점수 (F1 Score)

정밀도와 재현율의 상충 관계 때문에 두 지표를 동시에 고려하여 균형을 맞추는 단일 지표가 필요할 때가 많다. F1 점수는 정밀도와 재현율의 **조화 평균(harmonic mean)**으로, 이 역할을 수행한다.7

\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} = \frac{2 \times TP}{2 \times TP + FP + FN}
산술 평균이 아닌 조화 평균을 사용하는 이유는 두 지표 중 어느 하나라도 0에 가까운 낮은 값을 가지면 F1 점수 또한 급격히 낮아지도록 만들기 위함이다. 이는 모델이 정밀도와 재현율 어느 한쪽에 치우치지 않고 두 지표 모두에서 준수한 성능을 보이도록 강제하는 효과가 있다.15 F1 점수는 특히 클래스 불균형이 심한 데이터셋에서 정확도보다 훨씬 신뢰할 수 있는 평가 지표로 사용되며, FP와 FN의 비용이 모두 중요하게 고려되어야 하는 상황에서 유용하다.4

2.4 ROC 곡선과 AUC: 모델 판별 능력의 종합적 평가

정밀도, 재현율, F1 점수는 특정 임계값에서의 모델 성능을 보여주는 ’스냅샷’이다. 반면, 모델의 근본적인 판별 능력을 임계값과 무관하게 평가하기 위한 도구로 ROC 곡선과 AUC가 사용된다.

2.4.1 ROC 곡선 (Receiver Operating Characteristic Curve)

ROC 곡선은 분류 모델의 모든 가능한 임계값에 대한 성능을 시각화한 그래프이다. 가로축(X축)은 **위양성률(False Positive Rate, FPR)**을, 세로축(Y축)은 **진양성률(True Positive Rate, TPR)**을 나타낸다.4

  • TPR (재현율, Recall): \frac{TP}{TP + FN}. 실제 Positive 중 올바르게 Positive로 예측한 비율.

  • FPR: \frac{FP}{FP + TN}. 실제 Negative 중 잘못해서 Positive로 예측한 비율.7

ROC 곡선은 임계값을 1에서 0으로 점차 낮추면서 각 임계값에서의 (FPR, TPR) 좌표를 찍어 연결한 것이다.

  • 완벽한 모델의 ROC 곡선은 (0, 0)에서 시작하여 (0, 1) 지점을 거쳐 (1, 1)로 이어지는, 즉 좌상단 모서리에 최대한 가깝게 그려진다. 이는 FPR을 0으로 유지하면서 TPR을 1로 만들 수 있음을 의미한다.19

  • 무작위로 예측하는 모델의 ROC 곡선은 (0, 0)에서 (1, 1)을 잇는 대각선(y=x)에 가깝게 나타난다.

2.4.2 AUC (Area Under the ROC Curve)

AUC는 ROC 곡선 아래의 면적을 계산한 값으로, 0과 1 사이의 값을 가진다. 이 값은 모델의 전반적인 판별 능력을 나타내는 단일 수치로 해석된다.16

  • AUC = 1.0: 완벽한 분류기. Positive와 Negative 샘플을 완벽하게 구분할 수 있다.

  • AUC = 0.5: 무작위 추측과 동일한 성능. 모델이 클래스 판별 능력을 전혀 갖추지 못했음을 의미한다.

  • AUC < 0.5: 무작위 추측보다 못한 성능. 예측 결과를 반대로 사용하면 성능이 향상될 수 있다.

AUC는 다음과 같은 핵심적인 장점 때문에 널리 사용된다.

  1. 임계값 불변성 (Threshold Invariance): AUC는 특정 임계값에 의존하지 않고 모든 가능한 임계값에서의 성능을 종합하여 평가한다. 따라서 모델의 근본적인 판별 성능을 비교하는 데 매우 유용하다.18

  2. 척도 불변성 (Scale Invariance): 모델이 출력하는 예측 확률 값의 절대적인 크기가 아니라, Positive 샘플과 Negative 샘플 간의 순위를 얼마나 잘 매기는지를 평가한다.18

  3. 불균형 데이터에 대한 강건함: 클래스 분포가 변하더라도 FPR과 TPR은 각 클래스 내에서의 비율로 계산되기 때문에, AUC는 정확도보다 클래스 불균형 문제에 덜 민감하다.4

이러한 특성은 실용적인 2단계 평가 전략으로 이어진다. 1단계: AUC를 사용하여 다양한 모델 아키텍처나 하이퍼파라미터 조합 중 가장 우수한 ’판별력’을 가진 모델을 선정한다. 2단계: 선정된 최적의 모델에 대해 정밀도-재현율 곡선을 분석하여, 실제 비즈니스 환경의 FP와 FN 비용을 고려한 최적의 ’운영 임계값’을 결정한다.

2.5 확률 기반 평가 지표

2.5.1 로그 손실 (Log Loss)

로그 손실(Logarithmic Loss) 또는 교차 엔트로피 손실(Cross-Entropy Loss)은 모델이 출력한 예측 확률 자체를 평가하는 지표이다. 단순히 클래스를 맞혔는지 여부뿐만 아니라, 정답 클래스에 얼마나 높은 확률을 부여했는지를 측정한다.1

이진 분류에 대한 로그 손실의 공식은 다음과 같다.

\text{LogLoss} = -\frac{1}{N}\sum_{i=1}^{N} [y_i \log(p_i) + (1-y_i) \log(1-p_i)]
여기서 y_ii번째 샘플의 실제 레이블(0 또는 1)이고, p_i는 모델이 해당 샘플을 클래스 1로 예측할 확률이다. 모델이 실제 정답과 다른 예측을 높은 확신도(예: 실제는 1인데 확률 0.1로 예측)로 할수록 로그 손실 값은 기하급수적으로 커진다. 따라서 로그 손실은 낮을수록 좋으며, 예측 확률의 정확성이 중요한 문제(예: 광고 클릭률 예측)에서 핵심적인 평가 지표로 사용된다.9

가치 있는 테이블 2: 분류 지표 요약 및 선택 가이드

지표공식해석주요 사용 사례주의점
정확도 (Accuracy)\frac{TP+TN}{ TP+TN+FP+FN}전체 예측 중 정답의 비율클래스가 균등하게 분포된 데이터셋불균형 데이터셋에서 성능을 왜곡함
정밀도 (Precision)\frac{TP}{TP+FP}Positive 예측 중 실제 Positive의 비율FP 비용이 높을 때 (예: 스팸 필터)재현율을 희생시킬 수 있음
재현율 (Recall)\frac{TP}{TP+FN}실제 Positive 중 모델이 찾아낸 비율FN 비용이 높을 때 (예: 질병 진단)정밀도를 희생시킬 수 있음
F1 점수 (F1 Score)2 \cdot \frac{P \cdot R}{P+R}정밀도와 재현율의 조화 평균불균형 데이터셋, FP/FN 모두 중요할 때정밀도와 재현율의 개별 성능을 파악하기 어려움
AUCROC 곡선 하단 면적모델의 전반적인 클래스 판별 능력임계값에 무관한 모델 비교, 불균형 데이터예측 확률의 보정 상태는 반영하지 못함

3. 회귀 모델 평가 지표

회귀(Regression) 모델은 연속적인 수치 값을 예측하는 과업을 수행한다. 따라서 회귀 모델의 평가는 예측값(\hat{y})과 실제값(y) 사이의 ‘오차(error)’ 또는 ’잔차(residual)’를 얼마나 효과적으로 최소화하는지에 초점을 맞춘다.

3.1 오차 기반 지표: MAE, MSE, RMSE

회귀 모델 평가에서 가장 기본이 되는 지표들은 예측 오차의 평균을 계산하는 방식에 따라 나뉜다.

3.1.1 평균 절대 오차 (Mean Absolute Error, MAE)

MAE는 예측 오차의 절대값에 대한 산술 평균이다. 즉, 각 데이터 포인트에서 발생한 오차의 크기를 방향에 상관없이 평균낸 값이다.8

\text{MAE} = \frac{1}{n}\sum_{i=1}^{n} \vert y_i - \hat{y}_i \vert
MAE는 결과가 원래 데이터와 동일한 단위를 가지므로 해석이 매우 직관적이다. 예를 들어 주택 가격 예측 모델의 MAE가 5000만원이라면, 모델의 예측이 평균적으로 5000만원 정도 차이가 난다고 이해할 수 있다.21 또한, 오차를 제곱하지 않기 때문에 이상치(outlier)의 영향을 상대적으로 적게 받는다. 따라서 데이터에 이상치가 많거나, 모든 오차를 동일한 가중치로 평가하고 싶을 때 적합한 지표이다.21

3.1.2 평균 제곱 오차 (Mean Squared Error, MSE)

MSE는 예측 오차의 제곱에 대한 산술 평균이다. 오차를 제곱함으로써, 작은 오차보다 큰 오차에 훨씬 더 큰 가중치를 부여한다.16

\text{MSE} = \frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2
이러한 특성 때문에 MSE는 이상치에 매우 민감하다. 단 하나의 큰 오차(이상치)가 전체 MSE 값을 크게 증가시킬 수 있다.21 MSE는 제곱된 단위(예:

(만원)^2)를 가지므로 직관적인 해석은 어렵지만, 수학적으로 미분이 용이하여 경사 하강법(Gradient Descent)과 같은 최적화 알고리즘에서 손실 함수(loss function)로 널리 사용된다.21

3.1.3 평균 제곱근 오차 (Root Mean Squared Error, RMSE)

RMSE는 MSE에 제곱근을 취한 값으로, MSE의 단점을 보완한 지표이다.1

\text{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
RMSE는 MSE와 마찬가지로 큰 오차에 더 큰 페널티를 부여하여 이상치에 민감하게 반응한다. 하지만 제곱근을 통해 단위를 원래 데이터의 단위와 동일하게 만들어주므로, MAE처럼 결과를 직관적으로 해석할 수 있다.21 예를 들어, RMSE가 6000만원이라면, 모델의 예측 오차의 표준 편차가 약 6000만원 수준이라고 해석할 수 있다.

MAE와 RMSE/MSE 간의 선택은 단순히 오차 측정 방식을 넘어, 모델이 어떤 종류의 오차를 더 심각하게 받아들여야 하는지를 정의하는 ’비용 함수’의 선택과 직결된다. MAE는 오차를 선형적으로 평가하여 오차 10을 오차 5보다 정확히 2배 나쁘다고 간주한다.23 반면 MSE/RMSE는 오차를 제곱하여 평가하므로 오차 10을 오차 5보다 4배(

10^2 vs 5^2) 더 나쁘다고 간주한다.

이러한 차이는 모델 훈련 과정에 직접적인 영향을 미친다. RMSE를 손실 함수로 사용하면, 모델은 이상치에 해당하는 큰 오차를 줄이는 데 집중하게 된다. 만약 이 이상치가 시스템의 치명적인 오류(예: 발전소 온도 예측의 큰 오차)를 나타낸다면, RMSE는 매우 적절한 선택이다.21 반대로, 이상치가 단순한 측정 오류나 노이즈일 가능성이 높다면, MAE를 사용하여 모델이 이상치에 과적합되는 것을 방지하는 것이 더 바람직하다.21 결국 MAE와 RMSE 중 무엇을 선택할지는 데이터의 특성뿐만 아니라, ’큰 오차’가 비즈니스적으로 어떤 의미를 갖는지에 따라 결정되어야 한다.

가치 있는 테이블 3: 회귀 오차 지표 비교

지표공식이상치 민감도단위주요 사용 사례
MAE\frac{1}{n}\sum \vert y_i - \hat{y}_i \vert낮음 (로버스트함)원본 데이터와 동일이상치가 많거나 중요하지 않을 때, 오차의 직관적 해석이 중요할 때
MSE\frac{1}{n}\sum (y_i - \hat{y}_i)^2높음원본 데이터의 제곱큰 오차에 강한 페널티를 주어야 할 때, 수학적 최적화(손실 함수)
RMSE\sqrt{\text{MSE}}높음원본 데이터와 동일큰 오차에 페널티를 주면서도 결과를 직관적으로 해석하고 싶을 때

3.2 상대적 오차 및 로그 오차 지표

3.2.1 평균 제곱근 로그 오차 (Root Mean Squared Logarithmic Error, RMSLE)

RMSLE는 예측값과 실제값에 로그를 취한 후 RMSE를 계산하는 방식이다.

\text{RMSLE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (\log(y_i + 1) - \log(\hat{y}_i+1))^2}
이 지표는 예측값과 실제값의 절대적인 차이보다 상대적인 비율에 더 초점을 맞춘다. 예를 들어, 실제값이 100일 때 110으로 예측한 오차(10)와 실제값이 1000일 때 1010으로 예측한 오차(10)를 RMSE는 동일하게 평가하지만, RMSLE는 전자의 상대적 오차(10%)를 후자(1%)보다 훨씬 크게 평가한다. 또한, 예측값이 실제값보다 작을 때(under-prediction) 더 큰 페널티를 부과하는 특징이 있어, 수요 예측과 같이 과소 예측을 피해야 하는 문제에 유용하다.1

3.3 결정 계수: R²와 조정된 R²

오차 기반 지표들이 오차의 절대적인 크기를 측정하는 반면, 결정 계수는 모델이 데이터의 분산을 얼마나 잘 설명하는지를 비율로 나타낸다.

3.3.1 R-제곱 (R-squared, R²)

R-제곱(R²) 또는 결정 계수(Coefficient of Determination)는 종속 변수의 총 분산 중에서 회귀 모델에 의해 설명되는 분산의 비율을 나타낸다.16

R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} = 1 - \frac{\text{SS}_{\text{res}}}{\text{SS}_{\text{tot}}}
여기서 \text{SS}_{\text{res}}는 잔차 제곱합(모델이 설명하지 못하는 분산)이고, \text{SS}_{\text{tot}}는 총 제곱합(데이터의 총 분산)이다. R² 값은 0과 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터의 변동성을 잘 설명하고 있음을 의미한다.26 예를 들어 R²가 0.85라면, 종속 변수 분산의 85%가 모델의 독립 변수들에 의해 설명된다고 해석할 수 있다.

그러나 R²에는 중요한 문제점이 있다. 모델에 새로운 독립 변수를 추가하면, 그 변수가 종속 변수와 아무런 관련이 없더라도 R² 값은 항상 증가하거나 최소한 동일하게 유지된다. 이로 인해 불필요한 변수가 많은 복잡한 모델을 더 좋은 모델로 오인하게 만들어 과적합(overfitting)을 유발할 수 있다.25

3.3.2 조정된 R-제곱 (Adjusted R-squared)

조정된 R-제곱은 R²의 이러한 단점을 보완하기 위해 모델에 포함된 독립 변수의 수를 고려하여 값을 보정한 지표이다.26

\text{Adjusted } R^2 = 1 - \frac{(1 - R^2)(n - 1)}{n - k - 1}
여기서 n은 데이터 샘플의 수, k는 독립 변수의 수이다. 조정된 R-제곱은 모델에 유의미한 설명력을 가진 변수가 추가될 때만 값이 증가하고, 불필요한 변수가 추가되면 오히려 값이 감소할 수 있다. 이는 모델의 복잡도에 페널티를 부과하는 것과 같은 효과를 낸다.26 따라서 여러 개의 독립 변수를 사용하는 다중 회귀 분석에서는 모델 간의 성능을 비교할 때 일반 R²보다 조정된 R²가 훨씬 더 신뢰할 수 있는 지표로 간주된다.26

4. 군집 분석 평가 지표

군집 분석(Clustering)은 비지도 학습(Unsupervised Learning)의 한 분야로, 데이터 내에 숨겨진 구조를 발견하여 유사한 데이터들을 그룹(군집)으로 묶는 것을 목표로 한다. 지도 학습인 분류나 회귀와 달리, 군집 분석은 대부분의 경우 비교할 ’정답 레이블’이 존재하지 않는다.4 이로 인해 군집 분석의 평가는 근본적으로 다른 패러다임을 따른다.

군집 분석 평가는 정답 레이블의 존재 여부에 따라 ’내부 평가’와 ’외부 평가’라는 두 가지 방식으로 나뉜다. 정답이 없는 실제 상황에서는 “좋은 군집이란 무엇인가?“라는 질문에 답해야 한다. 일반적으로 ‘군집 내 데이터는 서로 가깝고(높은 응집도), 다른 군집의 데이터와는 멀리 떨어진(높은 분리도)’ 상태를 좋은 군집으로 정의한다. 이러한 기준을 데이터 자체의 구조를 이용해 측정하는 것이 ’내부 평가’이다.31 반면, 학술적 연구 등 정답 레이블을 사용할 수 있는 경우에는 군집화 결과를 정답과 비교하여 유사성을 측정하는 ’외부 평가’를 사용한다.31

4.1 내부 평가 지표: 정답 레이블이 없는 경우

내부 평가 지표는 데이터의 내재적 특성, 즉 데이터 포인트 간의 거리나 유사도를 기반으로 군집화의 품질을 평가한다.

4.1.1 실루엣 계수 (Silhouette Coefficient)

실루엣 계수는 각 데이터 포인트가 자신이 속한 군집에 얼마나 잘 부합하는지를 측정하는 지표로, 군집의 응집도(cohesion)와 분리도(separation)를 모두 고려한다.27

특정 데이터 포인트 i에 대한 실루엣 계수 s(i)는 다음과 같이 계산된다.

s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}

  • a(i): 데이터 포인트 i와 자신이 속한 군집 내의 다른 모든 점들 간의 평균 거리. 군집의 응집도를 나타내며, 이 값이 작을수록 좋다.

  • b(i): 데이터 포인트 i와 가장 가까운 이웃 군집(neighboring cluster) 내의 모든 점들 간의 평균 거리. 군집의 분리도를 나타내며, 이 값이 클수록 좋다.

실루엣 계수는 -1에서 1 사이의 값을 가진다.

  • 1에 가까울수록: 해당 데이터 포인트가 자신의 군집에 매우 잘 속해 있으며, 다른 군집과는 멀리 떨어져 있음을 의미한다.

  • 0에 가까울수록: 데이터 포인트가 두 군집의 경계에 위치해 있음을 의미한다.

  • -1에 가까울수록: 해당 데이터 포인트가 잘못된 군집에 할당되었을 가능성이 높음을 의미한다.

전체 데이터셋에 대한 실루엣 점수는 모든 데이터 포인트의 실루엣 계수의 평균으로 계산하며, 이 값이 1에 가까울수록 전반적인 군집화 품질이 우수하다고 평가할 수 있다.33

4.1.2 데이비스-볼딘 지수 (Davies-Bouldin Index, DBI)

데이비스-볼딘 지수는 각 군집에 대해 가장 유사한 다른 군집과의 ’유사도’를 계산하고, 이를 모든 군집에 대해 평균한 값이다. 여기서 유사도는 군집 내 분산(응집도)과 군집 간 거리(분리도)의 비율로 정의된다.31

\text{DBI} = \frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} \left( \frac{\sigma_i + \sigma_j}{d(c_i, c_j)} \right)

  • k: 군집의 수

  • \sigma_i: 군집 i 내의 모든 점들과 군집 중심 c_i 간의 평균 거리 (군집 내 분산)

  • d(c_i, c_j): 군집 i의 중심과 군집 j의 중심 간의 거리 (군집 간 거리)

이 지수는 0 이상의 값을 가지며, 값이 낮을수록 군집 내부는 조밀하고 군집 간에는 잘 분리되어 있음을 의미한다. 이상적인 군집화의 경우 DBI는 0에 가까운 값을 가진다.33

4.1.3 칼린스키-하라바츠 지수 (Calinski-Harabasz Index)

칼린스키-하라바츠 지수는 분산 비율 기준(Variance Ratio Criterion)이라고도 불리며, 군집 간 분산과 군집 내 분산의 비율을 기반으로 군집의 품질을 평가한다.31

\text{CH} = \frac{\text{SS}_B / (k-1)}{\text{SS}_W / (n-k)}

  • \text{SS}_B: 군집 간 분산의 총합 (between-group sum of squares)

  • \text{SS}_W: 군집 내 분산의 총합 (within-group sum of squares)

  • k: 군집의 수

  • n: 전체 데이터 포인트의 수

이 지수는 값이 클수록 군집들이 더 밀집되어 있고 서로 잘 분리되어 있음을 의미하므로, 높은 점수가 더 좋은 군집화를 나타낸다.31

4.2 외부 평가 지표: 정답 레이블이 있는 경우

외부 평가 지표는 군집화 결과를 사전에 알고 있는 정답 레이블(ground truth)과 비교하여 두 파티션 간의 유사성을 측정한다.

4.2.1 조정된 랜드 지수 (Adjusted Rand Index, ARI)

조정된 랜드 지수는 두 개의 군집화 결과(모델 예측과 실제 정답)가 얼마나 유사한지를 측정하는 지표이다.27 기본 랜드 지수(Rand Index)는 두 데이터 포인트 쌍이 같은 군집에 속하는지, 다른 군집에 속하는지에 대한 두 군집화 결과의 동의율을 계산한다. 그러나 랜드 지수는 무작위로 군집을 할당하더라도 0이 아닌 값을 가질 수 있어 해석에 어려움이 있다. ARI는 이러한 우연에 의한 일치 가능성을 보정하여, 무작위 할당에 대한 기댓값이 0이 되도록 만든다.31

\text{ARI} = \frac{\text{RI} - \text{Expected RI}}{\max(\text{RI}) - \text{Expected RI}}
ARI는 -1에서 1 사이의 값을 가진다.

  • 1: 두 군집화 결과가 완벽하게 일치함.

  • 0: 무작위 수준의 유사성을 보임.

  • 음수 값: 두 군집화 결과가 우연보다도 덜 일치함을 의미함.

ARI는 군집의 수나 구조에 상관없이 안정적인 결과를 제공하므로 외부 평가에서 널리 사용되는 표준 지표 중 하나이다.41

4.2.2 상호 정보량 기반 점수 (Mutual Information based Scores)

상호 정보량(Mutual Information)은 정보 이론에 기반한 척도로, 두 확률 변수 간의 상호 의존도를 측정한다. 군집 평가에서는 두 군집화 결과(U와 V)를 두 개의 확률 변수로 간주하고, 하나의 군집화 결과를 알았을 때 다른 군집화 결과에 대한 불확실성이 얼마나 감소하는지를 측정한다.31 정규화된 상호 정보량(Normalized Mutual Information, NMI)이나 조정된 상호 정보량(Adjusted Mutual Information, AMI)과 같이 우연에 의한 일치를 보정한 버전들이 널리 사용된다.

5. 특정 도메인별 평가 지표

일반적인 분류, 회귀, 군집 문제를 넘어, 특정 AI 응용 분야에서는 해당 도메인의 고유한 특성을 반영하는 전문화된 평가 지표가 요구된다.

5.1 자연어 처리 (Natural Language Processing, NLP)

5.1.1 기계 번역 및 텍스트 생성: BLEU, ROUGE

기계가 생성한 텍스트의 품질을 평가하는 것은 매우 어려운 과제이다. BLEU와 ROUGE는 생성된 텍스트를 사람이 만든 고품질의 참조(reference) 텍스트와 비교하여 유사도를 측정하는 방식으로 이 문제를 해결한다.

  • BLEU (Bilingual Evaluation Understudy): 주로 기계 번역(machine translation)의 성능을 평가하기 위해 개발된 지표이다. 생성된 번역문과 하나 이상의 전문가 참조 번역문 간의 n-gram(연속된 n개의 단어 묶음) 정밀도를 측정하는 데 초점을 맞춘다.44

  • 핵심 아이디어: 좋은 기계 번역은 사람이 번역한 문장과 높은 n-gram 중복도를 가질 것이라는 가정에 기반한다.

  • 주요 구성 요소:

  1. 수정된 n-gram 정밀도 (Modified n-gram Precision): 기계 번역문에서 특정 n-gram이 과도하게 반복되어 정밀도가 부풀려지는 것을 방지하기 위해, 해당 n-gram이 참조 번역문들 중 하나에서 나타난 최대 횟수만큼만 카운트한다(clipping).46

  2. 간결성 페널티 (Brevity Penalty): 기계 번역문이 참조 번역문보다 지나치게 짧을 경우, 높은 정밀도를 얻더라도 페널티를 부과하여 점수를 낮춘다. 이는 짧지만 정확한 단어들만으로 구성된 문장이 과대평가되는 것을 막기 위함이다.45

  • 최종 BLEU 점수는 보통 1-gram부터 4-gram까지의 수정된 정밀도의 기하 평균에 간결성 페널티를 곱하여 계산된다.

  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 주로 자동 텍스트 요약(text summarization)의 성능을 평가하는 데 사용된다. BLEU가 정밀도에 초점을 맞추는 것과 달리, ROUGE는 생성된 요약문이 참조 요약문의 중요한 정보를 얼마나 많이 포함하고 있는지를 측정하기 위해 n-gram 재현율에 중점을 둔다.3

  • 주요 변형:

  • ROUGE-N: BLEU와 유사하게 n-gram의 재현율을 계산한다. ROUGE-1은 단일 단어(unigram)의 중복을, ROUGE-2는 단어 쌍(bigram)의 중복을 측정한다.48

  • ROUGE-L: n-gram처럼 연속적일 필요는 없지만 순서가 유지되는 가장 긴 공통 부분 서열(Longest Common Subsequence, LCS)을 기반으로 재현율을 계산한다. 이를 통해 문장 수준의 구조적 유사성을 포착할 수 있다.48

5.1.2 언어 모델링: 퍼플렉서티 (Perplexity, PPL)

퍼플렉서티는 언어 모델(Language Model)의 성능을 평가하는 대표적인 지표로, 모델이 주어진 텍스트 시퀀스를 얼마나 잘 예측하는지를 측정한다. 이는 모델의 ‘혼란도’ 또는 ’불확실성’을 정량화한 값으로 해석될 수 있다.44

수학적으로 퍼플렉서티는 테스트 데이터셋에 대한 모델의 평균 음수 로그 우도(average negative log-likelihood)에 지수(exponential) 함수를 취한 값이다.54

\text{PPL}(X) = \exp \left\{ -\frac{1}{t} \sum_{i=1}^{t} \log p_{\theta}(x_i | x_{<i}) \right\}
여기서 X = (x_1,..., x_t)는 단어 시퀀스이고, p_{\theta}(x_i | x_{<i})는 이전 단어들이 주어졌을 때 모델이 i번째 단어를 예측할 확률이다.

  • 해석: 퍼플렉서티 값은 낮을수록 좋다. 낮은 퍼플렉서티는 모델이 다음 단어를 높은 확률로 예측했음을 의미하며, 이는 모델이 언어의 통계적 패턴을 잘 학습했음을 시사한다. 예를 들어, 퍼플렉서티가 10이라면, 모델이 다음 단어를 예측할 때 평균적으로 10개의 가능한 단어들 사이에서 고민하는 것과 같은 수준의 불확실성을 가진다고 직관적으로 이해할 수 있다.52

5.2 컴퓨터 비전 (Computer Vision)

5.2.1 객체 탐지: IoU와 mAP

객체 탐지(Object Detection)는 이미지 내에 있는 객체의 종류를 분류하고, 그 위치를 경계 상자(bounding box)로 정확히 표시하는 복합적인 과제이다. 따라서 평가는 ’분류’와 ‘위치’ 두 가지 측면을 모두 고려해야 한다.

  • IoU (Intersection over Union): IoU는 예측된 경계 상자와 실제 정답 경계 상자 간의 겹치는 정도를 측정하는 가장 핵심적인 지표이다.56 Jaccard index라고도 불린다.56

\text{IoU} = \frac{\text{Area of Intersection}}{\text{Area of Union}} = \frac{|A \cap B|}{|A \cup B|}
여기서 A는 예측 상자, B는 실제 상자이다. IoU 값은 0(전혀 겹치지 않음)과 1(완벽하게 겹침) 사이의 값을 가진다. 객체 탐지에서는 이 IoU 값을 기준으로 특정 예측이 성공적인 탐지(True Positive)인지, 아니면 실패한 탐지(False Positive)인지를 판단하는 임계값(threshold)으로 사용한다. 예를 들어, IoU 임계값을 0.5로 설정하면, IoU가 0.5 이상인 예측만 TP로 간주한다.59

  • mAP (mean Average Precision): mAP는 객체 탐지 모델의 전반적인 성능을 평가하는 표준 지표이다. 이는 단일 지표가 아니라, IoU, 정밀도, 재현율 등 여러 기본 지표들이 계층적으로 결합된 복합적인 평가 체계이다. mAP의 계산 과정은 다음과 같은 계층적 구조를 가진다.
  1. 1단계 (개별 예측 평가): 모델이 출력한 모든 예측 경계 상자에 대해, 동일한 클래스의 정답 경계 상자와의 IoU를 계산한다.60

  2. 2단계 (TP/FP 판정): 미리 정한 IoU 임계값(예: 0.5)을 기준으로, 각 예측을 TP 또는 FP로 분류한다. IoU가 임계값 이상이고 해당 정답 상자와 매칭된 첫 번째 예측이라면 TP, 그렇지 않으면 FP로 판정한다.60

  3. 3단계 (단일 클래스 평가 곡선): 특정 클래스(예: ‘자동차’)에 대한 모든 예측을 모델이 출력한 신뢰도 점수(confidence score) 순으로 정렬한다. 이 순서대로 예측을 하나씩 포함시켜 가면서 각 지점에서의 정밀도와 재현율을 계산하여 정밀도-재현율 곡선을 그린다.60

  4. 4단계 (AP 계산): 이 정밀도-재현율 곡선의 아래 면적을 계산하여 해당 클래스에 대한 **AP(Average Precision)**를 구한다. 이는 해당 클래스에 대한 모델의 전반적인 성능을 나타낸다.60

  5. 5단계 (mAP 계산): 데이터셋에 존재하는 모든 클래스에 대해 4단계까지의 과정을 반복하여 각 클래스별 AP를 구한 뒤, 이들의 산술 평균을 계산하면 최종적으로 **mAP(mean Average Precision)**가 된다.60

mAP는 평가 방식에 따라 mAP@0.5(IoU 임계값을 0.5로 고정하여 계산) 또는 mAP@[.5:.95](IoU 임계값을 0.5부터 0.95까지 0.05 간격으로 변화시키며 계산한 mAP들의 평균, COCO 데이터셋 표준)와 같이 다양한 변형이 존재한다.60

6. 결론: 종합적 모델 평가를 위한 실용적 제언

이 안내서에서 살펴본 바와 같이, 인공지능 모델의 성능을 평가하는 것은 단 하나의 지표로 귀결될 수 없는 다차원적인 과제이다. 성공적인 모델 평가를 위해서는 다음과 같은 실용적인 원칙을 고려해야 한다.

  • 단일 지표의 함정을 넘어라: 어떤 단일 지표도 모델의 모든 성능 측면을 완벽하게 대변할 수 없다. 정확도는 불균형 데이터에 취약하고, 정밀도와 재현율은 상충 관계에 있으며, RMSE는 이상치에 민감하다. 따라서 문제의 특성과 비즈니스 목표에 맞는 여러 지표를 종합적으로 사용하여 모델을 다각적으로 평가하는 것이 필수적이다.5

  • 시각화의 힘을 활용하라: 정밀도-재현율 곡선, ROC 곡선, 실루엣 플롯과 같은 시각화 도구는 단일 수치가 제공하지 못하는 깊은 통찰을 제공한다. 이러한 그래프들은 모델의 행동 패턴, 임계값에 따른 성능 변화, 그리고 지표 간의 트레이드오프를 직관적으로 이해하게 도와주어 더 나은 의사결정을 가능하게 한다.

  • 지속적인 평가의 중요성을 인지하라: 모델 평가는 개발 단계에서 한 번으로 끝나는 과정이 아니다. 실제 운영 환경에 배포된 모델은 시간이 지남에 따라 입력 데이터의 분포가 변하는 ‘데이터 드리프트(Data Drift)’ 현상으로 인해 성능이 저하될 수 있다. 따라서 모델의 성능을 지속적으로 모니터링하고 주기적으로 재평가하는 체계를 구축하는 것이 매우 중요하다.3

궁극적으로, 가장 적합한 평가 지표를 선택하는 것은 해결하고자 하는 문제의 맥락을 깊이 이해하는 것에서 출발한다. 아래의 표는 이 안내서의 논의를 바탕으로, 일반적인 문제 유형별로 적합한 평가 지표를 선택하는 데 도움이 되는 가이드라인을 제시한다.

가치 있는 테이블 4: 문제 유형별 평가 지표 선택 가이드

문제 유형주요 목표추천 1차 지표추천 2차 지표
질병 진단 (불균형)환자를 놓치지 않는 것 (FN 최소화)재현율 (Recall)AUC, 정밀도-재현율 곡선
스팸 메일 필터링정상 메일을 스팸으로 분류하지 않는 것 (FP 최소화)정밀도 (Precision)F1 점수
주택 가격 예측전반적인 예측 오차 최소화, 이상치에 덜 민감MAERMSE, R²
장비 고장 예측큰 예측 오차(치명적 고장) 방지RMSEMAE
기계 번역인간 번역과의 유사성 극대화BLEU(인간 평가)
객체 탐지위치와 종류를 정확하게 탐지mAPIoU
고객 세분화의미 있는 고객 그룹 발견 (정답 없음)실루엣 계수데이비스-볼딘 지수

7. 참고 자료

  1. Evaluating machine learning models-metrics and techniques - AI Accelerator Institute, https://www.aiacceleratorinstitute.com/evaluating-machine-learning-models-metrics-and-techniques/
  2. What is Evaluation Metrics? | Activeloop Glossary, https://www.activeloop.ai/resources/glossary/evaluation-metrics/
  3. Evaluation metrics - IBM, https://www.ibm.com/docs/en/watsonx/saas?topic=models-evaluation-metrics
  4. How to choose the right metric for evaluating machine learning models? - Kaggle, https://www.kaggle.com/questions-and-answers/227886
  5. How to Choose the Right Evaluation Metrics for Your ML Model ? | by Ayush Patni - Medium, https://ayushdpatni.medium.com/how-to-choose-the-right-evaluation-metrics-for-your-ml-model-ad1f448ae3a5
  6. Choosing the Right ML Evaluation Metric — A Practical Guide | by Asim Adnan Eijaz, https://medium.com/@asimadnan/choosing-the-right-ml-evaluation-metric-a-practical-guide-bad4ae70dad2
  7. Classification: Accuracy, recall, precision, and related metrics | Machine Learning, https://developers.google.com/machine-learning/crash-course/classification/accuracy-precision-recall
  8. Evaluation Metrics in Machine Learning - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/metrics-for-machine-learning-model/
  9. Key Evaluation Metrics For AI Model Performance | by Tanisha …, https://medium.com/gen-ai-adventures/key-evaluation-metrics-for-ai-model-performance-8e372f17a0a2
  10. Precision And Recall Made Simple & How To Handle The Trade-Off, https://spotintelligence.com/2024/09/11/precision-and-recall/
  11. What is a confusion matrix? - IBM, https://www.ibm.com/think/topics/confusion-matrix
  12. Confusion matrix - Wikipedia, https://en.wikipedia.org/wiki/Confusion_matrix
  13. Confusion Matrix Explained - Ultralytics, https://www.ultralytics.com/glossary/confusion-matrix
  14. Confusion Matrix: How To Use It & Interpret Results [Examples] - V7 Labs, https://www.v7labs.com/blog/confusion-matrix-guide
  15. Evaluation Metrics — Classification | by Priyansh Soni - Medium, https://medium.com/mlearning-ai/classification-evaluation-metrics-7c3fe3b0119b
  16. What is Model Evaluation? | Domino Data Science Dictionary, https://domino.ai/data-science-dictionary/model-evaluation
  17. Precision and recall - Wikipedia, https://en.wikipedia.org/wiki/Precision_and_recall
  18. ROC Curves and AUC: The Ultimate Guide | Built In, https://builtin.com/data-science/roc-curves-auc
  19. How to explain the ROC curve and ROC AUC score? - Evidently AI, https://www.evidentlyai.com/classification-metrics/explain-roc-curve
  20. Evaluate Model: Component Reference - Azure Machine Learning, https://learn.microsoft.com/en-us/azure/machine-learning/component-reference/evaluate-model?view=azureml-api-2
  21. Understanding MAE, MSE, and RMSE: Key Metrics in Machine …, https://medium.com/@mondalsabbha/understanding-mae-mse-and-rmse-key-metrics-in-machine-learning-eeeff8bd1fac
  22. Understanding MAE, MSE, and RMSE: Key Metrics in Machine Learning - DEV Community, https://dev.to/mondal_sabbha/understanding-mae-mse-and-rmse-key-metrics-in-machine-learning-4la2
  23. Which Evaluation metrics serves better, RMSE or MAE? - Kaggle, https://www.kaggle.com/discussions/questions-and-answers/389844
  24. Choosing between MAE, MSE and RMSE - Hugo Matalonga, https://hmatalonga.com/blog/choosing-between-mae-mse-and-rmse/
  25. R-Squared and Adjusted R-Squared: Explained | Built In, https://builtin.com/data-science/adjusted-r-squared
  26. R-squared vs Adjusted R-squared - Difference - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/r-squared-vs-adjusted-r-squared-difference/
  27. A Complete Guide to Model Evaluation Metrics - Statology, https://www.statology.org/complete-guide-model-evaluation-metrics/
  28. www.datacamp.com, https://www.datacamp.com/tutorial/adjusted-r-squared#:~:text=While%20r%2Dsquared%20measures%20the,contribute%20to%20the%20model’s%20significance.
  29. R-Squared vs. Adjusted R-Squared: What’s the Difference? - Investopedia, https://www.investopedia.com/ask/answers/012615/whats-difference-between-rsquared-and-adjusted-rsquared.asp
  30. What Evaluation Metrics does Clustering Have? : r/MLQuestions - Reddit, https://www.reddit.com/r/MLQuestions/comments/1h1zp9k/what_evaluation_metrics_does_clustering_have/
  31. Evaluation Metrics for Unsupervised Learning and Clustering | Statistical Prediction Class Notes | Fiveable, https://library.fiveable.me/modern-statistical-prediction-and-machine-learning/unit-14/evaluation-metrics-unsupervised-learning-clustering/study-guide/UuzjLvrGcbnj7uhw
  32. Clustering Metrics — Permetrics 2.0.0 documentation, https://permetrics.readthedocs.io/en/latest/pages/clustering.html
  33. Clustering Performance Evaluation in Scikit Learn - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/clustering-performance-evaluation-in-scikit-learn/
  34. Silhouette Cluster Analysis in SPSS - Explained, Performing, Repor, https://spssanalysis.com/silhouette-cluster-analysis-in-spss/
  35. Understanding Silhouette Score in Clustering | by FARSHAD K - Medium, https://farshadabdulazeez.medium.com/understanding-silhouette-score-in-clustering-8aedc06ce9c4
  36. Mastering Cluster Validation with Silhouette Scores and Visualization in Python | CodeSignal Learn, https://codesignal.com/learn/courses/cluster-performance-unveiled/lessons/mastering-cluster-validation-with-silhouette-scores-and-visualization-in-python
  37. Davies–Bouldin index - Wikipedia, https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index
  38. Davies-Bouldin Index - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/davies-bouldin-index/
  39. Mastering the Davies-Bouldin Index for Clustering Model Validation | CodeSignal Learn, https://codesignal.com/learn/courses/cluster-performance-unveiled/lessons/mastering-the-davies-bouldin-index-for-clustering-model-validation
  40. Evaluation Metrics in Machine Learning 101 | by Anushka Bajpai - Medium, https://medium.com/@anushka.datascoop/evaluation-metrics-in-machine-learning-101-accc3cd35af9
  41. Adjusted Rand Index (ARI) - OECD.AI, https://oecd.ai/en/catalogue/metrics/adjusted-rand-index-ari
  42. adjusted_rand_score — scikit-learn 1.7.1 documentation, https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html
  43. Rand index - Wikipedia, https://en.wikipedia.org/wiki/Rand_index
  44. Common NLP Evaluation Metrics to Know for Natural Language Processing - Fiveable, https://library.fiveable.me/lists/common-nlp-evaluation-metrics
  45. Demystifying the BLEU Metric: A Comprehensive Guide to Machine Translation Evaluation, https://www.traceloop.com/blog/demystifying-the-bleu-metric
  46. Understanding the BLEU Score for Translation Model Evaluation …, https://deconvoluteai.com/blog/bleu-score
  47. NLP - BLEU Score for Evaluating Neural Machine Translation - Python - GeeksforGeeks, https://www.geeksforgeeks.org/nlp/nlp-bleu-score-for-evaluating-neural-machine-translation-python/
  48. Scoring and Comparing Models with ROUGE | CodeSignal Learn, https://codesignal.com/learn/courses/benchmarking-llms-on-text-generation/lessons/scoring-and-comparing-models-with-rouge-1
  49. Evaluating AI Text Summarization: Understanding the ROUGE …, https://galileo.ai/blog/rouge-metric
  50. www.alooba.com, https://www.alooba.com/skills/concepts/natural-language-processing/evaluation-metrics/#:~:text=Commonly%20used%20evaluation%20metrics%20in,of%20true%20positive%20instances%20identified.
  51. Perplexity for LLM Evaluation - GeeksforGeeks, https://www.geeksforgeeks.org/nlp/perplexity-for-llm-evaluation/
  52. Perplexity In NLP: Understand How To Evaluate LLMs [Practical Guide] - Spot Intelligence, https://spotintelligence.com/2024/08/19/perplexity-in-nlp/
  53. Perplexity for LLM Evaluation - Comet, https://www.comet.com/site/blog/perplexity-for-llm-evaluation/
  54. Perplexity of fixed-length models - Hugging Face, https://huggingface.co/docs/transformers/perplexity
  55. Understanding Perplexity in Language Models: A Detailed Exploration - Medium, https://medium.com/@shubhamsd100/understanding-perplexity-in-language-models-a-detailed-exploration-2108b6ab85af
  56. Generalized Intersection over Union, https://giou.stanford.edu/
  57. Intersection over Union (IoU) for object detection | SuperAnnotate, https://www.superannotate.com/blog/intersection-over-union-for-object-detection
  58. Understanding Intersection over Union for Model Accuracy - Viso Suite, https://viso.ai/computer-vision/intersection-over-union-iou/
  59. A Gentle Guide to Intersection over Union (IoU) - learnml.io, https://www.learnml.io/posts/a-gentle-guide-to-intersection-over-union/
  60. mAP (mean Average Precision) for Object Detection | by Jonathan …, https://jonathan-hui.medium.com/map-mean-average-precision-for-object-detection-45c121a31173
  61. [D] How to calculate mAP for object detection and localization networks like YOLO using bounding boxes? : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/8bos68/d_how_to_calculate_map_for_object_detection_and/
  62. machine learning - What is the mAP metric and how is it calculated? - Stack Overflow, https://stackoverflow.com/questions/36274638/what-is-the-map-metric-and-how-is-it-calculated
  63. How to Choose the Right Metric for Your Model - Codefinity, https://codefinity.com/blog/How-to-Choose-the-Right-Metric-for-Your-Model