이상 행동 탐지 모델 성능 평가 안내서

1. 이상 행동 탐지 평가의 특수성

1.1 이상 행동(Anomaly)의 정의와 유형

이상 행동 탐지(Anomaly Detection)의 근본적인 목표는 사전에 정의된 ‘정상(Normal)’ 데이터의 행동 패턴에서 유의미하게 벗어나는 희귀한 데이터 포인트나 이벤트를 식별하는 것이다.1 이는 금융 거래에서의 사기 탐지, 제조 공정에서의 결함 발견, 네트워크 트래픽에서의 침입 시도 감지, 의료 데이터에서의 질병 징후 포착 등 다양한 산업 도메인에서 잠재적 위험을 사전에 인지하고 비즈니스 손실을 최소화하는 데 결정적인 역할을 수행한다.2

이상 행동 탐지 모델의 성능을 정확하게 평가하기 위해서는 먼저 ’이상(Anomaly)’이라는 개념을 명확히 정의해야 한다. 이상은 크게 두 가지 하위 개념으로 세분화하여 이해할 수 있다.

첫째는 **이상치(Outlier)**이다. 이는 기존에 관찰된 데이터의 전반적인 분포에서 통계적으로 확연히 벗어나는 데이터 포인트를 의미한다.3 이상치 탐지의 핵심은 데이터 집합 내 다른 샘플들과의 ‘차이’ 또는 ’거리’에 초점을 맞추는 것이다. 예를 들어, 수많은 빨간 사과가 담긴 바구니 안에서 발견된 하나의 수박은 다른 데이터(사과)와 비교했을 때 그 특성이 명백히 다르므로 이상치로 간주될 수 있다.5

둘째는 **신기점(Novelty)**이다. 이는 모델이 훈련하는 동안 관찰된 적이 없는 완전히 새로운 패턴의 데이터를 의미한다.5 신기점 탐지의 핵심은 데이터가 ‘처음 관찰되는’ 것인지 여부에 초점을 맞춘다. 앞선 예시에서, 만약 빨간 사과만 존재하는 세상에서 처음으로 초록색 사과가 발견되었다면, 이는 비록 사과라는 범주에 속할지라도 이전에 본 적 없는 새로운 패턴이므로 신기점으로 정의된다.5

이 두 개념은 미묘한 차이를 가지며, 문제 정의 단계에서 어떤 종류의 이상을 탐지할 것인지를 명확히 하는 것은 모델링 전략과 평가 방식에 직접적인 영향을 미친다. 이상치 탐지는 주로 비지도 학습(Unsupervised Learning) 환경에서 전체 데이터셋을 기반으로 특이점을 찾는 반면, 신기점 탐지는 정상 데이터만으로 모델을 학습시킨 후 새로운 데이터가 이 정상 범주에 속하는지를 판별하는 준지도 학습(Semi-supervised Learning) 접근법과 관련이 깊다.6

1.2 평가를 어렵게 만드는 핵심 난제: 극심한 클래스 불균형(Class Imbalance)

이상 행동 탐지 모델의 성능 평가를 가장 어렵게 만드는 근본적인 원인은 데이터의 본질적 특성인 **극심한 클래스 불균형(Class Imbalance)**에 있다.7 이상 행동은 정의상 ‘희귀한(rare)’ 사건이므로, 전체 데이터셋에서 이상 데이터가 차지하는 비율은 극히 낮다.2 금융 사기 거래 데이터에서 실제 사기 거래가 1% 미만, 혹은 네트워크 침입 데이터에서 악성 트래픽이 0.1% 미만을 차지하는 경우가 일반적이다.7

이러한 데이터 불균형은 대부분의 표준적인 분류 알고리즘과 평가지표가 다수 클래스인 ‘정상’ 데이터에 과도하게 편향되도록 만든다.7 예를 들어, 99.9%의 데이터가 정상인 상황에서 모델이 모든 입력을 ’정상’이라고 예측하기만 해도 99.9%라는 기만적으로 높은 정확도(Accuracy)를 달성할 수 있다. 그러나 이러한 모델은 우리가 정작 찾아내야 할 단 0.1%의 이상 행동을 전혀 탐지하지 못하므로 실질적으로는 아무런 가치가 없다.7

이 외에도 이상 행동 탐지 평가를 복잡하게 만드는 여러 난제가 존재한다. 첫째, 이상 데이터는 그 종류가 매우 다양하고 예측 불가능하여(Unknownness) 모든 유형의 이상 패턴을 사전에 정의하고 라벨링하기 어렵다.2 둘째, ’정상’의 기준 자체가 시간에 따라 변화하는 동적 환경(Concept Drift)에서는 과거 데이터로 학습한 모델의 성능이 점차 저하될 수 있다.10 셋째, 데이터에 포함된 무작위적인 노이즈(Noise)와 실제 의미 있는 이상 신호를 구분하는 것이 모호한 경우가 많아 모델의 성능에 심각한 영향을 미칠 수 있다.2

1.3 올바른 평가지표 선택의 중요성: 잘못된 지표가 초래하는 위험

앞서 언급한 난제들로 인해, 이상 행동 탐지 모델의 성능을 평가할 때 부적절한 지표를 선택하는 것은 심각한 결과를 초래할 수 있다. 만약 클래스 불균형 문제를 간과하고 정확도와 같은 지표에만 의존한다면, 실제로는 성능이 매우 저조한 모델을 우수한 모델로 오판하여 실제 운영 환경에 배포하는 치명적인 오류를 범하게 된다.7

이러한 오판은 곧바로 막대한 비즈니스 손실로 이어진다. 금융 분야에서는 탐지하지 못한 사기 거래로 인해 연간 수십억 달러의 손실이 발생할 수 있으며 13, 제조업에서는 미세한 공정 이상을 놓쳐 대규모 불량품을 생산하게 될 수 있다. 또한, 사이버 보안 영역에서는 시스템 침입을 감지하지 못해 민감한 고객 정보가 유출되고, 이는 복구 불가능한 수준의 브랜드 신뢰도 하락을 야기한다.1

따라서 이상 행동 탐지 모델의 성능 평가는 단순히 기술적 성능을 측정하는 행위를 넘어, ’불확실성 하에서 비즈니스 리스크를 얼마나 효과적으로 관리할 수 있는가’를 계량화하는 전략적 과정으로 이해해야 한다. 평가지표를 선택하는 행위는 곧 ’어떤 종류의 예측 오류(Risk)를 더 중요하게 관리할 것인가’에 대한 비즈니스 의사결정을 반영하는 것이다. 본 안내서는 이러한 관점을 바탕으로, 각 평가지표의 수학적 정의를 넘어 그것이 내포하는 리스크 관리 철학을 심도 있게 분석하고, 주어진 문제 상황에 가장 적합한 평가 전략을 수립할 수 있도록 돕는 것을 목표로 한다.

2. 평가의 초석: 혼동 행렬(Confusion Matrix)의 재해석

이상 행동 탐지 모델의 모든 성능 평가지표는 혼동 행렬(Confusion Matrix)로부터 파생된다. 따라서 혼동 행렬의 각 구성 요소를 이상 탐지의 특수한 맥락에 맞게 재해석하는 것은 평가의 가장 기본적이면서도 중요한 첫 단계이다.

2.1 이상 행동 탐지 관점에서의 정의: 이상(Positive)과 정상(Negative)

일반적인 이진 분류 문제와 달리, 이상 행동 탐지에서는 우리가 찾아내고자 하는 **소수의 ‘이상’ 클래스를 긍정(Positive)**으로, 그리고 **다수의 ‘정상’ 클래스를 부정(Negative)**으로 정의한다.14 이는 직관과 다소 반대될 수 있으나, ’탐지에 성공했다’는 관점에서 ’Positive’를 이해하면 명확해진다. 예를 들어, 질병 진단 모델의 목표는 ‘질병이 있는(이상)’ 환자를 찾아내는 것이므로, 질병 상태가 Positive 클래스가 된다.

이러한 정의는 이후에 등장하는 모든 평가지표, 즉 정밀도(Precision), 재현율(Recall) 등의 의미를 결정하는 근본적인 약속이므로 반드시 명확히 인지하고 넘어가야 한다.

2.2 TP, FP, FN, TN의 구체적 의미와 비즈니스 영향 분석

위의 정의에 따라 혼동 행렬의 네 가지 사분면은 다음과 같이 구체적인 의미를 갖게 되며, 각각은 뚜렷한 비즈니스 영향을 가진다.

진짜 긍정 (True Positive, TP): 실제 이상 데이터를 ’이상’으로 올바르게 예측한 경우이다. 예를 들어, 신용카드 사기 거래를 성공적으로 탐지하여 차단하거나, 제조 공정의 결함을 조기에 발견하여 조치하는 경우가 해당한다. 이는 모델이 창출하는 핵심 가치이며, 직접적인 손실을 예방하는 성공적인 사례이다.14
가짜 긍정 (False Positive, FP, 제1종 오류): 실제 정상 데이터를 ’이상’으로 잘못 예측한 경우이다. 예를 들어, 정상적인 신용카드 거래를 사기로 오인하여 승인을 거절하거나, 정상적인 서버 활동을 공격으로 판단하여 불필요한 경보를 울리는 상황이다. 이는 고객의 불편을 초래하고, 운영팀의 피로도를 높이며(alarm fatigue), 불필요한 조사 비용을 발생시키는 등 부가적인 운영 비용을 증가시킨다.2
가짜 부정 (False Negative, FN, 제2종 오류): 실제 이상 데이터를 ’정상’으로 잘못 예측한 경우이다. 예를 들어, 실제 사기 거래를 놓쳐 금전적 손실이 발생하거나, 시스템의 심각한 장애 징후를 감지하지 못해 대규모 서비스 중단을 초래하는 상황이다. 대부분의 이상 탐지 시나리오에서 FN은 가장 치명적이고 막대한 비용을 유발하는 최악의 오류이다.14
진짜 부정 (True Negative, TN): 실제 정상 데이터를 ’정상’으로 올바르게 예측한 경우이다. 예를 들어, 대다수의 정상적인 거래를 문제없이 처리하는 것이다. 이는 시스템의 기본적인 신뢰성과 안정성을 구성하는 요소이지만, 그 수가 압도적으로 많기 때문에 전체적인 성능 지표를 왜곡시키는 주된 원인이 되기도 한다.14

Table 1: 이상 행동 탐지를 위한 혼동 행렬 (Confusion Matrix for Anomaly Detection)

	예측: 이상 (Positive)	예측: 정상 (Negative)
실제: 이상 (Positive)	True Positive (TP)	False Negative (FN)
실제: 정상 (Negative)	False Positive (FP)	True Negative (TN)

2.3 제1종 오류(False Positive)와 제2종 오류(False Negative)의 비용 불균형

대부분의 실제 이상 탐지 시나리오에서는 두 종류의 오류, 즉 FP와 FN이 초래하는 비용이 동등하지 않다. 일반적으로 FN의 비용이 FP의 비용보다 훨씬 크고 치명적이다.9

예를 들어, 중증 질환을 진단하는 의료 AI 모델을 생각해보자. FN, 즉 실제 질병이 있는 환자를 정상으로 오진하는 경우(missed diagnosis)는 치료 시기를 놓쳐 환자의 생명을 위협할 수 있다. 반면 FP, 즉 건강한 사람을 질병 의심으로 판단하는 경우는 추가적인 검사를 받는 불편함과 비용을 유발하지만, 그 결과의 심각성은 FN에 비할 바가 아니다.

이러한 비용의 비대칭성을 이해하는 것은 모델 평가의 핵심이다. 단순히 오류의 총 개수를 줄이는 것이 아니라, 비즈니스 관점에서 더 치명적인 오류(주로 FN)를 우선적으로 줄이는 방향으로 모델을 평가하고 튜닝해야 한다. 이는 이후에 설명할 정밀도와 재현율 간의 상충 관계(trade-off)를 이해하고, 비즈니스 목표에 부합하는 최적의 결정 임계값(Decision Threshold)을 선택하는 데 있어 결정적인 기준이 된다.

또한, 혼동 행렬은 정적인 결과표가 아니라 모델의 결정 임계값에 따라 동적으로 변하는 ’운영 시나리오 예측기’로 보아야 한다. 대부분의 이상 탐지 모델은 각 데이터에 대해 ’이상 점수(anomaly score)’를 출력하며, 이 점수가 특정 임계값보다 높으면 ‘이상’, 낮으면 ’정상’으로 분류한다.12 임계값을 낮추면 더 많은 데이터를 이상으로 판단하게 되므로 TP와 FP가 함께 증가하고, 반대로 임계값을 높이면 FN과 TN이 증가한다. 따라서 모델을 제대로 평가한다는 것은 단 하나의 혼동 행렬을 보는 것이 아니라, 가능한 모든 임계값에 걸쳐 혼동 행렬의 변화 추이를 종합적으로 분석하는 것을 의미한다. 이 개념은 ROC 곡선과 PR 곡선의 필요성으로 자연스럽게 이어진다.

3. 전통적 분류 지표의 함정과 올바른 활용법

혼동 행렬의 네 가지 값을 기반으로 다양한 성능 평가지표를 계산할 수 있다. 그러나 이들 지표를 이상 행동 탐지의 특수성을 고려하지 않고 무분별하게 사용할 경우, 모델의 성능을 심각하게 오판할 수 있다.

3.1 정확도(Accuracy): 왜 이상 탐지에서 오해를 유발하는가

정확도(Accuracy)는 가장 직관적인 평가지표로, 전체 예측 중 올바르게 예측한 비율을 나타낸다.

$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$
14

하지만 서론에서 언급했듯이, 정확도는 클래스 불균형이 극심한 이상 탐지 데이터셋에서 가장 오해를 유발하기 쉬운 지표이다. 구체적인 예시를 통해 이 문제를 살펴보자. 10,000개의 금융 거래 데이터 중 10개(0.1%)가 사기(이상)이고 9,990개가 정상이라고 가정하자. 이때, 아무런 학습도 하지 않고 모든 거래를 ’정상’이라고만 예측하는 무능한 모델이 있다고 하자. 이 모델의 성능은 다음과 같다.

TP = 0 (탐지한 사기 없음)
FP = 0
FN = 10 (놓친 사기 10건)
TN = 9,990 (정상 거래를 정상으로 판단)

이 모델의 정확도를 계산하면 (0 + 9990) / (0 + 0 + 10 + 9990) = 9990 / 10000 = 99.9%가 된다. 수치상으로는 거의 완벽에 가까운 모델처럼 보이지만, 실제로는 단 한 건의 이상도 탐지하지 못하는 쓸모없는 모델이다.7

이러한 역설은 정확도의 수식이 압도적인 다수를 차지하는 TN의 성능에 의해 지배되기 때문에 발생한다. 우리가 정말로 관심을 가져야 할 소수 클래스(이상)에 대한 탐지 성능은 이 지표에 거의 반영되지 않는다. 따라서, 이상 행동 탐지 모델의 성능 평가에서 정확도는 주된 평가지표로 사용해서는 안 되며, 참고용으로만 사용하더라도 매우 신중한 해석이 필요하다.

3.2 정밀도(Precision)와 재현율(Recall): 상충 관계(Trade-off)의 이해

정확도의 한계를 극복하기 위해, 우리는 평가의 초점을 다수 클래스(TN)에서 소수 클래스(TP, FP, FN)로 옮겨야 한다. 이를 위해 가장 널리 사용되는 지표가 바로 정밀도와 재현율이다.

3.2.1 정밀도의 의미: 예측의 신뢰성

정밀도(Precision)는 모델이 ’이상’이라고 예측한 것들 중에서, 실제로 얼마나 많은 것이 진짜 이상이었는지를 측정하는 지표이다. 이는 모델이 발생시킨 경고(alert)가 얼마나 신뢰할 만한지를 나타낸다.

$Precision = \frac{TP}{TP + FP}$
14

높은 정밀도는 FP(가짜 긍정)가 적다는 것을 의미한다. 정밀도가 90%라면, 모델이 10번의 이상 경고를 발생시켰을 때 그 중 9번은 실제 이상 상황이라는 뜻이다. 정밀도는 FP로 인한 비용이 클 때 특히 중요하다. 예를 들어, 정상적인 제조 공정을 이상으로 판단하여 라인을 중단시키는 경우 막대한 생산 손실이 발생할 수 있다. 이런 상황에서는 모델의 경고 하나하나가 높은 신뢰도를 갖도록 정밀도를 높이는 것이 중요하다.19

3.2.2 재현율의 의미: 탐지의 완전성

재현율(Recall)은 실제로 발생한 모든 이상 중에서, 모델이 얼마나 많이 놓치지 않고 성공적으로 탐지해냈는지를 측정하는 지표이다. 이는 모델의 탐지 능력이 얼마나 완전한지를 나타낸다. 재현율은 민감도(Sensitivity) 또는 참 긍정 비율(True Positive Rate, TPR)과 완전히 동일한 개념이다.

$Recall = \frac{TP}{TP + FN}$
17

높은 재현율은 FN(가짜 부정)이 적다는 것을 의미한다. 재현율이 95%라면, 실제 발생한 100건의 이상 중 95건을 성공적으로 탐지했다는 뜻이다. 재현율은 FN으로 인한 비용이 치명적일 때 절대적으로 중요하다. 암 진단 모델이 실제 암 환자를 놓치거나(FN), 금융 사기 탐지 시스템이 실제 사기 거래를 통과시키는 경우(FN)는 비즈니스에 심각한 피해를 주기 때문에, 이런 시나리오에서는 재현율을 최대한 높이는 것이 최우선 목표가 된다.9

정밀도와 재현율은 일반적으로 **상충 관계(trade-off)**에 있다. 재현율을 높이기 위해 모델의 탐지 기준(임계값)을 낮추면, 사소한 징후에도 ’이상’으로 판단하게 되어 더 많은 실제 이상(TP)을 잡아낼 수 있다. 하지만 동시에 더 많은 정상 데이터까지 이상으로 오인하게 되므로 FP가 증가하고, 결과적으로 정밀도는 하락하게 된다. 반대의 경우도 마찬가지다. 이러한 상충 관계를 이해하고 비즈니스 목표에 맞는 균형점을 찾는 것이 모델 평가의 핵심 과제 중 하나이다.

3.3 F1-Score: 정밀도와 재현율의 조화 평균

3.3.1 F1-Score의 수학적 의미와 가중치

정밀도와 재현율은 모두 중요하지만, 두 지표를 동시에 고려하여 모델의 전반적인 성능을 하나의 숫자로 표현하고 싶을 때 F1-Score를 사용한다. F1-Score는 정밀도와 재현율의 조화 평균(harmonic mean)으로 계산된다.

$F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}$
17

F1-Score가 단순 산술 평균이 아닌 조화 평균을 사용하는 데에는 중요한 이유가 있다. 조화 평균은 구성 요소들 중 더 작은 값에 더 큰 영향을 받는 특성이 있다. 따라서 정밀도와 재현율 중 어느 한쪽이라도 값이 매우 낮으면 F1-Score 역시 낮아지게 된다. 이는 모델이 두 지표 사이에서 어느 한쪽으로 극단적으로 치우치지 않고, 양쪽 모두에서 준수한 성능을 보일 때 비로소 높은 점수를 받도록 강제하는 역할을 한다.21

3.3.2 Fβ-Score를 통한 특정 오류 비용 가중치 부여

F1-Score는 정밀도와 재현율을 동일한 중요도로 간주한다. 하지만 앞서 논의했듯이, 실제 문제에서는 FN의 비용이 FP의 비용보다 훨씬 더 큰 경우가 많다. 이처럼 두 지표의 중요도가 다를 때 Fβ-Score를 사용하여 가중치를 조절할 수 있다.

$F_{\beta} = (1 + \beta^2) \cdot \frac{Precision \cdot Recall}{(\beta^2 \cdot Precision) + Recall}$
여기서 $\beta$ 는 재현율을 정밀도보다 얼마나 더 중요하게 생각하는지를 나타내는 가중치이다.

$\beta = 1$ : F1-Score와 동일하다. 정밀도와 재현율의 중요도가 같다.
$\beta > 1$ (예: F2-Score): 재현율을 정밀도보다 $\beta$ 배 더 중요하게 간주한다. FN을 줄이는 것이 최우선 목표일 때 사용한다.22
$0 < \beta < 1$ (예: F0.5-Score): 정밀도를 재현율보다 더 중요하게 간주한다. FP를 줄이는 것이 최우선 목표일 때 사용한다.21

Fβ-Score는 오류 비용의 비대칭성이라는 비즈니스 요구사항을 평가지표에 직접적으로 반영할 수 있게 해주는 매우 실용적인 도구이다.

Table 2: 핵심 성능 평가지표 요약 (Summary of Key Performance Metrics)

지표	수식 (LaTeX)	정의	주요 고려사항 (이상 탐지 관점)
정확도 (Accuracy)	$\frac{TP+TN}{TP+TN+FP+FN}$	전체 예측 중 올바르게 예측한 비율	클래스 불균형으로 인해 심각하게 왜곡됨. 다수 클래스(정상)의 성능만 반영하여 사용을 지양해야 함.
정밀도 (Precision)	$\frac{TP}{TP+FP}$	Positive로 예측한 것 중 실제 Positive의 비율	모델 경고의 신뢰성. FP 비용이 높을 때 중요. (예: 불필요한 시스템 중단)
재현율 (Recall)	$\frac{TP}{TP+FN}$	실제 Positive 중 Positive로 예측한 비율	이상 탐지의 누락률. FN 비용이 높을 때 중요. (예: 사기, 질병 미탐지)
F1-Score	$2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}$	정밀도와 재현율의 조화 평균	두 지표의 균형을 평가. 한쪽으로 치우치면 점수가 낮아짐.
Fβ-Score	$(1+\beta^2) \cdot \frac{Precision \cdot Recall}{(\beta^2 \cdot Precision) + Recall}$	재현율에 $\beta$ 배 가중치를 부여한 F1-Score	오류 비용의 비대칭성을 반영하는 실용적 지표. $\beta > 1$ 은 재현율, $\beta < 1$ 은 정밀도 중시.

4. 임계값 독립적 평가 (1): ROC 곡선과 AUC-ROC

정밀도, 재현율, F1-Score는 특정 결정 임계값(Decision Threshold)이 고정되었을 때의 성능을 보여주는 ‘스냅샷’ 지표이다. 그러나 모델의 잠재적인 성능을 종합적으로 평가하고 여러 모델을 공정하게 비교하기 위해서는, 임계값의 변화에 따른 성능 변화를 전체적으로 조망할 수 있는 임계값 독립적인 평가 방법이 필요하다. ROC 곡선과 AUC-ROC가 바로 이러한 역할을 수행한다.

4.1 ROC 곡선의 구성: TPR과 FPR의 관계 시각화

ROC(Receiver Operating Characteristic) 곡선은 모델의 결정 임계값을 가장 낮은 값(0)부터 가장 높은 값(1)까지 연속적으로 변화시키면서, 각 임계값 지점에서의 두 가지 지표를 2차원 평면에 그린 그래프이다.16

Y축: 참 긍정 비율 (True Positive Rate, TPR): 이는 재현율(Recall)과 동일한 값이다. TPR = TP / (TP + FN)
X축: 거짓 긍정 비율 (False Positive Rate, FPR): 실제 정상인 데이터 중에서 모델이 이상이라고 잘못 예측한 데이터의 비율을 의미한다.

$FPR = \frac{FP}{FP + TN}$
17

ROC 공간에서 이상적인 모델은 (0, 1) 지점, 즉 좌상단 꼭짓점에 최대한 가까운 곡선을 그린다. 이는 FPR이 0이면서(잘못된 경고 없음) TPR이 1인(놓친 이상 없음) 완벽한 상태를 의미한다.16 반면, 대각선(y=x)은 모델의 성능이 무작위로 추측하는 것과 다를 바 없음을 나타낸다. 이 대각선보다 아래에 곡선이 그려진다면, 이는 무작위 추측보다도 성능이 나쁘다는 것을 의미한다.

4.2 AUC-ROC의 해석: 모델의 판별 능력에 대한 종합 점수

AUC-ROC(Area Under the ROC Curve)는 말 그대로 ROC 곡선 아래의 면적을 계산한 값이다. 이 값은 항상 0과 1 사이에 있으며, 1에 가까울수록 모델의 성능이 우수함을 의미한다.23

AUC-ROC가 가지는 핵심적인 통계적 의미는 **“모델이 무작위로 선택된 실제 Positive 샘플에 대해 부여한 점수가, 무작위로 선택된 실제 Negative 샘플에 대해 부여한 점수보다 높을 확률”**이다.25 즉, AUC-ROC는 특정 임계값에서의 분류 정확도가 아니라, 두 클래스를 얼마나 잘 ’구분(discriminate)’하거나 ’순위(rank)’를 매기는지에 대한 모델의 근본적인 판별 능력을 측정하는 종합 점수이다.

이러한 특성 때문에 AUC-ROC는 특정 임계값에 의존하지 않고 모델의 전반적인 성능을 단 하나의 숫자로 요약해준다. 이는 하이퍼파라미터가 다른 여러 모델의 성능을 객관적으로 비교하고 최적의 모델을 선택하는 데 매우 유용하다.24

4.3 클래스 불균형 데이터에서 AUC-ROC의 잠재적 낙관론과 그 원인

AUC-ROC는 많은 장점에도 불구하고, 이상 행동 탐지와 같이 클래스 불균형이 극심한 데이터셋에 적용될 때 성능을 과도하게 낙관적으로 평가하는 경향이 있다. 이 문제의 근본적인 원인은 ROC 곡선의 X축을 구성하는 FPR 수식에 있다.27

FPR의 분모는 FP + TN으로, 전체 정상 데이터의 수를 나타낸다. 이상 탐지 데이터셋에서는 TN의 수가 FP에 비해 압도적으로 많다. 이로 인해, 모델의 성능이 저하되어 FP의 절대적인 수가 크게 증가하더라도, 거대한 TN 값 때문에 FPR 값의 변화는 매우 미미하게 나타난다.27

예를 들어, 100만 개의 정상 데이터(TN+FP)와 100개의 이상 데이터(TP+FN)가 있는 상황을 가정해보자. 모델 A는 FP를 100개 발생시켰고, 모델 B는 FP를 1,000개 발생시켰다고 하자. 모델 B는 A에 비해 잘못된 경고를 10배나 더 많이 발생시킨 명백히 더 나쁜 모델이다. 그러나 FPR을 계산해보면 다음과 같다.

모델 A의 FPR: $100 / 1,000,000 = 0.0001$
모델 B의 FPR: $1,000 / 1,000,000 = 0.001$

FP의 절대적인 수는 900개나 차이가 나지만, FPR 값의 차이는 고작 0.0009에 불과하다. ROC 곡선 상에서 이 차이는 거의 눈에 띄지 않으며, 결과적으로 두 모델의 AUC-ROC 점수는 거의 비슷하게 높게 측정될 수 있다. 이처럼 AUC-ROC는 FP의 증가에 둔감하기 때문에, 실제 운영 관점에서는 수용 불가능할 정도로 많은 가짜 경고를 발생시키는 모델임에도 불구하고 성능이 우수한 것처럼 보이는 ’낙관적 편향(optimistic bias)’을 가질 수 있다.

결론적으로 AUC-ROC는 모델의 ’상대적 순위 결정 능력’을 평가하는 데는 유효할 수 있으나, 실제 운영 환경에서 ’경고의 실용성’을 평가하는 데는 부적합할 수 있다. 실제 운영 환경에서는 경고의 신뢰도, 즉 정밀도가 매우 중요한데, AUC-ROC는 이를 직접적으로 반영하지 못한다. 이 지점이 바로 정밀도-재현율(PR) 곡선이 필요한 이유이다.

5. 임계값 독립적 평가 (2): 정밀도-재현율(PR) 곡선과 AUC-PR

5.1 PR 곡선이 필요한 이유: ROC 곡선의 맹점 파고들기

정밀도-재현율(Precision-Recall, PR) 곡선은 ROC 곡선이 극심한 클래스 불균형 상황에서 보이는 낙관적 편향 문제를 해결하기 위한 강력한 대안이다. PR 곡선의 가장 큰 장점은 평가에서 다수 클래스인 TN(진짜 부정)을 완전히 배제하고, 오직 우리가 실제로 관심을 가지는 소수 클래스와 관련된 TP, FP, FN만을 사용하여 성능을 측정한다는 점이다.27

정밀도: $TP / (TP + FP)$
재현율: $TP / (TP + FN)$

두 지표의 수식을 보면 알 수 있듯이, 분모에 압도적인 수의 TN이 포함되지 않는다. 이로 인해 PR 곡선은 다수 클래스의 크기에 영향을 받지 않고, 소수 클래스(이상)에 대한 모델의 탐지 성능 변화를 직접적이고 민감하게 보여준다. 따라서 클래스 불균형이 심하고, Positive 클래스를 정확하게 찾아내는 것이 주된 목표인 대부분의 이상 탐지 시나리오에서 PR 곡선은 ROC 곡선보다 훨씬 더 유용하고 현실적인 성능 그림을 제공한다.19

5.2 PR 곡선의 구성과 해석: 불균형 데이터에 대한 현실적 성능 척도

PR 곡선은 ROC 곡선과 유사하게 결정 임계값을 변화시키면서, 각 임계값에서의 두 지표의 관계를 그래프로 나타낸 것이다.31

Y축: 정밀도 (Precision)
X축: 재현율 (Recall)

PR 공간에서 이상적인 모델은 (1, 1) 지점, 즉 우상단 꼭짓점에 최대한 가까운 곡선을 그린다. 이는 재현율이 1이면서(놓친 이상 없음) 정밀도가 1인(잘못된 경고 없음) 완벽한 상태를 의미한다.

여기서 ROC 곡선과의 중요한 차이점이 있다. ROC 곡선의 무작위 추측 기준선은 항상 AUC 0.5를 갖는 대각선이지만, **PR 곡선의 무작위 추측 기준선은 데이터의 양성 클래스 비율(Prevalence), 즉 P / (P + N)**과 같다.27 예를 들어, 이상 데이터가 전체의 0.1%를 차지한다면, 무작위로 예측했을 때의 정밀도는 0.1% 수준이 되므로 기준선은 y=0.001에 해당하는 수평선이 된다. 이는 데이터 불균형이 심할수록 기준선이 0에 가깝게 내려감을 의미하며, 모델이 이 낮은 기준선보다 얼마나 더 나은 성능을 보이는지를 명확하게 판단할 수 있게 해준다.

5.3 AUC-PR: 희소 클래스 탐지 성능의 핵심 지표

AUC-PR(Area Under the PR Curve)은 PR 곡선 아래의 면적을 계산한 값으로, **평균 정밀도(Average Precision, AP)**라고도 불린다. 이 지표는 모델이 다양한 재현율 수준을 달성하면서 얼마나 높은 정밀도를 일관되게 유지하는지를 종합적으로 나타낸다.31

AUC-PR은 ROC-AUC와 달리 클래스 불균형에 매우 민감하다. 앞선 예시처럼 FP의 절대적인 수가 100개에서 1,000개로 증가하면, FPR은 미미하게 변하지만 정밀도는 TP / (TP + 100)에서 TP / (TP + 1000)으로 급격히 하락한다. 이처럼 AUC-PR은 FP의 작은 변화도 성능에 큰 영향을 미치므로, 모델 성능의 미세한 차이를 훨씬 더 잘 포착해낸다. 따라서 이상 탐지 모델 간의 성능을 비교할 때 더 신뢰할 수 있는 핵심 지표로 간주된다.19

5.4 ROC-AUC와 PR-AUC의 비교 분석 및 선택 가이드라인

두 지표는 각각 다른 관점에서 모델의 성능을 측정하므로, 어느 하나가 절대적으로 우월하다고 말하기보다는 문제의 특성에 맞게 선택적으로 사용해야 한다.

일반적인 원칙: 클래스가 비교적 균형을 이루고 있거나, 정상 클래스를 올바르게 분류하는 것(TN)이 이상 클래스를 탐지하는 것(TP)만큼 중요하다면 ROC-AUC를 사용할 수 있다. 그러나 클래스 불균형이 심하고, 이상 클래스(Positive) 탐지가 주된 목표라면(대부분의 이상 탐지 시나리오), PR-AUC가 훨씬 더 정보량이 많고 적합한 지표이다.25

Table 3: AUC-ROC vs. AUC-PR 비교 분석 (Comparative Analysis of AUC-ROC vs. AUC-PR)

특성	AUC-ROC	AUC-PR (Average Precision)
축 (Axes)	Y: TPR (재현율), X: FPR	Y: 정밀도, X: 재현율
핵심 질문	“모델이 두 클래스를 얼마나 잘 구분하는가?”	“모델이 Positive 클래스를 얼마나 잘 탐지하고, 그 예측이 얼마나 정확한가?”
클래스 불균형 민감도	둔감함. TN이 분모를 지배하여 성능을 낙관적으로 평가할 수 있음.27	민감함. TN을 고려하지 않아 소수 클래스 성능 변화를 현실적으로 반영함.29
기준선 (Baseline)	항상 0.5 (무작위 추측)	양성 클래스 비율 ( $P/(P+N)$ ). 불균형이 심할수록 0에 가까워짐.27
주요 해석	모델의 전반적인 판별 능력	희소 클래스에 대한 탐지 성능
권장 사용 사례	클래스가 비교적 균형적일 때, TN의 중요성이 TP와 유사할 때	클래스가 심하게 불균형하고, Positive 클래스 탐지가 주 목표일 때 (대부분의 이상 탐지)

6. 고급 평가 기법 및 실전 고려사항

지금까지 논의된 지표들은 이상 탐지 모델 평가의 핵심을 이루지만, 실제 현장에서는 더욱 복잡한 문제들을 고려해야 한다. 성공적인 모델 배포를 위해서는 다음과 같은 고급 평가 기법과 실전 고려사항을 반드시 점검해야 한다.

6.1 시계열 데이터를 위한 평가: 점(Point) 기반을 넘어 범위(Range) 기반으로

제조 공정의 센서 데이터, 네트워크 트래픽, 주가 데이터 등 많은 실제 이상 현상은 단일 시점(point)이 아닌 특정 기간에 걸쳐 연속적으로 발생한다. 이를 **범위 기반 이상(range-based anomalies)**이라고 한다.20 예를 들어, 기계 고장의 전조 증상은 수 분에 걸쳐 점진적으로 나타나고, 분산 서비스 거부(DDoS) 공격은 특정 시간 동안 지속된다.

이러한 경우, 전통적인 점 기반(point-based) 평가지표는 문제의 본질을 제대로 반영하지 못한다. 예를 들어, 10분 길이의 실제 이상 구간 중 모델이 단 1초만 이상으로 탐지해도, 점 기반 평가에서는 이를 하나의 TP로 간주할 수 있다. 이는 명백히 불완전한 탐지임에도 불구하고 성공으로 기록되는 왜곡을 낳는다.

따라서 시계열 데이터에서는 예측된 이상 ’범위’와 실제 이상 ‘범위’ 간의 중첩(overlap) 정도를 고려하는 수정된 평가지표가 필요하다. 이는 단순히 탐지의 존재 유무(existence)를 넘어, 예측 범위가 실제 범위의 얼마나 큰 부분(size)을 얼마나 정확한 위치(position)에서 커버하는지를 복합적으로 평가하는 방식으로 확장되어야 한다.20 이를 통해 모델이 이상 현상의 전체적인 맥락을 얼마나 잘 이해하고 있는지를 보다 정확하게 평가할 수 있다.

6.2 최적의 결정 임계값(Decision Threshold) 설정 전략

AUC-ROC나 AUC-PR과 같은 임계값 독립적 지표는 여러 모델의 잠재적 성능을 비교하고 ’최적의 모델을 선택’하는 데에는 매우 유용하다. 하지만 모델을 실제 운영 환경에 배포하기 위해서는 이상 점수를 바탕으로 ‘이상’ 또는 ’정상’을 결정할 단 하나의 **‘결정 임계값’**이 반드시 설정되어야 한다.16

최적의 임계값을 찾는 과정은 순수하게 기술적인 결정이 아니라, 비즈니스 요구사항에 깊이 기반한 전략적 결정이다. 이 과정에서 PR 곡선이 매우 유용한 도구로 활용된다. 예를 들어, 비즈니스 요구사항이 “잘못된 경고(FP)의 비율을 5% 이하로 유지하면서, 가능한 한 많은 실제 이상(FN 최소화)을 탐지하고 싶다“라고 정의되었다고 가정하자. 분석가는 PR 곡선 상에서 정밀도가 95% 이상이 되는 지점들을 찾고, 그 지점들 중에서 재현율이 가장 높은 지점을 선택할 수 있다. 그 지점에 해당하는 임계값이 바로 해당 비즈니스 요구사항을 만족하는 최적의 운영 임계값이 된다.32

이처럼 최적의 임계값 설정은 FP와 FN의 비대칭적인 비용을 고려한 비용-민감 분석(cost-sensitive analysis)과 직결되며, 기술적 성능과 비즈니스 목표 사이의 균형점을 찾는 과정이다.

6.3 교차 검증(Cross-Validation)의 적용: 모델 일반화 성능 확보

모델의 성능을 평가할 때, 단일한 훈련-테스트 데이터 분할에만 의존하면 평가 결과가 특정 데이터 분할에 우연히 편향될 위험이 있다. 이를 방지하고 모델의 일반화 성능을 신뢰성 있게 측정하기 위해 교차 검증(Cross-Validation)을 사용한다.

그러나 이상 탐지 데이터의 극심한 불균형 때문에, 일반적인 K-겹(K-Fold) 교차 검증을 사용하면 심각한 문제가 발생할 수 있다. 무작위로 데이터를 K개의 폴드(fold)로 나누는 과정에서, 특정 폴드에는 소수의 이상 데이터가 단 하나도 포함되지 않을 수 있다. 이 폴드를 테스트셋으로 사용하는 경우, 모델은 이상 탐지 능력을 전혀 평가받지 못하게 된다.

이러한 문제를 해결하기 위해, 반드시 **계층적 K-겹 교차 검증(Stratified K-Fold Cross-Validation)**을 사용해야 한다.7 이 방법은 데이터를 폴드로 나눌 때, 각 폴드가 원본 데이터셋의 클래스 비율(예: 정상 99.9%, 이상 0.1%)을 그대로 유지하도록 샘플링한다. 이를 통해 모든 평가 과정에서 모델이 소수 클래스에 대해 일관되게 테스트받을 수 있으며, 이는 모델 성능 평가의 신뢰성과 일반화 능력을 보장하는 필수적인 절차이다.

6.4 최종 권고: 문제 정의에 따른 최적의 평가지표 조합

결론적으로, 이상 행동 탐지 모델 평가에 있어 ’모든 상황에 완벽한 단 하나의 지표’는 존재하지 않는다. 성공적인 평가는 문제의 특성과 비즈니스 목표를 깊이 이해하고, 여러 지표를 조합하여 다각적으로 접근하는 것을 요구한다. 실용적인 이상 탐지 모델 평가를 위한 종합적인 접근법은 다음과 같이 요약할 수 있다.

1단계: 모델 비교 및 선택: 여러 후보 모델(다양한 아키텍처, 하이퍼파라미터 조합)의 전반적인 성능을 비교하기 위해 AUC-PR을 주된 지표로 사용한다. 이를 통해 클래스 불균형 환경에서 가장 강력한 탐지 잠재력을 가진 최적의 모델을 선정한다.
2단계: 운영 지점 결정: 선정된 최상위 모델의 PR 곡선을 면밀히 분석한다. 비즈니스 요구사항(예: “재현율은 최소 90%를 보장해야 한다” 또는 “정밀도는 80% 미만으로 떨어져서는 안 된다”)과 FP/FN의 상대적 비용을 고려하여, 실제 운영 환경에 적용할 최적의 결정 임계값을 선택한다.
3단계: 최종 성능 보고: 결정된 임계값에서의 모델 성능을 최종적으로 평가하기 위해 혼동 행렬을 생성한다. 이 혼동 행렬을 기반으로 정밀도, 재현율, F1-Score 등 구체적인 운영 성능 지표를 계산하여, 기술적 지식이 없는 이해관계자들도 쉽게 이해할 수 있도록 명확하게 보고한다.

이러한 체계적이고 다단계적인 평가 접근법만이 모델의 학술적 우수성(AUC-PR)과 실용적 가치(특정 임계값에서의 정밀도/재현율)를 모두 검증하고, 성공적인 인공지능 이상 행동 탐지 시스템을 구축하는 길을 열어줄 것이다.

7. 참고 자료

이상 탐지란 무엇인가요? - AWS, https://aws.amazon.com/ko/what-is/anomaly-detection/
이상 탐지 개요 | GDSC UOS, https://gdsc-university-of-seoul.github.io/anomaly-detection/
게임, 금융, 의료…비즈니스 곳곳 ‘이상 탐지 모델’ 살펴보기 - 요즘IT, https://yozm.wishket.com/magazine/detail/1919/
이상 현상 감지란 무엇인가요? - IBM, https://www.ibm.com/kr-ko/topics/anomaly-detection
이상 탐지 1부-정상과 비정상, 그리고 이상 탐지 - NHN Cloud Meetup, https://meetup.nhncloud.com/posts/362
쉽게 정리하는 이상 탐지(Anomaly Detection) - 정의, 종류, 제조 분야에서의 활용, https://ss-doubt.tistory.com/40
Handling Imbalanced Datasets in Anomaly Detection: Best Practices - Blogs, https://blogs.infoservices.com/data-engineering-analytics/handling-imbalanced-datasets-in-anomaly-detection-best-practices/
Computational Strategies for Handling Imbalanced Data in Machine Learning, https://isi-web.org/sites/default/files/2024-02/Handling-Data-Imbalance-in-Machine-Learning.pdf
How does anomaly detection handle imbalanced class distributions? - Milvus, https://milvus.io/ai-quick-reference/how-does-anomaly-detection-handle-imbalanced-class-distributions
Anomaly Detection and LOF - 홍성학, https://aidenhong.com/presentations/anomaly-detection-lof/anomaly-detection-lof.html
[Paper Review] Deep Learning for Anomaly Detection in Time-Series Data: Review, Analysis, and Guidelines(IEEE 2021) - Sonstory, https://sonstory.tistory.com/118
11 이상치 탐지(Anomaly Detection) - 데이터 전처리 - SuanLab, http://suanlab.com/assets/lectures/dp/11.pdf
Comparative Evaluation of Anomaly Detection Methods for Fraud Detection in Online Credit Card Payments - arXiv, https://arxiv.org/html/2312.13896v1
A simple guide to building a confusion matrix - Oracle Blogs, https://blogs.oracle.com/ai-and-datascience/post/a-simple-guide-to-building-a-confusion-matrix
Confusion matrix - Wikipedia, https://en.wikipedia.org/wiki/Confusion_matrix
How To Evaluate an Anomaly Detection Model? - Monolith AI, https://www.monolithai.com/blog/how-to-evaluate-anomaly-detection-models
Classification: Accuracy, recall, precision, and related metrics | Machine Learning, https://developers.google.com/machine-learning/crash-course/classification/accuracy-precision-recall
Understanding Precision, Recall, and F1 Score Metrics | by Piyush Kashyap | Medium, https://medium.com/@piyushkashyap045/understanding-precision-recall-and-f1-score-metrics-ea219b908093
What metrics are used for anomaly detection performance? - Milvus, https://milvus.io/ai-quick-reference/what-metrics-are-used-for-anomaly-detection-performance
Precision and Recall for Time Series - NIPS, http://papers.neurips.cc/paper/7462-precision-and-recall-for-time-series.pdf
F1 Score: Balancing Precision and Recall in AI Evaluation, https://galileo.ai/blog/f1-score-ai-evaluation-precision-recall
F1 Score vs ROC AUC vs Accuracy vs PR AUC: Which Evaluation Metric Should You Choose? - Neptune.ai, https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc
AUC and the ROC Curve in Machine Learning - DataCamp, https://www.datacamp.com/tutorial/auc
How to explain the ROC curve and ROC AUC score? - Evidently AI, https://www.evidentlyai.com/classification-metrics/explain-roc-curve
Boost Your Binary Classification Game: AUC-ROC vs AUC-PR — Which One Should You Use? - AlliedOffsets, https://blog.alliedoffsets.com/boost-your-binary-classification-game-auc-roc-vs-auc-pr-which-one-should-you-use
Why ROC and AUC is needed | ROC curve analysis - YouTube, https://www.youtube.com/watch?v=V-zmQDtd25k
Precision-Recall Curve is more informative than ROC in imbalanced data, https://towardsdatascience.com/precision-recall-curve-is-more-informative-than-roc-in-imbalanced-data-4c95250242f6/
AUC ROC Curve in Machine Learning - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/auc-roc-curve/
The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC4349800/
ROC and precision-recall with imbalanced datasets, https://classeval.wordpress.com/simulation-analysis/roc-and-precision-recall-with-imbalanced-datasets/
Precision-Recall — scikit-learn 1.7.1 documentation, https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html
Anomaly Detection in Manufacturing, Part 3: Visualize the Results | Towards Data Science, https://towardsdatascience.com/anomaly-detection-in-manufacturing-part-3-visualize-the-results-a2afb5f61d2f/
Exploring the Impact of Outlier Variability on Anomaly Detection Evaluation Metrics - arXiv, https://arxiv.org/html/2409.15986v1
Classification: ROC and AUC | Machine Learning - Google for Developers, https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc
The confusion matrix for anomaly detection. Each point can have one of… - ResearchGate, https://www.researchgate.net/figure/The-confusion-matrix-for-anomaly-detection-Each-point-can-have-one-of-two-label-values_fig4_375746182