2.11.1 예측 및 분류 모델(Predictive)에서의 정답(T/F) 도출과 명확한 혼동 행렬(Confusion Matrix)
전통적인 머신러닝(Machine Learning) 프로세스의 근간을 이루는 예측형(Predictive) 및 분류(Classification) 모델은 그 수학적 구조부터 테스트의 용이성을 내포하고 있다. 이러한 모델은 본질적으로 다차원 공간에 존재하는 입력 데이터(Features)를 수학적 경계(Decision Boundary)를 통해 사전에 완벽히 구획된 유한한 출력 공간(Finite Output Space)으로 매핑(Mapping)하는 함수이다.
이러한 특성으로 인해 예측형 시스템의 검증 과정은 명확한 정답지(Ground Truth)의 도출과 절대적인 성능 지표(Absolute Metrics)의 산출이라는 두 가지 견고한 축을 기반으로 한다.
1. 단일 진실 공급원(Single Source of Truth)으로서의 라벨(Label)
분류 모델의 테스트 케이스를 설계할 때, 소프트웨어 엔지니어나 데이터 과학자는 ’불확실성’과 타협할 필요가 없다.
예를 들어 환자의 엑스레이 이미지를 보고 암의 양성 표지자를 찾아내는 이진 분류(Binary Classification) 모델을 가정해 보자. 테스트 데이터셋을 구성하는 특정 이미지 한 장에 대한 정답은 전문의에 의해 ‘암(True)’ 또는 ’정상(False)’으로 명확하게 라벨링(Labeling)된다. 이 라벨은 테스트 기간 내내 불변하는 ’단일 진실 공급원(Single Source of Truth)’으로 기능한다.
테스트 오라클(Test Oracle) 구조는 극도로 단순하다. 시스템의 예측값(Predicted Value)을 \hat{y}, 전문가가 작성한 실제 정답(Actual Value)을 y라 할 때, 오라클의 판별 로직은 다음 수식과 같이 동치(Equality) 연산 하나로 수렴한다.
Oracle(\hat{y}, y) = (\hat{y} == y)
이 단계에서는 모델이 왜 그런 판정을 내렸는지(Explainability) 혹은 판정 결과의 어조(Tone)가 어떠한지는 검증 대상이 아니다. 중요한 것은 오직 사전에 정의된 유한한 클래스 집합 내에서 올바른 인덱스(Index)를 지목했는가 뿐이다.
환각이 배제된 명확한 평가: 혼동 행렬(Confusion Matrix)
정답이 참(True)과 거짓(False)으로 명확히 나뉘는 시스템에서는 결과의 모호성이 발생할 여지가 없다. 수백만 건의 테스트 케이스를 실행하더라도, 그 결과는 다음과 같은 4가지 이산적인(Discrete) 상태로 완벽하게 분류된다. 이것이 바로 모델 평가의 근간인 **혼동 행렬(Confusion Matrix)**이다.
- 진양성 (True Positive, TP): 실제 정답이 참이고, 예측도 참인 경우.
- 진음성 (True Negative, TN): 실제 정답이 거짓이고, 예측도 거짓인 경우.
- 위양성 (False Positive, FP): 실제 정답은 거짓인데, 참으로 잘못 예측한 경우 (1종 오류).
- 위음성 (False Negative, FN): 실제 정답은 참인데, 거짓으로 잘못 예측한 경우 (2종 오류).
혼동 행렬의 존재는 QA(Quality Assurance) 팀에게 강력한 무기를 제공한다. 인간 주관이 개입하지 않는 기계적인 집계만으로, 모델의 성능을 비즈니스 목표에 맞게 다각도로 정량화할 수 있기 때문이다.
비즈니스 요구에 따라 스팸 처리처럼 정상 메일을 스팸으로 분류하는 사고(False Positive)를 최소화해야 한다면 정밀도(Precision, \frac{TP}{TP + FP})를 핵심 지표로 삼는다. 반면 암 진단처럼 병을 놓치는 사고(False Negative)를 절대적으로 막아야 한다면 재현율(Recall, \frac{TP}{TP + FN})을 극대화하도록 모델을 조정한다.
| 실제(Actual) \ 예측(Predicted) | Positive (예측) | Negative (예측) |
|---|---|---|
| Positive (실제) | True Positive (TP) | False Negative (FN) |
| Negative (실제) | False Positive (FP) | True Negative (TN) |
예측형 오라클의 결론: 계산 가능한 신뢰성
예측 및 분류 모델에서의 테스팅은 **“닫힌 세계(Closed-World)에서의 객관적 채점”**으로 요약된다. 테스터는 모델이 학습 범위 밖의 새로운 문맥을 창조할 것을 걱정할 필요가 없으며, 단지 테스트 셋(Test Set)의 데이터 분포(Distribution)가 운영 환경(Production)의 분포를 잘 대변하는지만 고민하면 된다.
이 모델 체계 내에서 오라클 문제는 사실상 ‘수학적 연산’ 문제로 격하된다. 정답지는 고정되어 있고, 출력 공간은 유한하며, 평가는 혼동 행렬을 통해 기계적으로 도출된다.
그러나 다음 절에서 살펴볼 생성형(Generative) 모델의 세계에서는 이토록 명확했던 정답지와 혼동 행렬의 개념이 무너지며, 테스트 엔지니어링은 완전히 새로운 도전 과제에 직면하게 된다.