2.6.3. 정량적 점수(Score)를 이진 판정(Pass/Fail) 오라클로 변환하는 기준

앞선 2.6.1절과 2.6.2절을 통해 우리는 모델의 ’평가 지표 점수(Metrics Score)’가 가지는 치명적인 한계와, 이것이 왜 직접적인 ’테스트 오라클(Test Oracle)’로 기능할 수 없는지를 확인했다. 하지만 엔터프라이즈 실무에서는 때때로 불가피한 딜레마에 부딪힌다. 절대적인 정답(Ground Truth)을 정의할 수 없는 특정 창의적 도메인에서는, 우리가 가진 유일한 검증 수단이 이 불완전한 확률론적 점수뿐인 경우가 존재하기 때문이다.

어쨌든 CI/CD 파이프라인의 차단기(Gate)는 실수(Float) 형태의 점수로는 문을 닫거나 열 수 없다. 파이프라인이 이해할 수 있는 언어는 오직 0(FAIL) 또는 1(PASS) 이라는 이진형(Binary) 제어 신호뿐이다. 본 절에서는 불가피하게 정량적 점수를 이진 판정 오라클로 강제 변환(Binarization)해야 할 때, 아키텍트가 어떠한 공학적 기준과 철학으로 임계치(Threshold, $\tau$ )를 설계해야 하는지 분석한다.

1. 정량적 점수와 이진 판정의 위상 수학

정량적 지표(예: 코사인 유사도, LLM-as-a-Judge의 1~10 평점)를 이분법적 오라클로 변환하는 행위는 본질적으로 $0.0$ 부터 $1.0$ 까지 무한히 이어지는 연속된 확률 공간(Continuous Distribution)을 날카로운 단두대로 절단하여 두 개의 이산 공간(Discrete Space)으로 분리하는 작업이다.

$Oracle\_Result(Score) = \begin{cases} PASS, & \text{if } Score \ge \tau \\ FAIL, & \text{if } Score < \tau \end{cases}$

이 $\tau$ (Threshold)를 어떻게 설정하느냐에 따라 시스템의 운명이 엇갈린다.

$\tau$ 가 너무 높을 때 (보수적 게이트): 모델이 만든 아주 약간의 변주나 유창한 표현도 오답으로 간주하여 FAIL을 남발한다. 위음성(False Negative)이 폭발적으로 증가하여 개발팀의 배포 속도(Velocity)가 소수점 이하로 떨어지는 이른바 ‘파이프라인 경색’ 현상이 발생한다.
$\tau$ 가 너무 낮을 때 (개방적 게이트): 약간의 환각(Hallucination)이 섞인 문장도 PASS로 통과시킨다. 개발 속도는 빠르겠지만, 위양성(False Positive)의 지뢰들이 운영계(Production) 서버에 매일같이 배포되어 치명적인 대고객 사고를 유발한다.

2. 점수-판정 변환의 3계층(3-Tier) 오라클 설계 패턴

단일 임계치 $\tau$ 하나만을 사용하여 합격과 불합격을 재단하는 것은 실무적으로 거의 불가능하다. 언어 처리의 복잡성 때문에, $\tau$ 근처에 스코어가 몰려있는 회색 지대(Gray Zone)가 반드시 존재하기 때문이다.

따라서 현대 AI 테스트 파이프라인은 점수 공간을 세 개의 구역으로 쪼개는 3-Tier 변환 패턴을 표준으로 도입한다. 이 구조는 두 개의 임계치(안전선 $\tau_{safe}$ 와 위험선 $\tau_{fatal}$ )를 사용한다.

graph LR
    Score["Metric Score \n (e.g., 0.0 ~ 1.0)"] --> Router{Binarization \n Router}
    
    Router --> |"Score >= τ_safe \n (e.g., 0.85)"| Pass((PASS \n Automate))
    Router --> |"τ_fatal <= Score < τ_safe \n (e.g., 0.60 ~ 0.84)"| Human[Manual / Human-in-the-loop \n (Needs Review)]
    Router --> |"Score < τ_fatal \n (e.g., 0.60)"| Fail((FAIL \n Blocked))
    
    style Pass fill:#efe,stroke:#3c3,stroke-width:2px;
    style Fail fill:#fdd,stroke:#d00,stroke-width:2px;
    style Human fill:#fff3e0,stroke:#f57c00,stroke-width:2px;

자동 통과 구역 ( $Score \ge \tau_{safe}$ ): 점수가 완벽하거나 극도로 높아 시스템이 안전을 $100\%$ 보장할 수 있는 구간이다. CI/CD가 사람의 개입 없이 코드를 PASS 처리하고 배포한다.
반려 구역 ( $Score < \tau_{fatal}$ ): 논리적 붕괴나 유해한 정보가 감지되어 점수가 처참하게 낮은 구간이다. 즉각적인 FAIL 처리를 통해 빌드를 부수고, 개발자에게 에러 로그를 날린다.
인간 개입 회색 지대 ( $\tau_{fatal} \le Score < \tau_{safe}$ ): 기계가 확신을 갖지 못하는, 즉 이진 판정이 통계적으로 불가한 영역이다. 모델 교체, 프롬프트의 복잡성 리팩터링, 또는 인간 평가자(Human Evaluator)의 수동 판별로 티켓(Ticket)을 이관하여 판정을 유예한다.

3. 소결: 남겨진 불확실성과 인간 평가의 대두

지표 스코어를 이진 판정 오라클로 변환하는 행위는 완벽한 무결성을 달성하기 위한 과학적인 해답이 아니라, 공학자들의 눈물겨운 ’손실 감수(Loss-accetping) 타협안’이다. 특히 3계층 모델의 회색 지대(Gray Zone)는 오라클 자동화라는 궁극적 목표를 가로막는 가장 거대한 병목(Bottleneck)이다.

결국 기계가 계산한 점수(Score)가 믿을 만한 임계치를 형성하기 위해서는, 기준선 세팅 작업의 초기 단계에서 필연적으로 ’인간 품질 검수자(Human QA)’의 직관적인 이진 판정(좋다/나쁘다)을 보정 척도로 삼을 수밖에 없다.
이어지는 **2.6.4절(인간 평가와 자동화된 오라클 간의 상관관계 분석)**에서는 자동화된 오라클이 인간 평가자의 결정론적 판정을 얼마나 충실히 흉내 내고 있는지 측정하는 방법과, 두 집단 간의 합의율(Agreement Rate)을 도출하는 공학적 전략을 살펴본다.