2.7. 결정론적 정답지(Deterministic Ground Truth)의 역할과 중요성
2.6절까지 우리는 거대 언어 모델(LLM)이 뿜어내는 수많은 확률적 점수(Metrics)와, 이를 억지로 이진 게이트로 변환하려는 노력들의 치명적 모순을 살펴보았다. 지표는 쉽게 해킹 당하며, 모델의 통계망은 교묘한 환각(Hallucination)을 놓치기 일쑤다. 이 비결정성(Nondeterminism)의 늪에서 시스템 아키텍트가 최종적으로 도달하는 결론은 단 하나다.
“기계가 내놓은 답을 기계의 확률 지표로 검증하는 순환 오류를 깨버리려면, 결국 시스템 외부 어딘가에 절대 변하지 않는 확고한 진실을 박아두어야 한다.”
이 변하지 않는 진실의 닻(Anchor)을 소프트웨어 엔지니어링에서는 **결정론적 정답지(Deterministic Ground Truth)**라 부른다. 본 절에서는 이 정답지가 AI 시스템 테스트 파이프라인에서 왜 피할 수 없는 궁극적 종착역인지, 그리고 그 역할의 파괴적인 중요성에 대해 해부한다.
1. Ground Truth (정답지)의 정의: 타협 불가한 도메인의 진리
전통적 머신러닝에서 Ground Truth(GT)란 ‘학습에 정답으로 쓰일 라벨(Label)’ 정도의 가벼운 의미였다면, 엔터프라이즈 AI-Driven 시스템에서의 Ground Truth는 **비즈니스 도메인 내에서 절대 타협하거나 양보할 수 없는, 인간 전문가가 고증한 최후의 법칙(Ultimate Rule)**을 의미한다.
- 절대적 무결성: 모델의 컨텍스트(Context)나 프롬프트가 어떻게 바뀌더라도, 이 정답지 내부의 사실관계는 변하지 않는다.
- 불변의 척도(Invariant): 복잡한 수학적 임베딩이나 확률 분포 없이, 문자열 그 자체, 혹은 이진의 논리 그 자체로 참(True)과 거짓(False)을 재단할 수 있는 잣대가 된다.
- 예시: “회원가입 비밀번호는 8자리 이상이어야 한다.”(정책적 정답지), “2024년 2분기 회사의 순이익은 $14.2M 이다.”(팩트형 정답지).
2. 확률의 소용돌이를 잠재우는 결정론의 닻(Anchor)
LLM의 출력 결과는 온도(Temperature), Top-P 파라미터 조작, 심지어 동일한 입력일지라도 내부의 난수 시드(Seed)에 따라 매번 형태가 기형적으로 달라진다. 이러한 ‘확률적 생성’ 파이프라인 위에 또다시 ’확률적 평가 모델(Judge Model)’을 올려 검증한다고 가정해 보라. 불확실성(Uncertainty)이 곱연산으로 폭발하여, 테스트가 통과(PASS)되었는지 실패(FAIL)했는지 조차 확률론적 미신에 기대야 하는 참사가 벌어진다.
결정론적 정답지는 이러한 무한 궤도를 강제로 중단시킨다.
graph TD
Prompt[User Prompt] --> LLM((LLM \n Nondeterministic Engine))
LLM --> Out1[Output A]
LLM --> Out2[Output B]
LLM --> Out3[Output C]
Out1 --> Oracle{Test Oracle}
Out2 --> Oracle
Out3 --> Oracle
GT[("Deterministic Ground Truth \n (Hardcoded Facts, Rules, Schema)")] --> |Inject Absolute Truth| Oracle
Oracle --> |Output A == GT| Pass1((PASS))
Oracle --> |Output B != GT| Fail1((FAIL))
Oracle --> |Output C != GT| Fail2((FAIL))
style GT fill:#1565c0,stroke:#0d47a1,stroke-width:3px,color:#fff;
style Oracle fill:#fff3e0,stroke:#e65100,stroke-width:2px;
위 아키텍처에서 보이듯, 아무리 수백 가지의 다른 대답 문장(Outputs)이 생성되더라도, 핵심 변수 값이나 로직이 중앙의 Ground Truth 데이터베이스와 충돌한다면 오라클은 무조건적이고 가차 없는 FAIL을 선언할 수 있다. 이는 복잡한 벡터 연산이나 딥러닝 없이 가장 원시적이면서도 가장 강력한 공학적 보증(Guarantee)을 실현한다.
3. 회귀 방지(Regression Prevention)의 궁극적 무기
AI 앱이 가장 많이 무너지는 시점은 프롬프트를 약간 수정했을 때, 혹은 백엔드의 기반 LLM 모델(예: GPT-4에서 GPT-4-turbo로)을 교체했을 때 발생하는 기능 회귀(Regression) 현상이다. 어제는 잘 대답하던 모델이 오늘은 치명적인 오답을 낸다.
이 회귀의 감지 능력을 유지하는 유일한 방앗간이 바로 미리 쌓아둔 결정론적 정답지 세트다.
어떠한 시스템 변경이 가해지더라도, 1,000개의 프롬프트를 쏘고 그 답이 1,000개의 하드코딩된 정답지와 일치하는지 O(1)의 속도로 즉각 스캔한다. 결과가 단 하나라도 깨진다면 배포를 블록(Block) 시켜 버리면 끝이다. 이로써 AI 시스템은 비로소 “테스트 가능성(Testability)“을 획득하게 된다.
4. 소결: 정답지는 비용의 응축이자 품질의 결정체
단언컨대, AI 시대의 소프트웨어 품질 보증(QA)은 ’누가 더 똑똑한 평가용 모델을 가지고 있는가’가 아니라, ’누가 더 방대하고 치밀한 결정론적 정답지(Ground Truth) 자산을 보유하고 있는가’의 싸움으로 귀결된다. 프롬프트는 1초 만에 바꿀 수 있고 모델 인프라는 API 주소만 바꾸면 그만이지만, 10만 줄의 완벽하게 레이블링 된 정답지 자산은 오직 거대한 시간과 비용의 투입으로만 구축할 수 있는 진입 장벽이기 때문이다.
이어지는 다가올 절들에서는 이 ’정답지’라는 개념을 데이터 엔지니어링 관점에서 3단계 계급(Tier)으로 분절해 본다. 2.7.1절에서는 결점 없는 완벽함의 상징인 **골든 데이터셋(Golden Dataset)**의 구조를 분석하고, 2.7.2절에서는 비용과 품질의 현실적 타협안인 **실버 데이터셋(Silver Dataset)**의 운용 전략을 차례로 해부할 것이다.