3.4 정답지의 유형별 분류와 구축 전략

인공지능 모델이 생성하는 결과물의 스펙트럼은 단순한 참/거짓 판별에서부터 복잡한 서술형 창작에 이르기까지 매우 방대하다. 따라서 모든 AI 소프트웨어 검증에 단일한 형태의 오라클(Oracle)을 적용하려는 시도는 필연적으로 실패한다.

결정론적 정답지(Deterministic Ground Truth)는 모델이 수행하는 태스크(Task)의 본질과 검증의 목적에 따라 그 구조와 평가 방식이 완전히 달라져야 한다. 오라클 아키텍트는 비결정성(Nondeterminism)을 효과적으로 통제하기 위해, 시스템이 다루는 데이터의 성격을 정확히 파악하고 이에 맞는 정답지 유형을 취사선택해야 한다. 본 절에서는 AI 기반 개발 환경에서 주로 활용되는 결정론적 정답지의 4가지 주요 유형과 각각의 구축 전략을 분류한다.

1. 사실 기반 정답지 (Fact-based Ground Truth)

가장 직관적이고 널리 쓰이는 정답지 형태로, “A 상품의 가격은 얼마인가?“와 같이 명확하고 고정된 단일 사실(Fact)을 검증할 때 사용된다.

목적: RAG(Retrieval-Augmented Generation) 시스템이나 질의응답(QA) 봇에서 환각(Hallucination)을 억제하고, 문서에 명시된 핵심 엔티티(Entity)—예: 날짜, 금액, 고유 명사—의 추출 정확도를 평가한다.
구축 전략: 오라클은 자유로운 텍스트 생성을 허용하되, 생성된 텍스트 내에 정답지에 기재된 **‘필수 문자열(Substring)의 존재 여부’**만을 기계적인 정규표현식(Regex)으로 탐색한다. 유지보수를 위해, 사실이 변동될 때마다 정답지 자체를 하드코딩하기보다는 내부 데이터베이스 식별자(ID)와 매핑하는 동적 참조 방식을 취해야 한다.

2. 로직/연산 기반 정답지 (Logic/Calculation-based Ground Truth)

단순한 발췌를 넘어, AI가 복수의 데이터를 조합하여 새로운 값을 추론하거나 사칙연산을 수행해야 하는 도메인(예: 대출 이자 계산, 견적서 산출)에서 활용된다.

목적: AI의 언어적 생성 능력이 수학적 규칙(Mathematical Rule)을 위반했는지 단일한 숫자로 검증한다.
구축 전략: 이 정답지는 고정된 텍스트가 아니라, ’입력 파라미터’와 ‘기대되는 반환 값’ 쌍으로 구성된다. 입력값을 사내 비즈니스 규칙 엔진(BRE, Business Rule Engine) API에 주입하여 도출된 결정론적 결과를 골든 레코드(Golden Record)로 삼고, AI가 출력한 결과 숫자가 이 골든 레코드와 소수점 단위까지 일치(Exact Match)하는지 $O(1)$ 로 평가한다.

3. 구조 기반 정답지 (Structure-based Ground Truth)

백엔드 시스템이 AI의 출력을 파싱(Parsing)하여 후속 파이프라인의 입력값으로 사용해야 할 때 강제되는 정답지다. 텍스트의 ’내용’보다 데이터의 ’형태(Shape)’와 ‘타입(Type)’ 무결성에 집중한다.

목적: 시스템 크래시(Crash)를 유발하는 치명적인 타입 에러나 필수 키(Key) 누락을 사전에 방어한다.
구축 전략: 정답지는 JSON Schema, Pydantic, Zod와 같은 구조적 계약(Data Contract) 형태로 설계된다. 오라클은 AI가 생성한 JSON 객체를 받아들여, 이 구조적 계약에 명시된 필수 속성(Required Fields)이나 열거형(Enum) 도메인을 단 하나라도 위반했는지 엄격히 런타임 검증을 수행한다.

4. 의미론적 유사성 기반의 준(準)결정론적 정답지

텍스트 요약(Summarization), 번역, 혹은 코드 리뷰와 같이 단 하나의 정답을 규정하기 어려운 주관적 태스크에서 제한적으로 사용되는 하이브리드(Hybrid) 접근법이다.

목적: 창의성이 요구되는 영역에서 극단적인 이분법(Pass/Fail)의 한계를 극복하고, 의미의 훼손 여부를 부분 점수(Partial Credit)로 평가한다.
구축 전략: 정답지에는 완벽한 예시 모범 답안(Reference)이 존재하며, 평가 과정에서 코사인 유사도(Cosine Similarity)나 앙상블 모델(LLM-as-a-Judge)을 가동한다. 단, 이 유사성 점수가 결정론적 오라클로 기능하기 위해서는 최종 판정 단계에서 사전에 정의된 ’임계값(Deterministic Threshold, 예: 0.85 이상이면 Pass)’을 둠으로써 연속된 점수를 이산된 통과/실패로 기계 처리하는 변환 과정이 필수적이다.

이러한 정답지 유형의 정확한 분류와 배치는 오라클 설계의 나침반이 된다. 개발팀은 각 테스트 시나리오에 맞는 적합한 정답지 구조를 채택함으로써, 불필요한 테스트 취성(Test Brittleness)을 줄이고 시스템의 신뢰도를 극대화할 수 있다.