3.4.1 사실 기반 정답지 (Fact-based Ground Truth)

인공지능 소프트웨어 검증의 가장 근원적인 출발점은 “AI가 세계의 사실(Fact)을 왜곡하지 않고 정확하게 반영하는가?“를 확인하는 것이다. ’사실 기반 정답지(Fact-based Ground Truth)’는 모호함이 개입할 여지가 없는 절대적인 참(True)의 명제들을 데이터화한 것으로, 모델의 환각(Hallucination) 현상을 기계적으로 억제하는 가장 기초적이고 강력한 오라클(Oracle) 유형이다.

1. 사실 기반 정답지의 본질적 특성

사실 기반 정답지는 “서울의 인구수는 얼마인가?“나 “특정 제품의 출시일은 언제인가?“와 같이, 도메인 내에서 논쟁의 여지 없이 고정된 스칼라(Scalar) 값이나 불변의 명제를 스키마로 정의한다.

이 정답지의 핵심은 자연어의 유창성(Fluency)이나 논리 전개 방식(Reasoning)을 평가하는 데 있지 않다. 오라클의 유일한 목적은 AI가 출력한 장문의 텍스트 더미 속에서, 정답지에 등록된 **‘핵심 엔티티(Factual Entity)’**가 오류 없이 존재(Existence)하는가를 $O(1)$ 의 결정론적 속도로 단언(Assert)하는 것이다.

예시 기반 구조:
Query: “2023년 Q3 회사의 총매출액은 얼마인가?”
Expected_Fact: “450억 원” (정답지)
Validation Rule: 생성된 텍스트 내에 정확한 숫자와 단위(“450”, “억”, “원”)의 부분 문자열(Substring) 매칭이 성립해야만 Pass.

2. 추출 무결성: 정밀도(Precision)와 재현율(Recall)의 통제

사실 기반 정답지를 운용할 때 오라클 아키텍트가 직면하는 가장 큰 공학적 난제는, 환각을 잡아내기 위한 엄격한 통제가 자칫 정상적인 변형까지 오답으로 처리하는 테스트 취성(Test Brittleness)을 유발한다는 점이다. 이를 해결하기 위해 정답지는 두 가지 축으로 세분화되어야 한다.

절대 일치(Exact Match / High Precision):
금액, 날짜, 고유 명사 등 단 1바이트의 오차도 허용되어서는 안 되는 크리티컬 데이터다. 정답지는 정규표현식(Regex)이나 타입 캐스팅(Type Casting) 규칙을 명시하여, AI가 “450억“을 “450 억원“으로 출력하더라도 기계 가독성(Machine-Readability)을 통해 동일한 사실로 간주하도록 엔진을 보정해야 한다.
부분 집합 포함(Subset Inclusion / High Recall):
문서 내에서 관련된 여러 사실을 모두 추출하는 경우다. 정답지가 ["기능 A", "기능 B", "기능 C"]라는 배열을 가지고 있다면, 오라클 검증 로직은 AI의 응답이 이 중 몇 퍼센트를 회수(Recall)했는지, 반대로 스키마에 없는 엉뚱한 정보(“기능 D”)를 허위로 삽입(Over-generation)하지는 않았는지 집합 단위의 교집합 검증을 수행해야 한다.

3. 사실의 휘발성과 유지보수의 딜레마

사실 기반 정답지가 가진 가장 치명적인 기술 부채(Technical Debt)는 ’사실의 수명(Lifespan)’에서 비롯된다. 오늘 참(True)이었던 데이터(예: 회사의 현재 대표이사 이름)가 내일은 거짓(False)이 될 수 있기 때문이다.

따라서 사실 기반 정답지를 구축할 때는 값을 정답지 파일에 단순 문자열(Hard-coded String)로 박아 넣는 행위를 극도로 경계해야 한다. 대신, 이 정답지들은 사내 데이터베이스나 마스터 데이터 관리(MDM) 시스템의 특정 레코드 포인터를 역참조(Dereference)하는 동적 식별자(Dynamic Identifier) 구조를 가져야 한다.

결론적으로, 훌륭한 사실 기반 오라클은 거대 언어 모델(LLM)의 화려한 달변 속에서 ’불변하는 정보의 뼈대’만을 X-ray처럼 투시해 내는 가장 차갑고 엄격한 기계적 잣대가 되어야 한다.