8.1.2 지식 소스 오라클의 핵심 역할: ’정답’과 ’참조’의 일치성 검증

지식 소스 기반 오라클(Knowledge-Based Oracle)은 단순한 키워드 매칭기(String Matcher)나 문법 검사기가 아니다. 이 RAG 전용 오라클의 핵심이자 유일무이한 컴퓨터 과학적 임무는, 파이프라인의 끝단에서 LLM이 최종적으로 토해낸 **‘예측된 정답(Predicted Answer)’**의 텍스트 군집이 앞단에서 벡터 DB가 제공한 ‘참조 문헌(Reference Context)’ 데이터 페이로드와 수학적으로, 그리고 의미론(Semantic)적으로 완벽하게 부분집합(Subset) 교집을 이루고 있는지를 결정론적으로 증명(Proof)하는 것이다.

이것은 1차원적인 단순 비교가 아니라, 일종의 강력한 방향성을 띠는 인과성 증명(Proof of Directionality) 프로세스 과정이다. 오라클 엔진은 이 검증망을 두 개의 서로 다른 데이터 지향 벡터(Alignment)로 분리하여 샌드위치처럼 양방향에서 압박 검증한다.

1. 정답에서 참조로의 역추적 검증 (Faithfulness / Entailment Check)

첫 번째 검증 벡터의 논리적 흐름은 최후의 산출물인 정답(Answer) -> 원본 참조(Context) 방향으로 거슬러 올라가며 전개된다.
하이브리드 오라클은 우선 타겟 모델이 유창하게 생성해 낸 정답 텍스트 블록 자체를 팩트 단위의 최소 명제(Claim) 배열(Array)로 정밀하게 파싱하여 쪼개버린다. 그런 다음, 분해된 각각의 단일 논리적 파편(예: 숫자, 날짜, 고유명사, 인과관계 명제)이 앞서 주입된 참조 문서 문자열의 어느 오프셋(Offset)에서 정확히 비롯되었는지를 역으로 스캐닝(Reverse-scanning)한다.

검증의 절대 목표: 이 역추적의 본질적 목적은 타겟 모델의 파라미터가 몰래 일으킨 외부 창작(Fabrication) 및 주관적 덧붙임을 즉결 심판(Impeach)으로 적발해 내는 데 있다.
엔지니어링 프롬프트: 오라클 메타 판사(Meta-Judge Model)에게는 다음과 같은 서늘한 시스템 프롬프트가 강제 주입된다: “이 정답 문장에 포함된 모든 데이터, 고유명사, 숫자, 그리고 그들 사이의 주술적 인과관계 트리가 오로지 당신에게 주어진 참조 문서(Context)의 문단 논리만으로 100% 모순 없이 설명(Entailed)될 수 있는가? 시스템아, 만약 단 하나의 토큰이라도 문서 외부의 지식(World Knowledge)에서 끌어온 흔적이 보인다면, 타겟 머신의 유창함에 절대 속지 말고 즉시 0점 Fail을 선언하라.”
통계적 도구: NLI(Natural Language Inference) 기반의 Entailment 스코어가 이 단계에서 광범위하게 쓰인다. 이 가혹한 검증망을 무사히 생존해야만, 우리는 비로소 그 정답이 기계의 망상이 아니라 철저히 ‘물리적 제약 문서에 근거하여(Grounded)’ 출력되었다는 QA 무결성 로그를 찍을 수 있다.

2. 참조에서 정답으로의 커버리지 압박 (Answer Relevance / Completeness)

두 번째 검증 벡터의 흐름은 반대로 참조(Context) -> 최종 정답(Answer) 방향으로 순류하며 검증을 진행한다.
기업의 고객 응대(B2C) 파이프라인에서 단순히 “모델이 거짓말을 하지 않고 문서에 있는 말만 무사히 했다“는 소극적 방어만으로는 상용 RAG 프로덕트를 절대 완성할 수 없다. 오라클은 참조 문서 덩어리 안에 유저의 질문(Query) 트랜잭션에 대답할 수 있는 핵심 정보가 명백히 문서 상에 존재함에도 불구하고, 멍청한 타겟 모델이 독해력(Recall) 부족으로 이를 무비판적으로 무시하거나 빼먹지(Omission) 않았는지를 극도로 깐깐하게 채점해야만 한다.

검증의 절대 목표: 이 순방향 검증의 목적은 타겟 모델의 순수한 정보 추출(Information Extraction) 및 요약 커버리지 능력을 압박 평가하는 데 있다.
엔지니어링 프롬프트: 오라클에게 주어지는 두 번째 검증 프롬프트는 다음과 같다: “유저의 원래 질문(Query)과 제공된 참조 문서를 비교하라. 이 문서 안에서 유저의 질문에 완벽히 대답하기 위해 시스템이 반드시 파싱하여 포함해야만 하는 핵심 키워드나 지표 숫자가 존재하는가? 만약 존재한다면, 타겟 생성 모델이 반환한 최종 정답 텍스트가 그 핵심 정보들을 단 하나도 누락 없이 전부 포함(Cover)하고 있는가?”
커버리지 에러의 예: 예를 들어, 대외비 사내 규정 문서(참조)에 “프리미엄 수수료는 3%이며 만기 유지 패널티는 2년“이라고 명확히 나란히 병렬 기재되어 있는데, 타겟 모델이 대답을 축약하다가 실수로 “해당 수수료는 3%입니다“라고 반쪽짜리 문장만 생성하고 기간 데이터를 증발(Omit)시켰다면, 오라클 심판관은 즉시 이를 ’참조 정보의 치명적 부분 유실(Partial Loss of Source Context)’로 단죄하여 파이프라인 배포 퀄리티 점수를 가차 없이 삭감(Deduct)한다.

결론적으로 지식 소스 오라클 인프라는 이 두 가지 첨예하게 대립하는 방향 물리 벡터—’문서망 밖의 가짜 지식을 함부로 지어내지 않았는가(Strict Faithfulness)’와 ‘문서망 안의 귀중한 정보를 함부로 버리지 않았는가(Information Completeness)’—를 2차원 매트릭스 텐서로 단단하게 엮어 결속시킴으로써, 미쳐 날뛰는 비결정적인 LLM의 파라미터 응답을 엔터프라이즈의 차가운 비즈니스 룰셋(Rule-set) 감방 안으로 완전히 구속시키고 자물쇠를 채우는 가장 강력하고 핵심적인 족쇄(Shackle) 역할을 수행한다.