8.1.5 결정론적 RAG 오라클 구축을 위한 3대 요소: 관련성(Relevance), 충실성(Faithfulness), 정확성(Accuracy)

RAG 파이프라인의 통제 불가능한 비결정성을 결정론적 인프라로 찍어 누르기 위한 지식 기반 오라클(Knowledge-Based Oracle)은, 과거의 단위 테스트처럼 단일 차원의 Boolean 상태([True, False])나 1차원적인 통합 점수(예: 80점) 하나만으로는 거대 언어 모델 시스템의 건강 상태를 결코 세밀하게 진단할 수 없다.

최신의 오라클 평가 모델 아키텍처는 반드시 다음의 3가지 상호 독립적이고 직교하는(Orthogonal) 평가 차원(Triad)으로 철저히 분해(Decomposition)되어 메타 프롬프트에 설계되어야만 한다. MLOps 엔지니어링 업계에서는 이를 일컬어 **RAG 트라이어드(RAG Triad)**라고 부르며, 이 3대 지표 엔진이 각자에 설정된 엄격한 컷오프 임계치(Threshold, 예: 0.95)를 모두 통과해야만 비로소 해당 프롬프트 트랜잭션은 ’결정론적 무결성’을 임시로 확보했다고 간주되어 릴리즈(Release)된다.

1. 관련성 (Relevance): “사건의 궤도와 질문의 교집합”

관련성(Relevance) 지표는 파이프라인의 앞부분인 검색 단계(Retrieval)와 뒷부분인 생성 단계(Generation) 양쪽 모두에 걸쳐 쌍방향(Bi-directional)으로 채점되어야 하는 시스템의 근본적인 방향키(Steering Wheel)다. 아무리 그것이 지구 상의 완벽한 진리와 사실(Fact)이라 할지라도 시스템이 묻지 않은 것에 대답한다면, 그것은 서버의 API 토큰을 낭비하는 악질적인 TMI(Too Much Information) 노이즈이며 구조적 낭비다.

Context Relevance (문맥 밀접도): 멍청한 Vector DB 쿼리 엔진이 가져온 사내 문서(Context) 덩어리가 유저의 원래 질문(Query)이 요구하는 정보를 잡음 없이 온전히 품고 있는가?
Answer Relevance (최종 정답의 궤도 일치율): 거대 언어 모델이 마침내 토해낸 생성 답변(Answer)의 논리가 처음 질문(Query)의 의도에 완벽하게 1:1로 대응(Mapping)하는가? 유저가 원인인 ’왜(Why)’를 명확히 물었는데, 봇이 길게 프로세스인 ’어떻게(How)’를 장황하게 대답한다면 관련성 오라클 심판관은 무자비하게 0점 Fail 플래그를 던진다.

2. 충실성 (Faithfulness / Groundedness): “감옥과도 같은 문서를 벗어나지 않았는가”

충실성(Faithfulness)은 이 거대한 RAG 파이프라인이 기획된 철학적 존재 이유이자, 환각(Hallucination)의 모가지를 비트는 가장 치명적이고 중요한 보안 족쇄(Shackle)다. 이 지표는 타겟 모델이 대답을 파싱하여 구성할 때, 자신의 뇌(가중치 파라미터)가 태생적으로 지닌 글로벌 상식이나 외부 지식을 완전히 차단(Amnesia)하고, 오로지 방금 전 시스템이 억지로 옭아매어 주입한 ’문맥 지식(Context Knowledge)’의 좁은 문서 범위 내에서만 정보를 합법적으로 연역(Deduced)해 냈는지를 지독하게 검증한다.

판별 기준의 깊이: 이 오라클은 단순한 명사 단답형 추출이 아니라 복잡한 인과관계(Causality)의 교묘한 왜곡과 논리적 이탈까지 모니터링한다. 예를 들어 주입된 기술 문서에 분명히 “클라우드 A버튼을 누른 후, 3초 뒤에 B버튼을 눌러야 서버가 가동된다“라고 되어 있는데, 모델이 멋대로 요약 과정에서 “먼저 A버튼과 B버튼을 동시에 즉시 누르세요“라고 문장을 압축해 버렸다면? 키워드는 모두 포함하고 있으나 물리적 결합의 인과 순서를 철저히 교란한 이 텍스트는 매우 치명적인 ‘기능적 충실성(Functional Faithfulness)’ 위반으로 즉각 탄핵당한다.

3. 정확성 (Accuracy / Correctness): “인간이 세팅한 골든 데이터와의 수학적 일치”

앞선 관련성과 충실성이 시스템이 작동하는 ’사고 과정과 로직의 합리성’을 묻는 거시적 정성 지표였다면, 마지막 정확성(Accuracy) 지표는 사전에 QA 시스템 설계자나 도메인 인간 전문가가 단단하게 하드코딩해둔 골든 데이터셋(Golden Dataset) 정답지와의 절대적 일치 여부를 채점하는 가장 살벌하고 결정론적인 최종 지표다.

의미론적 일치성(Semantic Equivalence): 문법적 구조나 텍스트 토큰이 다르더라도(예: 타겟 결과물 “비용 곡선이 가파르게 상승합니다” vs 골든 정답지 “예산 소모가 큽니다”) 오라클 모델은 인간 문해력에 기반하여 그 핵심 의미가 황금 정답지가 의도한 방향 벡터와 동일한지 평가 채점한다.
결정론적 데이터 핀셋 검증: 텍스트가 아닌 수치나 엔터티 단위에서 만약 상용 RAG 봇이 “해당 고객 연체 계좌의 잔액은 15,300원입니다“라고 대답을 생성했다면, 오라클 시스템은 여기서 멈추지 않고 즉시 데이터베이스의 런타임 백엔드 API를 찔러(Query) DB 스냅샷을 뜬 뒤, 그 생성된 텍스트 수치가 수학적인 Integer 15300의 값(Value)과 정확히 오류 없이 동일한 화폐 단위(Unit)로 출력되었는가를 결정론적 파이썬(Python) Assert 코드로 물고 뜯어 영점 비교 단위로 검증해 낸다.

이 거만하고 견고한 세 가지 기둥(Relevance, Faithfulness, Accuracy) 중 단 하나라도 시스템이 정한 요구사항 통과 역치(예: 0.90 Threshold)를 통과하지 못하는 타겟 응답은 에러 블록으로 분류되어 절대 고객의 프론트엔드 화면에 렌더링되지 못하게 방화벽(Firewall) 단에서 영구 차단하는 것, 그것이 올바른 무결점 RAG MLOps 라우팅 시스템의 무자비한 교과서적 설계다.