10.4.4 참조 지식(Reference Context) 스냅샷 포함: RAG 시스템의 검색 결과 고정(Freezing)

최신 엔터프라이즈 AI 아키텍처의 주류인 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템 파이프라인을 테스트하고 검증(Validation)할 때, QA 엔지니어들과 플랫폼 개발자들이 가장 빈번하고 억울하게 겪는 악몽(Nightmare)은 모델(LLM) 측의 컴포넌트나 프롬프트 로직에는 단 1바이트의 변경도 없었음에도 불구하고, 매일 돌아가는 야간 회귀 테스트(Nightly Regression Test) 스위트가 갑작스럽게 무더기로 붉은색 실패(Fail) 알람을 쏟아내는 기이한 현상이다.

실패의 근간 원인(Root Cause)을 며칠간 추적하고 분석해 보면 십중팔구, 언어 모델의 추론 능력이 퇴화한 것이 아니다. 기업 인트라넷의 지식 베이스(Knowledge Base, Vector DB) 문서 인덱스가 새로운 배치 जॉब(Batch Job)으로 업데이트되면서, **‘어제 테스트에서는 코사인 유사도(Cosine Similarity) 1위로 검색되어 LLM에게 공급되던 핵심 정답 문서’**가 ‘오늘은 알 수 없는 알고리즘 변경이나 신규 문서 추가로 인해 검색 랭킹 3위 밖으로 밀려나’ 버렸기 때문이다. 그 결과, 언어 모델은 애초에 오염되거나 엉뚱한(Irrelevant) 컨텍스트 문서를 손에 쥐게 되었고, 당연히 쓰레기 데이터를 조합하여 오답을 내뱉었던(Garbage In, Garbage Out) 것이다.

이러한 **‘외부 인프라 환경 의존성(External Environment Dependency)으로 인해 발생하는 치명적인 비결정성(Nondeterminism)’**을 영구적으로 차단하기 위해, RAG 시스템만을 위해 특수하게 설계된 골든 데이터셋(Golden Dataset) 아키텍처는 반드시 최초 정답을 성공적으로 생성하고 승인받던 그 과거 시점의 무결한 외부 세계 상태, 즉 ‘참조 지식의 정확한 텍스트 스냅샷(Reference Context Text Snapshot)’ 자체를 통째로 데이터셋 JSON 안에 얼음처럼 결빙시켜 박제(Freezing)해 두어야만 한다.

1. 검색 문서의 문자열(String Payload) 실물 복제본 원격 메타데이터화

정교한 RAG 평가용 골든 데이터 무결성 스키마는 단순히 “이 질문에는 문서 DB의 ID 53번(doc_id: 53) 문서를 참고하여 대답할 것“이라고 얕은 URI 링크 포인트만 던져줘서는 절대 안 된다. 프로덕션 마스터 DB(Master DB)에 존재하는 53번 문서의 실시간 텍스트 내용은 해당 부서의 실무 담당자에 의해 오늘 오후에라도 당장 내용이 통째로 수정되거나 삭제될 수 있기 때문이다.

따라서 골든 데이터 메타데이터는 포인터가 아니라, 해당 문서가 검색기를 통과했을 당시의 **‘청크 내용 자체(Raw Text Chunk)’**를 통째로 자기 몸체 스키마(Schema) 안에 깊숙이 복사(Deep Copy)하여 불변의 상태로 영구 저장해 두어야 한다.

// RAG 도메인 특화 골든 데이터셋의 강건한 스키마 설계 예시
{
  "test_case_id": "RAG-DOC-022-HR",
  "test_scenario": "유급 휴가 정책 질의에 대한 근거 기반 답변 능력 검증",
  "input_payload": {
    "user_query": "올해 여름 유급 휴가(PTO) 신청 절차와 사전 허가 기한이 정확히 어떻게 되나요?"
  },
  // 통제선 1: 모델 평가 시 벡터 DB 검색기를 거치지 않고 직접 주입할 '결빙된(Frozen)' 참조 지식 스냅샷
  "frozen_reference_context_snapshot": [
    {
      "origin_doc_id": "HR-POLICY-V2.1-SEC4",
      "retrieved_raw_content": "유급 휴가(PTO) 신청은 최소 영업일 기준 3일 전에 사내 ERP 인사 포털의 '근태 관리 탭'에서 직속 부서장의 사전 전자 승인을 반드시 받아야 처리됩니다...",
      "historical_relevance_score": 0.925
    }
  ],
  "expected_deterministic_output": {
    "evaluation_criteria_metrics": {
      // 통제선 2: 생성된 답변 텍스트 내에 반드시 포함(Include)되어야 할 필수 키워드 단언(Assertion)
      "must_include_keywords": ["사내 ERP", "부서장", "사전 전자 승인", "3일 전", "영업일 기준"]
    }
  }
}

2. RAG 파이프라인의 분절적 격리(Decoupling) 테스트를 위한 ‘Mocking(모킹)’ 인프라 구축

복잡한 외부 문서 데이터 텍스트를 위와 같이 시계열 스냅샷(Time-series Snapshot) 형태로 결빙하여 데이터셋 레코드 안에 단단히 구워 넣으면(Baking), 비로소 데브옵스(DevOps) 엔지니어에게는 RAG 시스템이라는 이 거대하고 복잡한 파이프라인을 ‘검색기(Retriever)’ 계층과 ‘생성기(Generator/LLM)’ 계층으로 날카롭게 쪼개어 독립적으로 격리(Decoupling) 테스트할 수 있는 극도로 강력한 통제 및 진단 무기가 쥐어진다.

지능화된 회귀 테스트 러너(Regression Test Runner) 봇은 테스트 실행 시, 오작동 우려가 있는 사내의 무거운 벡터 DB 검색기 인프라 접속을 아예 완전히 차단해 버리고 꺼버린다(Bypass / Mocking). 대신, 골든 데이터셋 스키마 안에 하드코딩(Hard-coding)된 무결한 frozen_reference_context_snapshot.retrieved_raw_content의 문자열(String)을 추출하여, 이를 생성기(Generator, LLM)의 프롬프트 컨텍스트(Prompt Context Window) 창 인풋으로 직접 무자비하게 꽂아 넣고(Dependency Injection) 생성을 강제 트리거한다.

만약 완벽한 정답 문서 텍스트를 모델의 손에 쥐여주고 이렇게 강제로 주입 테스트했는데도 도출 결과가 처참한 Fail(실패) 판정이 난다면, 그것은 100% LLM 코어 모델 자체의 독해 추론 능력(Comprehension/Reasoning)이나 프롬프트 구조가 최근 업데이트 과정에서 심각하게 퇴화(Regression)했기 때문임이 완벽하게 과학적으로 논증된다.

즉, RAG 파이프라인의 성능 하락 원인이 “벡터 DB 문서 검색기 로직의 랭킹 성능 저하 탓“인지, 아니면 “텍스트 생성기의 언어 환각(Hallucination) 탓“인지를 명확하게 메스처럼 격리(Isolation)해 내어 책임 소재를 묻는 이 절대적인 결정론적 물리 통제력은, 오직 평가를 수행하는 메타데이터 환경에 정답의 원천이 되는 참조 지식(Reference Knowledge)을 영구적으로 시공간 결빙(Freezing)해 두고 오프라인 모킹(Offline Mocking) 테스트를 수행함으로써만 비로소 완전하게 달성할 수 있다.

이처럼 잘 설계된 RAG 기반 골든 데이터셋의 스냅샷 스키마 설계는, 끊임없이 알 수 없는 방향으로 변동하며 흐르는 불확실한 바깥세상(External World)의 거친 강물 속에서, 오직 우리가 개발하고 통제해야 할 불쌍한 AI 언어 모델 객체 단 하나만을 물 밖으로 건져 올려, 외부 오염 파라미터가 모두 통제된 밀폐형 무균실(Sandbox Test Bed) 수술대 위에서 정교하게 해부하고 수술하기 위한 가장 필수적이고 위대한 데이터 오염 방어(Anti-contamination) 아키텍처다.