8.9.4 사내 매뉴얼 Q&A 시스템에서의 버전 관리 및 폐기 정보 필터링

8.9.4 사내 매뉴얼 Q&A 시스템에서의 버전 관리 및 폐기 정보 필터링

가장 보편적인 B2B RAG 유즈케이스인 ’사내 망(Intranet) 매뉴얼 Q&A 시스템’에서 발생하는 오류의 80% 이상은 LLM의 지능 부족이 아니라 **‘버전(Version) 충돌’**에서 기인한다. 기업의 데이터는 살아 움직이며, 어제의 규정(v1.0)과 오늘의 규정(v2.0)은 동일한 토픽을 다루지만 완전히 상반된 내용을 품고 있다.

신입사원이 “휴가 신청 프로세스를 알려주세요“라고 질문했을 때, Vector DB 검색기는 ’휴가’라는 키워드에 임베딩 축이 강하게 쏠려 2018년에 작성된 구형 매뉴얼과 2024년에 작성된 신형 ERP 매뉴얼을 동시에 끌고 온다. LLM은 이 두 문서를 병합하여 18년도 규정과 24년도 시스템이 기괴하게 짬뽕된 텍스트를 출력한다. 사내 Q&A 시스템에서의 오라클은 법률의 엄격함이나 진단의 정확성 이전에, 텍스트의 파편화된 **‘소프트웨어 형상 관리(Configuration Management)’**를 철저히 통제하는 감시자가 되어야 한다.

1. 하드코딩된 버전(Version) 태그 기반의 생존 경쟁(Survival of the Fittest)

Vector DB에 청크를 밀어 넣는(Ingestion) 단계에서부터 문서의 버전 관리는 시작되어야 한다. 사내 매뉴얼 RAG의 오라클은 텍스트 내용만을 검증하는 것이 아니다.

  1. 필수 메타데이터 해싱: 모든 문서 청크는 Document_ID, Topic_ID, Version(세맨틱 버저닝, 예: 1.2.0), Effective_Date를 메타데이터로 강제 발급받는다. 특히 같은 주제(예: ‘경비 청구’)를 다루는 문서들은 동일한 Topic_ID를 공유하도록 묶어둔다.
  2. 버전 충돌 감지 오라클: 검색 엔진이 Top-K 개의 문서를 가져왔을 때, 오라클 미들웨어는 Topic_ID가 중복되는 문서들이 있는지 스캔한다.
  3. 구버전 강제 드롭(Drop): 만약 Topic_ID는 같은데 Version 메타데이터가 1.0인 문서와 2.1인 문서가 동시에 검색되었다면, 오라클은 타겟 LLM을 호출하기도 전에 내용의 중요도와 무관하게 Version 1.0 문서를 파이프라인에서 물리적으로 삭제(Pruning)해 버린다. 지식의 최신성만이 유일한 정의(Justice)다.

2. 문서 폐기(Deprecated) 상태의 능동적 전파(Propagation)

사내 매뉴얼이 개정되는 방식은 기존 문서를 덮어쓰기보다는, 새로운 문서를 공지사항에 올리며 이전 문서에 “취소 선“을 긋거나 [폐기] 말머리를 다는 경우가 압도적으로 많다. LLM은 “폐기용“이라는 단어를 무시하고 그 본문 텍스트의 유효함을 믿어버린다.

사내 규정 오라클은 폐기(Deprecation) 플래그의 감염 체계를 구현해야 한다.

  • 오메가(Omega) 룰 제정: 문서 본문의 첫 300 토큰 안에 ["폐기", "사용 중지", "더 이상 유효하지 않음", "신규 매뉴얼 참조", "Deprecated"] 키워드가 탐지되면, 오라클은 해당 청크뿐만 아니라 해당 청크가 속한 전체 Document_ID의 모든 청크에 ‘Poison(오염)’ 태그를 전파시킨다.
  • 이 Poison 태그를 달고 있는 문서는 검색기에서 설령 가장 높은 코사인 유사도를 기록하더라도, 프롬프트 주입 단계에서 최종 폐기된다. 오라클은 절대 폐기된 지식이 환각의 자양분으로 쓰이도록 허락하지 않는다.

3. 답변 내 ‘출처 및 버전 상태’ 하드코딩 렌더링

사내 챗봇 오라클이 작동하여 최종적으로 하나의 최신 문서를 골라내었다 하더라도, 출력되는 텍스트에는 사용자(임직원)가 스스로 지식의 유효성을 한 번 더 검증할 수 있는 마지막 가드레일이 필요하다.

오라클 미들웨어는 타겟 LLM의 답변 포맷팅에 다음의 구조를 강제한다. LLM이 답변 뒤에 자연어로 출처를 설명하는 것이 아니라, 미들웨어가 템플릿(Template)을 통해 볼드체로 고정 삽입한다.

[시스템 답변]
휴가 신청은 신규 ERP인 ’WorkDay’를 통해 상신하셔야 합니다. 기존의 그룹웨어를 통한 신청은 반려됩니다.


📌 오라클 검증(Verified by Oracle):

  • 참조 문서: [2024년도 근태관리 매뉴얼_v3.0.pdf]
  • 참조 버전: v3.0 (현재 사내 시스템 상 최신 버전으로 확인됨)
  • 발효 일자: 2024년 3월 1일

이러한 메타데이터의 시각적 노출은, 챗봇의 답변이 환상(Hallucination)이 아니라 확실한 사내 규정 파일의 특정 시점(Snapshot)을 캡처한 것임을 증명하는 엔터프라이즈의 무결성(Integrity) 증명서와 다름없다. 사내 RAG 시스템에서 지식의 권위는 LLM의 지능이 아니라 철저한 형상 관리와 오라클의 필터링 엔진에서 나온다.