8.5 인용(Citation) 및 출처 추적(Attribution) 기반의 오라클 구현

생성형 AI의 응답이 실무 환경에서 신뢰(Trust)를 얻기 위해서는 단순히 “정답을 말하는 것“만으로는 부족하다. RAG(Retrieval-Augmented Generation) 시스템의 가장 큰 무기는 모델이 내뱉은 문장 하나하나가 어느 문서의 어느 구절에서 발췌되었는지 역추적할 수 있다는 점이다.

시스템의 출력(Generation)과 검색된 지식(Retrieval) 사이의 연결 고리를 하드코딩된 참조 마커(Reference Marker)로 강제하는 기법을 인용(Citation) 및 출처 추적(Attribution) 파이프라인이라 부른다. 이는 할루시네이션(Hallucination)을 감지하고 법적/엔지니어링적 감사(Audit)를 가능하게 하는 RAG 오라클의 가장 핵심적인 결정론적 컴포넌트다.

1. 출처 추적을 위한 구조화된 프롬프트 설계 (Structured Citation)

LLM에게 단순하게 “출처를 달아라“라고 명령하면 텍스트 중간에 불규칙한 괄호를 넣거나, 아예 존재하지 않는 가짜 출처(Fake Citation)를 지어내는 환각이 발생한다. 이를 제어하기 위해 오라클 파이프라인은 입력 컨텍스트(Input Context)와 출력 스키마(Output Schema)를 엄격하게 구조화해야 한다.

컨텍스트 주입의 태깅(Tagging): 벡터 데이터베이스(Vector DB)에서 코퍼스(Corpus)를 검색해 올 때, 각 청크(Chunk) 원문 앞에 명시적인 인덱스(예: [DOC_1], [DOC_2])를 하드코딩하여 프롬프트로 주입한다.
스키마 강제화: JSON Schema를 이용해 응답이 지녀야 할 형태를 강제한다. 배열(Array) 내에 답변의 문장(sentence)과 그 문장을 뒷받침하는 문서의 인덱스(citing_doc_id)를 분리하여 반환하도록 지시한다.

2. 인용 오라클(Citation Oracle)의 검증 파이프라인 메커니즘

AI가 생성한 인용 데이터를 맹신할 수 없으므로, 생성 직후 코드로 작성된 결정론적 오라클이 트리거되어 출처의 정합성을 검증한다.

존재성 검증(Existence Check): AI가 응답 모델에 포함시킨 citing_doc_id가 실제로 프롬프트로 주입했던 식별자 배열(Array) 안에 존재하는지 집합(Set) 비교 연산을 통해 검증한다. 만약 주입하지도 않은 [DOC_5]를 인용했다면 이는 100% 확률의 환각이므로 즉시 단언 에러(Assertion Error)를 발생시킨다.
인용 누락 검출(Orphan Sentence Detection): 응답으로 생성된 문장들 중 citing_doc_id가 비어있거나 null인 문장이 존재하는지 스캔한다. RAG 시스템에서 출처가 없는 문장은 파라메트릭 메모리(Parametric Memory, 모델 자체의 지식)가 개입했음을 의미하며, 엄격한 도메인(의료, 법률)에서는 이를 즉각적으로 Fail 처리해야 한다.
NLI(Natural Language Inference) 기반 내용 일치 검증: citing_doc_id가 존재한다 할지라도, 해당 문서 번호의 원문과 AI가 생성한 문장 사이의 의미가 정말로 일치하는지 마지막으로 확인해야 한다. 이를 위해 교차 인코더(Cross-Encoder) 모델을 오라클로 투입하여 “원문(Premise)이 생성문(Hypothesis)을 함의(Entailment)하는가?“를 판별한다. Contradiction(모순)이 발생하면 출처를 올바르게 달았더라도 이는 기만적인 환각이다.

graph TD
    A[Vector DB Retrieval] -->|Chunk 1, Chunk 2| B(Prompt Injection with DOC IDs)
    B --> C[LLM Generation with Citation Schema]
    C --> D{Oracle: Validation Engine}
    
    D --> E{Valid DOC ID?}
    E -->|No| F[Fail: Fake Citation]
    E -->|Yes| G{Citation Emptiness Check}
    
    G -->|Empty| H[Fail: Orphan Sentence]
    G -->|Has Citation| I{NLI Cross-Encoder Validation}
    
    I -->|Entailment| J((Pass: Validated Response))
    I -->|Contradiction| K[Fail: Misinterpreted Source]
    
    F & H & K --> L[Fallback / Regenerate]

3. 부분적 환각의 절제 시스템 (Citation Pruning)

모든 문장을 통째로 버리는 것은 RAG 시스템의 가용성(Availability)을 심각하게 떨어뜨린다. 고도화된 출처 추적 오라클은 문제가 발생한 문장을 수리적으로 도려내는 ‘가지치기(Pruning)’ 기능을 수행한다.

JSON Array 형태로 반환된 여러 응답 문장 중에서, NLI 교차 인코더 검증을 통과하지 못하거나 유효하지 않은 출처를 인용한 특정 아이템(Item)만을 배열에서 드랍(Drop)시킨다. 이후 최종 사용자(User)에게는 검증을 통과한 문장들만을 재조합하여 보여주며, 문장 끝에는 하이퍼링크로 실제 문서 원본으로 이동할 수 있는 [1], [2] 마커를 안전하게 렌더링한다.

인용과 출처 추적은 확률적 생성을 결정론적 데이터베이스 조회를 연상케 하는 투명하고 안전한 트랜잭션으로 변모시키는 마법이다. 오라클이 통제하는 인용 메커니즘을 통해, RAG 시스템은 단순한 대화형 AI를 넘어 책임(Accountability) 소재를 명확히 판가름할 수 있는 무결한 정보 시스템으로 진화한다.