8.5.4 다중 소스(Multi-hop) 추론 시 출처 결합의 유효성 검사
단순 Q&A 챗봇 수준을 넘어서서, 여러 개의 문서 데이터베이스 브랜치에 파편화되어 있는 정보들을 모두 긁어모아 복합적으로 연역해야 하는 이른바 ‘다중 소스 추론(Multi-hop Reasoning)’ 환경에서 거대 언어 모델(LLM)은 놀랍도록 똑똑하지만 동시에 극도로 위험해진다.
예를 들어, “2024년 2분기에 입사한 B 직원은 이번 연말 보너스로 얼마를 받는가?“라는 복합 질문(Multi-hop Query)이 들어왔다고 가정해 보자. 타겟 LLM은 시스템을 순회하며 다음 세 개의 흩어진 조각(Chunk)을 수집하여 출처 번호와 함께 하나의 문장으로 병합(Merging)해 낸다.
[Doc_HR_A]: “B 직원의 직급은 대리이다.”[Doc_Rule_1]: “대리 직급의 연말 기준 보너스는 기본급의 150%이다.”[Doc_Finance_X]: “해당 직원의 현재 기본급은 300만 원이다.”- 타겟 LLM 최종 출력 렌더링: “B 직원의 연말 보너스는 450만 원으로 계산됩니다.
[Doc_HR_A],[Doc_Rule_1],[Doc_Finance_X]”
겉보기에는 완벽한 추론이지만, 오라클 시스템의 입장에서 볼 때 이 ‘콤마(,)로 연속 연결된’ 다중 출처 브래킷은 거대한 논리적 지뢰밭이다. 타겟 모델이 서로 물리적으로 연관성이 없는 다른 부서의 문서 3개를 강제로 하나의 바구니에 쓸어 담으면서, 인과관계가 아예 연결되지 않는 변수들을 임의로 곱해버린 ’합성 환각(Synthesis Hallucination)’일 확률이 존재하기 때문이다.
1. 다중 인용 브래킷의 독립 파싱(Independent Parsing)과 수학적 분해
오라클 미들웨어는 타겟 모델이 여러 개의 출처를 콤마(,) 단위로 묶어서 하나의 문장에 부착했을 때 (예: [Doc1, Doc2, Doc3]), 이를 통째로 NLI(자연어 추론) 모듈에 밀어 넣는 멍청한 짓을 절대 하지 않는다.
오라클 백엔드 엔진은 우선 수리 논리학의 ‘교집합(Intersection)’ 모델을 차용하여, 모델이 렌더링한 최종 답변의 명제 S_{final}이 기재된 출처 청크들의 단일 합집합만으로 과연 100% 추론이 수학적으로 닫히는지(Closed)를 해체하여 기계 검증한다.
오라클은 답변 문장을 다시 원자 단위의 마이크로 단서들(Atomic Clues)로 잘게 부순 뒤, 각 단서가 반드시 특정 단일 Chunk에 1:1로 매핑되는지를 각각 쪼개서 개별 증명(Individual Proof)한다. 즉, 오라클은 “대리 직급이 맞는가?“를 먼저 [Doc_HR_A]에 던져서 True를 받아내고, “기본급이 300만 원인가?“를 독립적으로 [Doc_Finance_X]에 던져서 True를 받아내는 식의 분산 병렬 NLI 텐서 검사를 최우선으로 실행한다.
2. 출처 간 결속(Coupling) 규칙 검증 메커니즘
개별 사실이 모두 참(True)으로 판명되었다고 치자. 다중 소스 추론 환경에서 오라클이 마주하는 더 치명적인 딜레마는, **“그래서 저 참(True)인 개별적인 사실 정보들을 ‘곱해서 하나로 연산해도 되는’ 합법적인 논리적 권한이 과연 이 문서 도메인 안에 존재하는가?”**를 묻는 결속(Coupling) 타당성 검사다.
만약 [Doc_Finance_X]에 적힌 기본급이 ’2022년도 기준’으로 작성된 낡은 아카이브(Archive) 문서였다고 가정해 보자. 타겟 LLM은 연도 속성이라는 결정적인 변수(Temporal Variable)를 무시한 채, 2024년도 보너스 룰셋 문서 [Doc_Rule_1]과 2022년도 기본급 문서 [Doc_Finance_X]를 아무런 죄의식 없이 병합(Merge)하여 ’450만 원’이라는 가짜 계산 수치를 창작해 버렸다.
이를 적발하기 위해 오라클 파트너 시스템은 Graph DB 지식망(Knowledge Graph)이나 복합 추론 전용 논리 스캐너(Logic Scanner)를 동원하여, 결합하고자 하는 텍스트 노드 간의 주요 메타데이터(연도, 부서, 적용 대상 직군 등) 속성값(Attributes)들이 서로 상충(Conflict)하지 않고 동기화(Synchronized)되어 있는지 결정론적으로 교차 대조(Cross-Check)한다.
만약 출처 문서들 간에 메타데이터의 시계열(Timestamp) 충돌이나 버전 불일치가 감지되면, 오라클은 콤마(,)로 연결된 해당 다중 소스 인용을 **‘불법적 지식 결합(Illegal Knowledge Coupling)’**으로 명쾌하게 규정한다. 그 결과, 450만 원이라는 매끄러운 답변 트랜잭션은 즉시 시스템 메모리에서 차단(Block) 및 파기 절차를 밟게 되며, 사내 규정의 보안 사고를 사전에 차단하는 철옹성 같은 방벽 역할을 성공적으로 완수해 낸다.