7.7.3 3단계: JSON Schema Validation을 통과한 데이터에 대한 의미론적 심층 평가

7.7.3 3단계: JSON Schema Validation을 통과한 데이터에 대한 의미론적 심층 평가

1단계(결정론적 구문 분석)와 2단계(어휘 필터링)의 무자비한 방어막을 통과한 데이터는, 형태적으로는 완벽에 가까우며 필수 키워드까지 모두 갖춘 ’최소한의 자격을 갖춘 텍스트(Qualified Response)’다. 특히 오라클 아키텍처가 응답 포맷을 JSON 스키마로 강제하는 구조화 출력(Structured Outputs) 모드를 컨벤션으로 채택했다면, 이 시점의 페이로드(Payload)는 Pydantic이나 Zod와 같은 스키마 검증 라이브러리의 엄격한 타입 체킹(Type Checking)마저 무사히 통과한 무결점 상태다.

하지만 문법의 뼈대가 완벽하다고 해서 그 안에 담긴 내용마저 진실인 것은 아니다. 비로소 이 3단계에 이르러서야, 결정론적 단순 매칭 코드로는 도저히 꿰뚫어 볼 수 없는 의미론적(Semantic) 논리성과 추론의 정합성을 채점하기 위해 가장 비싸고 똑똑한 사령관인 거대 언어 모델(LLM) 심판관이 파이프라인 무대 위로 등판한다.

1. 노이즈가 소거된 순수 시맨틱(Semantic) 추론 집중

앞선 1, 2단계를 통해 기계적이고 허무한 오답들이 모두 소각되었기 때문에, 3단계에 도달한 LLM 판사에게 쥐어지는 메타 프롬프트(Meta-Prompt)는 인지 부하가 예전과 비교할 수 없을 정도로 가벼워진다.

  • [단일 아키텍처 프롬프트]: “이 응답이 JSON 구조인지, 키워드 X가 포함되었는지, 분량이 넘치지는 않았는지, 그리고 사용자의 의도에 맞아떨어지는지 종합적으로 평가하라.” (인지 부하 극심, 모델의 집중력 분산)
  • [하이브리드 3단계 프롬프트]: “이 응답의 JSON 포맷과 키워드 제약은 이미 하위 시스템에 의해 완벽함이 증명되었다. 너는 오직 이 구조화된 데이터 안에 담긴 **‘A 속성의 주장과 B 속성의 인용구 간에 논리적 모순점’**이 존재하는지만을 깊게 추론(Reasoning)하여 채점하라.” (단일 태스크 집중)

이처럼 구문의 검증 체계와 논리의 평가 체계를 아키텍처 레벨에서 철저히 분리(Decoupling)하면, 판사 모델은 따옴표나 중괄호 같은 지엽적인 포맷팅 문제에 에너지를 낭비하느라 핵심 논리 오류를 놓쳐버리는 인지적 병목(Cognitive Bottleneck) 현상에서 해방된다. 이는 곧 LLM 오라클의 평가 일치율(Kappa 지수) 상승으로 직결된다.

2. RAG 기반의 팩트체킹(Fact-checking) 오라클 트리거 연동

3단계 의미론적 평가 중에서도 가장 아키텍트의 두통을 유발하는 것은 타겟 모델이 생성한 ’외부 도메인 지식’의 사실 관계 진위 여부다. 이를 제압하기 위해 3단계 LLM 판사는 단독의 폐쇄 망에서 동작하지 않고, 사내 지식 베이스(Knowledge Base) 데이터베이스와 연결된 RAG(Retrieval-Augmented Generation) 도구를 능동적으로 호출할 수 있는 도구 호출(Tool Calling) 권한을 인가받아야 한다.

타겟 응답 페이로드에 “2024년 2분기 핵심 매출은 300억 원이다“라고 적혀있을 때, 판사 모델은 자신이 과거 학습한 정적 가중치(Static Weights)의 기억에 편향되는 대신, 내부 문서에서 해당 분기의 실제 재무 문서를 스스로 검색(Retrieve)해 온다. 그리고 검색된 무결점 그라운드 트루스(Ground Truth) 텍스트와 타겟 모델의 응답 간의 의미론적 모순(Contradiction) 여부를 대조(Cross-Reference)하는 엄정한 ’블랙박스 팩트체커’로서 기능하게 된다.

3. 트랜잭션 비용 효율성(Cost Efficiency)의 극대화

이 3단계 구조 레이어는 재무적인 관점에서도 가장 진보적이고 아름다운 파이프라인이다. 생성된 모든 트랜잭션 텍스트 뭉치에 대해 무식하게 GPT-4 급 계열 모델을 호출하던 구시대적 벤치마킹 방식과 확연히 다르다.

엔터프라이즈 트래픽의 30%는 1단계 정규식 과정에서 무료 단위(Zero-cost)로 기각되고, 20%는 2단계 앵커 검색에서 수 밀리초(ms) 단위의 타임-투-킬(Time-to-kill)로 차단된다. 오직 정말로 복잡한 인지적 딥러닝 추론이 절실히 요구되는 상위 50%의 어려운 통과 케이스(Hard Examples)에 대해서만 값비싼 프론티어 모델의 API 토큰 과금(Token Billing)이 트리거된다. ’클라우드 컴퓨팅 비용’의 압축과 ’검증의 신뢰성 확보’라는 두 마리 극단적인 토끼를 동시에 포획하는 것, 그것이 하이브리드 오라클 파이프라인 설계자가 쟁취해야 할 궁극의 훈장이다.