7.3.2.1 평가의 기계적 해체: 차원별(Dimensional) 독립 평가와 교차 오염(Cross-contamination) 방지 아키텍처

LLM-as-a-Judge 파이프라인을 설계하는 주니어 엔지니어들이 런타임 최적화 과정에서 흔히 빠지는 가장 달콤하고 치명적인 함정이 있다.
그것은 바로 하나의 무거운 판사 모델(Judge Model)에게 프롬프트 텍스트를 단 한 번만 던져서(Single-pass API Call), 응답 텐서 내에 정확성(Accuracy), 관련성(Relevance), 일관성 및 어조(Coherence & Tone)라는 3~4개의 이질적인 다차원 평가 점수를 JSON 배열로 동시에 받아내려는 시도다.

물론 이는 클라우드 API 과금 비용(FinOps)과 추론 지연 시간(Inference Latency) 측면에서는 극도로 경제적이고 매력적인 설계다.
그러나 이러한 다차원 동시 타겟 평가는, 인지 심리학(Cognitive Psychology)에서 인간의 판단력을 흐리는 **‘후광 효과(Halo Effect)’**를 그대로 모방하며, 딥러닝 트랜스포머 아키텍처 관점에서는 어텐션 가중치(Attention Weights)가 뒤죽박죽 섞여버리는 **‘교차 오염(Cross-contamination)’**이라는 치명적인 논리적 결함(Logical Bug) 버그를 파이프라인 런타임에 유발한다.

1. 교차 오염(Cross-contamination)의 덫: 유창한 거짓말에 속는 판사

교차 오염이란, 판사로 임명된 LLM이 특정 평가 차원(예: 문장의 유창성이나 문맥적 화려함)의 압도적인 뛰어남에 어텐션(Attention)이 매몰되어 버려, 전혀 상관없는 완전히 다른 이질적 차원(예: 핵심 팩트의 수학적 혹은 논리적 정확성)의 점수까지 의식하지 못하고 무의식적으로 높게 매겨버리는 파멸적인 채점 왜곡 현상을 말한다.

만약 타겟 피평가 모델이 할루시네이션(Hallucination)을 심하게 일으켜, 매우 완벽하고 논리적이며 미려한 문장력으로 *“역사적 사료에 따르면 1950년 대한민국의 수도는 임시로 도쿄로 천도한 바 있습니다”*라는 그럴싸하고 미친 거짓말을 생성했다고 치명적 가정을 해보자.
이때 판사 모델에게 <정확성 점수 1~5>와 <유창성 점수 1~5>를 동시에 하나의 프롬프트 컨텍스트에서 채점하라고 지시(Instruction)하면, 모델은 상대방이 구사한 그 세련되고 유창한 문장력의 벡터 뉘앙스에 취해버린다. 결과적으로, 가장 철저히 팩트 체크를 해야 할 ‘정확성’ 메트릭마저 4점이나 5점으로 관대하게 오판해 채점해버리는 치명적인 오탐(False Positive) 스키마를 내뱉고 파이프라인을 기만하게 된다.

어텐션 메커니즘(Attention Mechanism)이 하나의 거대한 컨텍스트 윈도우 내에서 너무 넓고 모호하게 퍼져버리면, LLM은 프롬프트 내의 개별적이고 날카로운 평가 지표에 집중력을 획득하지 못하고 단순히 텍스트의 **‘전체적인 느낌(Overall syntactic vibe)’**에 의해 점수들을 하나로 평탄화(Flattening)해버리는 악습을 가지고 있다.

2. 해결 방안 1: 논리의 강제 선행 전개 (Rationale-First Prompting)

비용의 한계로 인해, 구조화 출력(Structured Outputs, JSON Mode)을 사용해 부득이하게 단 한 번의 API 네트워크 호출로 여러 차원의 점수를 묶어서 받아야만 하는 빈곤한 인프라 환경이라면, 반드시 백엔드 JSON 스키마상의 키(Key) 파싱 순서를 통제하여 ’채점의 이유(Rationale)’가 ‘결정적 점수(Score)’ 토큰보다 무조건 먼저 텍스트로 생성되도록 강제해야 한다.

[최악의 Anti-pattern (교차 오염 발생)]:
{"accuracy_score": 5, "accuracy_reason": "..." , "fluency_score": 5, "fluency_reason": "..."}
[안전한 Best Practice (Rationale-First)]:
{"accuracy_reason": "문서에 따르면 한국의 수도는 서울이므로 이 응답은 명백한 거짓이다.", "accuracy_score": 1, "fluency_reason": "문법과 단어 선택, 어휘는 매우 완벽하다.", "fluency_score": 5}

본질적으로 오토레그레시브(Auto-regressive) 생성형 AI는 이전 토큰에 기반하여 다음 토큰을 순차적으로 뱉어내는 기계다. 숫자인 점수(Score)를 스키마 앞단에 배치하여 먼저 뱉게 만들면, 모델은 후광 효과의 직관에 이끌려 일단 높은 점수인 5를 덜컥 던져버린 뒤, 그 뒤에 이어지는 reason 텍스트 블록에서 자신의 잘못된 점수를 어떻게든 정당화(Rationalize)하려는 억지 논리를 끼워 맞추게 된다.
반면, 분석 근거를 먼저 텍스트로 풀어내게 하는 ‘생각의 사슬(Chain-of-Thought)’ 메커니즘을 강제하면, 판사 모델은 논리 전개 도중 팩트의 명백한 모순과 오류를 텐서 연산 중 스스로 깨닫고 시정하여, 뒤따라오는 정확성 점수 키에 안전하게 1점이라는 낮은 토큰을 부여하게 되어 교차 오염이 눈에 띄게 완화된다.

3. 해결 방안 2: 물리적 API 네트워크 호출의 완전 격리 (Evaluation Isolation)

API 호출 비용(FinOps Cost)을 지불할 클라우드 예산 여력이 충분하고, 단 1%의 채점 오염도 허용할 수 없는 엔터프라이즈의 미션 크리티컬(Mission-critical) 평가 파이프라인(예: 금융 약관 위반 검사)이라면, 교차 오염을 아키텍처 레벨에서 원천 차단하는 가장 폭력적이고도 유일한 완벽 해법은 차원별로 판사 모델 인스턴스를 물리적으로 독립 호출(Parallel Isolation Calls)하는 것이다.

[판사 워커 스레드 A (정확성 전담)]: “너의 인퍼런스 역할은 오직 단 하나, ’정확성(Accuracy)’만 극단적으로 파고들어 채점하는 것이다. 대상 텍스트의 문법이 엉망이든, 욕설이 섞여있든, 문맥이 끊기든 너는 절대 전혀 신경 쓰지 마라. 오직 주어진 레퍼런스와 팩트의 일치 여부 1가지만 차갑게 채점해라.”
[판사 워커 스레드 B (일관성 전담)]: “너의 인퍼런스 역할은 오직 ’문맥의 일관성 및 유창성(Fluency)’만 채점하는 것이다. 텍스트 내용이 팩트인지 거짓말인지, 규정에 맞는지 아닌지는 너의 권한이자 소관이 아니다. 오직 문맥의 논리적 뼈대 구조만 분석해 채점해라.”

이처럼 각각의 모듈식 판사 모델(Judge Agents)에게 철저하게 눈가리개 경주마와 같은 블라인드 뷰(Blind View Constraint) 프롬프트를 씌우고 비동기(Asynchronous)로 병렬 호출함으로써, A 차원의 텍스트 메트릭이 현재 B를 채점하는 모델 차원 컨텍스트 창에 어텐션 전이되는 오염 현상을 메모리 공간 레벨에서 즉각 물리적으로 끊어낼 수 있다.
이는 현대 고전 소프트웨어 공학의 위대한 ‘관심사 분리(Separation of Concerns, SoC)’ 설계 원칙을, 프롬프트 엔지니어링의 분산 오라클 평가 아키텍처로 투영 및 맵핑해 낸 가장 위대하고 완벽한 실무적 디자인 패턴 사례라 할 수 있다.