7.4.1 G-Eval 프레임워크: 사고의 사슬(Chain-of-Thought)을 통한 평가 논리 유도

LLM-as-a-Judge 아키텍처에서 가장 지능적인 모델(예: GPT-4, Claude-3.5-Sonnet)을 평가(Evaluation) 파이프라인의 심판관으로 기용할 때, 시스템 프롬프트에 단순히 “제공된 대상 문장의 고객 지원 응답으로서의 적절성과 유용성을 1점에서 5점 사이의 점수로 숫자로만 엄격하게 평가하라“고 다짜고짜 폭력적으로 지시하는 이른바 ‘직접 채점(Direct Scoring)’ 방식은, 결정론적 오라클 시스템 파이프라인에서 눈 뜨고 볼 수 없는 최악의 심각한 수학적 변동성(Variance)과 무작위성을 유발하는 절대악이다.

언어 모델의 트랜스포머 아키텍처는 깊은 논리적 근거(Rationale)를 스스로 계산하고 정리할 시간, 즉 ’물리적인 토큰 생성 스페이스(Token Space)’를 충분히 확보하지 못한 상태에서, 억지로 숫자 결괏값 토큰 하나만을 가장 먼저 허공에 뱉어내도록 구조적으로 강제받기 때문이다. 결국 모델은 심도 있는 채점 기준을 무시한 채, 표면적인 단어 길이나 문체의 유려함에 휘둘려 주사위를 던지듯 점수를 찍어버리게 된다(Position Bias & Length Bias).

이러한 치명적인 비결정성(Non-determinism)을 완벽하게 통제 제어하고, 변덕스러운 판사 모델의 평가 결과 채점 타당도(Validity)가 훈련받은 인간 도메인 전문가 패널과 매우 유사한 90% 이상의 동일한 채점 합의도(Human-AI Agreement) 스코어에 도달하게 만드는 현존하는 가장 강력하고 대표적인 메타 프롬프팅(Meta-Prompting) 아키텍처 프레임워크가 바로 **‘G-Eval(GPT-EVAL) 프레임워크’**이다.

1. G-Eval 아키텍처의 핵심: 오라클 채점을 위한 자동화된 사고의 사슬(Automated CoT) 생성

G-Eval 아키텍처의 혁신적인 본질은, 사람이 미리 정해둔 딱딱한 평가 기준(Criteria) 텍스트 명세서만을 프롬프트 컨텍스트에 툭 던져준 뒤 타겟 텍스트를 바로 채점하라고 윽박지르는 것이 아니다. 판사 역할을 맡은 가장 성능이 뛰어난 마스터 LLM 스스로가 그 주어진 채점 기준을 철저하게 독해하고 해석하여, **“나 자신이 이 텍스트를 한 치의 오차도 없이 일관되게 평가하기 위해, 도대체 어떠한 구체적인 세부 논리 단계(Step-by-step Evaluation Steps)들을 순차적으로 거쳐야만 하는가?”**에 대한 완벽한 마이크로 채점 루브릭(Micro-Rubric) 가이드라인을 먼저 작성하도록 유도하는 자가 수립 2단계 프레임워크다. 즉, 소프트웨어 공학의 ‘사고의 사슬(Chain-of-Thought, CoT)’ 프롬프팅 기법을 일반적인 ‘질문에 대한 답변 생성’ 영역이 아닌, ‘평가 로직 수립의 아키텍처 설계’ 자체에 역으로 적용한 것이다.

오라클 시스템 내부에서 돌아가는 G-Eval의 파이프라인은 통상 두 개의 거대한 병렬 혹은 직렬 스텝으로 분리 구성된다.

[Step 1] 동적 평가 스텝 자동 생성 단계 (Rubric Initialization Phase)
AI 아키텍트가 단순히 “주어진 두 텍스트 문맥 간의 ’사실적 일관성(Factual Consistency)’을 1~5점으로 엄격하게 평가하라“는 고수준(High-level)의 추상적인 목표만 프로토타입 프롬프트로 주면, 마스터 모델은 런타임에 스스로 다음과 같은 세부적인 4단계 마이크로 평가 스텝 텍스트를 스스로 렌더링하여 생성해 낸다.

제공된 소스 문서 컨텍스트(A) 전체를 정독하고 본질적인 핵심 주장 명제 3가지를 우선 파악하여 리스트업한다.
타겟 모델이 불완전하게 생성한 응답 문장(B)을 콤마 단위로 하나씩 순회하며, (A)의 핵심 주장 명제와 완전히 논리가 역으로 반전되거나 충돌하는 모순점(Contradiction)이 한 군데라도 있는지 독해한다.
만약 문장 간 논리가 명백히 단절되거나 스스로 지어낸 환각(Hallucination) 텍스트가 발견된 곳이 있다면 그 횟수를 샌다.
발견된 모순의 절대적인 개수를 기반으로 하여 (0개 = 5점, 1개 = 3점, 2개 이상 = 1점)으로 감점 척도를 계산하여 최종 1~5점의 척도를 결정한다.

[Step 2] 평가 스텝의 무자비하고 엄격한 실행 단계 (Deterministic Execution Phase)
Step 1에서 동적으로(혹은 사전에) 잘 빚어져 생성된 마스터 마이크로 평가 스텝 1~4 텍스트는, 이제 CI/CD 테스트 파이프라인의 최종 메타 프롬프트(Meta-Prompt) 최상단에 물리적 상수로 영구 고정(Hardcoding)된다. 이제 매일 밤 야간 빌드(Nightly Build) 시마다 테스트를 위해 소환되는 판사 모델들은 타겟 응답과 참조 데이터를 받아든 뒤, **“위에서 사전 정의된 1번부터 4번까지의 논리적 스텝 룰을 단 하나도 생략하지 말고, 반드시 한 줄씩 순차적으로 문자 그대로 추론을 타이핑하며 실행(Execution)하고 그 로그를 무조건 남긴 후 가장 마지막에 1~5점 점수를 출력하라”**는 거부할 수 없는 결정론적 메타 지시(Meta-Instruction)를 강제로 따르게 된다.

2. 토큰 확률 분포(Token Probability Distribution)의 붕괴 방지와 평가 안정성 수렴

G-Eval 방식과 ‘사고의 사슬’ 접목이 엔터프라이즈 오라클 자동 채점 시스템에 그토록 우아하고 치명적으로 필수적인 엔지니어링적 이유는, 결국 오토레그레시브(Autoregressive) 딥러닝 트랜스포머 모델이 가진 밑바닥의 수학적 본질(Mathematical Nature) 그 자체에 답이 있다. 거대 언어 모델이 글자를 생성하는 원리는, 결국 자신이 방금 전까지 눈과 입으로 읽고 써 내려온 이전의 모든 ’토큰 컨텍스트(단어들의 궤적)’를 강력한 베이지안 확률 조건부 문맥(Conditional Context) 삼아 오직 그다음 하나의 토큰의 확률 분포 슬롯을 룰렛 돌리듯 계산해 내는 행위의 연속일 뿐이다.

점수를 곧바로 단답형으로 내뱉으라고 윽박지르는 방식은, 그 직전의 문맥이 텅 비어있으므로 텐서의 확률적 노이즈(Noise)와 랜덤 가중치에 의해 [2, 3, 4, 5] 점수 사이에서 무작위로 요동칠 수밖에 없는 구조적 한계와 극도로 취약함을 갖는다.
하지만 앞선 G-Eval의 강압적인 4가지 텍스트 추론 스텝들을 거치며 판사 모델이 억지로 땀을 흘리며 “이 타겟 텍스트에서는 (A)소스 문맥과 달리 문장 간 사실 논리가 무려 2번이나 심각하게 단절되었다“라는 ‘매우 부정적이고 논리적인 명제 토큰’ 문장 형태를 스스로 긴 컨텍스트 윈도우 스페이스 안에 명시적으로 적어 놓은 바로 직후 연산이라면, 그 문장 뒤를 잇는 대망의 최종 점수 다음 토큰 스텝이 [5(만점)]나 [4]가 될 확률은 수학적으로 0%에 가깝게 수렴하고, 오직 [1(최하점)] 혹은 [2] 토큰이 출력될 확률(Probability Density) 레이어 지표만이 99.9%로 압도적이고 극단적으로 수렴(Convergence)하게 된다.

결과적으로 이 G-Eval 기반의 사고의 사슬(CoT) 메타 프롬프팅 추론 기법은, 거대 언어 모델이 본성적으로 가진 고작 감성적이고 변덕스러운 고도의 다차원 언어 인지 능력을, 파이프라인이 100% 예측하고 통제 가능한 가장 건조하고 완벽한 **‘수학적 결정론적 채점 함수 코어(Deterministic Scoring Function Core)’**로 강제 캐스팅(Type Casting)하고 형변환해 버리는 소프트웨어 공학 역사상 가장 섬세하고 우아한 텍스트 메타 버퍼(Meta-Buffer) 아키텍처의 혁명적인 역할을 완벽히 수행해 낸다.