7.5 LLM 심판관의 편향(Bias) 종류와 완화 전략

LLM-as-a-Judge 아키텍처는 평가의 유연성과 확장성이라는 거대한 이점을 제공하지만, “심판관 자신이 가진 인지적 편향(Cognitive Bias)“이라는 치명적인 함정을 내포하고 있다. 인간 채점자가 피로도나 선입견에 영향을 받듯, 평가용 거대 언어 모델 역시 사전 학습 데이터의 분포, 강화 학습(RLHF)의 특성, 그리고 프롬프트의 구조화 방식에 따라 기계적이고 체계적인 편향을 드러낸다.

특히 하이브리드 오라클 환경에서 결정론적 검사(Deterministic Check)를 통과한 이후에 최종 승인을 내리는 역할을 LLM이 담당한다면, 이러한 편향은 파이프라인 전체의 신뢰도를 붕괴시키는 단일 장애점(Single Point of Failure)이 될 수 있다. 따라서 평가 오라클을 구축할 때는 모델이 가진 내재적 편향의 종류를 파악하고, 이를 공학적으로 상쇄하는 완화(Mitigation) 메커니즘을 파이프라인 내에 강제해야 한다.

1. 위치 편향 (Position Bias)

여러 개의 응답 모델(예: Model A와 Model B)을 비교 평가할 때, LLM 심판관은 프롬프트 내에서 먼저 제시된 옵션(Model A)을 더 선호하거나, 반대로 마지막에 제시된 옵션(Model B)을 지지하는 경향을 보인다. 이는 컨텍스트 윈도우(Context Window) 처리 과정에서의 어텐션 메커니즘(Attention Mechanism) 특성에 기인한다.

완화 전략:
**무작위 셔플링(Randomized Shuffling)**을 강제하라. 자동화된 평가 스크립트는 매 평가마다 비교 대상의 순서를 무작위로 뒤바꾸어(A-B, B-A) 두 번 독립적으로 평가해야 한다. 두 번의 평가에서 모델이 일관된 선택을 했을 때만(즉, 위치와 무관하게 특정 응답의 품질을 선택했을 때만) 승자로 인정하고, 결과가 엇갈릴 경우 무승부(Tie)로 간주하는 비동기적 교차 검증을 파이프라인에 내장해야 한다.

2. 서술적 편향 (Verbosity Bias)

RLHF로 튜닝된 최신 LLM들은 본질적으로 “길고, 장황하며, 과도하게 친절한” 답변을 고품질로 인식하도록 편향되어 있다. 심지어 짧은 답변이 기술적으로 더 정확하고 결정론적 검사를 완벽히 통과했음에도 불구하고, 관련 없는 부가 설명을 길게 늘어놓은 오답에 더 높은 점수를 부여하는 치명적인 오류(Verbosity Bias)를 범한다.

완화 전략:
심판관 모델의 프롬프트인 명시적 평가 기준(Rubric)에 “간결성(Conciseness)에 대한 가중치“와 “불필요한 정보 제공 시 감점” 규칙을 공격적으로 삽입하라.

“답변의 길이는 품질의 척도가 아니다. 사용자의 의도에 가장 직접적이고 간결하게 답한 모델에게 승리를 부여하라. 무의미한 부연 설명이나 윤리적 면책 조항(Disclaimer)이 포함된 경우 오히려 페널티를 적용하라.”

3. 자기 선호 편향 (Self-Preference Bias)

특정 기업의 AI 모델(예: GPT-4)을 심판관으로 사용할 경우, 자신이 과거에 생성했던 텍스트의 스타일, 어휘, 문장 구조와 유사한 응답을 생성한 모델(즉, 동일한 Family의 모델)을 타사 모델(예: Claude 3)보다 높게 평가하는 현상을 자기 선호 편향(Self-Enhancement Bias)이라고 한다.

완화 전략:
특정 벤더의 모델 한 가지에만 심판관 역할을 독점시키지 마라. 파이프라인의 중요한 의사결정 노드에서는 Panel of Judges (다수 LLM 합의체) 패턴을 도입하라. 서로 다른 아키텍처와 학습 데이터를 가진 이기종 모델(Heterogeneous Models; 예를 들어 GPT-4, Claude 3.5 Opus, Llama 3) 3~5개를 병렬로 호출하여 다수결(Majority Voting)로 최종 판정을 내려 베이스라인의 균형을 맞추어야 한다.

4. 포맷 편향 (Format Bias)

답변이 마크다운(Markdown) 테이블이나 굵은 글씨(Bold)를 활용하여 시각적으로 구조화되어 있을 때, 실제 내용의 사실성과 무관하게 후한 점수를 주는 경향이 있다.

완화 전략:
결정론적 전처리(Deterministic Pre-processing) 단계에서 **블라인드 처리(Blind Processing)**를 도입하라. 파이썬 스크립트를 사용하여 평가를 위해 LLM 심판관에게 데이터를 넘기기 직전, 정규식(Regex)을 통해 모든 마크다운 서식, HTML 태그, 불필요한 줄바꿈 등을 1차적으로 평탄화(Flattening)하여 순수한 텍스트 문자열(Raw String) 형태로 정규화한 뒤에 평가를 요청해야 한다.

LLM 심판관은 절대적인 진리가 아니라, 특정한 통계적 편향을 가진 고도화된 스크립트로 취급해야 한다. 완벽한 오라클 구축은 이 비결정적 심판관 위에 결정론적인 제어 로직과 교차 검증망을 덧씌우는 과정이다.