3.7.5 평가 모델(Judge Model) 편향성: 특정 LLM이 생성한 정답을 선호하는 현상

3.7.5 평가 모델(Judge Model) 편향성: 특정 LLM이 생성한 정답을 선호하는 현상

결정론적 구조 검사(JSON Schema, Regex)만으로 평가하기 어려운 의미론적(Semantic) 품질을 측정하기 위해 ‘LLM-as-a-Judge’ 파이프라인을 도입할 때, 엔지니어들이 가장 빈번하게 빠지는 치명적인 함정이 있다. 바로 평가를 수행하는 심판관 모델 스스로가 내재하고 있는 **주관적 편향성(Bias)**이다.

정답지(Ground Truth)의 채점 기준인 루브릭(Rubric)을 아무리 객관적으로 작성하더라도, 심판관 LLM은 기저 데이터와 학습 구조의 한계로 인해 통계적으로 편향된 판정을 내리는 경향이 있다. 본 절에서는 오라클의 신뢰도를 무너뜨리는 심판관 모델의 대표적인 편향성들과 이를 공학적으로 통제하는 방안을 논의한다.

1. 자가 우대 편향 (Self-Enhancement Bias)

LLM 심판관은 텍스트의 사실적 정확도(Factuality)가 동일할 경우, 타 모델이 생성한 문장보다 자신이 생성했던 문체(Style)나 어휘적 특징을 가진 응답에 더 높은 점수를 부여하는 경향이 뚜렷하다.

  • 증상: 테스트 대상 파이프라인이 Claude 3를 기반으로 답변을 생성하고, 오라클 심판관으로 GPT-4를 배치했다고 가정하자. Claude 3가 사실 관계에 완벽히 부합하는 정답을 출력했음에도 불구하고, GPT-4는 자신이 선호하는 문장 구조, 리스트 나열 방식, 특유의 연결사가 부족하다는 핑계로 이를 Fail 처리하거나 비교적 낮은 점수를 부여한다. 반대로 GPT-4가 생성한 응답은 약간의 환각(Hallucination)이 섞여 있더라도 후하게 평가(Pass)하는 자가 우대 편향을 보인다.
  • 결과: 오라클이 특정 AI 제공업체(Vendor)의 문체 템플릿에 과적합(Overfitting)되어, 실제 비즈니스 로직의 정확도를 대변하지 못하는 거짓 양성(False Positive) 스코어를 양산하게 된다.

2. 위치 편향 (Position Bias)

두 모델의 응답(예: 기존 배포 모델 vs 신규 패치 모델)을 비교하여 더 나은 정답을 선택하게 하는 쌍대 비교(Pairwise Comparison) 오라클에서 발생하는 치명적인 버그다.

  • 증상: 프롬프트에 [응답 A][응답 B]를 나란히 주고 평가를 지시할 때, LLM 심판관은 두 답변의 질적 차이와 무관하게 **앞에 배치된 [응답 A]를 맹목적으로 승자로 꼽는 경향(Primacy Effect)**을 보이거나, 반대로 **마지막에 읽은 [응답 B]를 선호하는 현상(Recency Effect)**을 겪는다.
  • 결과: 성능이 저하된 모델의 응답이 단지 프롬프트 상단에 위치했다는 우연한 논리 구조 때문에 회귀 테스트를 통과해버리는 대형 사고가 발생한다.

3. 편향성 극복을 위한 안티 패러다임 설계

심판관 모델의 편향성은 프롬프트에 “공정하게 평가하라“는 자연어 지시를 몇 줄 추가한다고 해서 해결되지 않는다. 이는 철저히 시스템 구조적으로 억압되어야 한다.

  1. 위치 교환(Swap) 검증 강제화:
    오라클이 쌍대 비교를 수행할 때는 한 번의 판정으로 결과를 단언해서는 안 된다. 파이프라인은 반드시 (A, B) 순서로 한 번, (B, A) 순서로 위치를 바꾼 뒤 한 번, 총 2번의 추론을 비동기로 호출해야 한다. 만약 모델이 두 번의 펑가에서 서로 다른 응답을 승자로 지목했다면, 해당 평가 결과는 Conflict(충돌)로 처리하고 인간(SME)의 심사 큐(Review Queue)로 이관해야 한다.

  2. 다중 에이전트 심사 위원회 (MoA: Mixture of Agents):
    단일 LLM을 절대적인 심판관으로 신격화하는 것은 위험하다. 의미론적 채점이 필요한 정답지는 GPT-4, Claude 3 Opus, Gemini 1.5 Pro 등 아키텍처가 완전히 다른 최소 3개 이상의 이기종 모델을 병렬 오라클 위원회로 구성해야 한다. 자가 우대 편향이 발동하더라도, 단일 모델의 독단적 판정이 아닌 다수결 알고리즘(Majority Voting)을 통해 통계적 노이즈를 성공적으로 상쇄할 수 있다.

  3. 추론 과정 우선 추출 (Chain-of-Thought Rubric Enforcement):
    프롬프트 설계 시, 심판관에게 점수부터 매기게 해서는 안 된다. 루브릭의 체크리스트(예: “사실 1이 포함되었는가?”, “금칙어가 없는가?”)를 JSON Schema 스텝별로 강제로 작성하도록 요구(CoT)한 뒤, 마지막에만 최종 판정(Pass/Fail)을 출력하게 필드를 통제하면 인지적 편향을 기계적으로 크게 낮출 수 있다.

결국, 평가 모델을 도입하는 하이브리드 오라클 아키텍트는 “Who watches the watchmen?(누가 감시자를 감시할 것인가?)“라는 고전적인 화두에 대해 파이프라인 레벨에서의 구조적 대답을 준비해 두어야 한다.