7.5.3 자기 선호 편향(Self-Preference Bias): 동족 모델 생성물을 무의식적으로 고평가하는 아키텍처의 맹점

최신 프론티어(Frontier) 거대 언어 모델들은 개발사의 막대한 자본이 투입된 강화 학습(RLHF) 및 인스트럭션 튜닝을 거치면서, 벤더마다 고유한 특정 형태의 어조(Tone), 단어 선택(Vocabulary), 문장 분절 구조(Sentence Structure) 패턴에 가장 높은 보상(Reward) 텐서를 매기도록 내부적으로 지독하게 미세조정(Fine-tuning)되었다.
이로 인해 LLM-as-a-Judge 파이프라인에서 판사 모델(Judge Model)이 우연히 자신이 속한 파운데이션 모델 제품군(예: GPT-4가 GPT-3.5를 평가하거나, Claude 3.5가 Claude 3.0을 평가)이 생성한 텍스트를 마주했을 때, 어딘지 모르게 모국어처럼 편안하고 ‘완벽한 정답처럼 느껴지는’ 무의식적인 기계적 친숙함을 경험하며 가중치를 높게 부여하게 된다.

업계 논문에서는 이 무서운 현상을 **‘자기 선호 편향(Self-Preference Bias)’**이라 부른다. 예를 들어 GPT-4를 절대 권력의 심판관으로 설정해 놓고 사내 테스트 베드에서 GPT-3.5 모델과 오픈소스 진영의 훌륭하게 튜닝된 Llama 3 모델을 쌍별 비교(A/B Test)로 대결시키면, 실제로는 Llama 측의 코드 최적화 지표나 팩트 정확도가 수학적으로 근소하게 우세함에도 불구하고, 판사가 동족인 GPT-3.5 모델에게 무지성으로 가산점을 부여하여 승리자로 둔갑시키는 현상이 심심치 않게 지속 보고된다.

1. 모델 가중치(Weights) 내재화의 맹점과 확증 편향

이러한 기형적인 기계적 애착(Attachment)은 판사 모델의 베이스 아키텍처와 사전 학습한 코퍼스(Corpus)의 어휘 다양성 및 보상 함수 다이내믹스가, 하위 평가 모델과 완벽히 동일한 차원 공간에서 파생되었기 때문에 필연적으로 발생한다.

판사 모델은 본능적으로 자신이 내부적으로 선호하는 문체 렌더링 레이아웃 패턴(예: 마크다운 리스트를 사용할 때 * 대신 하이픈 - 문자를 즐겨 선호한다거나, 결론부 단락에서 “결론적으로 요약하자면,” 이라는 판에 박힌 접속사를 사용하는 패턴)을 타겟 응답(Target Response)에서 발견하면, 실제 핵심 내용의 논리적 정확성이나 비즈니스 요구사항 부합도와는 무관하게 이를 ’수준 높고 세련된 고품질(High-quality) 응답’으로 심각하게 착각하는 것이다.

이는 인간 세상의 블랙박스인 회사 인사 고과 평가에서, 면접관이 자신과 억양이 비슷하거나 동일한 학연, 지연을 가진 신입 직원을 자신도 모르게 무의식적으로 고평가하여 채용하는 인간 본성의 ‘확증 편향(Confirmation Bias)’ 알고리즘과 수학적으로 100% 완벽하게 동일한 뉴럴 네트워크 메커니즘이다.

2. 블라인드 평가 제약을 무력화하는 무서운 문체적 지문(Stylistic Fingerprint)

자기 선호 편향이 CI/CD 파이프라인에서 가장 무섭고 까다로운 이유는, 프롬프트 엔지니어가 판사의 메타 프롬프트(Meta Prompt)에 *“절대 응답을 생성한 모델의 벤더 이름을 숨기고, 오직 렌더링된 텍스트 자체만으로 블라인드 테스트(Blind Test)를 엄격히 진행하라”*고 단호하게 명시하더라도 그 편향이 좀처럼 영구히 사라지지 않는다는 점이다.

언어 모델이 생성한 방대한 텍스트의 바다에는 인간의 눈에는 도저히 보이지 않는 고유의 **‘문체적 지문(Stylistic Fingerprint / Token Distribution)’**이 깊게 각인되어 있다. 초거대 파라미터를 가진 판사 모델은 프롬프트에 벤더 메타데이터(Metadata) 태그가 주어지지 않아도, 입력된 텍스트를 파싱(Parsing)하고 읽어 내려가는 순간 다음 토큰의 배열 확률값 추이만으로 *“아하, 이 글은 나와 완벽히 동일한 어텐션 계보를 가진 동족 우수 모델이 쓴 글이 분명하구나”*라고 런타임에 스스로 역추론하여 인지해버린다.

결과적으로, MLOps 리더팀이 타겟 AI 챗봇 모델의 성능 메트릭을 객관적으로 업그레이드하고 측정하기 위해, 판사 모델과 완전히 동일한 벤더(Vendor)의 모델을 단일 평가 시스템으로 채택할 경우, 평가 파이프라인 데이터베이스 전체가 **‘벤더 종속적인 자기 충족적 예언(Vendor-locked Self-fulfilling Prophecy)’**의 늪에 영원히 빠져버리게 된다.

3. 유일한 아키텍처 해법: 멀티 벤더 평가자 앙상블(Evaluator Ensemble) 파이프라인 구성

수준 높은 오라클 시스템 아키텍트는 이런 구조적이고 본태적인 편파 판정을 방어하기 위해 프로덕션 테스트 환경에서 ’지능의 독점 위험’을 결사코 피해야만 한다. 산업계 및 학계의 검증된 표준 편향 완화 전략 아키텍처는, 심판석에 1개의 단일 벤더 판사 모델만을 두지 않고, 출신 성분이 완전히 다른 이기종(Heterogeneous) 프론티어 LLM들을 병렬 결합한 ‘평가자 앙상블(Evaluator Ensemble)’ 파이프라인 네트워크를 백엔드에 구축하는 것이다.

가장 대표적이고 강력한 시스템 아키텍처는 ‘패널 오브 저지스(Panel of Judges / 심판 위원회)’ 패턴이다.

[이기종 병렬 호출]: 특정 PR의 새로운 텍스트 하나를 객관적으로 평가하기 위해, 모델 아키텍처와 인간 피드백(RLHF) 주입 철학이 완전히 상이한 3~5개의 최상위 프론티어 모델(예: OpenAI의 GPT-4o, Anthropic의 Claude 3.5 Sonnet, Google의 Gemini 1.5 Pro, Meta의 Llama-3 70B 등)을 파이썬 비동기 코드로 동시에 판사로 호출(Async Call)한다.
[잡음 벡터 상쇄(Noise Cancellation)]: 이때 이기종 심판석 중 일부 스레드의 개별 판사 모델 내에서 자신과 동족인 텍스트에 대한 ’자기 선호 편향’이 런타임에 국소적으로 발생하더라도, 전혀 다른 보상 함수를 까다롭게 가진 타사 벤더 모델들의 차가운 독립적 평가 점수에 의해 그 편향 잡음(Noise) 수치가 수학적으로 거세게 상쇄(Cancellation)된다.
[다수결 투표 병합]: 런타임 파이프라인이 최종적으로 이들 3~5개 앙상블 패널이 제출한 점수의 **평균 점수(Mean Score)를 내거나 다수결 합의(Majority Consensus Routing)**로 CI/CD 시스템 합격 통과 성능을 메타 측정하면, 단일 벤더의 통제된 생태계 우물에 갇혀 발생하는 편향성 부채를 수학적, 통계학적으로 완벽히 희석하고 가장 인간의 객관성에 근접한 공정하고 위대한 오라클(Ultimate Oracle)을 얻어낼 수 있다.