16.5.1. 오라클 자체의 오류 가능성(Who watches the watchmen?)

16.5.1. 오라클 자체의 오류 가능성(Who watches the watchmen?)

소프트웨어 시스템에 검증 계층을 추가할 때 마주하는 가장 근원적이고 철학적인 난제는 고대 로마의 시인 유베날리스(Juvenal)가 남긴 경구, **“누가 감시자를 감시할 것인가(Quis custodiet ipsos custodes?)?”**로 귀결된다.

우리는 파운데이션 모델의 결함을 걸러내기 위해 오라클을 세웠지만, 그 오라클 또한 완벽하지 않은 인간이 작성한 코드이거나 결함 있는 또 다른 인공지능 모델이다. 오라클 스스로가 치명적인 오판(Misjudgment)을 내리는 상황은, 방어자가 배신자로 돌변하는 시스템 구축의 최대 리스크(Risk)이다.

1. 하드 코딩(Hard-coding)된 오라클의 버그와 사각지대

Layer 2(JSON 스키마)나 Layer 3(정규식 및 구문 분석)와 같이 결정론적인 룰 베이스(Rule-base)로 작성된 오라클은 AI의 무작위성(Stochasticity)을 통제하는 강력한 무기지만, **오라클의 코드 자체에 내재된 버그(Bug)**는 그 통제력을 일거에 무너뜨린다.

  • 정규식의 오작동: 이메일 형식을 추출하는 정규식 오라클이 최신 도메인 체계나 복잡한 국가 코드 형식을 누락하여 작성되었다면, AI가 아무리 완벽한 이메일 주소를 생성하더라도 오라클은 이를 ’오답’으로 기각(Reject)하고 무한 재시도(Retry) 루프를 발생시킨다.
  • 스키마 설계의 경직성: Pydantic 스키마가 필드의 범위를 너무 좁게 설정하면, 모델이 창의적이고 타당한 정답을 내놓더라도 유효성 검사에서 탈락하는 거짓 양성(False Positive) 문제가 폭증한다. 결국 오라클의 결함으로 인해 시스템 전체의 응답 성공률(Success Rate)이 급감하는 기현상이 벌어진다.

2. LLM-as-a-Judge의 인지적 편향과 환각

가장 심각한 문제는 또 다른 파운데이션 모델을 심판관으로 사용하는 Layer 5(LLM-as-a-Judge) 오라클에서 발생한다. ’감시자’로 등용된 모델마저 본질적으로 비결정적이기 때문이다.

  • 자기 편향(Self-Enhancement Bias): GPT-4를 평가 모델로 사용할 경우, Llama나 Claude가 생성한 훌륭한 응답보다 GPT-3.5가 생성한 상대적으로 열등한 응답에 더 높은 점수를 주는 경향성(자신과 유사한 토큰 분포를 선호하는 현상)이 학계에 여러 차례 보고된 바 있다.
  • 위치 편향(Position Bias): 두 개의 응답(A, B)을 주고 비교 평가(Pairwise Comparison)를 지시할 때, 평가용 모델은 질의응답의 순서에 따라 ‘먼저 본 응답’ 또는 ’나중에 본 응답’을 무조건적으로 선호하는 인지적 착시를 일으킬 수 있다.
  • 심판관의 환각(Judge’s Hallucination): 피평가 모델의 응답에 문제가 전혀 없음에도 불구하고, 심판관 역할을 하는 모델이 존재하지 않는 규정을 지어내어(Hallucination) 응답을 가혹하게 기각하는 사태가 유발될 수 있다.

3. 극복 방안: 메타 검증(Meta-Validation)과 다수결(Majority Vote)

오라클의 오류 가능성을 완화하기 위해서는 오라클 위상을 의심하고 검증하는 메타 검증 프로세스가 필수적이다.

  1. 오라클에 대한 유닛 테스트(Unit Testing the Oracle): 오라클의 정적 코드(Layer 2, 3)가 완성되면, 이 오라클 기능 자체를 검증하기 위한 역방향 테스트 코드를 작성하라. 고의로 망가뜨린 데이터(Negative Dataset)와 완벽한 정답 데이터(Positive Dataset)를 오라클에 통과시켜 판정의 정확도(Accuracy)를 측정해야 한다.
  2. 앙상블 심판관(Ensemble of Judges): LLM-as-a-Judge의 편향을 방지하기 위해 단일 모델에 평가를 독점시키지 마라. GPT-4, Claude 3.5 Sonnet, Gemini 1.5 Pro 등 서로 다른 아키텍처와 가중치를 가진 모델들을 병렬로 배치한 후, 다수결 지표(Majority Voting)나 교차 검증(Cross-Validation) 합의 알고리즘을 도입하여 1차 심판관의 인지적 환각을 통제해야 한다.

오라클은 신(God)이 아니며, 엔지니어링의 산물일 뿐이다. “감시자를 감시하는” 유일한 방법은 감시자들의 권력을 분산하고, 이들의 판별 로직을 지속적으로 자가 테스트(Self-Test)하는 다원화된 메타 방어 아키텍처를 구축하는 것뿐이다.