14.7.3 오라클 검증 로직의 재학습 및 업데이트 자동화

14.7.3 오라클 검증 로직의 재학습 및 업데이트 자동화

골든 데이터셋이 매일 100건씩 새롭게 채워진다 하더라도, 정작 그 시험지를 들고 채점해야 할 오라클의 두뇌가 1년 전의 로직(Logic)에 머물러 있다면 아무런 소용이 없다. 컨셉 드리프트(Concept Drift)로 인해 세상의 상식이 변했다면, 메인 AI 모델을 파인튜닝(Fine-tuning)하기 전에 ’심판관(Oracle)의 잣대’부터 먼저 시대에 맞게 업데이트되어야만 한다.

14.7.3절에서는 파이프라인 안에서 하드코딩(Hard-coding)된 채점 스크립트가 아닌, 끊임없이 공급되는 신규 골든 데이터셋을 바탕으로 ’스스로 채점 기준을 파인튜닝하는 자가 진화형 오라클’의 아키텍처를 설계한다.

1. 프롬프트 기반 오라클(LLM-as-a-Judge)의 메타 프롬프트 업데이트

만약 오라클이 LLM 기반의 심사관(LLM-as-a-Judge)으로 구현되어 있다면, 이 심사관의 성능은 전적으로 ‘채점 기준표(Rubric)’ 역할을 하는 시스템 프롬프트(System Prompt)의 정교함에 달려있다.

  • [Few-Shot 예제 자동 교체]: 14.7.2절에서 인간 전문가가 새롭게 승인한 “만 34세 청년 적금 엣지 케이스“가 1건 추가되었다. CI 파이프라인의 오라클 봇(Bot)은 이 1건을 데이터베이스에서 즉시 추출하여, 기존 오라클의 채점 스크립트 안에 들어있던 오래된 Few-Shot Example 1개를 삭제하고 오늘 자 엣지 케이스로 교체(Swap) 해버린다.
  • [ DSPy 기반의 오라클 프롬프트 컴파일링]: 더욱 최첨단의 환경에서는 스탠퍼드 딥러닝 연구소에서 고안한 DSPy와 같은 프레임워크를 도입한다. 새로운 골든 데이터셋 100건이 시스템에 던져지는 순간, DSPy 컴파일러는 인간이 작성한 허술한 오라클 프롬프트를 버리고, 새로 들어온 100건을 가장 완벽하게 100% 감식해 낼 수 있는 ’수학적으로 최적화된 새로운 심판관 프롬프트’를 스스로 탐색(Search)해내어 오라클의 뇌를 갈아 끼운다.

2. 코드 기반 결정론적 오라클의 파라미터 재학습

LLM이 아닌, Scikit-learn이나 결정 트리(Decision Tree) 기반의 경량화된 머신러닝 오라클, 혹은 정규표현식(Regex) 기반의 룰 엔진이라면 파라미터 업데이트의 영역으로 진입해야 한다.

  1. [정규식 / 임곗값 자동 튜닝]: 오라클이 특정 텍스트를 “유해하다“라고 판단하는 임계값(Threshold)이 기존 0.85였다고 가정하자. 그런데 최근 운영 로그에서 0.82~0.84 구간에 치명적인 할루시네이션이 대거 집단 서식하고 있음이 클러스터링을 통해 밝혀졌다. 오라클 학습 파이프라인은 이 통계를 바탕으로 자신의 차단 임계값을 0.82로 자동으로 하향 튜닝(Tuning)하는 Pull Request를 생성한다.
  2. [분류기(Classifier) 재학습]: 만약 NLI(자연어 추론) 분류기를 팩트 체크 오라클로 사용 중이라면, 새롭게 쏟아진 수천 건의 “인간이 판정한 정답/오답 쌍(Human-Annotated Pairs)“을 훈련 데이터로 삼아 NLI 모델을 백그라운드 GPU에서 주 1회 조용히 파인튜닝(Fine-Tuning)한다.

3. 오라클 버전 관리와 A/B 채점(Shadowing)

오라클의 채점 로직이나 프롬프트가 업데이트되었다고 해서, 이를 즉시 막무가내로 메인 파이프라인에 꽂아 넣을 수는 없다. 심판관이 미쳐버리면 전체 서비스가 셧다운(Shut-down)되기 때문이다.

  • 오라클 레지스트리 (Oracle Registry): 업데이트된 오라클은 Oracle-v2.1이라는 명확한 태그를 달고 DVC(Data Version Control) 혹은 MLflow에 저장된다.
  • 다중 심판 섀도잉 (Multi-Judge Shadowing): 현재 라이브 트래픽은 계속해서 구형 Oracle-v2.0이 채점하게 둔 체, 신형 Oracle-v2.1을 백그라운드 섀도우 큐에 올려 똑같은 트랜잭션을 병렬로 채점하게 둔다. 만약 신형 오라클이 구형보다 엣지 케이스를 훨씬 정교하게(Recall 상승) 잡아내면서도 정상적인 트래픽을 오진(False Positive 감소)하지 않는다는 지표가 24시간 동안 완벽히 증명될 때 비로소 심판석의 자리가 교체된다.