15.8.5. 도메인 전문가(SME)의 테스트 결과 검수 및 오라클 보정 참여 프로세스

AI 소프트웨어의 개발 과정에서 ’정답(Ground Truth)’을 정의하는 권한은 파생적인 공학적 지식을 가진 엔지니어가 아니라, 해당 비즈니스의 본질을 꿰뚫고 있는 도메인 전문가(Subject Matter Expert, SME)에게서 나와야 한다. 의료 진단 AI의 오라클은 의사가 서명(Sign-off)해야 하며, 법률 자문 챗봇의 골든 데이터셋(Golden Dataset)은 변호사가 감수해야 한다.

문제는 SME들이 Git, CI/CD 파이프라인, JSON Schema와 같은 공학적 매개체에 심대한 장벽을 시각적, 심리적으로 느낀다는 점이다. 엔지니어와 SME 사이의 소통 병목을 방치하면 오라클은 현장의 실제 비즈니스 로직과 영구적으로 괴리된다. 따라서 조직은 SME가 코드베이스를 직접 건드리지 않고도 오라클의 기준선을 조율할 수 있는 **‘비개발자 중심의 오라클 거버넌스 파이프라인(Non-Developer Friendly Governance Pipeline)’**을 구축해야 한다.

1. SME 피드백 루프 구축 (Feedback Loop)

가장 이상적인 구조는 테스트가 실패하거나 모델의 응답이 모호할 때, 그 실패 결과(Failure Trace)가 SME가 일상적으로 사용하는 협업 툴(e.g., Jira, Slack, 내부 특화 대시보드)로 자동 배달되는 것이다.

graph TD
    A[CI 파이프라인: LLM-as-a-Judge 오라클 평가] --> B{결과 판별}
    
    B -->|Pass| C[배포 진행]
    B -->|Fail 발생| D[Failure Trace 추출: Input, Actual, Expected]
    
    D --> E[SME 친화적 Web Dashboard / Slack 봇으로 전송]
    
    E --> F{도메인 전문가 SME 의사결정}
    
    F -->|1. 버그 승인| G["'AI 모델의 오답이 맞습니다.' <br/> -> 개발팀에 이슈 할당"]
    F -->|2. 오라클 정답 갱신| H["'의도된 응답입니다. 예전 정답지가 낡았습니다.' <br/> -> Golden Dataset Update"]
    F -->|3. 조건 완화 지시| I["'정답에 없지만, 이 정도 변형은 허용해야 합니다.' <br/> -> Oracle Prompt 재작성 지시"]
    
    G & H & I -.->|Webhook| J[Git 저장소 프롬프트/데이터 자동 반영]
    
    style E fill:#e3f2fd,stroke:#2196f3
    style F fill:#fff3e0,stroke:#ff9800

위 다이어그램에서 보듯, SME는 콘솔 로그를 뒤지는 대신 웹 UI 버튼 클릭을 통해 “모델이 틀린 것인지(버그)”, 아니면 “오라클 채점표가 시대착오적인 것인지(오라클 부채)“를 판단하는 판관의 판관(Meta-Judge) 역할을 수행한다.

2. 평가 기준 구체화 (Elicitation of Rationale)

SME가 오라클을 갱신할 때 단순히 “이응답이 맞다(Accept)“라는 이진법적 피드백만을 남기게 해서는 안 된다. 시스템은 SME에게 **“왜 이 응답을 정답으로 수용해야 하는가?”**에 대한 인간의 논리(Human Rationale)를 의무적으로 서술하도록 요구해야 한다.

지식의 문서화: SME가 입력한 텍스트 “이 질문의 맥락에서 고객의 취소 수수료 징수는 면제되는 것이 현행 법규에 부합함“은 단순히 이번 테스트를 통과시키는 명분이 아니라, 차기 LLM-as-a-Judge의 프롬프트 개선을 위한 핵심 프롬프트 조각(Few-shot Example)으로 자동 편입된다.
모호성 지수의 측정: 여러 명의 SME가 동일한 모델 응답을 두고 이견을 보이는 경우, 이 평가 항목은 ’합의되지 않은 도메인 정책’으로 플래깅(Flagging)되어 기획 부서로 환원되어야 한다.

3. Human-In-The-Loop(HITL)의 제도화

SME의 참여는 일회성 부업이 아니라 철저하게 KPI로 측정되는 본업이어야 한다. 주간 혹은 스프린트 단위로 ’테스트 판결 위원회(Triage Meeting)’를 열어라. 이 회의에서는 자동화된 오라클이 처리하지 못한 회색 지대(Gray Area)의 케이스 50건을 올려놓고, 프롬프트 엔지니어와 SME가 대면하여 허용 범위의 마지노선을 펜 긋듯 조율해야 한다.

4. 소결

거대 언어 모델이 만들어 내는 환각과 편향을 최종적으로 제압하는 무기는 파라미터의 수가 아니라, 현업 도메인 전문가들이 쌓아 올린 굳건한 비즈니스 룰이다. 이 지식의 권위자(SME)들을 복잡한 공학의 장벽 뒤편에 방치하지 마라. 그들에게 쉽고 명료한 직관적 인터페이스를 쥐여주고, 모델의 응답과 오라클의 기준선을 양측에서 재단하는 사령관의 자리에 앉혀야 한다. 도메인 지식이 곧장 테스트 코드로 치환되는 매끄러운 송수관(Pipeline), 그것이 곧 AI 기업의 가장 압도적인 해자(Moat)가 될 것이다.