7.3.1 모호함을 제거하는 평가 가이드라인(Guidelines) 작성 원칙

판사 모델(Judge Model)에게 주입되는 시스템 프롬프트, 즉 평가 가이드라인은 자연어로 쓰인 **‘컴파일 가능한 코드’**와 동일한 위상을 지닌다. 일반적인 프롬프트 엔지니어링에서는 LLM의 창의성을 발현시키기 위해 어느 정도의 여백을 남겨주기도 하지만, 오라클 시스템을 위한 프롬프트에 ’모호함(Ambiguity)’이나 ’주관적 여백’이 존재한다는 것은 곧 테스트 코드에 if random() > 0.5: pass를 삽입하는 것과 같은 치명적인 결함이다.

결정론적인 평가 결과를 도출하기 위해 아키텍트가 준수해야 할 평가 가이드라인 작성 원칙은 다음과 같다.

1. 추상적 개념의 조작적 정의(Operational Definition)

가장 흔하게 범하는 실수는 “답변이 유용한가(Helpful)?”, “답변이 친절한가(Polite)?“와 같은 추상적인 형용사를 가이드라인에 그대로 사용하는 것이다. ’유용함’의 기준은 상황에 따라 다르기 때문에, 판사 모델은 매 호출마다 다른 채점 척도를 들이밀게 된다.

모든 추상적 형용사는 관측 가능하고 검증 가능한 ’조작적 정의’로 치환되어야 한다.

[Bad]: “답변이 사용자에게 충분히 유용한지 1~5점으로 평가하라.”
[Good]: “’유용성(Helpfulness)’이란 다음 세 가지 조건을 만족하는 상태를 뜻한다. 1) 사용자의 질문에 대한 ’직접적인 정답’이 첫 문장에 등장할 것. 2) 해결책을 제시할 때 반드시 3단계 이하의 Bullet Point(리스트) 형태를 취할 것. 3) 불필요한 사과나 변명구(“죄송하지만…”)를 포함하지 않을 것. 이 세 가지 점검표를 기준으로 평가하라.“

2. MECE(상호 배제 및 전체 포괄) 기반의 채점 척도 설계

점수를 부여하는 척도(Scale)의 각 단계는 수학적으로 서로 겹치지 않아야 하며(Mutually Exclusive), 발생 가능한 모든 엣지 케이스를 포함해야 한다(Collectively Exhaustive).

만약 3점이 “다소 부족한 답변”, 4점이 “꽤 훌륭한 답변“으로 묘사되어 있다면, 판사 모델은 3.5점짜리 답변을 마주했을 때 환각(Hallucination)에 빠지게 된다.

1점: 질문의 핵심 의도를 전혀 파악하지 못했거나, 사실과 다른 내용(Hallucination)이 1개 이상 존재함.
2점: 질문의 핵심 의도는 파악했으나, 사용자가 프롬프트에서 명시한 제약 조건(예: “영어로 작성하라”, “100자 이내로 작성하라”) 중 1개 이상을 위반함.
3점: 질문의 핵심 의도를 파악하고 제약 조건을 모두 지켰으나, 제공된 해결책의 논리적 비약이 존재하거나 실행 불가능함.
4점: 질문, 제약 조건, 논리적 실행 가능성을 모두 온전하게 충족함.

이처럼 각 점수의 경계선(Threshold)이 물리적인 트리거 조건(예: ‘제약 조건 위반 여부’)으로 나뉘어 있어야만, 판사 언어 모델은 매번 동일한 논리 회로를 밟아 동일한 점수를 반환하게 된다.

3. 엣지 케이스(Edge Case)에 대한 안전 장치 강제

사용자가 입력한 프롬프트가 의미 없는 문자열(예: asdfasdf)이거나, 윤리적 필터에 무조건 걸려야 하는 프롬프트인 경우가 있다. 이때 판사 모델이 “사용자의 질문이 명확하지 않아 평가할 수 없다“며 임의의 자연어로 에러를 뿜어내게 두어서는 안 된다.

가이드라인 하단에는 항상 다음과 같은 ‘예외 처리(Exception Handling)’ 블록이 명시되어야 한다.

[예외 처리 규칙]
- 만약 평가 대상 문장이 해독 불가능한 기계어이거나 욕설인 경우, 평가를 중단하고 무조건 {"score": 0, "rationale": "INVALID_INPUT"} 포맷을 반환하라.
- 만약 타겟 시스템이 정책에 의해 "대답할 수 없습니다"라고 안전하게 거절(Refusal)을 수행한 경우, 이를 오답이 아닌 정상 방어로 간주하여 {"score": 5, "rationale": "VALID_REFUSAL"} 포맷을 반환하라.

결론적으로, 하이브리드 오라클의 루브릭 설계는 ’글쓰기’가 아니라 엄격한 **‘도메인 특화 언어(DSL, Domain-Specific Language) 코딩’**이다. 모호함이 1% 줄어들 때마다 CI/CD 파이프라인의 회귀 테스트 신뢰도는 10%씩 상승한다.