5.2 결정론적 오라클(Deterministic Oracle) 구현을 위한 검증 전략

소프트웨어 테스트의 본질은 기대 결과(Expected Response)와 실제 결과(Actual Response)를 기계적으로 대조하여 통과(Pass) 혹은 실패(Fail)라는 이분법적 판결을 내리는 행위다.

그러나 매 호출마다 답변의 조사, 어투, 심지어 논리 전개 순서마저 미세하게 뒤틀리는 거대 언어 모델(LLM) 환경에서 1:1 바이트 비교(Byte-for-byte comparison) 방식의 고전적 오라클(Classical Oracle)은 도입 첫날부터 무수한 ‘가짜 실패(Flaky Failure)’ 알람을 울려대며 개발팀의 피로도를 극에 달하게 만든다.

AI 소프트웨어 검증의 핵심은 비결정적 출력(Nondeterministic Output)의 범람 속에서 어떻게든 ’절대 굽히지 않는 결정론적 평가 기준(Deterministic Oracle)’의 말뚝을 박는 데 있다. 본 절에서는 예측 불가능한 AI 응답을 멱등성(Idempotence)을 지닌 단단한 테스트 케이스로 묶어내는 실질적인 엔지니어링 전략들을 고찰한다.

1. 형태(Form)의 구속: 파라미터 제어를 통한 무작위성 박탈

가장 선행되어야 할 방어선은 모델 자체가 생산해내는 엔트로피(Entropy)를 물리적으로 차단하는 것이다. 테스트 환경(Test Environment)에서는 프로덕션(Production)과 달리 그 어떠한 창의성도 허락되어서는 안 된다.

개발자는 LLM API 호출 래퍼(Wrapper) 계층에서 테스트 모드 여부를 감지하고, 테스트 실행 시에는 이하의 하이퍼파라미터 변경을 강제로 주입해야 한다.

Temperature = 0.0: 탐욕적 탐색(Greedy Search)을 강제하여 항상 가장 높은 확률의 단일 토큰 경로만 채택하게 만든다.
Top-P = 0.1 이하: 예측 불가능한 꼬리표(Tail) 어휘의 등장 가능성을 원천 봉쇄한다.
Seed = 특정 정수: API가 난수 발생 시드 고정을 지원할 경우(예: OpenAI API), 이를 고정하여 하드웨어 클러스터링 단에서 기인하는 동요를 최소화한다.

이러한 매개변수의 물리적 제어 없이는, 이후 소개할 어떠한 단언문(Assert) 로직도 모래 위에 지은 성일 뿐이다.

2. 응답의 구조화: JSON Schema와 강제 파싱(Forced Parsing) 파이프라인

단위 테스트가 가장 잘 다룰 수 있는 데이터 타입은 모호한 자연어가 아니라, 명확한 키-값(Key-Value) 구조가 정의된 프로그래밍 언어의 딕셔너리(Dictionary)나 객체(Object)다.

오라클 시스템은 LLM에게 자연어 서술형 응답을 요구하는 프롬프트를 전면 금지하고, 대신 엄격하게 정의된 JSON 구문을 토해내도록 프롬프팅 구조를 전면 개조해야 한다. 최근의 모델들이 지원하는 response_format={{ "type": "json_object" }} 속성이나 강제 구조화 출력(Structured Outputs) 기능을 단위 테스트 파이프라인의 필수 전제 조건으로 삼아라.

이러한 구조화를 거치면 테스트 프레임워크상의 Assert 구문은 극도로 명쾌해진다.

# 기존의 실패하기 쉬운 모호한 텍스트 검사
# assert "긍정" in llm_response.text

# 구조화 응답을 적용한 결정론적 유닛 테스트
response_json = parse_json(llm_response)
assert response_json["sentiment"] == "POSITIVE"
assert response_json["confidence_score"] > 0.8
assert isinstance(response_json["extracted_keywords"], list)

이 패턴은 평가의 대상(Target)을 ’텍스트의 문맥 파악’이라는 인지적 영역에서, ’데이터 구조의 일치 여부’라는 전통적인 소프트웨어 공학의 영역으로 완벽하게 치환(Shift)해낸다.

3. 핵심(Core) 정보 추출을 통한 부분 검열 전략

답변 전체를 문자열로 비교하는 짓은 어리석다(String Exact Match is Death). AI가 만들어내는 장황한 인사말, 접속사, 부사구의 향연 속에서 우리가 진정 검증해야 할 비즈니스 코어(Business Core) 데이터만을 핀셋처럼 뽑아내는 정규표현식(Regex) 체인이나 의미 추출기(Semantic Extractor)가 오라클의 엔진 자리를 차지해야 한다.

테스트 로직은 답변의 외곽(Shell)은 과감하게 무시하되, 본질적인 식별자나 조건문 충족 여부만을 검열해야 한다.

포함 여부 검사 (Inclusion Check): “사용자 삭제” 요청 시 응답 내에 특정 API 엔드포인트 경로(DELETE /v1/users/)가 포함되어 있는가?
배제 여부 검사 (Exclusion Check): PII(개인 식별 정보) 제거 프롬프트 테스트 시, 응답 텍스트에 13자리 이메일 및 주민등록번호 패턴이 철저히 부재(Absent)하는가?
경계값 조건 (Boundary Condition): 반환된 요약문의 물리적 길이가 제한 토큰 수를 넘어서지 않는가?

이처럼 결정론적 오라클은 AI의 모든 말을 듣고 평가하는 전지전능한 심판관이 아니라, 오직 사전에 합의된 치명적 결함(Fatal Flaw) 리스트만을 탐색하는 무자비한 기계 검열관으로 설계되어야만 CI/CD 환경에서 견고한 자동화의 축으로 살아남을 수 있다.