3.7.4 유지보수가 불가능한 거대 정답지(Monolithic Ground Truth) 구축
인공지능 소프트웨어 검증 파이프라인을 처음 설계하는 팀이 가장 빈번하게 저지르는 거대한 안티 패턴(Anti-Pattern)은, 시스템의 모든 지식과 테스트 조건을 단 하나의 비대한 파일이나 단일 데이터베이스 테이블에 몰아넣는 ’거대 정답지(Monolithic Ground Truth)’를 구축하는 행위다.
소프트웨어 공학에서 ’단일 구조(Monolith)’가 주는 직관적 편안함은 달콤하지만, 비결정성(Nondeterminism)을 다루는 AI 생태계에서 거대한 정답지는 필연적으로 유지보수의 악몽으로 변질된다.
1. 거대 정답지의 폭발 반경(Blast Radius)과 결합도(Coupling)의 문제
거대 정답지 패턴은 애플리케이션의 모든 검증 요건—사실 기반 데이터(Fact), 논리 연산 공식(Logic), 예외 처리 규칙(Edge Case), 톤앤매너(Tone & Manner) 가이드라인—들을 수만 줄에 달하는 단일 JSON 스키마나 엑셀 파일 하나에 하드코딩(Hard-coding)하여 오라클에게 주입하는 방식이다.
이러한 모놀리식 구조는 소프트웨어 공학의 대원칙인 ’관심사의 분리(Separation of Concerns)’를 철저히 위반한다.
- 문제점: 비즈니스 부서에서 “A 상품의 금리 계산 공식을 변경해달라“는 아주 작은 요구사항(요건 변경)을 전달했을 뿐인데, 엔지니어는 5만 줄짜리 거대 정답지 파일을 열고 다른 무관한 텍스트 검증 규칙들이 오염되지 않았는지 전수 검사를 해야 한다. 단 하나의 사실(Fact)이 변경되었음에도 전체 테스트 스위트의 빌드(Build) 파이프라인이 마비되는, 이른바 폭발 반경(Blast Radius)의 극대화가 발생한다.
2. 모듈화된 계층형 정답지(Modular & Tiered Ground Truth)로의 전환
오라클이 수천 개의 엣지 케이스를 효율적으로 방어하기 위해서는, 정답지 데이터를 마이크로서비스 아키텍처(MSA)처럼 작고 독립적인 생명주기를 가진 모듈로 분안(Decoupling)해야 한다.
성공적인 오라클 파이프라인은 정답지를 다음과 같이 논리적 계층(Tier)으로 분리하여 관리한다.
- Fact Registry (사실 레지스트리): 제품, 가격, 날짜 등 변동성이 높은 동적 데이터만 모아둔 모듈형 저장소다. 이 레지스트리는 외부 데이터베이스(MDM)와 실시간으로 동기화되어야 하며, 오라클은 런타임에 이 값을 역참조(Pointer Dereferencing)하여 사용한다.
- Logic & Rule Constraints (규칙 제약 조건): 사칙연산 규칙, 필수 키워드 포함 규칙, JSON 스키마 구조 등 알고리즘적인 채점 기준(Rubric)을 코드로 정의한 계층이다.
- Behavioral Golden Dataset (행위 기반 테스트셋): “악의적 프롬프트에는 REFUSAL을 응답한다“와 같은 AI의 고정된 페르소나 및 보안 행위(Behavior)를 검증하는 불변(Immutable)의 테스트 셋이다.
3. 선언적 조합(Declarative Composition)을 통한 오라클 검증
정답지를 각자의 수명(Lifespan)을 가진 작은 모듈 단위로 쪼개어 형상 관리(VCS)하게 되면, 오라클에 쿼리를 던지는 검증 코드는 매우 우아한 선언적 조합(Declarative Composition)의 형태를 띠게 된다.
하나의 테스트 케이스를 실행할 때, 오라클은 거대 파일을 통째로 메모리에 올리는 대신 **“Fact Registry의 v4.1 버전 데이터”**와 **“Rule Constraints의 ‘대출 심사’ 정책 모듈”**을 동적으로 주입받아 조립한 뒤 평가를 수행한다.
결과적으로, 유지보수 가능한 정답지의 핵심은 ’데이터의 양’이 아니라 ’격리된 구조(Isolated Structure)’에 있다. 모든 것을 통제하려는 비대한 단일 정답지는 작은 비즈니스의 변화 앞에서도 테스트 취성(Test Brittleness)을 일으키며 산산조각 나게 됨을 오라클 아키텍트는 명심해야 한다.