10.2 데이터셋 유형별 구축 전략과 오라클 매핑
성공적이고 신뢰성 높은 골든 데이터셋(Golden Dataset) 구축의 핵심은, 애플리케이션의 비즈니스 목적과 LLM이 수행해야 하는 태스크(Task)의 본질에 따라 데이터셋의 유형을 식별하고, 각 유형에 수학적/논리적으로 완벽하게 들어맞는 최적의 결정론적 오라클(Deterministic Oracle)을 정밀하게 매핑(Mapping)하는 데 있다. 단일 정답을 기대하는 정형 데이터 추출 태스크에 다중 턴 구조의 대화형 데이터셋과 모호성을 내포한 LLM-as-a-Judge 오라클을 결합하는 것은 아키텍처적 결함(Architectural Flaw)이자 리소스 낭비이다.
본 단원에서는 골든 데이터셋을 5가지의 엔터프라이즈 핵심 프레임워크 유형으로 분류하고, 각각의 데이터셋을 구축하기 위한 엔지니어링 전략과 이에 결합되어야 할 파이프라인 오라클의 모형을 명확히 규명한다.
1. 단일 정답형 (Single-Turn Exact Match) 데이터셋
가장 기초적이면서도 검증의 신뢰도(Confidence Level)가 100%에 수렴하는 통제된 데이터셋이다. 주로 사실 관계 정보 추출(Fact Extraction), 규칙 기반의 수학적 계산, 또는 정해진 객체명 인식(NER, Named Entity Recognition) 태스크에 활용된다.
- 구축 전략: 입력(Input) 프롬프트와 철저하게 고정된 문자열 또는 숫자형 출력(Expected Output)의 엄격한 1:1 쌍으로 구성된다. 자연어의 창의성이 배제되어야 하므로, 도메인 전문가(Domain Expert)가 직접 개입하여 맥락적 모호성을 완전히 제거한 정답을 하드코딩(Hardcoding) 수준으로 작성해야 한다.
- 오라클 매핑:
- 정규화 기반 완전 일치(Normalized Exact Match) 오라클: 생성된 텍스트의 끝단 잉여 공백(Trailing Whitespace) 제거 및 대소문자 정규화(Case-folding) 전처리를 거친 후,
output == expected_output을 판별하는 가장 가벼운 O(1) 컴퓨팅 복잡도의 오라클이 매핑된다. - 정규표현식(Regex) 체커: 이메일, 주민등록번호, 또는 통화(Currency 금액) 등 엄격한 패턴 구조를 지닌 답변의 경우, 정답의 구조 자체를 오라클의 탐지식으로 편입시킨다.
2. 다중 턴 대화형 (Multi-Turn Conversational) 데이터셋
서비스 상용화 AI 챗봇이나 자율 에이전트(Autonomous Agent) 시스템의 상태 추적(State Tracking) 및 장기 문맥 유지(Context Retention) 능력을 누적하여 평가하기 위한 데이터셋이다. 사용자의 여러 단계에 걸친 지시를 챗봇이 어떻게 누적하여 해석하는지 시계열적으로 검증한다.
- 구축 전략: 단순한 Input-Output 쌍의 나열을 넘어,
[User_T1, Assistant_T1, User_T2, Expected_Assistant_T2]와 같이 타임라인과 의존성이 존재하는 어레이(Array) 히스토리 형태로 구축된다. 특히, 특정 턴(Turn)에서 시스템 프롬프트(System Prompt)가 지시한 제약 규칙이 세션 후반부에 망각(Catastrophic Forgetting)되지 않았는지 확인하기 위해, 의도적으로 유도성(Leading) 우회 질문을 중간에 삽입한 적대적 대화 이력을 설계해야 한다. - 오라클 매핑:
- 상태 전이(State Transition) 모니터링 오라클: 대화의 특정 턴에서 데이터베이스의 레코드 상태나 에이전트의 내부 변수(Slot) 값이 원하던 대로 변경되었는지 메모리 상에서 확인하는 상태 기반 오라클과 결합된다.
- LLM-as-a-Judge 앙상블 시스템: 대화의 자연스러움, 맥락 호응도, 페르소나(Persona) 유지 여부 등은 기계적인 코드 수준의 오라클로 판단하기가 불가능에 가까우므로, 7장에서 살펴본 루브릭(Rubric) 기반 메타 프롬프팅으로 무장한 판사 모델(Judge LLM)을 하이브리드 오라클로 편입시켜 앙상블로 판정한다.
3. 구조화된 출력 (Structured Output) 데이터셋
LLM의 비정형 텍스트 생성 응답을 파싱(Parsing)하여 애플리케이션의 백엔드 트랜잭션, 마이크로서비스 간의 API 페이로드(Payload), 또는 관계형 데이터베이스 삽입(Insert) 로직으로 직접 파이프라이닝해야 할 때 기준이 되는 데이터셋이다.
- 구축 전략: 기대되는 정답(Ground Truth)의 형태가 파편화된 자연어 텍스트가 아닌 JSON, XML, 또는 YAML과 같은 엄격한 위계형 머신-리더블(Machine-readable) 데이터 구조체 변수로 정의된다. 데이터셋 명세 자체에 각 필드(Key)의 데이터 타입, 필수 속성 여부(Requirement), 배열의 길이 한도 등 프로퍼티 제약(Property Constraints) 정보가 선언적으로 포함되어 구축되어야 한다.
- 오라클 매핑:
- JSON Schema / Pydantic Validator 오라클: 응답의 특정 Key 누락 여부나, Value의 타입 브로큰(Type Broken) 현상을 런타임에 즉각 뱉어내는 스키마 검증기(Schema Validator)가 1차 관문의 구문 분별 오라클 역할을 전담 수행한다.
- 이 데이터 포맷의 정합성 검증 계층을 오류 없이 통과해야만, 2차적으로 값(Value) 자체의 내용에 대한 Exact Match나 유사도(Similarity) 로직 검증으로 통과시키는 다단 계층 오라클(Multi-tier Oracle) 매핑이 필수적이다.
4. 실행 기반 (Execution-Based) 데이터셋
AI가 뱉어낸 문자열(코드나 쿼리문 그 자체)이 아니라, 그 코드 텍스트를 파싱하여 컴파일러 및 해석 엔진에 올려 실행(Execution)했을 때의 **‘결과적인 행위(Resultant Behavior)’**를 역산하여 검증하기 위한 동적인 데이터셋이다. NL2SQL 변환기 제어나, 파이썬 스크립트 기반 데이터 분석 AI 등에 핵심적으로 적용된다.
- 구축 전략: 데이터셋에는 AI가 작성할 정답 코드의 문자열(String) 타입 원형이 들어있지 않다. 대신, 모델이 생성될 해당 코드를 격리된 환경(Sandbox)에서 실행시켰을 때 반환되어야 할 데이터베이스의 최종 상태(SQL Result Set)나 산술 연산의 결과(출력 콘솔 로그 또는 Output Tensor Array)가 유일한 기대 정답지 형태로 기록되어야 한다.
- 오라클 매핑:
- 컴파일러 및 샌드박스(Sandbox) 오라클: 모델이 생성한 코드 텍스트를 안전한 격리 컨테이너(Docker WebAssembly 환경) 내에 주입(Inject)하여 런타임에 실행시키고, 그 코드가 발생시킨 리턴값(Return Value), 메모리 점유율, 혹은 에러 코드 리턴 상태(예: Exit Code 0) 자체의 무결성을 판정하는 런타임 환경 오라클과 곧바로 매핑된다. (9장 및 12장 참조)
5. 부정적 제약 (Negative Constraints) 데이터셋
주로 AI 시스템의 안전 가드레일(Safety Guardrail) 작동 여부와 프롬프트 인젝션(Prompt Injection) 등의 악의적인 보안 우회 공격에 대한 회귀 테스트를 검증하기 위한 통렬한 ‘오답 유도 노트’ 형태의 모의 해킹 데이터셋이다.
- 구축 전략: AI가 “절대로 내놓아서는 안 될” 결과물, 혹은 철저히 회피해야만 하는 윤리적 위배 시나리오들의 집합이다. PII(개인식별정보) 추출 유도, 데이터베이스 Drop 권한 탈취 시도, 환각을 고의로 유도하는 교묘한 거짓 전제 수학 문제 등을 시스템 Input 프롬프트로 설정한다. 이 유형의 정답은 단지 해당 위협을 모델이 탐지하고, “시스템 내부 규정 상 해당 질문에는 답변할 수 없습니다“라는 의도된 거절(Intentional Refusal) 시스템 락(Lock)을 올바르게 수행했는가로 측정된다.
- 오라클 매핑:
- 차단 목록(Blocklist) 및 보안 YARA 룰셋 오라클: 타겟 모델이 생성한 응답 텍스트 영역 내에 사내 금칙어, 주민등록번호 정규식, 특정 회사 내부망 IP 주소 등이 1 Token이라도 유출되어 포함되어 있는지를 스캔하는 결정론적 결격 사유 검토 머신(Policy Validation Engine)과 연결된다.
태스크의 고유한 성격을 맹목적으로 간과한 채, 획일적인 데이터셋 레이아웃에 단일 종류의 오라클만을 무분별하게 의존하는 시스템 파이프라인은 금세 기술 부채의 늪에 침수되거나 회귀 테스트의 수많은 거짓 양성(False Positive) 알림 폭탄으로 인해 소프트웨어 품질 관리(QA) 조직을 피로의 한계까지 몰아넣는다. 따라서 해결해야 할 비즈니스 문제 유형별로 데이터셋의 구조적 특성을 파악하고, 이에 가장 잘게 맞아떨어지는 최적의 오라클 검문소를 선임하여 매핑(Mapping)해 놓는 파이프라인 아키텍처링 설계야말로, 흔들림 없는 안정적인 AI 프로덕트를 향한 첫 번째이자 가장 거룩한 징벌적 투자가 될 것이다.