12.3.1 질문-SQL 쌍(Pair) 데이터셋의 구조 설계
Text-to-SQL(NL2SQL) 에이전트를 위한 가장 효과적인 벤치마크(Benchmark)를 가동하기 위해서는, 오라클의 평가 프레임워크가 런타임에 즉각적으로 파싱(Parsing)하여 읽어내고 실행 모터(Motor)에 주입할 수 있는 고도로 형상화되고 구조화된(Structured) 데이터셋 스키마 설계가 선행되어야 한다.
과거 인간의 자연어 읽기 능력을 테스트하기 위해 만들었던 SQuAD나 GLUE와 같이 단순 텍스트 줄글 형태의 데이터로는, 이 거칠고 무거운 실행 기반 오라클(Execution-based Oracle) 인프라를 결코 가동할 수 없다. 최고 수준의 엔터프라이즈 MLOps 환경에서 표준으로 채택하는 골든 데이터셋은 일반적으로 그 자체로 엄밀한 다차원 JSON 객체 배열(Array of JSON Objects) 형태를 띤다.
각 평가 인스턴스(Test Instance)는 오라클 시스템을 격발시키기 위해 최소한 다음의 4가지 핵심 마이크로 컴포넌트를 필수적으로 포함하는 ‘질문-SQL 쌍(NL-SQL Pair)’ 구조로 정교하게 설계되어야만 한다.
1. 자연어 질의 (Natural Language Question, query_nl)
시스템에 주입되는 가장 핵심적인 테스트 입력값(Input)이다.
이 필드는 “가장 많이 팔린 상품은 뭐야?“처럼 일상적이고 모호한 어휘(Vocabulary)로 작성되어서는 안 된다. 철저하게 “2026년 4사분기 동안 총 매출액(수량 * 단가) 기준으로 가장 높은 성과를 낸 상위 3개의 상품명과 그 누적 포인트를 내림차순으로 추출하라“처럼, 비즈니스 기획자와 데이터 엔지니어 간의 합의가 끝난 명확한 논리적 결절점(Logical Node)을 내포한 채널링 된 문장이어야 한다.
2. 절대 정답 쿼리 (Golden SQL Query, golden_sql)
인간 도메인 전문가와 수석 DB 아키텍트가 머리를 맞대고 직접 검수 및 최적화한, 해당 query_nl 요구사항에 대한 완전무결한 논리적 정답 소스 코드 문자열이다.
이 SQL 코드는 단순히 오라클 채점기의 ‘대조군(Control Group)’ 방어막 역할을 수행하는 것을 넘어선다. 훗날 AI 모델이 오류를 뱉어내었을 때 파인튜닝(Fine-Tuning)의 라벨로 쓰이게 되므로, 회사가 권장하는 RDBMS 종속적인 코딩 컨벤션(예: 복잡한 조인 대신 WITH 절 사용, 명시적인 스키마 명찰(Alias) 부착 등)이 완벽하게 체화되어 있는 ’가장 우아한 마스터 템플릿(Master Template)’의 역할을 겸해야 한다.
3. 평가 타겟 스키마 및 환경 컨텍스트 (Database Context, db_id)
이 자연어 질문이 샌드박스의 어떠한 데이터베이스 망을 겨냥하고 있는지를 가리키는 환경 변수 정보다.
일반적으로 db_id (예: financial_erp_2026_q4)라는 고유 식별자(Identifier)를 매핑하여 저장한다. 오라클의 쿼리 실행기(Executor) 컴포넌트는 채점을 시작하기 직전 이 db_id를 읽어 들이고, 인프라 저장소에서 해당 식별자와 매칭되는 덤프 파일과 초기화 스크립트를 로드(Load)하여 샌드박스 컨테이너에 INSERT 시키는 네비게이터(Navigator) 역할을 수행한다. 추가로 평가 시 AI에게 주입해 줄 거대한 테이블 스키마 DDL 문자열 자체를 이 객체 안에 캐싱(Caching)해 두기도 한다.
4. 쿼리 난이도 레이블링 (Difficulty Level, hardness)
예일대 커퓨터과학과가 주도한 전설적인 Spider 벤치마크의 철학을 계승한 것으로, 해당 프롬프트 쌍이 데이터베이스 구조상 얼마나 복잡한 뇌지컬을 요구하는지를 easy, medium, hard, extra의 4단계로 분류하여 하드코딩 레이블링을 부착한다.
- Easy: 단일 테이블 내에서의 단순한
SELECT,WHERE조건절 및 등호 매칭. - Medium: 2~3개 연관 테이블 간의 기본적인
JOIN무결성 이해, 그리고GROUP BY와ORDER BY를 통한 집계 함수 통제. - Hard: 중첩 서브쿼리(Nested Sub-query), 차집합(
EXCEPT), 교집합(INTERSECT)과 같은 고급 관계 대수학(Relational Algebra). - Extra: 연쇄적인 다단계
CTE작성, 복잡한 비즈니스 수학 연산 규칙 내장, 그리고 고난이도 조건부 분기 로직(CASE WHEN)의 통달.
이처럼 한 치의 오차 없이 엔지니어링되어 직조된 JSON 형태의 질문-SQL 쌍 스키마 구조는, 오라클이 수만 개의 벤치마크 테스트를 병렬 스레드(Thread)로 밀어 넣고, 난이도별(Level-based)로 AI 모델의 아킬레스건을 정밀하게 타겟팅하여 발가벗기는 강력한 통계 분석 리포트의 기초 뼈대로 군림하게 된다.