12.3.1 질문-SQL 쌍(Pair) 데이터셋의 구조 설계

Text-to-SQL(NL2SQL) 에이전트를 위한 가장 효과적인 벤치마크(Benchmark)를 가동하기 위해서는, 오라클의 평가 프레임워크가 런타임에 즉각적으로 파싱(Parsing)하여 읽어내고 실행 모터(Motor)에 주입할 수 있는 고도로 형상화되고 구조화된(Structured) 데이터셋 스키마 설계가 선행되어야 한다.

과거 인간의 자연어 읽기 능력을 테스트하기 위해 만들었던 SQuAD나 GLUE와 같이 단순 텍스트 줄글 형태의 데이터로는, 이 거칠고 무거운 실행 기반 오라클(Execution-based Oracle) 인프라를 결코 가동할 수 없다. 최고 수준의 엔터프라이즈 MLOps 환경에서 표준으로 채택하는 골든 데이터셋은 일반적으로 그 자체로 엄밀한 다차원 JSON 객체 배열(Array of JSON Objects) 형태를 띤다.

각 평가 인스턴스(Test Instance)는 오라클 시스템을 격발시키기 위해 최소한 다음의 4가지 핵심 마이크로 컴포넌트를 필수적으로 포함하는 ‘질문-SQL 쌍(NL-SQL Pair)’ 구조로 정교하게 설계되어야만 한다.

1. 자연어 질의 (Natural Language Question, `query_nl`)

시스템에 주입되는 가장 핵심적인 테스트 입력값(Input)이다.
이 필드는 “가장 많이 팔린 상품은 뭐야?“처럼 일상적이고 모호한 어휘(Vocabulary)로 작성되어서는 안 된다. 철저하게 “2026년 4사분기 동안 총 매출액(수량 * 단가) 기준으로 가장 높은 성과를 낸 상위 3개의 상품명과 그 누적 포인트를 내림차순으로 추출하라“처럼, 비즈니스 기획자와 데이터 엔지니어 간의 합의가 끝난 명확한 논리적 결절점(Logical Node)을 내포한 채널링 된 문장이어야 한다.

2. 절대 정답 쿼리 (Golden SQL Query, `golden_sql`)

인간 도메인 전문가와 수석 DB 아키텍트가 머리를 맞대고 직접 검수 및 최적화한, 해당 query_nl 요구사항에 대한 완전무결한 논리적 정답 소스 코드 문자열이다.
이 SQL 코드는 단순히 오라클 채점기의 ‘대조군(Control Group)’ 방어막 역할을 수행하는 것을 넘어선다. 훗날 AI 모델이 오류를 뱉어내었을 때 파인튜닝(Fine-Tuning)의 라벨로 쓰이게 되므로, 회사가 권장하는 RDBMS 종속적인 코딩 컨벤션(예: 복잡한 조인 대신 WITH 절 사용, 명시적인 스키마 명찰(Alias) 부착 등)이 완벽하게 체화되어 있는 ’가장 우아한 마스터 템플릿(Master Template)’의 역할을 겸해야 한다.

3. 평가 타겟 스키마 및 환경 컨텍스트 (Database Context, `db_id`)

이 자연어 질문이 샌드박스의 어떠한 데이터베이스 망을 겨냥하고 있는지를 가리키는 환경 변수 정보다.
일반적으로 db_id (예: financial_erp_2026_q4)라는 고유 식별자(Identifier)를 매핑하여 저장한다. 오라클의 쿼리 실행기(Executor) 컴포넌트는 채점을 시작하기 직전 이 db_id를 읽어 들이고, 인프라 저장소에서 해당 식별자와 매칭되는 덤프 파일과 초기화 스크립트를 로드(Load)하여 샌드박스 컨테이너에 INSERT 시키는 네비게이터(Navigator) 역할을 수행한다. 추가로 평가 시 AI에게 주입해 줄 거대한 테이블 스키마 DDL 문자열 자체를 이 객체 안에 캐싱(Caching)해 두기도 한다.

4. 쿼리 난이도 레이블링 (Difficulty Level, `hardness`)

예일대 커퓨터과학과가 주도한 전설적인 Spider 벤치마크의 철학을 계승한 것으로, 해당 프롬프트 쌍이 데이터베이스 구조상 얼마나 복잡한 뇌지컬을 요구하는지를 easy, medium, hard, extra의 4단계로 분류하여 하드코딩 레이블링을 부착한다.

Easy: 단일 테이블 내에서의 단순한 SELECT, WHERE 조건절 및 등호 매칭.
Medium: 2~3개 연관 테이블 간의 기본적인 JOIN 무결성 이해, 그리고 GROUP BY와 ORDER BY를 통한 집계 함수 통제.
Hard: 중첩 서브쿼리(Nested Sub-query), 차집합(EXCEPT), 교집합(INTERSECT)과 같은 고급 관계 대수학(Relational Algebra).
Extra: 연쇄적인 다단계 CTE 작성, 복잡한 비즈니스 수학 연산 규칙 내장, 그리고 고난이도 조건부 분기 로직(CASE WHEN)의 통달.

이처럼 한 치의 오차 없이 엔지니어링되어 직조된 JSON 형태의 질문-SQL 쌍 스키마 구조는, 오라클이 수만 개의 벤치마크 테스트를 병렬 스레드(Thread)로 밀어 넣고, 난이도별(Level-based)로 AI 모델의 아킬레스건을 정밀하게 타겟팅하여 발가벗기는 강력한 통계 분석 리포트의 기초 뼈대로 군림하게 된다.

12.3.1 질문-SQL 쌍(Pair) 데이터셋의 구조 설계

1. 자연어 질의 (Natural Language Question, query_nl)

2. 절대 정답 쿼리 (Golden SQL Query, golden_sql)

3. 평가 타겟 스키마 및 환경 컨텍스트 (Database Context, db_id)

4. 쿼리 난이도 레이블링 (Difficulty Level, hardness)

1. 자연어 질의 (Natural Language Question, `query_nl`)

2. 절대 정답 쿼리 (Golden SQL Query, `golden_sql`)

3. 평가 타겟 스키마 및 환경 컨텍스트 (Database Context, `db_id`)

4. 쿼리 난이도 레이블링 (Difficulty Level, `hardness`)