12.3.4 Spider, WikiSQL 등 오픈 벤치마크 데이터셋의 활용과 커스텀 데이터셋 구축 전략

NL2SQL 실행 기반 오라클의 인프라를 지어 올렸다 하더라도, 그 안에서 채점될 ’골든 데이터셋(질문-SQL-DB 쌍)’을 회사의 백지상태에서 밑바닥(From Scratch)부터 수만 건씩 가내수공업으로 구축해 나가는 작업은 천문학적인 DBA 인건비와 개발 시간을 요구한다.

따라서 초기 MLOps 평가 파이프라인의 구축 단계에서는, 이미 전 세계 유수의 대학과 빅테크 연구진이 수년의 리소스를 퍼부어 구축해 놓은 수준 높은 글로벌 오픈 벤치마크 데이터셋들을 시스템의 보일러플레이트(Boilerplate) 땔감으로 적극 활용하여 오라클 시스템을 부트스트래핑(Bootstrapping)하는 과정이 전략적으로 필수적이다.

1. 글로벌 오픈 벤치마크 데이터셋의 진화와 특성 지형도

WikiSQL: 세일즈포스(Salesforce) 리서치가 2017년에 발표한 극초기 데이터셋이다. 여기 등장하는 질문-SQL 쌍들은 오직 1개의 평면 거대 테이블(Flat Table) 안에서만 놀도록 강제되어 있다. 이는 구축한 오라클 시스템이 정상적으로 DB에 접속하고 정답 파이프라인을 통과하는지 확인하는 ‘기초 헬스체크(Health-check)’ 용도로만 적합할 뿐, 수십 개의 테이블 조인(JOIN)과 중첩 쿼리가 남무하는 야생의 엔터프라이즈 환경에서의 에이전트 지능을 평가하기에는 그 난이도가 너무나 얄팍하다.
Spider (예일대학교): WikiSQL의 이 빈약한 한계를 극복하기 위해 제안된 혁명적인 크로스 도메인(Cross-domain) 벤치마크다. 항공, 대학, 병원 등 수백 개의 다른 데이터베이스에 걸쳐 복잡한 다중 조인(Multi-JOIN)과 그룹핑 환경을 제공한다. 현재 전 세계 대부분의 기초 NL2SQL 에이전트 구축 및 평가의 디팩토 표준(De-facto Standard)으로 군림하고 있으며, 시스템의 범용 추론 능력을 평가하기 좋다.
BIRD-SQL (알리바바 & 홍콩대): Spider의 구조 위에 외부 도메인 지식(External Knowledge, 예컨대 “순이익은 매출에서 세금을 뺀 것”)과 고도의 수치 계산 복잡성을 극한으로 결합시켜 끌어올린 현존 최고의 괴물 데이터셋이다. 특히 BIRD-SQL은 본 12장이 주창하는 철학인 ‘실행 결과 비교(EX, Execution Accuracy)’ 채점 방식을 벤치마크 평가 규격으로 전면적으로 채택하고 있으며, 그 테이블 크기와 복잡한 비즈니스 계산 요구도는 실제 대규모 엔터프라이즈 ERP 환경과 가장 완벽하게 결이 닿아 있다.

2. 사내 특화형 커스텀 데이터셋 구축 전략 (Hybrid Knowledge Orchestration)

하지만 위대한 BIRD-SQL 모델조차도 치명적인 결함이 있다. 그것은 철저하게 일반적인 영미권 비즈니스 단어들 묶여있다는 점이다. 특정 기업 내부의 사내 은어(예: “작년 블랙프라이데이 반품 찌그러진 건들 집계해 줘”), 비표준 칼럼명(US_CST_NM_TMP), 그리고 특유의 복잡한 스키마 구조를 그들은 전혀 알지 못한다. 따라서 결국 벤치마크를 정복한 이후 프로덕션으로 향하기 위해서는, 오직 그 회사만의 독창적이고 비밀스러운 **‘커스텀 골든 데이터셋(Custom Golden Dataset)’**을 피 땀 눈물로 구축해야만 한다. 이 고통스러운 과정은 다음과 같은 하이브리드 자동화 전략으로 전개되어야 수지를 맞출 수 있다.

형식의 지식 증류(Knowledge Distillation): BIRD-SQL 데이터셋이 갖춘 난이도 높은 쿼리 구성 형식(Format)을 프롬프트로 역이용하는 방식이다. 강력한 언어 모델에게 사내 DDL 스키마를 욱여넣고, “내 스키마를 이용해서 Spider나 BIRD-SQL의 ‘Hard’ 레벨에 적합한 수준으로 복잡하게 비틀린 가상의 질문-쿼리 쌍을 100개 무작위 생성해라“라고 명령하여 씨앗 데이터를 자동 생성시킨다(Self-Instruct 방법론).
휴먼 로그 텔레메트리 태깅(Telemetry Log Tagging): 자동화 생성의 부족함은 현장의 피로 채운다. 사내의 데이터 추출 업무 환경(Redash, Metabase, 또는 DBA에게 쿼리를 부탁하는 수동 결재 시스템, 슬랙 채널)을 모니터링하여, 현업 사용자가 실제로 엉성하게 툭 던진 자연어 텍스트 기록과, 결국 DBA가 며칠 뒤 땀을 뻘뻘 흘리며 작성해 준 정교한 정답 오피셜 쿼리 로그(Query Logs)를 파이프라인 수집기로 긁어모아 1:1로 매핑시켜 버린다.
전문가 승인 위원회 (Expert Approval Committee)의 통과: 마지막으로 기계적으로 추출되거나 현장에서 긁어모아진 이 날생선의 사내 질문-SQL 쌍들을, 오라클의 샌드박스에서 한 번 가동 시켜 결과 텐서 값을 안전하게 뽑아낸다. 그리고 최종적으로 인간 시니어 데이터베이스 엔지니어가 그 도출된 데이터의 비즈니스적 가치와 논리를 끄덕이며 수동 승인(Approve) 도장을 찍는 순간, 비로소 이 쌍들은 영원하고 타락하지 않는 기업의 결정론적 핵심 자산인 MLOps **‘프라이빗 골든 데이터셋’**으로 CI/CD 저장소에 머지(Merge)되며 위대한 벤치마크의 일원이 된다.