12.10.1 실행 정확도(Execution Accuracy - EX) 지표 산출

텍스트 투 SQL(Text-to-SQL) 모델의 아키텍처를 평가하고 통제하는 거대한 MLOps 생태계에서, 단연코 가장 강력하고 절대적인 단 하나의 북극성 지표(North Star Metric)를 꼽으라면, 그것은 추호의 의심조차 여지 없이 ‘실행 정확도(Execution Accuracy, 이하 EX)’ 지표다.
세계를 호령하는 글로벌 BIRD-SQL 벤치마크나 예일대의 Spider 리더보드 순위를 폭력적으로 결정짓고 LLM 기업들의 운명을 가르는 핵심 창조적 권력이 바로 이 서늘한 EX 지표 체계 하나에서 파생되어 나온다.

단순하고 파편화된 텍스트 문자열 기반의 의미 없는 n-gram 교집합(Exact String Match, BLEU 등) 평가 방식을 즉각 쓰레기통에 처박아 버리고, 오직 우리가 구축한 고립된 ’데이터베이스 샌드박스의 엔진 파이프라인이 뿜어내는 텐서 결과 집합의 동등성(Result Set Equivalence)’만을 채점하여 결정론적인 백분율 확률로 산출하는 이 EX 지표는, 모델이 지닌 가짜 화술(Text Generation)을 넘어선 진짜 **‘수학적 관계 대수 논리(Relational Algebra Data Logic) 지능’**을 기만이나 거짓 없이 적나라하게 발가벗겨 통계화한다.

1. EX(Execution Accuracy) 지표의 대수학적(Algebraic) 정의 수식

거시적이고 통계적인 아키텍처 관점에서, EX 지표의 모수는 평가를 위해 큐(Queue)에 적재된 전체 벤치마킹 골든 데이터셋(N개)의 덩어리다. 오라클 시스템의 평가 스레드는 엔진을 통과한 각 배치 단위마다 $O(N)$ 최적화 해시 시그니처 검증을 강제 타격하여 파이프라인을 관통한 뒤, ’완전 동치 일치(Match = 1)’로 최종 무결하게 판별된 쿼리의 개수 비중을 무자비하게 합산한다.

이 무결점의 채점 논리를 수학적 수식으로 모델링하면 다음과 같이 정의된다.

$EX = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}\left( Oracle\left(V_{ref}^{(i)}, V_{gen}^{(i)}\right) == \text{True} \right)$

$\mathbf{N}$ : MLOps 파이프라인 엔진에서 금번 벤치마크 에포크(Epoch) 수행을 위해 RAG 시스템에서 프로비저닝하여 준비된 전체 테스트 SQL 문제 세트의 총 기수(Cardinality).
$\mathbf{V_{ref}^{(i)}}$ : $i$ 번째 벤치마크 문제에 대해, 인간 최고 전문가(DBA)가 작성한 절대 진리 정답 쿼리를 샌드박스 엔진의 물리 디스크에서 실행, 추출 후 12.8절의 Pandas 가혹한 무결성 정규화를 필터링하여 확보한 불변의 “Golden Result Set Tensor”.
$\mathbf{V_{gen}^{(i)}}$ : 동일한 $i$ 번째 RAG 컨텍스트 문제에 대해, 비결정적 AI 에이전트(LLM) 모델이 망상을 섞어가며 생성해 낸 예측 쿼리를 샌드박스에 인젝션(Injection) 실행 방어막 테스트를 거쳐 정규화한 “AI Predicted Result Set Tensor”.
$\mathbf{Oracle(A, B)}$ : 우리가 앞서 12.8.3절에서 구현했던 Pandas 파이프라인의 백(Bag) 시맨틱 해시 다중 집합 교차 검증 비교기(Core Comparator). 두 텐서가 1비트의 허용 오차도 없는 멱등성 다중 집합 구조면 True를, 누락/초과 환각으로 형태가 깨졌다면 가차 없이 False를 반환하는 심장 엔진.
$\mathbf{\mathbb{I}(\cdot)}$ : 내부 조건식이 True면 1(히트 포인트)을, 만약 AI의 방언(Dialect) 문법 붕괴, 타임아웃, DROP 보안 위반 차단, 혹은 판다스 결과 텐서의 순수 논리적 불일치로 인해 판별이 폭파되어 False면 차갑게 0점을 부여하는 지시 함수(Indicator Function).

2. 결정론적 무자비함: EX 메트릭의 부분 점수(Partial Credit) 강제 배제 철학

소프트웨어 공학의 오라클 검증 생태계에서 EX 메트릭의 본질적 철학은 “골든 쿼리와 90% 정도 유사하니, 위로의 의미로 부분 점수(Partial Credit, 0.5점)를 주자“와 같은 쓰레기 같은 인간적인 온정주의를 시스템에서 극단적으로 배제하는 완벽한 무자비함에 기초하고 있다.

아무리 천재적인 AI 모델이 15개의 거대한 원장 테이블 조인(Multi-join) 파이프라인과 3단계의 딥 서브쿼리를 기가 막히고 아름답게 성공해 냈더라도, 단 하나의 사소한 날짜 엣지 컷 WHERE 절 필터 오차나 HAVING 제약조건 환각 누락으로 인해 반환된 텐서 객체의 빈도수(Row Count / Value Match)가 단 1줄이라도 어긋나 병합 충돌 점수가 깨지는 그 찰나의 순간, 오라클의 지시 함수 $\mathbb{I}$ 는 즉각 모든 과정을 파기하고 가차 없는 0점(False, Miss)의 사형 선고를 내린다.

이 지독하고 잔인한 히트 오브 미스(Hit-or-Miss)의 영지식 채점 방식만이, 기업의 파편화된 엔터프라이즈 데이터베이스 생태계에서 **“이 AI 에이전트가 생성한 추론 쿼리를, 수십억이 오가는 인간의 개입 없는 자동화 프로덕션 레벨의 ERP 빌링 시스템 샌드박스에 즉시 Auto-Commit 해도 될 만큼 안전한 지능인가?”**를 완벽하게 판별해낼 수 있는 시스템 레벨의 유일하고 절대적인 수학적 품질 보증수표(Warranty)가 되기 때문이다.

엔터프라이즈 오라클의 중앙 대시보드(Dashboard) 렌더링 시스템 최상단에는 반드시 피로 얼룩진 이 차가운 EX 퍼센티지(e.g. 83.45%)가 가장 거대하고 찬란한 고딕 폰트로 메인 렌더링되어 파벌과 부서를 넘어선 모두의 통제 스펙으로 굴림해야만 한다.