12.2.1 전체 파이프라인 개요: NL 입력부터 결과 검증까지

개별 마이크로 컴포넌트들의 코드를 세부적으로 뼈대까지 쪼개어 분석하기 전에, 자연어(NL) 입력값이 들어와서 최종적으로 오라클의 채점 결과(Verdict)가 도출되기까지 데이터 파킷(Packet)이 트랙을 따라 어떻게 흘러가는지 전체 MLOps 파이프라인의 생애 주기(Lifecycle)를 거시적으로 조망해 보자.

결정론적 판별을 수행하는 이 평가 파이프라인은 논리적으로 단 한 번의 끊어짐이나 수동 개입 없이, 크게 다음과 같은 4가지 물리적 상태 전이 단계(Phase)를 거치며 직렬화되어 오토메이션(Automation) 동작을 수행한다.

1. Phase 1. 입력 및 생성 (Input & Generative Phase)

파이프라인의 시작은 평가 대상이 되는 LLM에게 시험지(Context)를 제공하고 답변을 수거하는 과정이다.

Context 주입: 저장소에 구축된 골든 데이터셋(Golden Dataset)으로부터 테스트 번호에 해당하는 사용자 자연어 질문(NL, 예: “2026년에 가장 많은 매출을 기록한 캘리포니아 지점 직원의 이름과 실적을 알려줘”)과, 이 쿼리를 생성하기 위해 필수적인 데이터베이스의 배경 지식, 즉 테이블들의 스키마(DDL 구조정보)와 외래키(Foreign Key) 정보를 패키징하여 LLM에 프롬프트로 주입한다.
예측과 대조군 확보: LLM은 이 문맥을 바탕으로 나름대로 머리를 굴려 예측 쿼리문( $Q_{pred}$ )을 생성해 낸다. 이와 동시에, 오라클 시스템은 평가를 위해 골든 데이터셋에 숨겨져 있던 인간 전문가가 작성한 절대 정답 쿼리문( $Q_{gold}$ )을 대조군으로 꺼내어 시스템 메모리에 양손의 대립 항으로 나란히 적재(Load)시킨다.

2. Phase 2. 통제된 경쟁적 런타임 실행 (Controlled Competitive Execution)

오라클 시스템의 엔진룸에 해당하는 단계로, 텍스트 문자열(String)이 드디어 살아 숨 쉬는 데이터 텐서(Data Tensor)로 폭발하여 형질이 바뀌는 순간이다.

보안 검문 (Security Routing): 오라클의 실행 라우터는 $Q_{pred}$ 를 DB 컨테이너로 넘기기 전, 모델이 환각에 빠져 DROP, DELETE, UPDATE와 같은 악의적인 상태 변경(State Mutation) DDL/DML을 생성하지 않았는지 정규식과 AST를 통해 1밀리초(ms) 만에 문전 검문(Gatekeeping)을 수행한다.
병렬 런타임 폭발: 완벽하게 초기 데이터 상태(State)가 동일성으로 보장된 읽기 전용 샌드박스 데이터베이스(Sandbox DB)로 $Q_{pred}$ 와 $Q_{gold}$ 를 병렬로 무자비하게 던져 넣고 런타임 실행(Execute)을 격발시킨다.
결과 인출 (Fetch): 실행이 완료되면, DB 엔진이 뱉어낸 두 개의 가공되지 않은 원시 결과 텐서 집합 배열( $R_{pred}$ 와 $R_{gold}$ )을 파이썬의 List나 Pandas DataFrame 구조체로 안전하게 인출하여 다음 레이어로 넘긴다.

3. Phase 3. 텐서 평탄화 및 정규화 (Tensor Flattening & Normalization)

인출된 데이터들은 관계형 대수학의 비결정적 노이즈를 잔뜩 묻히고 올라온 흙투성이 상태다. 이를 정밀하게 비교할 수 있도록 세공하는 전처리 단계다.

순서 비결정성 타파 (Sorting Determinism): SQL 표준에 따라 ORDER BY가 명시되지 않은 텐서들의 뒤섞인 레코드 순서를, 오라클 엔진이 자체적인 해시(Hash) 연산 기능이나 각 컬럼 오름차순 룰을 적용하여 억지로 재정렬(Sorting)시켜 동일한 시퀀스로 강제 깎아 맞춘다.
타입 동치성 마사지 (Type Casting Tolerance): 부동소수점(50.0)과 정수(50), 날짜 포맷(2026-10-10 00:00:00 vs 2026-10-10) 등 의미론적으로는 동치(Semantic Equivalence)이나 파이썬 런타임에서는 False를 뱉어내는 타입 충돌들을 공통 형식(Common Array Format)으로 캐스팅하여 부드럽게 평탄화(Flattening) 조작을 가한다.

4. Phase 4. 결정론적 오라클 판별 및 피드백 로깅 (Deterministic Oracle Comparator & Logging)

파이프라인의 최고 재판소다. 이 4단계 헤드(Head) 계층에서 최종적으로 AI 모델의 생과 사(True/False)가 결정된다.

교차 일치 검사 (Cross-matching): 비교기(Comparator)가 두 개의 거울처럼 깨끗해진 정규화 텐서 $R'_{pred}$ 와 $R'_{gold}$ 를 물리적으로, 그리고 1비트 논리 단위로 교차 일치 검사(Exact Matrix Matching)를 수행한다. 매트릭스의 모든 요소가 동치라면 실행 정확도 지표를 EX = 1 (True), 하나라도 틀리다면 EX = 0 (False)으로 무자비하게 판별한다.
사후 부검 메타데이터 생성: 특히 오답(False)일 경우 오라클은 그냥 종료되지 않는다. “왜 틀렸는지”, 즉 정답 텐서와 예측 텐서 사이의 차집합(Set Difference)을 계산하여 “어떤 행(Row) 데이터가 누락되었나?”, “어떤 컬럼의 소수점 계산이 오버플로우 되었나?“를 철저히 부검하여 ’오류 추적 메타데이터(Error Trace Metadata JSON)’로 로깅한다.

이 피 튀기는 오류 메타데이터 더미들은 쓰레기통으로 가지 않고 곧바로 환류(Feedback Loop)되어, 다음번 MLOps 사이클에서 언어 모델을 파인튜닝(Fine-tuning)하거나 새로운 퓨샷(Few-shot) 프롬프트를 조립하기 위한 가장 영양가 높은, 기업의 1등급 데이터 자본(Data Capital)으로 100% 재활용된다.