8.10.2 검증 비용(Token Cost) 절감을 위한 작은 모델(SLM) 활용 전략

RAG 오라클 파이프라인이 마주하는 두 번째 현실적인 장벽은 다름 아닌 ’달러($)’다. GPT-4나 Claude 3 Opus 같은 최상위 LLM(SOTA LLM)은 분명 훌륭한 타겟 생성 모델이자 무결점의 판사(Judge) 역할을 수행할 수 있지만, 프롬프트 엔지니어링으로 길어진 원본 문서(Context)와 생성 텍스트를 매 검증 사이클마다 이들에게 던져주는 행위는 API 토큰 비용을 기하급수적으로 폭발시킨다. (경우에 따라 생성 비용보다 검증 비용이 3~5배 더 비싸게 청구되기도 한다.)

기업 환경에서 오라클 시스템의 지속 가능성(Sustainability)을 확보하기 위해, 설계자는 무겁고 비싼 범용 LLM 대신 빠르고 저렴하며 특정 검증 태스크에만 특화된 **소형 언어 모델(SLM, Small Language Model)**을 오라클 인프라의 핵심 엔진으로 교체-편입시켜야 한다.

1. 태스크 분리(Task Segregation)를 통한 SLM 라우팅

SLM(예: Llama 3 8B, Mistral 7B, 혹은 완전히 파인튜닝된 BERT 임베딩 모델)은 철학적인 대화나 복잡한 프로그래밍 코드를 짜는 데는 서투르지만, “문서 A의 내용이 문서 B에 포함되어 있는가?“라는 이진 분류(Binary Classification) 문제에서는 GPT-4에 필적하는 정확도를 훨씬 저렴한 비용으로 달성할 수 있다.

오라클 미들웨어는 검증의 성격에 따라 모델을 다르게 호출하는 하이브리드 라우팅(Hybrid Routing) 아키텍처를 가동한다.

의도 파악 및 개인정보(PII) 스캐닝: 비용이 거의 들지 않는 초경량 정규표현식(Regex) 엔진이나 극도로 가벼운 NLI(Natural Language Inference) 모델을 사용하여 주민등록번호나 과격한 욕설을 즉각 커트한다.
문맥 관련성(Context Relevance) 검증: 검색된 문서가 사용자의 질문과 의미론적으로 연관되어 있는지 평가하는 태스크는, 10B 이하의 경량 인스트럭션 튜닝(Instruction-tuned) SLM에게 전담시킨다. 프롬프트는 오직 “주어진 문맥으로 질문에 답할 수 있으면 1, 아니면 0을 반환하라“로 극단적으로 단순화시킨다.
최종 생성 / 복합 추론 (Heavy Lifting): 오라클의 SLM 망을 무사히 통과하여 ’검증된 문서와 깨끗한 쿼리’만이 남았을 때 비로소, 그 정제된 데이터를 가장 비싼 SOTA 타겟 모델(GPT-4 등)에게 넘겨 유려한 최종 문장 텍스트를 생성하도록 지시한다.

2. 오라클 전용 SLM의 지식 증류(Knowledge Distillation)

단순히 오픈소스 SLM을 가져다 쓴다고 해서 오라클의 평가 정확도(Accuracy)가 무조건 보장되는 것은 아니다. SLM이 SOTA 모델 수준의 판단력을 갖추기 위해서는, 크고 똑똑한 모델의 ’채점 기준(Rubric)’을 작은 모델의 웨이트(Weight) 위로 이식하는 지식 증류(Knowledge Distillation) 과정이 필수적이다.

사내에 축적된 수만 건의 쿼리-문서-답변 데이터셋을 구축한 뒤, 비용을 들여 GPT-4를 Teacher 모델로 삼아 각 데이터에 대한 0~1 사이의 치밀한 ’충실성(Faithfulness) 오라클 점수’와 ’채점 사유’를 라벨링(Labeling)한다.
이렇게 생성된 초정밀 골든 데이터셋(Golden Dataset)을 사용하여, 7B 사이즈의 오픈소스 모델(Student)을 파인튜닝(SFT: Supervised Fine-Tuning)한다.
결과적으로 이 파인튜닝된 SLM은 범용적인 잡학 지식은 잃어버리게 되지만, “특정 사내 매뉴얼에 위배되는 환각 문장을 찾아내어 기각(Reject)하는 능력” 하나만큼은 GPT-4와 동일한 오라클 퍼포먼스를 내면서도, 추론 비용은 1/100 수준으로 떨어뜨릴 수 있다.

3. 계층적 오라클(Cascading Oracle) 아키텍처

비용 절감을 극한으로 끌어올리면서도 안전성을 포기할 수 없는 기업은 캐스케이딩(Cascading) 기법을 도입한다.

모든 트랜잭션의 1차 검증(Pass 1)은 값싼 SLM 오라클이 전담한다.
만약 SLM이 “안전함(Confidence: 99%)“이나 “명백한 위반 사항(Confidence: 1%)“처럼 극단적으로 확실한 점수를 뱉어낸다면, 그 즉시 트랜잭션을 승인하거나 리젝트하여 비용을 절약한다.
하지만 SLM이 “모호함(Confidence: 45~55%)” 판정을 내리는 ’회색 지대(Gray Area)’의 트랜잭션이 발생할 경우에만, 예외적으로 해당 데이터를 비싼 SOTA 모델(Master Oracle)로 에스컬레이션(Escalation) 시켜 최종 정밀 판결을 받도록 설계한다.

비용과 정확성은 AI 엔지니어링의 영원한 트레이드오프(Trade-off)다. 오라클 인프라에 SLM을 교차 배치하는 아키텍처는 무식한 자본의 힘(Brute-force)으로만 지탱되던 초기 RAG 시스템을, 경제적으로 지속 가능하며 정교하게 조율된 엔터프라이즈급 소프트웨어로 진화시키는 핵심 분수령이 된다.