4.10.1 프롬프트-응답 쌍의 캐싱을 통한 100% 재현성 보장(Semantic Caching)

거대 언어 모델(LLM)의 생성 과정에 내재된 확률적 본성(Probabilistic Nature)을 소프트웨어 공학적인 관점에서 통제하기 위해 프롬프트 튜닝, 파라미터 고정(Temperature=0, Seed 등) 등 다양한 시도가 이루어지고 있다. 그러나 API 제공자의 백엔드 업데이트, GPU 연산의 포인터 오차 등 외부 요인에 의해 완벽한 100%의 재현성(Reproducibility)을 모델 자체에 요구하는 것은 물리적으로 불가능에 가깝다.

오라클 시스템이 요구하는 ’절대적 결정론’을 달성하기 위한 가장 극단적이고 확실한 아키텍처적 조치는 특정 질의에 대해 지수적으로 발산하는 LLM의 연산을 우회하여, 이미 검증된 과거의 정답을 그대로 반환하는 ‘캐싱(Caching)’ 계층을 도입하는 것이다.

1. 캐싱: 확률론적 시스템 앞의 결정론적 방파제

프롬프트-응답 쌍의 캐싱은 사용자의 요청(Input)이 LLM으로 인입되기 전, 중간 미들웨어(Middleware)에서 이를 가로채는 메커니즘을 말한다.

정확한 일치(Exact Match) 캐싱: 사용자가 입력한 텍스트 문자열(프롬프트)의 해시(Hash)값이 캐시 데이터베이스(예: Redis, Memcached)에 존재할 경우, LLM 호출을 생략하고 하드코딩된 과거의 응답을 반환한다.
결정론의 강제 주입: 이 방식 아래에서, 동일한 입력 X는 백만 번을 호출해도 바이트 단위까지 완벽히 동일한 응답 Y를 반환한다. 모델의 확률적 불안정성을 시스템 구조적으로 차단해 버리는, 가장 공학적이고 폭력적인 ‘비결정성의 거세’ 전략이다.

2. 시맨틱 캐싱(Semantic Caching): 의미론적 동일성의 판별

안타깝게도 인간의 사용자 경험(UX)은 해시 기반의 Exact Match를 허용하지 않는다. “비밀번호를 까먹었어요“와 “패스워드 분실했음“은 문자열 수준에서는 완전히 다르지만, 비즈니스 로직(의도) 관점에서는 정확히 동일한 출력을 요구하는 질의다.

이를 극복하기 위해 최신 오라클 파이프라인은 텍스트의 표면이 아닌 ’의미’를 기준으로 캐싱을 수행하는 시맨틱 캐싱(Semantic Caching) 방식을 채택한다.

사용자의 입력이 들어오면 빠르고 가벼운 임베딩 모델(Embedding Model)을 거쳐 N차원의 벡터(Vector)로 변환된다.
이 벡터를 벡터 데이터베이스(Vector DB) 내의 과거 캐시 기록과 코사인 유사도(Cosine Similarity)를 통해 비교한다.
유사도가 사전에 정의된 결정론적 임계값(Threshold, 예: 0.95 이상)을 초과할 경우, 두 질의를 ’의미론적으로 동일한 입력’으로 간주하여 캐시된 동일한 응답을 반환한다.

3. 오라클 검증(Validation)과 골든 데이터베이스의 통합

시맨틱 캐싱은 단순한 응답 속도 향상이나 비용 절감을 넘어, 오라클 시스템의 성능을 극대화하는 ‘검증된 정답의 보관소’ 역할을 한다.

파이프라인에서 한 번 오라클 검증(Rule-based Check, LLM-as-a-Judge 등)을 성공적으로 통과한 응답만을 시맨틱 캐시에 적재(Warm-up)한다.
이를 통해 런타임 환경에서는 모델이 환각(Hallucination)이나 구조적 형식을 파괴할 가능성이 있는 새로운 생성을 최소화하고, 인간이나 기계 오라클이 한 번 완벽하다고 보증한 **안전한 정답(Golden Output)**만을 반복 재사용하게 된다.

결과적으로 시맨틱 캐싱은 비결정적인 AI 모델을 가장 훌륭하게 ’전통적인 데이터베이스’처럼 작동하게 만들어, 엔터프라이즈 환경이 요구하는 엄격한 UX 일관성과 재현성을 보장하는 핵심 공학 도구로 자리 잡게 된다.