8.4.4 N-gram 중복도(Overlap) 및 ROUGE 점수를 활용한 결정론적 필터링

LLM(거대 언어 모델)의 생성 렌더링 결과물은 본질적으로 그 트랜스포머 디코더 아키텍처 특성상 시계열 기반의 ‘비결정적(Non-deterministic)’ 텐서 덩어리이기 때문에, 프롬프트가 문자 하나 틀리지 않고 똑같이 설정된 동일한 질문 트랜잭션이라 할지라도 매번 다른 동의어와 단어 집합 토픽을 토해낸다. 파이프라인 아키텍트들은 이러한 환각과 생성의 불안정성을 통제하고 검증하기 위해 무거운 NLI 로컬 모델이나 교차 임베딩(Cross-encoder) 스코어링 등을 미들웨어로 배치하여 사용하지만, 이러한 고도화된 머신러닝 판독 검증망조차도 결국 막대한 GPU 연산 자원(VRAM)을 소모하며 그 평가 프로세스 자체에 미세한 확률적 오차와 환각을 이중으로 내재하고 있다는 한계를 지닌다.

따라서 클라우드 비용을 최소화하면서도, 가장 수학적이고, 수학 연산 속도가 ms 단위로 가장 빠르며, 그 채점 결과에 확률적 이견이나 의심의 여지가 없는 100% 결정론적인(Hard-deterministic) 오라클 필터링 로직 방어선은, 바로 고전 NLP 언어학 데이터 전처리의 기초 뼈대인 수학적 N-gram 문자열 중복도 기반 스코어링 메트릭을 RAG 파이프라인의 최후미 안전망 파트너로 편입시키는 것이다.

1. 환각의 조기 징후(Early Sign): 통계적 어휘 일탈(Lexical Deviation)

결정론적 N-gram 알고리즘의 철학은 매우 단순하고 차갑다. 타겟 모델이 오만함을 버리고 검색된 참조 문서(Context)의 족쇄에 충실하게 종속되어 요약이나 연역을 착실히 수행하고 있다면, 생성된 답변을 구성하는 대부분의 명사 및 동사 어휘(Tokens) 묶음은 원본 문서 텍스트의 어휘 배열 풀(Pool)과 필연적으로 강하게 교집합(Intersection)을 이루며 겹칠 수밖에 없다는 전제다.
반대로, 타겟 모델이 System Prompt의 엄격한 지시를 이탈하여 자신의 사전 학습된 무의식적 외부 지식 파라미터를 임의로 꺼내어 소설을 창작(Fabrication)하고 있다면, 원본 문서 문자열에는 아예 바이트 단위로 0.1%도 존재하지 않는 이질적인 외래 N-gram(2개 또는 3개의 연속된 단어 묶음 시퀀스) 배열이 최종 생성 텍스트의 상당수 점유율(Share)을 무단으로 잠식하게 된다.

오라클 미들웨어는 타겟 출력물을 파싱하여 런타임에 즉각 $\text{ROUGE-1}$ (개별 유니그램 단순 중복도), $\text{ROUGE-2}$ (2단어 바이그램 연속성 중복도) 및 $\text{ROUGE-L}$ (순서가 유지된 가장 긴 공통 부분 문자 수열, Longest Common Subsequence) 수학적 통계 점수를 초고속으로 산출하여 이 위험한 ’어휘적 일탈도’를 퍼센티지로 계산해 낸다.

2. ROUGE 점수의 방어적 임계값(Threshold) 모니터링 매커니즘

충실성 오라클 서버의 백그라운드 프로파일러는 타겟 LLM이 렌더링을 끝내고 반환한 생성 응답 텍스트( $C$ )와, Vector DB가 앞서 넘겨준 검색된 원문 컨텍스트( $R$ ) 사이의 ROUGE-Recall 점수(정답지가 가진 단어를 얼마나 많이 훔쳐 썼는가)를 실시간 스트림으로 대조한다. 오라클은 이 스칼라 차이에 기반하여 파이프라인 릴리스 여부를 기계적으로 가위질한다.

너무 낮은 ROUGE 스코어의 발작 위험성(Hallucination Warning): 만약 연산된 ROUGE-1 점수가 설정된 하드 컷오프(Hard Cut-off) 임계값인 0.2(20%) 미만으로 곤두박질친 데이터 로그가 찍힌다면, 이는 모델이 MLOps가 주입한 원본 문서를 사실상 거의 단 한 줄도 참고하지 않고 자기 파라미터 마음대로 이질적인 어휘를 꺼내어 글을 지어 썼다는 가장 명백하고 부인할 수 없는 치명적인 수학적 증거다. 오라클은 심판관 모델을 호출할 필요도 없이 이를 즉각 ‘치명적 환각 발작(Fatal Hallucination)’ 상태로 락(Lock)을 걸어 응답 트랜잭션을 터뜨리고 사용자 프론트엔드 출력을 방어한다.
너무 높은 ROUGE 스코어의 나태함 역설(Copy-Paste Laziness): 반대로 ROUGE-L 연속성 스코어가 0.85(85%)를 훌쩍 넘는 비정상적인 천장 점수를 찍는다면 이를 칭찬해야 할까? RAG 공학에서 이는 모델이 머리를 써서 독해나 추론 요약을 수행한 것이 아니라, 귀찮아서 원문 검색 조각들을 그대로 프롬프트 보드에 ‘복사-붙여넣기(Ctrl+C, Ctrl+V)’ 식으로 그냥 나열만 해놓았음을 의미하는 멍청함의 발현이다. 이렇게 되면 대화형 챗봇의 핵심 존재 이유인 ’자연어 친화성(Conversational UX)’이 완전히 박살 난 에러 상태이므로, 오라클 시스템은 이 트랜잭션을 보류하고 백엔드에서 조용히 “창의력 랜덤 변수(Temperature)를 0.1만큼 약간 높여서 인간의 언어로 다시 자연스럽게 형태소를 다듬어 재작성하라“고 재호출 트리거(Regenerate Loop)를 지시한다.

이처럼 블랙박스를 거부하는 투박한 N-gram 검증 산술 로직은, 최첨단 지식 오라클 시스템이 신경망 모델의 유창한 화술에 속아 넘어가지 않고 철저하게 텍스트의 바이트(Byte) 수준에서 사실 결합의 무결성을 1차적으로 강제 검증하게 만들어주는, 가장 고전적이면서 비용 효율이 압도적인 강력한 결정론적 수단이다.