2.6.1. BLEU, ROUGE, METEOR 등 전통적 NLP 지표의 한계와 오라클로서의 부적합성

2.6절의 서두에서 명확히 규정했듯, 평가 지표(Metrics)는 오라클(Oracle)의 역할을 대체할 수 없다. 그럼에도 불구하고 많은 초기 AI 프로젝트 들이 ’스코어 도출 알고리즘이 잘 정립되어 있다’는 단순한 이유만으로 BLEU나 ROUGE 같은 전통적인 자연어 처리(NLP) 지표를 회귀 테스트 통과 기준으로 오용하곤 한다.

본 절에서는 이러한 N-gram 기반의 전통적 텍스트 유사도 지표들이 어떤 구조적 결함을 가지고 있으며, 왜 이것들이 엔터프라이즈 환경의 결정론적 오라클로 편입되는 순간 시스템 품질에 재앙적인 균열을 일으키는지 그 수학적, 의미론적 한계를 분석한다.

1. N-gram 매칭의 논리: 형태에 갇힌 맹목성

BLEU(Bilingual Evaluation Understudy), ROUGE(Recall-Oriented Understudy for Gisting Evaluation), METEOR(Metric for Evaluation of Translation with Explicit ORdering)는 모두 텍스트 분석 초창기에 기계 번역과 자동 요약의 질을 평가하기 위해 고안된 지표들이다.

이 지표들의 공통된 수학적 기저는 N-gram 중복도(Overlap) 계산이다. 즉, 참조 정답(Reference)과 모델 생성물(Candidate) 사이에 단어나 구문 토큰이 얼마나 물리적으로 겹치는가(Precision 혹은 Recall)를 측정한다.

BLEU: 정밀도(Precision) 중심. 생성된 단어 중 정답에 존재하는 단어의 비율을 본다.
ROUGE: 재현율(Recall) 중심. 정답 단어 중 생성된 텍스트가 얼마나 포함시켰는지를 본다.
METEOR: 어근 번역(Stemming)과 동의어(Synonym) 사전을 보조적으로 사용하여 BLEU의 형태적 경직성을 아주 약간 완화한 지표다.

이들은 방대한 코퍼스(Corpus) 단위에서 시스템 간의 우열을 가리는 거시적 벤치마크로는 훌륭히 작동한다. 그러나 단일 텍스트의 논리적 결함을 잡아내야 하는 오라클 세계에 들어오면, 이 “형태적 매칭” 메커니즘은 두 가지 극단적인 오작동(False Positive와 False Negative)을 뿜어낸다.

2. 오라클로서의 치명적 결함 1: 동의어로 인한 위음성 (False Negative)

언어 모델의 가장 큰 장점은 주어진 지시를 다양한 맥락과 창의적인 표현으로 우아하게 재구성할 수 있다는 점이다. 그러나 전통적 지표들은 토큰의 형태가 다르면 자비 없이 점수를 깎아버린다.

정답 (Reference): “시스템에 즉각적인 장애가 발생했으므로 관리자에게 문의하십시오.”
생성 (Candidate): “서버가 다운되었으니 즉시 엔지니어에게 연락 바랍니다.”

두 문장은 비즈니스 로직 관점에서는 완벽하게 동일한(Equivalent) 조치를 지시하는 $100\%$ 정답이다. 그러나 ROUGE 점수를 계산할 경우, N-gram이 겹치지 않아 스코어는 $0$ 점에 가깝게 산출된다. 만약 CI/CD 파이프라인의 오라클 임계치가 ROUGE > 0.8로 설정되어 있었다면, 완벽한 답변을 내놓은 이 빌드는 억울하게 FAIL 처리(위음성)되고 파이프라인은 멈춘다. 이는 모델의 창의성을 철저히 억압하여 단어만 앵무새처럼 따라 하게 만드는 과적합(Overfitting)을 유발한다.

3. 오라클로서의 치명적 결함 2: 부정어 무시로 인한 위양성 (False Positive)

N-gram 통계는 문장이 내포한 “논리적 방향“을 읽지 못한다. 가장 끔찍한 사태는 단어 하나, 특히 부정어(Negation)나 극성(Polarity)이 바뀌었음에도 나머지 단어들이 겹친다는 이유로 오라클이 스코어에 기만당하는 경우다.

정답 (Reference): “이 약물은 임산부에게 투여해서는 안 된다.”
생성 (Candidate): “이 약물은 임산부에게 투여해야 한다.”

두 문장은 의료 도메인에서는 사람의 목숨을 앗아갈 수 있는 정반대의 사실이다. 그러나 BLEU나 ROUGE 알고리즘은 단지 “안” 이라는 1-gram의 차이만 존재할 뿐, “이, 약물은, 임산부에게” 등의 수많은 N-gram이 완벽하게 일치하므로 $0.90$ 이상의 초고득점을 부여한다.
품질 관리자(QA)가 오라클 스코어보드의 $0.90$ 을 보고 안심하여 PASS를 승인하는 순간, 시스템은 살인적인 환각(Hallucination)을 사용자에게 방출(False Positive)하게 된다.

4. 소결: 통계 지표는 품질의 관문을 통과할 자격이 없다

결론적으로 ROUGE와 BLEU와 같은 전통적 통계 지표들은 ’팩트(Factuality)’를 검증할 능력도 없고, ’표현의 다양성(Fluency)’을 포용할 관대함도 없다.

단어의 피상적 외형(Surface Form)만을 세는 이 도구들을 빌드 통과(Pass/Fail) 여부를 판가름하는 오라클로 사용하는 것은, 건축물의 내진 설계를 벽돌의 개수만 세어 합격시키는 것과 다를 바 없다. 엔터프라이즈의 무결성을 보장하기 위해서는 형태가 아닌 구조(JSON)나 의미(Cosine Similarity, MR) 자체를 검사하는 본질적인 오라클 설계로 완전히 넘어가야만 한다.

이어지는 2.6.2절에서는 과거의 N-gram 방식을 넘어 LLM 시대를 위해 고안된 전용 통계 지표들(Perplexity, Truthfulness 등)을 살펴본다. 이 성능 개선된 지표들조차 왜 실무 비즈니스 파이프라인에서는 오라클의 자리를 꿰찰 수 없는지, 지표와 비즈니스 요구사항 사이의 근본적 괴리에 대해 해부할 것이다.