14.4.2 의미론적 지표: 임베딩 유사도(Cosine Similarity), BLEU/ROUGE, LLM-as-a-Judge 점수

단순한 JSON 스키마를 던져넣는 ’결정론적 지표’가 애플리케이션의 붕괴(Crash)를 막는 생존의 마지노선이라면, **‘의미론적 지표(Semantic Metrics)’**는 AI 고유의 생성물인 자연어 텍스트가 인간의 의도(Intent)와 얼마나 맞닿아 있는지 모델의 지능과 뉘앙스를 측정하는 고도화된 소프트 스코어(Soft Score)다.
대화형 챗봇, RAG 기반 지식 요약, 길고 복잡한 보고서 생성 등과 같은 개방형(Open-ended) 태스크에서는 파이썬의 == 연산자나 정규식이 아예 무용지물이 되므로, 파이프라인은 이 확률론적 지표들을 등대 삼아 모델의 퇴행 여부를 감시해야 한다.

1. 기계적 NLP 지표 (BLEU / ROUGE)

이들은 2010년대 기계 번역 시절부터 사용된 텍스트 계측기로, 골든 데이터셋의 정답(Ground Truth) 텍스트와 모델이 생성한 텍스트 사이에 똑같은 단어(N-gram)가 얼마나 많이 겹치는지 측정한다.

BLEU (Bilingual Evaluation Understudy): 주로 번역 테스트에서 사용되며, 모델이 뱉어낸 단어들이 정답지 안에도 정확히 존재하는가(정밀도, Precision)를 측정한다.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 주로 요약(Summarization) 테스트에서 쓰이며, 정답지에 있는 핵심 단어들을 모델이 빼먹지 않고 잘 찾아냈는가(재현율, Recall)를 측정한다.
[한계점]: “사과“라는 정답 대신 “Apple“이라고 출력했다고 가정해 보자. 의미는 100% 동일하지만 단어의 형태가 다르므로 이 낡은 알고리즘들은 가차 없이 ’0점’을 때려버리는 치명적인 맹점이 존재한다. 따라서 엔터프라이즈 LLM 평가에서는 보조 지표로만 쓰일 뿐, 메인 브레이커로는 작동하지 못한다.

2. 의미론적 벡터 지표 (임베딩 코사인 유사도, Cosine Similarity)

N-gram 기반의 고리타분한 단어 겹침 문제를 극복하기 위해, 문장을 수학적인 다차원 벡터 공간(Vector Space)으로 투영시켜 거리를 재는 아키텍처다.

[동작 원리]:

임베딩(Embedding): 오라클 러너는 모델이 뱉어낸 응답(A)과 골든 정답지(B)를 각각 text-embedding-3-small 같은 임베딩 모델에 던져 넣어 수백 차원의 숫자 배열(Vector)로 바꾼다.
거리 계산: 이 두 벡터 간의 각도, 즉 **코사인 유사도(Cosine Similarity)**를 계산하여 의미론적 일치율을 0.0 ~ 1.0(또는 -1.0 ~ 1.0) 사이의 스칼라 값으로 추출해 낸다.

[실전 활용]: “오류가 발생했습니다“와 “시스템 장애가 터졌습니다“라는 두 문장은 단어가 하나도 겹치지 않지만, 유사도 점수로는 0.92 이상의 매우 높은 합격점이 도출된다. 주로 RAG 파이프라인에서 검색된 문서를 모델이 얼마나 충실히 요약하고 있는지(Loyalty)를 대규모로 싸게 채점할 때 쓰인다.

3. 궁극의 포식자 (LLM-as-a-Judge 지표)

그러나 벡터 유사도조차도 “A 은행 카드가 제일 좋아요“와 “A 은행 카드는 쓰레기입니다” 같은, 단어는 똑같고 문장 벡터 위치도 비슷하지만 긍/부정이 완전히 정반대인 교묘한 치명적 오답을 쉽게 구분해 내지 못한다. 이때 제7장에서 설계한 ‘초거대 심사관(LLM-as-a-Judge)’ 오라클이 등판한다.

[대시보드 지표화]: CI 파이프라인의 종착역에서, 채점관 LLM(GPT-4o)이 뱉어낸 서술형 종합 평가 결과는 반드시 프론트엔드가 그릴 수 있는 수치와 객관적 토글(Toggle)로 변환되어 대시보드에 뿌려져야 한다.
친절도 (Tone & Manner Score): 1점(무례함) ~ 5점(매우 훌륭함)의 리커트 척도 평점. (경고 임계값 제어용)
할루시네이션 지수 (Hallucination Flag): [True/False] 형태의 Boolean. 하나라도 True가 찍히는 순간 빌드(Build)는 영구 정지된다.
유해성 레이블 (Toxicity Category): [없음, 성희롱, 편견/차별, 욕설] 등의 원-핫 인코딩(One-hot Encoding) 분포 비율.

이 세 가지 의미론적 지표는 CI/CD가 릴리즈를 결정하는 순간, 모델의 **‘지능, 뉘앙스, 그리고 기업의 브랜드 훼손 가능성’**을 한눈에 파악할 수 있게 해 주는 고도화된 대시보드의 계기판이 된다.