3.4.4.1 임베딩 벡터 유사도(Cosine Similarity)의 임계값(Threshold) 설정

비정형 텍스트(Unstructured Text)를 밀집 벡터(Dense Vector) 공간으로 변환하여 두 문장의 내적(Dot Product)을 통해 방향성을 구하는 코사인 유사도(Cosine Similarity)는 -1에서 1 사이의 (일반적으로 신경망 임베딩에서는 0에서 1 사이) 연속적인 실수(Continuous Float) 값을 반환한다. 수학적으로 1에 수렴할수록 두 문장의 의미론적(Semantic) 지향점이 완벽히 일치함을 뜻하고, 0에 수렴할수록 직교(Orthogonal)하여 전혀 무관한 문장임을 의미한다.

이러한 분포를 지닌 연속적인 확률 공간(Probabilistic Space)을 소프트웨어 엔지니어링에서 요구하는 ’성공(Pass)’과 ’실패(Fail)’라는 이분법적이고 결정론적인 판정 영역(Deterministic Assertion Area)으로 단절시키기 위해서는, 시스템의 본질적 요구사항에 부합하는 도메인 특화된 임계값(Threshold) 설정이 필수적이다.

1. 과적합(Overfitting)과 과소적합(Underfitting)의 딜레마

정답지 검증 시스템에서 임베딩 유사도 임계값을 설정하는 행위는 딥러닝(Deep Learning) 모델의 본분인 하이퍼파라미터 튜닝(Hyperparameter Tuning)과 궤를 같이하는 고도의 통계적 조율(Statistical Tuning) 과정이다.

초고민감도(Hyper-sensitive) 임계값 설정 (예: 0.95 이상): AI가 “배송이 시작되었습니다“를 “상품 출고가 완료되었습니다“로 의미상 완벽하게 대답했음에도 불구하고, 단어 표상(Word Representation)의 미세한 차이로 인해 벡터 유사도가 0.92로 측정되어 FAIL 판정을 받는 오류가 발생한다. 이는 시스템에 사실상 글자 단위의 완전 일치(Exact Match)를 강요하는 가혹한 기준과 다르지 않으며, 개발팀은 끊임없이 쏟아지는 거짓 양성(False Positive) 알람 테이블 속에서 허우적대게 된다.
저민감도(Hypo-sensitive) 임계값 설정 (예: 0.70 이하): 배송 응대 챗봇이 “배송이 취소되었습니다“라는 치명적인 오답이나 논리 역전(Logic Reversal)을 내놓아도 조심해야 한다. “배송“이나 “상태“라는 지배적인 핵심 도메인 단어들의 군집화(Clustering) 효과가 부정어의 미세한 방향 조정을 압도해버려 유사도가 0.75를 넘기게 되고, 결국 PASS 처리되는 대참사가 발생한다. 즉, 과소적합(Underfitting)된 검증망이다.

graph TD
    A[문장 A: 정답지] --> C(텍스트 임베딩 모델)
    B[문장 B: 생성형 AI 응답] --> C
    C --> D[벡터 공간 변환 Vectorization]
    D --> E{단언문: Cosine Similarity >= Threshold}
    E -->|0.85 이상| F[PASS: 의미론적 동치 판단]
    E -->|0.85 미만| G[FAIL: 의미 왜곡 또는 환각]
    
    style E fill:#fff3e0,stroke:#fb8c00,stroke-width:2px

2. 임계값 캘리브레이션(Calibration) 모범 사례

비즈니스에 신뢰할 수 있는 임계값을 설정하기 위해서는 담당 엔지니어의 직관(Intuition)이 아닌, 철저히 데이터 분포도에 입각한 캘리브레이션 튜닝 체계(Calibration Tuning Architecture)가 요구된다.

히스토그램 기반의 코퍼스(Corpus) 분석: 프로덕션(Production) 환경의 과거 시스템 로그(System Log)에서 1,000건의 ‘인간 엔지니어가 육안으로 검수한 정답형 문장’ 샘플과 1,000건의 ‘가드레일(Guardrail)을 위반한 명백한 오답 문장’ 샘플을 상호 배타적으로 추출한다.
분포도 시각화(Distribution Visualization) 및 통계 분석: 이 두 개의 개별 대조군 그룹과 시스템의 기준 정답지 간의 코사인 유사도를 각각 계산하여 겹쳐진 히스토그램(Overlapped Histogram)을 도식화한다. 통계적으로 이상적인 상황 모델에서는, 정답 대조군의 정규 분포가 0.85 ~ 0.98 구간에 밀집하고 오답 대조군의 분포가 0.30 ~ 0.60 구간에 꼬리를 내릴 것이다.
교차점 기반 임계값(Intersection-based Threshold) 결정: 통계적으로 정답 그룹의 확률 밀도 함수(Probability Density Function)와 오답 그룹의 확률 밀도 곡선이 교차하는 최적의 지점, 즉 오차 행렬(Confusion Matrix) 상 전체 에러율이 최소화되는 지점(예: 0.82)을 해당 검증 시스템의 공식 임계값 상수로 선언한다.

오라클 시스템(Oracle System)은 분석을 통해 도출된 단 하나의 스칼라 값(Threshold = 0.82)을 전역 환경 변수(Global Environment Variable)나 상수표(Constant Table)에 견고하게 박아 넣는다. 이 철저하고 체계적인 엔지니어링 접근법 통제 하에, 임베딩을 시맨틱 라우터(Semantic Router)로 활용한 정답지는 흐릿한 확률의 안개 속을 뚫고 명확한 Assert(Actual_Similarity >= 0.82) 단언문을 갖춘 진정한 소프트웨어 공학 도구로 격상될 수 있다.