8.6.3 답변 관련성(Answer Relevance) 평가 프롬프트 설계

8.6.3 답변 관련성(Answer Relevance) 평가 프롬프트 설계

검색기가 유효한 문서를 가져왔다 하더라도(Context Relevance 통과), 정작 타겟 모델이 사용자의 질문 의도를 빙빙 에두르며 대답을 회피하거나, 유저가 묻지도 않은 TMI(Too Much Information)를 장황하게 늘어놓는다면 그 응답은 RAG 시스템의 신뢰성에 치명상을 입힌다. 예를 들어, 유저가 “2024년 1분기 매출이 얼마인가요?“라고 단답형 팩트를 물었는데, 모델이 “당사는 2024년에 다양한 파트너십을 체결했으며 1분기에는 많은 노력이 있었습니다“라며 정작 핵심 수치를 빼놓고 정치적인 대답(Evasive Answer)만 늘어놓는 경우다.

이를 차단하기 위해 오라클 파이프라인은 심판관 LLM을 동원하여 답변 관련성(Answer Relevance) 지표를 강제 평가한다. 이 지표의 놀라운 점은, ‘질문을 보고 답변을 채점하는’ 전통적인 정방향(Forward) 평가 방식을 쓰지 않는다는 데 있다. 오라클 시스템은 평가의 결정론적 무결성을 높이기 위해, RAGAS 프레임워크가 고안한 고도의 역방향 재구축(Reverse-Engineering) 프롬프팅 기법을 채택한다.

1. 역방향 질문 생성(Reverse Question Generation) 아키텍처

답변 관련성 평가 프롬프트는 심판관 LLM(Judge)에게 원본 질문(Original Query)을 아예 보여주지 않은 상태에서 시작한다. 오라클은 오직 타겟 모델이 생성해 낸 ‘최종 답변(Answer)’ 텍스트 덩어리만을 뚝 떼어내어 심판관 모델에게 던져준다.

  • Step 1: 심판관 모델에게 하달되는 역방향 프롬프트 템플릿
    [System]
    당신은 텍스트의 논리적 구조를 역추적하는 분석기 설계자이다.
    
    [Instruction]
    아래에 제공된 [Answer] 텍스트를 읽고, 이 답변이 완벽한 정답이 되도록 만드는 '가상의 질문(Generated Question)'을 N개 생성하라.
    어떤 맥락이나 외부 상황도 가정하지 말고, 오직 주어진 텍스트 내의 정보만을 바탕으로 질문을 역설계(Reverse-engineer)해야만 한다.
    
    [Input]
    Answer: {generated_answer}
    

역설계의 철학은 명쾌하다. 만약 타겟 LLM이 유저의 질문에 제대로 대답하지 않고 동문서답을 렌더링했다면, 심판관 LLM이 이 엉터리 대답을 바탕으로 억지로 만들어낸 가상의 질문(Generated Question)들 역시, 본래 유저가 던졌던 원본 질문(Original Query)과는 그 의미와 의도가 완전히 동떨어진 우스꽝스러운 형태가 될 수밖에 없다.

## 2.  벡터 코사인 유사도(Cosine Similarity)를 통한 교차 검증


심판관 LLM이 주어진 답변만으로 가상의 질문($GQ_1, GQ_2 \dots GQ_n$)들을 여러 개 생성하여 오라클 미들웨어로 반환하고 나면, 오라클은 비로소 지금까지 숨겨두었던 유저의 진짜 원본 질문($OQ$)을 꺼내 든다.
이제 LLM의 텍스트 생성 임무는 모두 종료되었으며, 파이프라인은 철저한 수리 논리학과 벡터 연산의 영역으로 진입한다. 오라클 시스템은 가상의 질문들($GQ$)과 원본 질문($OQ$)을 모두 임베딩 모델(Embedding Model)에 통과시켜 고차원 벡터 텐서로 변환한 뒤, 이들 간의 **코사인 유사도(Cosine Similarity)**를 산출한다.

$$\text{Relevance Score} = \frac{1}{N} \sum_{i=1}^{N} \text{CosineSimilarity}(Embedding(OQ), Embedding(GQ_i))$$

이 방식은 단순히 텍스트 내의 키워드가 일치하는가를 따지는 원시적인 ROUGE, BLEU 지표와는 차원이 다르다. 타겟 모델의 응답 텍스트 전체가 내포하고 있는 '의미론적 질량(Semantic Mass)'이 유저의 원래 목적지 벡터를 향해 정확히 조준되어 있는지를 기계적 스칼라 값으로 증명해 낸다. 코사인 유사도 임계값이 오라클이 설정한 0.8 이하로 떨어졌다면, 이는 타겟 모델이 교묘하게 질문을 회피하고 엉뚱한 노이즈를 읊고 있다는 수학적인 확증이다.

이 역방향 재구축(Reverse-Engineering) 기반의 Answer Relevance 체계는 LLM-as-a-Judge가 가질 수 있는 채점의 변동성과 편향을 임베딩 벡터의 상수 체계 아래로 묶어둠으로써, 그 어떤 평가 프레임워크보다 강력한 결정론적 제어권을 엔터프라이즈 오라클에 부여한다.