2.5.3. 참조 기반(Reference-based) 오라클과 무참조(Reference-free) 오라클

2.5.3. 참조 기반(Reference-based) 오라클과 무참조(Reference-free) 오라클

2.5.2절까지 우리는 임계치(Threshold)라는 잣대를 통해 어떻게든 확률에서 확정으로 나아가려는 수리적 타협안을 살펴보았다. 그러나 오라클이 스코어를 계산하고 임계치를 적용하기 이전에, 반드시 짚고 넘어가야 할 근원적인 아키텍처 질문이 존재한다. **“오라클은 무엇을 기준으로(Ground Truth) 정답을 판별할 것인가?”**이다.

과거의 소프트웨어 공학에서는 정답의 유무를 의심할 필요가 없었다. expected_output이라는 명확한 기준이 언제나 하드코딩되어 있었기 때문이다. 그러나 예측 불가능한 텍스트를 끝없이 생성해내는 거대 언어 모델(LLM) 환경에서는, 정답을 사전에 정의할 수 있는 영역과 정의조차 불가능한 영역이 극명하게 갈린다.

이러한 기준점(Reference)의 존재 유무에 따라, AI 테스팅의 오라클은 설계 철학과 검증의 깊이가 완전히 다른 두 갈래의 접근법, 즉 **참조 기반 오라클(Reference-based Oracle)**과 **무참조 오라클(Reference-free Oracle)**로 양분된다. 본 절에서는 이 두 패턴의 구조적 특징과 실무적 적용 한계를 비교 분석한다.

1. 참조 기반(Reference-based) 오라클: 그라운드 트루스의 수호자

참조 기반 오라클은 모델의 출력을 검증하기 위해 미리 정의된, 혹은 외부에서 보장된 ’명백한 지식의 원천이나 완전한 예시 정답(Ground Truth)’을 보유하고 있는 아키텍처다.

AI의 출력이 아무리 유창하더라도, 오라클은 맹목적으로 자신이 쥐고 있는 참조 데이터(Reference Data)와의 일치율(Overlap)만을 차갑게 계산한다.

  • 적용 도메인: 기계 번역(지정된 번역문 존재), 검색 증강 생성(RAG, 지정된 위키/문서 본문 존재), 객체 인식(정확한 Bounding Box 좌표 존재).
  • 지표 모델: 코사인 유사도(Cosine Similarity), BLEU, ROUGE 비율 분석. 혹은 원본 문서 내 데이터 포함 여부를 판독하는 엄격한 NLI(Natural Language Inference) 판별.

1.1 참조 기반 오라클의 한계: 비용과 유연성의 상실

참조 기반 접근법은 사실성(Factuality) 면에서 타협 없는 무결성을 제공하지만, 다음과 같은 치명적인 한계를 수반한다.

  • 구축 비용의 폭발: 수만 개의 테스트 시나리오에 대해 완벽한 문장형 ’모범 답안’을 인간 전문가가 일일이 작성하고 관리해야 한다.
  • 창의성의 억압: 정답지와 조금이라도 다른 구조로 유창하고 독창적인 해답을 냈음에도 불구하고, 오라클의 임계치 점수가 깎여 FAIL로 처리되는 위음성(False Negative) 현상의 주범이 되기도 한다.

2. 무참조(Reference-free) 오라클: 내재적 품질(Intrinsic Quality)의 감독관

반면, 무참조 오라클은 사전에 정의된 ‘모범 답안’ 없이, 모델이 생성한 출력물 그 자체의 내재적 품질과 논리성을 척도로 삼아 통과 여부를 검증하는 아키텍처다.

“완벽한 정답은 없지만, 이런 형태여서는 절대 안 된다“라는 제약 조건(Constraints)의 철학 체계에 기반한다.

  • 적용 도메인: 마케팅 카피라이팅 생성, 창의적 소설 작성, 브레인스토밍, 문법 교정기.
  • 검증 벡터:
  • 구조적/문법적 척도: 응답이 필수적인 JSON Schema 형식을 준수했는가?
  • 정책적 보안 척도: 출력물 내에 유해어(Toxicity), 편향성(Bias), 개인식별정보(PII)가 포함되어 있지 않은가?
  • 내재적 지표 척도: 토큰의 Perplexity(당혹도)가 기준 이상으로 낮아 자연스러운가?

2.1 검증자로서의 모델(LLM-as-a-Judge)과 무참조의 진화

최근의 무참조 오라클은 정규표현식(Regex)을 넘어서, 또 다른 강력한 AI(예: GPT-4)를 판사(Judge)로 임명하여 “이 답변이 질문의 의도(Intent)에 부합하며 논리적으로 말이 되는가?“를 점수화하는 LLM-as-a-Judge 패러다임으로 고도화되고 있다. 정답지가 없어도 AI가 AI의 문맥적 정합성을 독립적으로 평가하는 구조다.

graph TD
    subgraph Reference-based Oracle
        P1(Input Prompt) --> M1(AI Model)
        M1 --> O1[Generated Output]
        
        Ref[(Golden Dataset \n Ground Truth)] --> Eval1{"Compare \n (Score: 0 ~ 1.0)"}
        O1 --> Eval1
        
        Eval1 --> |High Overlap| Pass1((PASS))
    end

    subgraph Reference-free Oracle
        P2(Input Prompt) --> M2(AI Model)
        M2 --> O2[Generated Output]
        
        Rules[/"Constraints: \n - Valid JSON \n - No Toxicity"/] --> Eval2{"Intrinsic & Rule \n Validation"}
        O2 --> Eval2
        
        Eval2 --> |Rule Met| Pass2((PASS))
    end
    
    style Pass1 fill:#efe,stroke:#3c3,stroke-width:2px;
    style Pass2 fill:#efe,stroke:#3c3,stroke-width:2px;

3. 소결: 하이브리드(Hybrid) 설계를 향한 과제

참조 기반 오라클과 무참조 오라클은 배타적인 선택지가 아니다. 현대 엔터프라이즈 AI 시스템은 이 두 가지 오라클을 층(Layer)으로 겹쳐서 사용하는 하이브리드 파이프라인을 구축한다.

예를 들어, 1차적으로 응답 서식이 깨지지 않았는지를 판단할 때는 무참조 기반의 ’구조적 오라클(Structural Oracle)’을 가동시키고, 포맷을 정상적으로 통과한 데이터에 한해서 2차적으로 RAG 문서 지식과 대조하는 참조 기반의 ’의미 기반 오라클(Semantic Oracle)’을 작동시키는 방식이다.

이어지는 다가올 하위 절들은 방금 살펴본 오라클의 아키텍처적 양분화를 바탕으로 실제 공학 적용 레벨로 들어간다.
**2.5.4절(구조적 오라클)**에서는 파이프라인의 1차 방어막인 출력 형식 제어를 수학적으로 구현하는 기법을, **2.5.5절(의미 기반 오라클)**에서는 임베딩 벡터와 코사인 유사도를 활용하여 참조 기반의 팩트(Fact)를 계산하는 실전 전략을 치밀하게 분석할 것이다.