2.5.6. 메타모픽 테스팅(Metamorphic Testing) 기법을 활용한 관계적 속성 검증

이전 절들에서 다룬 참조 기반 오라클이나 의미 기반 오라클은 모두 하나의 전제를 공유한다. “우리는 입력값에 대해 어떤 출력이 나와야 하는지, 그 절대적인 ’정답’이나 ’형태’를 미리 알고 있다“는 것이다. 그러나 현대의 거대 언어 모델(LLM)이 투입되는 도메인(예: 기계 번역, 코드 최적화, 맥락 기반 요약)에서는 정답 자체가 존재하지 않거나, 정답을 도출하기 위해 테스트를 수행하는 비용이 시스템을 운영하는 비용보다 커지는 **오라클 문제(The Oracle Problem)**에 직면하게 된다.

이러한 정답 없는 사각지대를 타파하기 위해 소프트웨어 공학계에서 고안해낸 우아한 수학적 해결책이 바로 **메타모픽 테스팅(Metamorphic Testing)**이다. 본 절에서는 절대적 ’정답’을 몰라도 입력-출력 간의 관계형 불변성(Relational Invariant)을 이용하여 역으로 결함을 검증해내는 메타모픽 테스팅의 강력한 메커니즘을 살펴본다.

1. 메타모픽 관계(Metamorphic Relation, MR)의 수학적 정의

메타모픽 테스팅의 핵심 철학은 “함수의 완벽한 결과값 $f(x)$ 를 알아내는 것은 불가능하지만, 원본 입력값 $x$ 를 변형시킨 $x'$ 를 넣었을 때 도출되는 $f(x')$ 가 원본 결과 $f(x)$ 와 어떠한 관계를 가져야만 하는지는 수학적으로 예측할 수 있다“는 것이다.

이때 $x$ 와 $x'$ , 그리고 $f(x)$ 와 $f(x')$ 사이에 성립해야만 하는 절대적인 논리적 속성을 **메타모픽 관계(Metamorphic Relation, MR)**라고 부른다.

$MR: (x \rightarrow x') \implies R(f(x), f(x'))$

LLM의 비결정성(Nondeterminism) 하에서도, 이 메타모픽 관계 $MR$ 은 반드시 결정론적으로 참(True)이어야 한다. 만약 LLM이 이 관계를 위반한다면, 우리는 정답을 몰라도 LLM 내부에 치명적인 논리적 결함(Hallucination 또는 의도 파악 실패)이 존재함을 확신할 수 있다.

2. LLM 테스트를 위한 메타모픽 관계 패턴

AI 언어 모델의 신뢰성을 검증하기 위해 실무적으로 자주 쓰이는 메타모픽 관계(MR)의 3가지 핵심 패턴은 다음과 같다.

2.1. 동등성(Equivalence) 패턴

입력 문장의 의미를 유지한 채 구문적 형태나 동의어만 교체했을 때, 모델의 출력 결과도 본질적인 의미나 구조를 유지해야 한다는 관계다.

원본 입력 $x$ : “이 코드를 더 빠르게 실행되도록 최적화해라.” -> 출력 $f(x)$
변형 입력 $x'$ : “이 코드를 더 높은 성능을 내도록 개선해라.” -> 출력 $f(x')$
검증 관계 $R$ : $f(x)$ 와 $f(x')$ 의 코드 실행 시간 복잡도(Big-O)가 동일해야 한다. (코사인 유사도로 의미 기반 접근을 하거나, 정적 분석으로 구조를 검사한다)

2.2. 포섭형(Inclusion/Exclusion) 패턴

입력 조건에 더 강한 제약을 추가하면, 출력 결과의 범위는 반드시 동일하거나 더 좁아져야(Subset) 한다는 논리적 상속 관계다.

원본 입력 $x$ : “뉴욕에 있는 이탈리안 레스토랑을 추천해줘.” -> 출력 $f(x)$
변형 입력 $x'$ : “뉴욕에 있는 이탈리안 레스토랑 중 미슐랭 3스타를 추천해줘.” -> 출력 $f(x')$
검증 관계 $R$ : $f(x')$ 의 리스트 결과물 집합은 반드시 $f(x)$ 의 집합에 포함되어야 한다. $f(x') \subseteq f(x)$ . 이를 벗어나면 데이터 검색 RAG 파이프라인의 명백한 결함이다.

2.3. 역상(Inverse/Reversal) 패턴

입력 문장의 논리적 방향이나 서술어를 완전히 뒤집었을 때, 출력 결과 역시 반드시 함께 뒤집히거나 일관된 반대의 맥락을 가져야 한다는 속성이다.

원본 번역 입력 $x$ : “그는 유죄(Guilty) 판결을 받아 감옥에 갔다.” 영어로 번역하라. -> 출력 $f(x)$
변형 번역 입력 $x'$ : $f(x)$ 를 다시 한국어로 번역하라 (Round-trip Translation). -> 출력 $f(x')$
검증 관계 $R$ : 원본 $x$ 와 $f(x')$ 사이에 모순(Contradiction)이 없어야 한다. (종종 ’유죄’가 ’무죄’로 오번역되어 돌아오는 모델 성능 이슈를 탐지한다)

3. 메타모픽 테스팅 오라클 파이프라인

메타모픽 테스팅은 단일 프롬프트를 처리하는 것이 아니라, 원본과 파생 프롬프트 다수를 병렬로 쏘아 올린 뒤 이들 간의 네트워크를 검증하는 고도화된 아키텍처를 요구한다.

graph TD
    Source[Source Input: x] --> M_Trans[Metamorphic Transformation \n Generate x']
    
    Source --> LLM1(LLM Execution)
    M_Trans --> Trans[Transformed Input: x']
    Trans --> LLM2(LLM Execution)
    
    LLM1 --> Out1[Output: fx]
    LLM2 --> Out2[Output: fx']
    
    Out1 --> Oracle{Metamorphic Oracle \n Evaluate R: f(x) vs f(x')}
    Out2 --> Oracle
    
    Oracle --> |Relation Satisfied| Pass((PASS))
    Oracle --> |Relation Violated| Fail((FAIL \n Logical Defect))
    
    style Pass fill:#efe,stroke:#3c3,stroke-width:2px;
    style Fail fill:#fdd,stroke:#d00,stroke-width:2px;

4. 소결: 정답을 초월하는 관계의 증명

메타모픽 테스팅(Metamorphic Testing)은 골든 데이터셋(Golden Dataset)의 부재라는 절망적인 상황 속에서, 인간의 논리적 직관을 수리화하여 오라클 문제를 타파하는 가장 우아한 방법론이다. 절대적인 팩트 체크(Fact-check)는 불가능할지언정, 시스템의 치명적인 “논리적 모순“만큼은 확실하게 찾아내어 비결정성의 공포를 크게 덜어준다.

이로써 2.5절 전체에 걸쳐, 확률적 결과를 확정적 경계( $\tau$ )로 가두는 기본 전략에서 시작해, 참조 기반/무참조 오라클, 형태를 강제하는 구조적 오라클, 공간적 의미를 다루는 의미 기반 오라클, 그리고 관계 불변성을 검증하는 메타모픽 테스팅까지 AI 시대를 위한 오라클의 재정의 아키텍처를 모두 확립하였다.

이어지는 **2.6절(AI 모델 평가 지표와 테스트 오라클의 구분)**에서는, 이러한 오라클의 결정론적 판정(Pass/Fail)이 ROUGE나 BLEU 같은 단순한 모델 평가 지표(Metrics)와 학문적/실무적으로 어떻게 차별화되며, 왜 지표만으로는 상용 소프트웨어 개발을 견인할 수 없는지를 심층 분석한다.