2.11 생성형(Generative) AI 시스템과 예측형(Predictive) AI 시스템의 테스팅 차이

인공지능 소프트웨어의 품질을 보증하는 테스트 전략은 도입되는 AI 모델의 본질적 특성에 따라 완전히 달라져야 한다. 기존의 기계 학습이 주도하던 시대에는 주로 예측형(Predictive) AI가 시스템의 핵심을 이루었으나, 거대 언어 모델(LLM)의 등장 이후 생성형(Generative) AI가 주류로 부상하면서 테스트 패러다임에 근본적인 균열이 발생했다.

이 두 시스템은 입력값(Input)을 처리하여 출력값(Output)을 до출하는 매커니즘 자체가 다르며, 결과적으로 ’정답(Ground Truth)’을 정의하고 비교하는 오라클(Test Oracle)의 구현 방식에서 극명한 차이를 보인다.

1. 예측형(Predictive) AI 시스템의 테스팅: 닫힌 세계(Closed-World)의 판별

예측형 AI는 본질적으로 분류(Classification), 회귀(Regression), 클러스터링(Clustering)과 같이 사전에 정의된 유한한 범주 내에서 확률을 계산하고 정답을 매핑(Mapping)하는 구조를 띤다. 예를 들어, 스팸 이메일 필터링, 이미지 객체 인식(Object Detection), 주택 가격 예상 모델 등이 이에 해당한다.

이러한 시스템의 테스팅은 철저하게 닫힌 세계(Closed-World) 가정 하에서 이루어지며, 명확한 정답과 오답의 이분법 혹은 수학적 오차 범위가 존재한다.

결정론적 라벨(Deterministic Label): 예측형 모델의 테스트 데이터셋은 사람이 이미 완벽하게 라벨링해 둔(Human-Annotated) 1:1 매핑 정답지(Ground Truth)를 갖는다. 스팸 여부는 오직 ‘True(스팸임)’ 혹은 ‘False(정상임)’ 둘 중 하나일 뿐이다.
단순한 검증 오라클(Simple Verification Oracle): 테스트 오라클은 모델의 출력값 $\hat{y}$ 과 실제 정답 라벨 $y$ 가 일치하는지를 확인하는 단순한 등호 연산(==) 또는 수학적 차이(예: Mean Squared Error) 연산으로 치환된다.
지표의 명확성: 모델의 성능은 혼동 행렬(Confusion Matrix)을 기반으로 한 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score 등으로 명확하고 객관적인 수치로 환산되며, 이는 부서 간 합의를 거칠 필요가 없는 절대적인 평가 기준이 된다.

2. 생성형(Generative) AI 시스템의 테스팅: 열린 세계(Open-World)의 무한한 출력

반면 생성형 AI, 특히 LLM 기반 챗봇이나 코드 생성 엔진 등은 단순 확률 분포를 넘어 새로운 텍스트 시퀀스, 코드 블록, 이미지 등을 무에서 유로 ’생성’한다. 이는 닫힌 세계가 아닌 **열린 세계(Open-World)**에서의 테스트를 강제한다.

정답 공간(State Space)의 무한대: 동일한 프롬프트(Prompt) “태양계의 기원에 대해 설명해줘“에 대해 생성될 수 있는 유효한 답변의 경우의 수는 이론상 무한대이다. 따라서 단 하나의 ’완벽한 정답 문자열’을 라벨링하는 것은 불가능하다.
정답의 스펙트럼 화(Spectrum of Correctness): 생성형 시나리오에서는 예측형 AI의 ‘명확한 정오(True/False)’ 개념이 해체된다. 답변은 ‘완벽히 정확하고 유려함’, ‘부분적으로 누락되었으나 사실에 부합함’, ‘형식을 위반했으나 내용은 맞음’, ‘치명적인 환각(Hallucination)’ 등 이산적이지 않은 연속적인 품질 스펙트럼 위에 놓이게 된다.
복합적이고 다차원적인 오라클 요구: 오라클은 더 이상 단순한 A == B의 비교 연산자일 수 없다. 생성된 출력이 비즈니스 요구사항을 충족하는지 검사하기 위해서는 의미론적 일치(Semantic Equivalence), 출력 형식의 강제(JSON Schema Match), 사실 관계의 무결성(Factual Consistency), 톤앤매너(Tone and Manner) 등 다차원적인 검증 파이프라인(Multi-dimensional Verification Pipeline)이 필요해진다.

3. 테스팅 전략의 본질적 전환 요약

결론적으로 두 영역의 테스팅은 다음과 같은 본질적인 철학의 차이를 보인다.

예측형 AI 테스트: 모델이 이미 존재하는 **‘정해진 정답을 맞혔는가?’**를 평가한다. (Focus on “Did it guess right?”)
생성형 AI 테스트: 모델이 출력한 결과물이 비즈니스 로직과 시스템 인프라가 요구하는 **‘제약 조건(Constraints)을 위반하지 않았는가?’**를 검증한다. (Focus on “Did it break any rules?”)

이러한 근본적인 차이는 생성형 AI를 기반으로 엔터프라이즈 소프트웨어를 구축할 때, 유닛 테스트와 기능 테스트의 아키텍처를 완전히 밑바닥부터 재설계해야 함을 시사한다. 단순 비교 오라클(Equality Oracle)이 작동하지 않는 세계에서, 우리는 어떻게 예측 불가능성을 통제하는 새로운 확정적 검증 로직을 조립할 것인지 다음 절들에서 세부적으로 다루게 될 것이다.