1.7.4. 정답지(Ground Truth) 확보의 비용과 현실적 제약

소프트웨어 시스템의 신뢰성을 입증하기 위한 모든 검증 파이프라인의 종착점은 결국 시스템의 출력과 비교할 ’결정론적 정답지(Deterministic Ground Truth)’를 어떻게 확보할 것인가의 문제로 귀결된다. 고전적 소프트웨어 공학에서는 도메인 전문가와 품질 보증(QA) 엔지니어가 명세서(Specification)를 기반으로 정답 데이터를 정교하게 구형(Molding)하고, 이를 통해 참 오라클(True Oracle)을 구현해 왔다. 하지만 인공지능 시대의 소프트웨어 개발 환경에서는 대규모 언어 모델(LLM)이 쏟아내는 폭발적인 출력 변주, 즉 비결정적 출력을 포괄할 정답지를 수동으로 확보하려는 시도가 심각한 공학적, 경제적 한계에 부딪히게 된다.

본 절에서는 “작동 가능한 코드나 텍스트의 정답지“를 인간 주도적으로 확보하려 할 때 수반되는 비용 폭발과 물리적 제약의 본질을 분석한다.

1. 정답의 다형성과 상태 공간의 폭발(State Space Explosion)

결정론적 애플리케이션(예: $y = x^2$ 반환 함수)에서는 단일 입력값에 대해 하나의 명확한 수학적, 논리적 결과만이 정답으로 기능한다. 따라서 유닛 테스트(Unit Test)를 위한 정답 수트(Ground Truth Suite)를 작성하는 데 필요한 엔지니어링 비용은 예측 가능하며 선형적(Linear)이다.

그러나 AI 기반 생성 모델에서는 동일한 비즈니스 적합성을 달성하는데도 수백 가지의 구문적, 의미적 구현(Implementation)이 가능하다. 이를 ’정답의 다형성(Polymorphism of Truth)’이라 부른다.

상태 공간의 기하급수적 팽창: 개발자가 LLM이 생성할 것으로 예상되는 ‘핵심 코드 조각’ 또는 ’이상적인 응답 텍스트’를 사전에 모두 정답지로 써두려 시도한다고 가정해보자. 코딩 스타일, 라이브러리 사용 여부, 변수명 지정 방식과 같은 무작위 변동성이 개입될 때마다, 검증을 통과(Pass)시켜야 할 정답지의 개수는 지수 함수적(Exponentially)으로 폭발한다. 이는 소프트웨어 공학의 ‘상태 공간 폭발(State Space Explosion)’ 문제와 질적으로 동일하며, 결국 모든 갈래의 참(True) 분기를 포괄하는 완전한 정답지 풀(Pool)을 구축하는 것은 이론적으로 불가능에 가깝다.

2. 경제성(Economics)의 상실과 역전 현상

결정론적 정답지 유지와 확보 프로세스는 본질적으로 사람(도메인 전문가, 데이터 엔지니어, 리뷰어)의 노동 집약적 개입을 전제로 한다. LLM이 가져다준 코딩의 파괴적 생산성을 누리기 위해 생성 파이프라인(Generation Pipeline)은 극도로 자동화되어 있는 반면, 이를 검증할 레이블링(Labeling)이나 정답 큐레이션(Curation) 파이프라인은 여전히 인간의 속도에 묶여 있다.

graph TD
    A[AI 에이전트\n수천 줄의 코드 / 텍스트 순식간에 생성] --> B((검증 병목 지점\nVerification Bottleneck))
    
    B -->|도메인 전문가 개입| C[Ground Truth 수동 생성 및 레이블링]
    C --> D[생성 속도 단위 시간당 100\n정답 확보 속도 단위 시간당 1]
    
    D --> E[비용의 역전 현상 발생]
    E -->|정답지 확보 비용 > AI 도입을 통한 절감 비용| F[기술 투자 대비 효용(ROI) 상실]
    
    classDef Alert fill:#fdd,stroke:#d00,stroke-width:2px;
    class D,E,F Alert;

ROI(Return on Investment)의 파괴: AI를 도입하여 ’코드 작성 시간’은 절약했지만, 도출된 다형적 출력이 우리의 스키마에 맞는지 검토하기 위해 ’정확한 비교군(정답)을 만드는 시간’이 기하급수적으로 길어지게 된다. 즉, 정답지 확보 비용이 AI의 코딩 보조 기능으로 얻은 이득을 완전히 잠식해 버리는 경제성의 역전 현상이 도래한다. 이는 ’느낌적 코딩’이 엔터프라이즈 레벨로 확장될 때 마주하는 가장 참혹한 모순이다.

3. 정적 데이터셋(Static Dataset)의 노후화(Obsolescence)

어렵게 다량의 통계적 정답지를 수집했다 하더라도, 기술 스택 패러다임은 끊임없이 진화한다.

예를 들어, 프론트엔드 React 컴포넌트를 테스트하기 위해 방대한 양의 Class 컴포넌트 렌더링 정답지를 만들어 두었다고 하자. 그러나 AI 모델 본연의 가중치가 업데이트되거나, 시장의 트렌드가 훅(Hooks) 기반의 함수형 컴포넌트로 이동하여 AI가 새로운 패러다임의 코드를 뱉어내는 순간, 기존에 확보해 둔 막대한 비용의 정답지 데이터 셋은 한순간에 무용지물(Deprecated) 이 되어 모든 테스트를 실패(Fail)로 처리하게 된다. 즉, 일대일 비교를 위한 정적 정답지는 유지 보수성(Maintainability)이 극도로 낮다.

4. 소결: 정답의 형태에서 ’제약 조건’의 형태로

요약하자면, 인공지능 시대의 검증 파이프라인에서 텍스트의 나열이나 코드의 문자열 그 자체로 ’강압적인 정답지(Absolute Ground Truth)’를 정의하려는 시도는 극악의 비용과 확장성 불능 상태를 낳는다.

우리는 정답지 확보의 관점을 180도 전환해야 한다. 비용의 거대한 장벽을 우회하기 위해서는 “무엇이 모범 답안인가“라는 점-대-점(Point-to-Point) 일치 평가를 버리고, “무엇이 이 시스템을 폭파시키지 않는 절대적 경계 조건(Boundary Condition)인가“를 정의하는 쪽으로 넘어가야 한다. 즉, 데이터의 나열인 정답지를 확보하는 것보다, JSON Schema, 타입 컨트랙트(Type Contract) 등과 같이 정답이 반드시 띠어야 할 ‘수학적 속성과 형태(Meta-property of Truth)’ 를 오라클로 명문화하는 시스템적 접근이 현실적인 유일한 대안이다.