10.10 합성 데이터(Synthetic Data) 생성의 딜레마와 유출(Data Leakage) 방지

10.10 합성 데이터(Synthetic Data) 생성의 딜레마와 유출(Data Leakage) 방지

골든 데이터셋(Golden Dataset)을 구축하는 과정에서 직면하는 가장 현실적인 장벽은 ’양질의 정답 데이터를 확보하는 비용’이다. 인간 라벨러(Human Labeler)나 도메인 전문가를 동원하여 수만 건의 엣지 케이스 쌍(Input, Expected Output)을 생성하는 것은 프로젝트 예산을 기하급수적으로 고갈시킨다. 이에 대한 공학적인 대안으로 거대 언어 모델(LLM)을 활용해 테스트 코드를 스스로 찍어내게 하는 합성 데이터(Synthetic Data) 생성 기법이 주류로 자리 잡았다.

그러나 합성 데이터는 소프트웨어 공학의 결정론적 품질 보증 원칙에서 매우 위험한 양날의 검이다. 기계가 생성한 데이터를 기계를 평가하는 정답지로 사용할 때, 평가 아키텍처는 보이지 않는 심연, 즉 **데이터 유출(Data Leakage)**과 **모델 붕괴(Model Collapse)**라는 자기 지시적(Self-referential) 딜레마에 빠지게 된다.

본 단원에서는 오라클 시스템의 순결성을 지키기 위해 합성 데이터 파이프라인에서 반드시 경계해야 할 안티 패턴(Anti-Pattern)들과 이를 방어하기 위한 격리 아키텍처 전략을 심도 있게 파헤친다.

1. 지식 오염의 시작: 데이터 유출(Data Leakage)의 위협

데이터 유출이란, 모델의 성능을 공정하게 평가해야 할 테스트 데이터셋(Test Dataset) 혹은 그 데이터의 특징(Feature)이 훈련(Training), 파인튜닝(Fine-tuning), 혹은 프롬프트 엔지니어링 과정에 스며들어버려 모델이 ’시험지를 미리 보고 시험을 치르는 상태’가 되는 치명적 결함을 뜻한다.

  • 프롬프트 테스트 데이터의 유출: 엔지니어가 OpenAI의 GPT-4 모델을 활용해 골든 데이터셋을 1,000건 생성했다고 가정하자. 이후 이 데이터셋으로 우리 회사 애플리케이션의 핵심 파이프라인(마찬가지로 GPT-4 기반)을 평가한다. 타겟 모델은 자신이 생성해 낸 어조와 로직 구조를 태생적으로 선호(Bias)하므로, 성능 평가 점수는 인위적으로 부풀려진다(Score Inflation).
  • 실사용자가 투입하는 날것(Raw)의 질문이 시스템에 들어오는 순간, 부풀려졌던 성능 지표는 곤두박질치고 시스템 브레이크다운(Breakdown)이 발생하게 된다. 즉, 오라클의 평가가 현실 세계의 품질 보증 능력을 완전히 상실하게 되는 것이다.

2. 에어 갭(Air-Gap) 기반의 격리 아키텍처 설계

이러한 유출 현상을 원천적으로 방어하기 위해 시스템 아키텍트는 합성 데이터 생성 파이프라인과 프로덕션 평가(Evaluation) 파이프라인 사이에 논리적인 **에어 갭(Air-Gap)**을 두어야 한다.

  1. 별종 모델(Heterogeneous Models)의 교차 적용: 타겟 모델로 구동되는 서비스(예: Anthropic Claude 3를 사용하는 챗봇)를 평가할 정답 데이터셋을 구축할 때는, 물리적 아키텍처와 학습 코퍼스(Corpus)가 완전히 다른 경쟁 모델(예: OpenAI GPT-4 또는 Llama 3)을 제너레이터(Generator)로 배치해야 한다. 이는 평가의 근친 교배(Inbreeding)를 막는 최소한의 팩트체크 기제이다.
  2. 평가 데이터와 개선 지침의 엄격한 분리: 모델이 테스트를 통과하지 못해 틀렸을 경우, 그 틀린 문제를 프롬프트의 퓨샷(Few-shot) 예제로 그대로 편입시켜서는 안 된다. 오라클 피드백 루프는 테스트에서 틀린 ‘현상’ 그 자체가 아니라, ’왜 틀렸는지’에 대한 추상적인 가이드라인만을 시스템 프롬프트에 업데이트해야 데이터 유출을 막을 수 있다.

3. 모델 붕괴(Model Collapse) 방지를 위한 자정 작용

LLM이 생성한 합성 데이터로 또 다른 LLM을 평가하고 더 나아가 학습(Training)에까지 파이프라인이 연결될 때, 논문 The Curse of Recursion에 명시된 바와 같이 세대가 거듭될수록 원본 데이터가 가진 소수 의견과 맥락(Tails of distribution)이 증발하고 모델의 사고가 무너져 내리는 모델 붕괴(Model Collapse) 현상이 발생한다.

  • 합성 데이터는 본질적으로 모델이 가진 통계적 ’평균성’의 산물이다. 모델이 생성한 테스트 케이스에는 인간만이 만들어낼 수 있는 비합리적 오타, 기발한 돌발 질문, 문화적 은어가 결여되어 있다.
  • 이를 방어하기 위한 결정론적 해답은 인위적 엔트로피(Artificial Entropy) 주입HITL(Human-in-the-loop) 서명이다.
graph LR
    A[Generative Model] -->|Creates Synthetic Seed| B[Synthetic Pool]
    B --> C{Perturbation Engine}
    C -->|Add Typos/Slang/Noise| D[Muted Data]
    D --> E[Human Validator Review]
    E -->|Reject/Rewrite| C
    E -->|Approved & Cryptographic Sign| F[(Golden Dataset vault)]

파이프라인 상에 변이 엔진(Perturbation Engine)을 추가하여 생성된 합성 데이터에 문법 오류를 섞거나 언어의 순서를 뒤틀어 현실 세계의 노이즈를 강제 모사한다. 그리고 반드시 최종 단계에서 인간 검열관이 데이터의 논리적 무결성을 승인했다는 메타데이터 스탬프("human_verified": true)가 찍힌 데이터만이 회귀 테스트 파이프라인의 진짜 정답지 권한을 획득하도록 제한해야 한다.

합성 데이터는 엔지니어링 딜리버리 속도를 압도적으로 높여주지만, 그것을 통제 없이 골든 데이터셋의 보좌관 자리에 올려두는 순간 오라클은 무의미한 에코 체임버(Echo Chamber)로 전락하고 만다. 데이터의 생성과 평가를 철저히 이격시키는 건축학적 격리(Isolation)만이, 이 딜레마 속에서 결정론적 신뢰성을 담보할 수 있는 유일한 공학적 해답이다.