10.3.3 합성 데이터(Synthetic Data) 생성 전략: LLM을 활용한 데이터 증강 및 다양성 확보

10.3.3 합성 데이터(Synthetic Data) 생성 전략: LLM을 활용한 데이터 증강 및 다양성 확보

프로덕션 로그 기반 마이닝은 현실적이지만 ’이미 일어난 일’에 한정된다는 맹점이 있고, 인간 SME(Subject Matter Expert)의 작업은 정밀하지만 속도와 양의 벽에 부딪힌다. 이 두 가지 방식의 구조적 한계를 돌파하기 위해 시스템 검증 파이프라인에 투입되는 세 번째 핵심 엔진이 바로 최첨단 대형 언어 모델(LLM)을 활용한 합성 데이터(Synthetic Data) 생성이다.

SME가 정성껏 작성한 ‘초기 시드(Seed) 데이터’ 50개를 LLM에게 넘겨주고 프롬프팅을 통해 5,000개의 ’변이형 데이터’로 폭발적으로 증강시키는 이 방식은, 현대 AI 회귀 테스트 커버라지를 확보하는 가장 빠르고 가성비 높은 방법론으로 자리 잡고 있다.

1. 프롬프트 기반 데이터 증강(Augmentation) 기법

합성 데이터의 핵심은 단순히 텍스트 양을 늘리는 것이 아니라, 인간이 생각하기 힘든 형태의 **‘다양성(Diversity)’**을 기계적으로 주입하는 데 있다. 데이터 증강을 위해 주로 다음과 같은 지시어(Instruction)가 프롬프트에 활용된다.

  • 문체 및 화자 변형 (Stylistic Variation): “동일한 질문을 극단적으로 예의 바른 어조, 10대 은어 사용, 툴툴거리는 어조, 비문이 섞인 외국인 어투 등 5가지 양식으로 변형해서 생성하라.”
  • 길이 및 포맷 변형 (Structural Variation): “질문의 핵심은 유지하되, 하나는 3문장 이상의 긴 설명으로, 다른 하나는 주어 없이 단어만 나열한 키워드 형식으로 생성하라.”
  • 엔티티 교체 (Entity Replacement): “입력된 시드 데이터의 핵심 로직(규정 검토)은 건드리지 말고, 질문 속의 제품명이나 부서 이름만 사내 엔티티 리스트(DB)에서 무작위로 뽑아 교체하라.”

이러한 기법을 통해 원본 데이터 한 개당 50~100개의 파생된 테스팅 세트가 생성되며, 이는 곧 어떤 특이한 성향의 사용자가 접근하더라도 시스템이 당황하지 않고 동일한 정답을 출력하는지(Invariance)를 검증하는 훌륭한 스트레스 테스트 도구가 된다.

2. 모의 사용자(Simulated User) 에이전트를 통한 생성

더욱 진보된 형태의 합성 데이터 생성은, 증강을 넘어 LLM 자체를 ’가상의 사용자(Persona)’로 셋팅하여 챗봇과 실제로 대화를 나누게 하는 것이다.

  1. 페르소나 부여: LLM 모델에게 “당신은 현재 노트북 결제가 두 번 연달아 청구되어 굉장히 분노한 고객입니다. 시스템을 어떻게든 환불 화면으로 넘어가게 유도하십시오“라는 시스템 프롬프트를 부여한다.
  2. 자동화 대화 세션: 이 가상의 고객(LLM)은 개발 중인 챗봇 시스템의 API를 찔러가며 연속적인 대화를 이어나간다.
  3. 데이터 수확: 이 둘 간의 치열하고 복잡한 다중 턴(Multi-Turn) 대화가 종료되면, 그 전체 로그를 ’수집’하여 파이프라인으로 전송한다. 그리고 별도의 심판 모델(Judge)이 이 대화에서 챗봇이 정답 로직을 끝까지 지켜냈는지를 판별한 뒤, 성공적인 세션만을 합격선 골든 데이터로 편입시킨다.

3. 합성 데이터의 한계점과 필수 검증 루프

AI로 데이터를 증강시키는 과정은 달콤하지만, 주의해야 할 치명적인 부작용이 있다. 데이터를 만들어내는 주체도 LLM이고, 이를 평가하는 시스템도 유사한 딥러닝 아키텍처이기에 발생하는 ‘생성 및 채점의 동종 교배(Incestuous Bias)’ 현상이다.

만약 GPT-4를 이용해 대량의 합성 데이터를 만들고 그 데이터를 곧바로 테스트에 쓴다면, 향후 GPT 계열의 모델을 서비스에 올렸을 때 비정상적으로 높은(하지만 현실과는 동떨어진) 100%에 가까운 통과율을 보여주게 된다. 기계가 만든 말투를 기계가 가장 쉽게 알아듣기 때문이다.

따라서 합성 데이터 파이프라인의 끝단에는 반드시 ‘인간의 승인(Human Approval)’ 프로세스가 위치해야 한다. 생성된 수만 개의 데이터 중 무작위 샘플링을 통해 SME가 문맥을 검수하고, 기계어의 위화감을 덜어내는(De-robotizing) 펀칭 작업이 동반될 때, 이 합성 데이터는 비로소 양성(Benign)의 종양에서 든든한 방어 기제로 환골탈태할 수 있다.