10.10.2 평가 데이터가 훈련 로직에 오염되지 않도록 분리하는 Air-Gap 전략
합성 데이터를 파이프라인에 대규모로 주입할 때 AI 엔지니어가 최우선으로 경계해야 할 치명적 사고는 물리적 오염, 즉 데이터 유출(Data Leakage) 현상이다. 여기서 유출이란 해커에게 사용자 정보가 털리는 보안 사고가 아니다. 평가를 받는 피평가 모델이, 자신을 채점할 기말고사 시험지인 ’골든 데이터셋(Golden Dataset)’을 사전 학습(Pre-training)이나 파인튜닝(Fine-tuning) 단계에서 미리 훔쳐보고 암기해 버리는 끔찍한 부정행위를 의미한다.
모델이 훈련 데이터베이스에 포함되었던 익숙한 합성 응답을 오라클 평가 단계에서 앵무새처럼 맞추는 것은 단순한 ’암기(Memorization)’에 불과하며, 이는 인공지능의 실질적 추론 능력이 비약적으로 향상되었다는 거대한 착시(Illusion)를 일으킨다. 이 참사를 원천 차단하기 위해, 군사보안 명칭에서 유래한 ‘에어 갭(Air-Gap)’ 하드 디커플링 아키텍처를 데이터 파이프라인에 이식해야 한다.
1. 훈련 데이터와 오라클 데이터의 물리적, 논리적 타파
데이터 유출은 보통 훈련용 머신러닝 데이터 레이크와 QA 테스트용 골든 데이터 저장소를 동일한 프로덕션 DB 클러스터 안에서 파티션이나 테이블 분할로 얄팍하게 운영할 때 벌어진다.
- 파인튜닝 파이프라인 스크립트 작성자의 실수나 DB 조인(Join) 오류로 인해 데이터 쿼리 범위가 골든 데이터셋 파티션까지 침범하여 긁어가는 경우.
- 합성 데이터 생성기(Synthetic Data Generator)가 뿜어낸 10만 건의 데이터를 8:2 비율로 훈련 셋(Train)과 테스트 셋(Test)으로 단순 무작위 분할(Random Split)할 때, 데이터 간의 암묵적 문맥 종속성(Contextual Dependency, 예: 같은 가상 유저의 이어지는 질문들)을 끊지 못하고 양쪽에 중복 포함시키는 경우.
에어 갭 전략은 이를 근본적으로 절단한다. 훈련용 데이터베이스와 오라클 검증용 골든 데이터 저장소는 클라우드 아키텍처 설계 단계부터 완전히 분리된 IAM 계정(Account), 파이프라인이 소통할 수 없도록 차단된 가상 사설망(VPC), 심지어 전혀 이질적인 스토리지 스택(예: 하나는 AWS S3, 하나는 외부 분산 Git LFS 서버)을 사용하여 어떠한 논리적, 물리적 접점도 남기지 말아야 한다.
2. N-Gram 블라인드 더블 해싱(Blind Double Hashing)에 의한 유출 무결성 검증
하드웨어적 에어 갭을 구성했더라도, 합성 파이프라인의 알고리즘 결함으로 인해 비슷한 텍스트 덩어리가 결국 양쪽에 스며드는 것을 방어하기 위해 CI/CD 배포 파이프라인에는 극한의 **‘안티 리키지(Anti-Leakage) 검증기’**가 탑재되어야 한다.
현대 AI 엔지니어링에서 가장 안전한 텍틱은 해시 기반의 충돌 검사다.
- 훈련 데이터 해싱: 파인튜닝 훈련 파이프라인으로 빨려 들어가는 모든 텍스트 코퍼스를
N-gram단위(예: 연속된 7~9 단어 시퀀스)로 해싱(Hashing)하여 가벼운 블룸 필터(Bloom Filter) 저장소에 영구 박제해 둔다. - 테스트 데이터 대조: 이후 완전히 분리된 다른 팀이 새로운 합성 데이터를 골든 데이터셋(평가용)으로 편입(Commit)하려 시도할 때, CI 서버는 이 평가 후보군을 훈련망과 완벽히 동일한 방식의 N-gram 해시로 변환하여 블룸 필터 클러스터에 질의(Query)한다.
- 유출 데이터 소각: 만약 특정 임계치(N-gram의 80% 이상 일치 충돌 발생) 기준을 위반한다면, 이 합성 데이터는 훈련망이 이미 학습해 버린 데이터와 문맥적 유사성이 역치 이상으로 높거나 완전히 판박이인 데이터일 확률이 확정적이므로 해당 Commit을 반려(Reject)하고 데이터를 즉각 소각한다.
AI 오라클 평가의 근본 권위는 철저하게 ‘단 한 번도 본 적 없는 낯선 데이터(Unseen Data)’ 앞에서 모델이 보여주는 퓨어(Pure)한 대응 능력에서 나온다. 훈련장과 시험장을 하나의 합성 공장에서 마구잡이로 찍어내는 나태한 테스트 아키텍처는, 머지않아 속 빈 강정 치중의 소프트웨어를 세상에 내보내는 가장 파괴적인 면죄부 발급기로 전락하고 만다.