10.8.3 잊혀질 권리(GDPR 등) 대응을 위한 특정 데이터의 물리적 삭제 절차

10.8.3 잊혀질 권리(GDPR 등) 대응을 위한 특정 데이터의 물리적 삭제 절차

현대의 엔터프라이즈 환경에서 데이터는 자산인 동시에 부채(Liability)다. 특히 유럽연합의 일반 데이터 보호 규칙(General Data Protection Regulation, GDPR)과 같은 강력한 프라이버시 법안이 발효된 이후, ’잊혀질 권리(Right to be Forgotten)’는 데이터 파이프라인 설계에 심대한 영향을 미치게 되었다. 사용자가 자신의 통신 기록, 거래 내역, 프로필 정보 등에 대한 완전한 삭제를 요청했을 때, 이 데이터가 프로덕션(Production) DB에서만 삭제되고 테스트용 **골든 데이터셋(Golden Dataset)**이나 AI 모델의 학습 데이터에 여전히 잔존해 있다면, 회사는 천문학적인 벌금의 대상이 될 수 있다.

따라서 고도로 통제된 오라클(Oracle) 시스템은 불변성(Immutability)을 추구하는 데이터 버전 관리(Data Versioning) 사상과 정면으로 충돌하는 합법적이고 파괴적인 물리적 삭제(Physical Deletion) 절차를 내재화해야 한다.

1. 잊혀질 권리와 데이터 불변성의 충돌(Conflict between Right to be Forgotten and Immutability)

소프트웨어 공학에서 데이터셋의 추적성을 보장하기 위해 도입하는 DVC(Data Version Control)나 Git LFS 등의 도구는 기본적으로 데이터의 과거 스냅샷(Snapshot)을 영구 보존하도록 설계된다. 하지만 특정 사용자가 삭제를 요구한 PII(Personally Identifiable Information, 개인식별정보)가 골든 데이터셋 V1.0, V1.2, V2.0의 과거 커밋 내역에 파편화되어 스며들어 있다면, 단순히 최신 버전에 해당하는 V3.0에서 해당 행(Row)을 지우는 논리적 삭제(Logical Deletion)만으로는 법적 규제를 우회할 수 없다.

이는 오라클 관리 파이프라인에서 가장 구현하기 까다로운 딜레마를 낳는다. “어떻게 과거의 테스트 결과를 훼손하지 않으면서, 특정 사용자의 데이터만 모든 타임라인에서 영구적으로 소각할 수 있는가?”

2. 골든 데이터의 암호화적 파기(Cryptographic Erasure) 기법

데이터의 물리적 삭제를 시스템 레벨에서 확실히 보장하는 가장 강력한 설계 패턴은 데이터를 직접 지우는 대신 크립토-슈레딩(Crypto-Shredding, 암호화적 파기) 기법을 활용하는 것이다.

이 아키텍처에서 골든 데이터셋의 원문(Raw Text)은 데이터 레이크(Data Lake)에 평문으로 저장되지 않는다. 모든 레코드, 특히 잠재적으로 PII가 포함될 가능성이 있는 사용자 발화(User Utterance) 부분은 고유한 암호화 키(Encryption Key)로 암호화(Encrypted)되어 저장된다.

graph TD
    A[골든 데이터셋 레코드 생명주기] --> B[데이터 수집 단계: 사용자 쿼리 암호화]
    B --> C[사용자별 개별 암호화 키 KMS 저장]
    C --> D{데이터 삭제 요청 발생?}
    D -- No --> E[CI/CD 실행 시 KMS 호출 및 런타임 복호화]
    E --> F[오라클 채점 진행]
    D -- Yes --> G[사용자 식별 후 KMS에서 해당 사용자의 암호화 키 영구 파기]
    G --> H[과거 스냅샷 및 백업본 내의 해당 데이터 복호화 불가 상태 전환]
  1. 암호화 키 관리(Key Management): 각 사용자(User ID)별로 고유한 대칭키(Symmetric Key)를 할당하여 AWS KMS나 HashiCorp Vault 같은 통제된 열쇠 관리 시스템에 보관한다.
  2. 런타임(Runtime) 복호화: CI/CD 파이프라인에서 회귀 테스트를 수행할 때, 테스트 러너는 데이터셋을 로드하며 KMS를 호출해 데이터를 풀어서(Decrypt) 평가용 LLM에 전달한다. 이 복호화된 컨텍스트는 디스크에 기록되지 않고 인메모리(In-Memory) 상에서 채점 후 즉시 소멸한다.
  3. 키 파기(Key Destruction): 사용자의 삭제 요청이 들어오면, 데이터베이스의 과거 레코드를 찾아 일일이 탐색하며 지우는 대신 KMS에 있는 **해당 사용자의 고유 암호화 키 하나만을 영구적으로 폐기(Revoke)**한다.

이 방식을 사용하면, 5년 전의 백업 테이프나 DVC의 오리지널 커밋 버전에 해당 사용자의 데이터가 암호문(Ciphertext) 형태로 남아 있더라도, 이를 해독할 키가 물리적으로 사라졌으므로 영원히 텍스트로 환원할 수 없는 디지털 파편이 된다. 이는 글로벌 규제 당국에서도 가장 적극적으로 권장하는 완전한 형태의 시스템적 물리적 삭제 보장 매커니즘 중 하나다.

3. 오라클의 베이스라인 손실 보정(Baseline Loss Compensation)

특정 사용자의 데이터가 물리적으로 소각되거나 키 파기로 해독 불가 상태가 될 때 감내해야 하는 부가적인 부작용은, 바로 특정 오라클 테스트 시나리오에 의존하고 있던 ’회귀 테스트 데이터 분모’가 일시적으로 손실된다는 점이다. 전체 10,000건의 엣지 케이스 데이터 중, 특정 달에 민감한 환불 데이터 50건이 삭제되었다면 오라클의 테스트 검증 커버리지나 정답률(Accuracy) 측정의 기준선이 소폭 흔들릴 수 있다.

이를 방어하기 위해서 시스템은 데이터가 소각되는 즉시, 파기된 원문과 동일한 인텐트(Intent, 의도)와 텍스트 길이를 가지되 철저하게 안전한 인공 값으로 대체된 **완전한 합성 데이터(Fully Synthetic Data)**를 백그라운드에서 역으로 생성하여 해당 인덱스에 보충 주입(Backfilling)하는 프로세스를 배포 파이프라인과 연동시켜야 한다.

결론적으로 잊혀질 권리에 대한 대응은 단순한 DELETE 데이터베이스 쿼리의 실행이 아니다. 거대한 AI의 인지 프로세스 안에서 특정 개인의 그림자만을 가장 정밀하게 도려내면서도, 오라클 시스템을 유지하는 구조적인 강건함과 커버리지율을 지켜내는 고도의 프라이버시 엔지니어링(Privacy Engineering) 기술이 요구된다.