Chapter 109. 데이터 압축 기반 토큰화: 바이트 쌍 인코딩(BPE) 알고리즘 원리 Chapter 109. 데이터 압축 기반 토큰화: 바이트 쌍 인코딩(BPE) 알고리즘 원리 109.1데이터 압축과 토큰화의 이론적 접점 109.2바이트 쌍 인코딩(Byte Pair Encoding)의 기원과 정보 압축 배경 109.3Philip Gage의 원본 BPE 알고리즘과 텍스트 압축 메커니즘 109.4자연어 처리에 BPE를 도입한 동기와 Sennrich et al.(2016)의 기여 109.5BPE의 초기 어휘 집합 구성: 문자 수준 기본 토큰 정의 109.6BPE 학습 알고리즘의 단계별 절차: 빈도 기반 쌍 병합 109.7인접 토큰 쌍의 동시 출현 빈도 계산과 최빈 쌍 선택 규칙 109.8병합 연산(Merge Operation)의 형식적 정의와 어휘 확장 과정 109.9병합 규칙 테이블(Merge Table)의 구축과 순서 보존 원리 109.10종료 조건 설정: 목표 어휘 크기와 반복 횟수 제어 109.11BPE 학습 과정의 구체적 수치 예제와 단계별 추적 109.12BPE 인코딩(Encoding): 학습된 병합 규칙의 순차적 적용 절차 109.13BPE 디코딩(Decoding): 토큰 시퀀스에서 원본 텍스트 복원 과정 109.14BPE의 탐욕적(Greedy) 병합 전략과 지역 최적해(Local Optimum) 한계 109.15어휘 크기 하이퍼파라미터가 토큰 분절 입도에 미치는 영향 109.16BPE와 어휘 집합 크기-시퀀스 길이 트레이드오프 분석 109.17BPE의 결정론적(Deterministic) 분절 특성과 확률적 대안 비교 109.18BPE의 다국어 말뭉치 적용 시 언어별 토큰 분포 불균형 문제 109.19BPE 구현체 비교: Subword-nmt, HuggingFace Tokenizers, SentencePiece 109.20BPE 알고리즘의 계산 복잡도 분석과 대규모 말뭉치 처리 최적화