Chapter 110. BPE의 다국어 확장: BBPE(Byte-level BPE)의 유니코드 처리 역학 Chapter 110. BPE의 다국어 확장: BBPE(Byte-level BPE)의 유니코드 처리 역학 110.1표준 BPE의 문자 수준 초기화와 다국어 처리의 구조적 제약 110.2유니코드(Unicode) 표준의 계층 구조: 코드 포인트, 평면, 블록 110.3UTF-8 가변 길이 인코딩의 바이트 표현 메커니즘 110.4문자 기반 BPE에서의 유니코드 어휘 폭발 문제 110.5바이트 수준 BPE(BBPE)의 핵심 아이디어와 설계 동기 110.6BBPE의 초기 어휘 집합: 256개 바이트 토큰 기반 구성 110.7바이트 시퀀스에 대한 BPE 병합 규칙 학습 절차 110.8BBPE의 언어 무관(Language-agnostic) 토큰화 특성 110.9GPT-2 토크나이저의 BBPE 구현과 정규 표현식 기반 사전 분할 110.10다국어 말뭉치에서의 BBPE 토큰 분포 분석: 언어별 토큰 효율성 110.11한국어, 중국어, 일본어 등 CJK 문자의 바이트 수준 분절 패턴 110.12희귀 스크립트(Rare Script)와 특수 기호에 대한 BBPE의 강건성 110.13BBPE에서의 토큰 경계와 유니코드 문자 경계 불일치 문제 110.14바이트 폴백(Byte Fallback) 메커니즘과 미등록 문자 처리 110.15BBPE의 어휘 크기 대비 시퀀스 길이 트레이드오프 분석 110.16문자 수준 BPE와 BBPE의 토큰화 품질 정량적 비교 110.17다국어 대규모 언어 모델에서의 BBPE 적용 사례: GPT, LLaMA 110.18BBPE 기반 토크나이저의 학습 데이터 구성과 언어 비율 조정 전략 110.19BBPE의 디코딩 과정: 바이트 시퀀스에서 유니코드 텍스트로의 복원 110.20BBPE의 한계와 차세대 다국어 토큰화 전략의 발전 방향