Chapter 111. 언어 모델 맞춤형 토큰화: WordPiece 알고리즘과 우도(Likelihood) 최적화 Chapter 111. 언어 모델 맞춤형 토큰화: WordPiece 알고리즘과 우도(Likelihood) 최적화 111.1WordPiece 알고리즘의 기원과 음성 인식 분야에서의 초기 개발 배경 111.2Schuster and Nakajima(2012)의 WordPiece 설계 목표와 동기 111.3WordPiece와 BPE의 공통 구조: 반복적 어휘 확장 프레임워크 111.4WordPiece의 핵심 차별점: 빈도 기반 병합 대 우도 기반 병합 111.5언어 모델 우도(Language Model Likelihood)의 형식적 정의 111.6WordPiece 학습 알고리즘의 단계별 절차 111.7후보 쌍 병합 시 우도 증가량(Likelihood Gain) 계산 공식 111.8최대 우도 추정(Maximum Likelihood Estimation)에 기반한 쌍 선택 기준 111.9상호 정보량(Mutual Information)과 WordPiece 병합 점수의 관계 111.10WordPiece의 어휘 집합 구축 과정: 초기 문자 집합에서 목표 크기까지 111.11WordPiece 학습 과정의 구체적 수치 예제와 단계별 추적 111.12WordPiece 인코딩: 최장 일치 우선(Longest Match First) 탐욕적 분절 111.13접두사 표기(##) 규약과 서브워드 경계 식별 메커니즘 111.14WordPiece 디코딩: 서브워드 토큰 결합을 통한 원본 텍스트 복원 111.15BERT 토크나이저에서의 WordPiece 구현과 어휘 구성 분석 111.16WordPiece의 우도 최적화가 토큰 분절 품질에 미치는 영향 111.17WordPiece와 BPE의 토큰화 결과 비교: 동일 말뭉치에서의 분절 차이 111.18WordPiece의 계산 복잡도와 대규모 어휘 학습 시 확장성 문제 111.19WordPiece 변형 알고리즘과 최적화 기법: Unigram 모델과의 비교 111.20WordPiece의 이론적 기여와 현대 토크나이저 설계에 미친 영향