Chapter 113. SentencePiece 내장 Unigram 언어 모델 기반 서브워드 샘플링 수학 Chapter 113. SentencePiece 내장 Unigram 언어 모델 기반 서브워드 샘플링 수학 113.1Unigram 언어 모델의 정의와 서브워드 토큰화에서의 역할 113.2Kudo(2018)의 Unigram 언어 모델 기반 서브워드 정규화 제안 배경 113.3Unigram 모델에서의 토큰 확률 할당과 독립 가정 113.4문장의 서브워드 분할 후보 집합과 격자(Lattice) 구조 표현 113.5최적 분할의 정의: 최대 로그 우도(Maximum Log-likelihood) 분절 113.6비터비(Viterbi) 알고리즘을 이용한 최적 분할 경로 탐색 113.7Unigram 모델 학습: EM(Expectation-Maximization) 알고리즘 적용 113.8E-Step: 현재 모델 하에서의 서브워드 기대 빈도 계산 113.9M-Step: 기대 빈도 기반 토큰 확률 재추정과 정규화 113.10어휘 집합 축소(Vocabulary Pruning) 전략과 손실 함수 기반 토큰 제거 113.11센텐스피스 손실(Sentencepiece Loss): 토큰 제거 시 우도 감소량 계산 113.12초기 대규모 후보 어휘에서 목표 어휘 크기로의 반복적 가지치기 과정 113.13서브워드 정규화(Subword Regularization)의 개념과 학습 시 정규화 효과 113.14서브워드 샘플링: n-best 분할과 확률적 분절의 수학적 정의 113.15서브워드 정규화가 모델 강건성(Robustness)에 미치는 영향 113.16BPE 결정론적 분절과 Unigram 확률적 분절의 이론적 비교 113.17온도 파라미터(Temperature)를 이용한 샘플링 분포 조절 기법 113.18Unigram 모델의 다국어 토큰화 성능과 언어별 최적 어휘 크기 분석 113.19SentencePiece Unigram 모드의 구현 세부: 학습 파이프라인과 직렬화 113.20Unigram 언어 모델 기반 토큰화의 이론적 최적성과 한계 종합