Chapter 108. 미등록어(OOV) 문제와 하위 단어 토큰화(Subword Tokenization)의 당위성 Chapter 108. 미등록어(OOV) 문제와 하위 단어 토큰화(Subword Tokenization)의 당위성 108.1미등록어(Out-of-Vocabulary)의 형식적 정의와 발생 메커니즘 108.2폐쇄형 어휘 집합(Closed Vocabulary)과 개방형 어휘 집합(Open Vocabulary)의 구분 108.3고정 어휘 기반 모델에서 OOV 토큰의 UNK 치환과 정보 손실 108.4OOV 발생 빈도와 말뭉치(Corpus) 규모 간 통계적 관계 108.5신조어, 전문 용어, 고유 명사에서의 OOV 발생 사례 분석 108.6형태론적 변이(Morphological Variation)와 OOV의 상관관계 108.7다국어 환경에서의 OOV 문제 심화: 교착어와 굴절어의 형태소 폭발 108.8OOV가 언어 모델 성능에 미치는 정량적 영향 분석 108.9OOV 완화를 위한 고전적 접근법: 어간 추출(Stemming)과 표제어 추출(Lemmatization) 108.10형태소 분석기(Morphological Analyzer) 기반 토큰화의 원리와 한계 108.11하위 단어 토큰화(Subword Tokenization)의 핵심 아이디어와 설계 동기 108.12하위 단어 분할의 정보 이론적 근거: 엔트로피 최소화와 압축 효율성 108.13빈출 단어의 단일 토큰 보존과 희귀 단어의 하위 단어 분해 전략 108.14하위 단어 토큰화의 어휘 집합 크기 제어와 시퀀스 길이 최적화 108.15하위 단어 단위의 형태론적 의미 보존성 분석 108.16하위 단어 토큰화가 다국어 모델 일반화에 미치는 효과 108.17하위 단어 토큰화의 주요 알고리즘 분류: BPE, WordPiece, Unigram 108.18하위 단어 토큰화와 언어 모델 사전 학습(Pre-training)의 상호 의존성 108.19토큰 경계(Token Boundary) 결정이 모델 추론 성능에 미치는 영향 108.20하위 단어 토큰화의 이론적 최적성과 실무적 당위성 종합