Chapter 107. 토큰화(Tokenization)의 개념과 단어/문자 기반 분할의 한계 Chapter 107. 토큰화(Tokenization)의 개념과 단어/문자 기반 분할의 한계 107.1토큰화의 정의와 자연어 처리에서의 역할 107.2토큰(Token)의 형식적 정의와 어휘 집합(Vocabulary) 구성 107.3토큰화 파이프라인의 일반적 처리 단계 107.4단어 기반 토큰화(Word-level Tokenization)의 원리와 구현 107.5공백 및 구두점 기반 분할 전략의 규칙 설계 107.6단어 기반 토큰화의 장점: 의미 보존성과 직관적 해석 가능성 107.7어휘 집합 폭발(Vocabulary Explosion) 문제와 메모리 제약 107.8형태론적 다양성과 굴절어(Inflectional Language)에서의 단어 분할 한계 107.9교착어(Agglutinative Language) 및 다국어 환경에서의 단어 경계 모호성 107.10미등록어(Out-of-Vocabulary, OOV) 문제의 정의와 발생 조건 107.11OOV 토큰의 UNK 매핑과 정보 손실의 정량적 분석 107.12문자 기반 토큰화(Character-level Tokenization)의 원리와 구현 107.13문자 단위 분할의 어휘 집합 축소 효과와 OOV 해소 메커니즘 107.14문자 기반 토큰화의 한계: 시퀀스 길이 증가와 계산 비용 폭증 107.15문자 수준에서의 의미 희석(Semantic Dilution)과 장거리 의존성 포착 한계 107.16바이트 수준 토큰화(Byte-level Tokenization)의 개념과 유니코드 표현 107.17단어 기반과 문자 기반 토큰화의 정량적 성능 비교 분석 107.18어휘 집합 크기와 시퀀스 길이 간 트레이드오프(Trade-off) 관계 107.19토큰화 입도(Granularity)가 언어 모델 성능에 미치는 영향 107.20단어/문자 기반 분할의 구조적 한계와 하위 단어 토큰화의 필요성