Chapter 107. 토큰화(Tokenization)의 개념과 단어/문자 기반 분할의 한계

Home / 거대 AI 마스터클래스 / Volume 1. 인공지능과 딥러닝의 수학적/구조... / Part 5. 자연어 처리의 진화와 토큰화(Tok... / Chapter 107. 토큰화(Tokenizati...

Chapter 107. 토큰화(Tokenization)의 개념과 단어/문자 기반 분할의 한계

Chapter 107. 토큰화(Tokenization)의 개념과 단어/문자 기반 분할의 한계
107.1토큰화의 정의와 자연어 처리에서의 역할
107.2토큰(Token)의 형식적 정의와 어휘 집합(Vocabulary) 구성
107.3토큰화 파이프라인의 일반적 처리 단계
107.4단어 기반 토큰화(Word-level Tokenization)의 원리와 구현
107.5공백 및 구두점 기반 분할 전략의 규칙 설계
107.6단어 기반 토큰화의 장점: 의미 보존성과 직관적 해석 가능성
107.7어휘 집합 폭발(Vocabulary Explosion) 문제와 메모리 제약
107.8형태론적 다양성과 굴절어(Inflectional Language)에서의 단어 분할 한계
107.9교착어(Agglutinative Language) 및 다국어 환경에서의 단어 경계 모호성
107.10미등록어(Out-of-Vocabulary, OOV) 문제의 정의와 발생 조건
107.11OOV 토큰의 UNK 매핑과 정보 손실의 정량적 분석
107.12문자 기반 토큰화(Character-level Tokenization)의 원리와 구현
107.13문자 단위 분할의 어휘 집합 축소 효과와 OOV 해소 메커니즘
107.14문자 기반 토큰화의 한계: 시퀀스 길이 증가와 계산 비용 폭증
107.15문자 수준에서의 의미 희석(Semantic Dilution)과 장거리 의존성 포착 한계
107.16바이트 수준 토큰화(Byte-level Tokenization)의 개념과 유니코드 표현
107.17단어 기반과 문자 기반 토큰화의 정량적 성능 비교 분석
107.18어휘 집합 크기와 시퀀스 길이 간 트레이드오프(Trade-off) 관계
107.19토큰화 입도(Granularity)가 언어 모델 성능에 미치는 영향
107.20단어/문자 기반 분할의 구조적 한계와 하위 단어 토큰화의 필요성

Generated by Rust Site Gen