Chapter 108. 미등록어(OOV) 문제와 하위 단어 토큰화(Subword Tokenization)의 당위성

Home / 거대 AI 마스터클래스 / Volume 1. 인공지능과 딥러닝의 수학적/구조... / Part 5. 자연어 처리의 진화와 토큰화(Tok... / Chapter 108. 미등록어(OOV) 문제와 ...

Chapter 108. 미등록어(OOV) 문제와 하위 단어 토큰화(Subword Tokenization)의 당위성

Chapter 108. 미등록어(OOV) 문제와 하위 단어 토큰화(Subword Tokenization)의 당위성
108.1미등록어(Out-of-Vocabulary)의 형식적 정의와 발생 메커니즘
108.2폐쇄형 어휘 집합(Closed Vocabulary)과 개방형 어휘 집합(Open Vocabulary)의 구분
108.3고정 어휘 기반 모델에서 OOV 토큰의 UNK 치환과 정보 손실
108.4OOV 발생 빈도와 말뭉치(Corpus) 규모 간 통계적 관계
108.5신조어, 전문 용어, 고유 명사에서의 OOV 발생 사례 분석
108.6형태론적 변이(Morphological Variation)와 OOV의 상관관계
108.7다국어 환경에서의 OOV 문제 심화: 교착어와 굴절어의 형태소 폭발
108.8OOV가 언어 모델 성능에 미치는 정량적 영향 분석
108.9OOV 완화를 위한 고전적 접근법: 어간 추출(Stemming)과 표제어 추출(Lemmatization)
108.10형태소 분석기(Morphological Analyzer) 기반 토큰화의 원리와 한계
108.11하위 단어 토큰화(Subword Tokenization)의 핵심 아이디어와 설계 동기
108.12하위 단어 분할의 정보 이론적 근거: 엔트로피 최소화와 압축 효율성
108.13빈출 단어의 단일 토큰 보존과 희귀 단어의 하위 단어 분해 전략
108.14하위 단어 토큰화의 어휘 집합 크기 제어와 시퀀스 길이 최적화
108.15하위 단어 단위의 형태론적 의미 보존성 분석
108.16하위 단어 토큰화가 다국어 모델 일반화에 미치는 효과
108.17하위 단어 토큰화의 주요 알고리즘 분류: BPE, WordPiece, Unigram
108.18하위 단어 토큰화와 언어 모델 사전 학습(Pre-training)의 상호 의존성
108.19토큰 경계(Token Boundary) 결정이 모델 추론 성능에 미치는 영향
108.20하위 단어 토큰화의 이론적 최적성과 실무적 당위성 종합

Generated by Rust Site Gen