Part 5. 자연어 처리의 진화와 토큰화(Tokenization) 기술

Part 5. 자연어 처리의 진화와 토큰화(Tokenization) 기술

Chapter 98. 기계 번역의 기원과 규칙 기반 자연어 분석 체계
Chapter 99. 통계적 언어 모델링: N-gram의 수학적 정의와 조건부 확률 추정
Chapter 100. N-gram 모델의 차원의 저주와 데이터 희소성(Sparsity) 극복 방법
Chapter 101. 의미론적 표현의 진화: 원핫 인코딩(One-hot)에서 밀집 벡터로의 전환
Chapter 102. 분산 표현(Distributed Representation) 철학과 고차원 의미 매핑
Chapter 103. 단어 임베딩의 혁명: Word2Vec의 등장 배경 및 가설
Chapter 104. Word2Vec 아키텍처 1: CBOW(Continuous Bag-of-Words) 모델링
Chapter 105. Word2Vec 아키텍처 2: Skip-gram과 네거티브 샘플링(Negative Sampling) 효율성
Chapter 106. 단어 간 동시 발생 확률: GloVe(Global Vectors) 행렬 분해 수학
Chapter 107. 토큰화(Tokenization)의 개념과 단어/문자 기반 분할의 한계
Chapter 108. 미등록어(OOV) 문제와 하위 단어 토큰화(Subword Tokenization)의 당위성
Chapter 109. 데이터 압축 기반 토큰화: 바이트 쌍 인코딩(BPE) 알고리즘 원리
Chapter 110. BPE의 다국어 확장: BBPE(Byte-level BPE)의 유니코드 처리 역학
Chapter 111. 언어 모델 맞춤형 토큰화: WordPiece 알고리즘과 우도(Likelihood) 최적화
Chapter 112. 텍스트 정규화와 토큰화 통합: SentencePiece 구조 분석
Chapter 113. SentencePiece 내장 Unigram 언어 모델 기반 서브워드 샘플링 수학
Chapter 114. 오픈소스 토크나이저: OpenAI Tiktoken 정규 표현식 기반 사전 분할(Pre-tokenization)
Chapter 115. 인코더-디코더(Encoder-Decoder) 아키텍처의 기원과 태스크 매핑
Chapter 116. Seq2Seq 모델 구조와 컨텍스트 벡터(Context Vector)의 정보 병목 현상