Chapter 112. 텍스트 정규화와 토큰화 통합: SentencePiece 구조 분석
-
Chapter 112. 텍스트 정규화와 토큰화 통합: SentencePiece 구조 분석
-
112.1텍스트 정규화(Text Normalization)의 정의와 자연어 전처리에서의 역할
-
112.2전통적 전처리 파이프라인의 구성: 공백 분할, 소문자 변환, 구두점 제거
-
112.3언어 의존적(Language-dependent) 전처리의 한계와 다국어 확장 문제
-
112.4사전 토큰화(Pre-tokenization)와 후처리 정규화의 순서 의존성 문제
-
112.5SentencePiece의 설계 철학: 원시 텍스트 직접 입력(Raw Text Input)
-
112.6Kudo and Richardson(2018)의 SentencePiece 프레임워크 개요
-
112.7SentencePiece의 언어 무관(Language-independent) 토큰화 원리
-
112.8공백 기호(▁) 메타 문자를 활용한 공백 보존 및 가역적 디코딩
-
112.9SentencePiece의 유니코드 정규화(Unicode Normalization) 통합: NFKC 표준
-
112.10유니코드 정규화 형식(NFC, NFD, NFKC, NFKD) 간 비교와 선택 기준
-
112.11SentencePiece 내장 토큰화 모델: BPE 모드와 Unigram 모드
-
112.12SentencePiece BPE 모드의 학습과 인코딩 절차
-
112.13SentencePiece Unigram 모드의 확률적 분절 원리 개요
-
112.14SentencePiece 모델 학습 파라미터: vocab_size, character_coverage, model_type
-
112.15SentencePiece의 특수 토큰(BOS, EOS, UNK, PAD) 관리 체계
-
112.16SentencePiece Trainer의 학습 데이터 샘플링과 메모리 효율화 전략
-
112.17SentencePiece 모델 파일(.model, .vocab) 구조와 Protocol Buffers 직렬화
-
112.18SentencePiece의 다국어 모델 학습 사례: mT5, XLM-RoBERTa 토크나이저
-
112.19SentencePiece와 HuggingFace Tokenizers 라이브러리 간 통합 인터페이스
-
112.20정규화-토큰화 통합 접근법의 이론적 장점과 실무적 영향 종합