Chapter 99. 통계적 언어 모델링: N-gram의 수학적 정의와 조건부 확률 추정 Chapter 99. 통계적 언어 모델링: N-gram의 수학적 정의와 조건부 확률 추정 99.1통계적 언어 모델의 정의와 자연어 처리에서의 핵심 역할 99.2언어 모델링의 확률론적 기초: 단어 시퀀스의 결합 확률 분해 99.3연쇄 법칙(Chain Rule of Probability)을 통한 조건부 확률 분해 증명 99.4마르코프 가정(Markov Assumption)과 유한 문맥 근사의 수학적 정당성 99.5유니그램(Unigram) 모델: 독립 가정 하의 단어 출현 빈도 확률 99.6바이그램(Bigram) 모델: 1차 마르코프 조건부 확률의 수학적 정의 99.7트라이그램(Trigram) 이상의 고차 N-gram 모델 확장과 연산 복잡도 99.8N-gram 확률의 최대 우도 추정(MLE: Maximum Likelihood Estimation) 99.9상대 빈도(Relative Frequency)와 정규화(Normalization) 절차 99.10코퍼스(Corpus) 구성과 훈련 데이터의 대표성 문제 99.11어휘 크기(Vocabulary Size)와 N-gram 조합 수의 지수적 증가 99.12데이터 희소성(Data Sparsity)과 영 빈도(Zero Count) 문제의 발생 원인 99.13가산 평활화(Add-k Smoothing)와 라플라스 평활화(Laplace Smoothing) 99.14굿-튜링 추정(Good-Turing Estimation)의 빈도 재분배 원리 99.15카츠 백오프(Katz Back-off) 모델의 계층적 확률 위임 구조 99.16보간법(Interpolation)을 통한 다중 N-gram 모델의 가중 결합 99.17크네저-네이 평활화(Kneser-Ney Smoothing)의 절대 할인(Absolute Discounting) 기법 99.18수정 크네저-네이 평활화(Modified Kneser-Ney)의 다중 할인 계수 최적화 99.19언어 모델의 평가 지표: 퍼플렉서티(Perplexity)의 정의와 정보 이론적 해석 99.20퍼플렉서티와 교차 엔트로피(Cross-Entropy)의 수학적 관계 99.21엔트로피율(Entropy Rate)과 언어의 본질적 불확실성 측정 99.22훈련 세트와 테스트 세트 간 분포 불일치에 따른 도메인 적응 문제 99.23미등록어(Out-of-Vocabulary) 처리와 개방 어휘 모델링 전략 99.24클래스 기반 N-gram 모델(Class-based N-gram)의 단어 군집화 접근 99.25N-gram 모델의 캐시 모델(Cache Model)과 적응형 언어 모델링 99.26N-gram 언어 모델의 음성 인식(ASR) 및 철자 교정 적용 사례 99.27N-gram 모델의 저장 효율화: 트라이(Trie) 구조와 양자화 압축 기법 99.28대규모 코퍼스 기반 N-gram 모델: 구글 N-gram과 웹 스케일 추정 99.29통계적 언어 모델의 한계와 신경망 언어 모델(NNLM)로의 발전 필연성 99.30N-gram 모델의 이론적 유산과 현대 언어 모델 평가 체계에 대한 기여