Chapter 99. 통계적 언어 모델링: N-gram의 수학적 정의와 조건부 확률 추정

Home / 거대 AI 마스터클래스 / Volume 1. 인공지능과 딥러닝의 수학적/구조... / Part 5. 자연어 처리의 진화와 토큰화(Tok... / Chapter 99. 통계적 언어 모델링: N-g...

Chapter 99. 통계적 언어 모델링: N-gram의 수학적 정의와 조건부 확률 추정

Chapter 99. 통계적 언어 모델링: N-gram의 수학적 정의와 조건부 확률 추정
99.1통계적 언어 모델의 정의와 자연어 처리에서의 핵심 역할
99.2언어 모델링의 확률론적 기초: 단어 시퀀스의 결합 확률 분해
99.3연쇄 법칙(Chain Rule of Probability)을 통한 조건부 확률 분해 증명
99.4마르코프 가정(Markov Assumption)과 유한 문맥 근사의 수학적 정당성
99.5유니그램(Unigram) 모델: 독립 가정 하의 단어 출현 빈도 확률
99.6바이그램(Bigram) 모델: 1차 마르코프 조건부 확률의 수학적 정의
99.7트라이그램(Trigram) 이상의 고차 N-gram 모델 확장과 연산 복잡도
99.8N-gram 확률의 최대 우도 추정(MLE: Maximum Likelihood Estimation)
99.9상대 빈도(Relative Frequency)와 정규화(Normalization) 절차
99.10코퍼스(Corpus) 구성과 훈련 데이터의 대표성 문제
99.11어휘 크기(Vocabulary Size)와 N-gram 조합 수의 지수적 증가
99.12데이터 희소성(Data Sparsity)과 영 빈도(Zero Count) 문제의 발생 원인
99.13가산 평활화(Add-k Smoothing)와 라플라스 평활화(Laplace Smoothing)
99.14굿-튜링 추정(Good-Turing Estimation)의 빈도 재분배 원리
99.15카츠 백오프(Katz Back-off) 모델의 계층적 확률 위임 구조
99.16보간법(Interpolation)을 통한 다중 N-gram 모델의 가중 결합
99.17크네저-네이 평활화(Kneser-Ney Smoothing)의 절대 할인(Absolute Discounting) 기법
99.18수정 크네저-네이 평활화(Modified Kneser-Ney)의 다중 할인 계수 최적화
99.19언어 모델의 평가 지표: 퍼플렉서티(Perplexity)의 정의와 정보 이론적 해석
99.20퍼플렉서티와 교차 엔트로피(Cross-Entropy)의 수학적 관계
99.21엔트로피율(Entropy Rate)과 언어의 본질적 불확실성 측정
99.22훈련 세트와 테스트 세트 간 분포 불일치에 따른 도메인 적응 문제
99.23미등록어(Out-of-Vocabulary) 처리와 개방 어휘 모델링 전략
99.24클래스 기반 N-gram 모델(Class-based N-gram)의 단어 군집화 접근
99.25N-gram 모델의 캐시 모델(Cache Model)과 적응형 언어 모델링
99.26N-gram 언어 모델의 음성 인식(ASR) 및 철자 교정 적용 사례
99.27N-gram 모델의 저장 효율화: 트라이(Trie) 구조와 양자화 압축 기법
99.28대규모 코퍼스 기반 N-gram 모델: 구글 N-gram과 웹 스케일 추정
99.29통계적 언어 모델의 한계와 신경망 언어 모델(NNLM)로의 발전 필연성
99.30N-gram 모델의 이론적 유산과 현대 언어 모델 평가 체계에 대한 기여

Generated by Rust Site Gen