Chapter 106. 단어 간 동시 발생 확률: GloVe(Global Vectors) 행렬 분해 수학

Chapter 106. 단어 간 동시 발생 확률: GloVe(Global Vectors) 행렬 분해 수학
106.1카운트 기반 모델과 예측 기반 모델의 이론적 간극과 통합 필요성
106.2동시 발생 행렬(Co-occurrence Matrix)의 정의와 구축 방법론
106.3문맥 윈도우 설계: 대칭 윈도우와 거리 가중 동시 발생 빈도 산출
106.4동시 발생 확률(Co-occurrence Probability)과 조건부 확률의 관계
106.5동시 발생 확률비(Probability Ratio)를 통한 단어 간 의미 관계 포착
106.6확률비 함수의 벡터 공간 표현: 차이 벡터와 내적 기반 모델링
106.7GloVe 목적 함수의 유도: 로그 동시 발생 행렬의 가중 최소 제곱 분해
106.8가중 함수 f(X_ij)의 설계: 고빈도 쌍의 과적합 방지와 포화 임계값(x_max)
106.9편향 항(Bias Term)의 도입과 대칭성 확보를 위한 수학적 정당화
106.10GloVe 모델의 볼록 최적화(Convex Optimization) 특성과 전역 최적해 보장
106.11확률적 경사 하강법(SGD)을 통한 GloVe 파라미터 학습 절차
106.12AdaGrad 최적화기의 적용과 희소 그래디언트 환경에서의 학습률 적응
106.13GloVe와 Word2Vec의 이론적 등가성: Skip-gram의 암묵적 행렬 분해 해석
106.14GloVe와 잠재 의미 분석(LSA)의 연결: 전역 통계량 활용의 공통성과 차이
106.15동시 발생 행렬의 희소성(Sparsity) 활용과 대규모 어휘 처리 효율성
106.16GloVe 학습 하이퍼파라미터: 벡터 차원, 윈도우 크기, 반복 횟수 최적화
106.17사전 훈련된 GloVe 벡터(42B, 840B)의 공개 및 벤치마크 성능 비교
106.18GloVe 벡터의 내재적 평가: 단어 유사도 과제와 유추 과제에서의 정량적 분석
106.19GloVe 벡터의 외재적 평가: 개체명 인식(NER)과 감성 분석에서의 전이 성능
106.20GloVe의 한계와 후속 발전: FastText의 하위 단어 정보 통합과 문맥화 모델로의 전환