Chapter 105. Word2Vec 아키텍처 2: Skip-gram과 네거티브 샘플링(Negative Sampling) 효율성

Chapter 105. Word2Vec 아키텍처 2: Skip-gram과 네거티브 샘플링(Negative Sampling) 효율성
105.1Skip-gram 모델의 설계 철학: 중심 단어로부터 문맥 단어 예측
105.2Skip-gram의 입력 및 출력 구조: 단일 중심 단어와 다중 문맥 쌍 생성
105.3입력 임베딩 행렬(W)에서의 중심 단어 벡터 조회(Lookup) 연산
105.4출력 임베딩 행렬(W’)과 중심-문맥 벡터 내적 기반 점수 산출
105.5전체 어휘 소프트맥스의 조건부 확률 정의와 정규화 상수 계산
105.6Skip-gram의 목적 함수: 로그 우도(Log-Likelihood) 최대화 공식 유도
105.7전체 어휘 소프트맥스의 계산적 비실용성: O(V) 복잡도의 근본적 문제
105.8계층적 소프트맥스(Hierarchical Softmax)의 이진 트리 기반 확률 분해
105.9허프만 부호화(Huffman Coding)를 활용한 트리 구성과 고빈도 단어 최적화
105.10네거티브 샘플링(Negative Sampling)의 확률론적 기반: 노이즈 대조 추정(NCE)
105.11네거티브 샘플링의 목적 함수: 시그모이드 기반 이진 분류 문제로의 변환
105.12노이즈 분포 P_n(w)의 설계: 유니그램 분포의 3/4 거듭제곱 보정 원리
105.13네거티브 샘플 수(k)가 학습 품질과 계산 효율에 미치는 영향 분석
105.14서브샘플링(Subsampling) 기법: 고빈도 기능어의 확률적 제거와 학습 효과 개선
105.15문맥 윈도우 크기의 동적 조정: 균등 분포 기반 윈도우 축소 전략
105.16Skip-gram의 저빈도 단어 표현 학습 우위와 CBOW 대비 성능 차이 분석
105.17대규모 분산 훈련에서의 Skip-gram 병렬화 전략과 비동기 SGD
105.18Skip-gram 임베딩의 선형 부분 구조(Linear Substructure)와 의미 산술 연산 정밀도
105.19Skip-gram 학습 하이퍼파라미터 튜닝: 학습률 스케줄링, 에포크, 차원 수 최적화
105.20Skip-gram 모델의 이론적 한계와 문맥 독립 정적 임베딩의 잔존 과제