Chapter 104. Word2Vec 아키텍처 1: CBOW(Continuous Bag-of-Words) 모델링

Home / 거대 AI 마스터클래스 / Volume 1. 인공지능과 딥러닝의 수학적/구조... / Part 5. 자연어 처리의 진화와 토큰화(Tok... / Chapter 104. Word2Vec 아키텍처 ...

Chapter 104. Word2Vec 아키텍처 1: CBOW(Continuous Bag-of-Words) 모델링

Chapter 104. Word2Vec 아키텍처 1: CBOW(Continuous Bag-of-Words) 모델링
104.1CBOW 모델의 설계 동기와 기본 직관: 문맥으로부터 중심 단어 예측
104.2CBOW의 입력 표현: 문맥 윈도우 내 단어들의 원핫 벡터 인코딩
104.3투사층(Projection Layer)의 구조: 입력 임베딩 행렬(W)과 가중 평균 연산
104.4문맥 벡터 합성: 주변 단어 임베딩의 평균 풀링(Average Pooling) 수학
104.5출력층 설계: 출력 임베딩 행렬(W’)과 은닉 벡터의 선형 변환
104.6소프트맥스(Softmax) 함수를 통한 전체 어휘 확률 분포 계산
104.7CBOW의 목적 함수: 교차 엔트로피 손실(Cross-Entropy Loss)과 최대 우도 추정
104.8역전파(Backpropagation) 기반 입력 및 출력 임베딩 행렬의 동시 갱신
104.9확률적 경사 하강법(SGD)과 미니배치 학습에서의 그래디언트 계산
104.10전체 어휘 소프트맥스의 계산 복잡도 문제: O(V) 정규화 상수의 부담
104.11계층적 소프트맥스(Hierarchical Softmax): 허프만 트리(Huffman Tree) 기반 경로 탐색
104.12이진 분류기 체인으로의 소프트맥스 분해와 O(log V) 복잡도 달성
104.13네거티브 샘플링(Negative Sampling) 적용: CBOW에서의 노이즈 분포 설계
104.14문맥 윈도우 크기(Context Window Size)가 CBOW 임베딩 품질에 미치는 영향
104.15CBOW의 단어 순서 불변성(Order Invariance)과 구문적 정보 손실 분석
104.16CBOW와 Skip-gram의 구조적 대칭성 비교와 학습 목표의 차이
104.17CBOW의 학습 속도 우위: 대규모 코퍼스에서의 훈련 시간 효율성
104.18고빈도 단어 처리에서의 CBOW 강점과 저빈도 단어에서의 성능 저하
104.19CBOW 모델의 구현 세부사항: 메모리 레이아웃과 벡터화 최적화
104.20CBOW 임베딩의 하류 과제(Downstream Task) 적용과 전이 학습(Transfer Learning) 가능성

Generated by Rust Site Gen