Chapter 116. Seq2Seq 모델 구조와 컨텍스트 벡터(Context Vector)의 정보 병목 현상

Chapter 116. Seq2Seq 모델 구조와 컨텍스트 벡터(Context Vector)의 정보 병목 현상
116.1Seq2Seq(Sequence-to-Sequence) 모델의 정의와 인코더-디코더 프레임워크 구현
116.2Sutskever et al.(2014)의 Seq2Seq 모델 제안과 기계 번역 실험 결과
116.3Seq2Seq 인코더의 최종 은닉 상태(Final Hidden State) 생성 과정
116.4컨텍스트 벡터(Context Vector)의 정의: 입력 시퀀스의 고정 차원 요약 표현
116.5컨텍스트 벡터의 디코더 초기화 메커니즘과 조건부 언어 모델링
116.6Seq2Seq 학습의 목적 함수: 조건부 로그 우도(Conditional Log-likelihood) 최대화
116.7역전파를 통한 인코더-디코더 공동 학습(Joint Training)의 기울기 전파 경로
116.8정보 병목(Information Bottleneck) 현상의 정의와 이론적 배경
116.9고정 차원 컨텍스트 벡터의 용량 한계와 입력 길이 증가에 따른 정보 손실
116.10장문 시퀀스에서의 성능 저하: BLEU 점수 기반 실증적 분석
116.11입력 시퀀스 역순 처리(Reversing Input Sequence) 기법과 단거리 의존성 완화
116.12다층 LSTM 기반 Seq2Seq의 심층 구조와 정보 병목 완화 시도
116.13정보 병목과 기울기 소실(Vanishing Gradient) 문제의 상호 관계
116.14컨텍스트 벡터의 차원 증가 전략과 연산 비용 간 트레이드오프
116.15다중 컨텍스트 벡터(Multiple Context Vectors) 접근법의 실험적 시도
116.16어텐션 메커니즘(Attention Mechanism)의 등장 동기: 정보 병목의 근본적 해결
116.17Bahdanau et al.(2015)의 가산적 어텐션(Additive Attention) 제안과 혁신성
116.18어텐션 기반 동적 컨텍스트 벡터와 고정 컨텍스트 벡터의 구조적 비교
116.19Seq2Seq 모델의 다양한 응용 태스크: 번역, 요약, 코드 생성, 대화 시스템
116.20Seq2Seq 아키텍처의 역사적 의의와 어텐션/트랜스포머로의 패러다임 전환 종합