72.18 GLU와 SwiGLU의 파라미터 효율성 분석: 동일 파라미터 예산 하 성능 비교
Home
/
거대 AI 마스터클래스
/
Volume 1. 인공지능과 딥러닝의 수학적/구조...
/
Part 3. 연결주의의 태동과 딥러닝 기초 최적화
/
Chapter 72. 게이트 선형 유닛: GLU ...
/
72.18 GLU와 SwiGLU의 파라미터 효율성...
72.18 GLU와 SwiGLU의 파라미터 효율성 분석: 동일 파라미터 예산 하 성능 비교