Chapter 71. 고급 활성화 함수 2: Swish 및 GELU의 누적 분포 함수 비교 Chapter 71. 고급 활성화 함수 2: Swish 및 GELU의 누적 분포 함수 비교 71.1자기 게이팅(Self-Gating) 메커니즘의 수학적 개념과 비단조(Non-monotonic) 활성화 함수 설계 원리 71.2Swish 활성화 함수의 수학적 정의 및 시그모이드 게이팅 구조의 미분학적 분석 71.3Swish 함수의 매개변수 β에 따른 곡선 변형 양상과 ReLU 및 선형 함수로의 수렴 조건 증명 71.4가우스 오차 선형 유닛(GELU)의 수학적 정의와 가우스 누적 분포 함수(CDF) 기반 확률론적 활성화 메커니즘 71.5GELU의 근사 구현 방식(Tanh 다항식 근사 및 시그모이드 근사)과 연산 정밀도 비교 71.6Swish와 GELU의 도함수 구조 비교 및 역전파 과정에서의 기울기 전파 특성 분석 71.7대규모 언어 모델(GPT, BERT) 아키텍처에서 GELU 채택의 경험적 근거와 성능 벤치마크 분석 71.8Swish 및 GELU의 수학적 동치 조건 해석과 트랜스포머 피드포워드 신경망에서의 최적 활성화 함수 선정 기준