11.11 신경망 학습의 기본 절차
신경망 학습은 학습 데이터에 대한 손실 함수를 최소화하는 매개 변수를 찾는 절차이다. 학습은 일반적으로 미니배치 단위의 반복적 경사 하강법으로 수행되며, 각 반복은 순전파, 손실 평가, 역전파, 매개 변수 갱신의 단계를 거친다. 이 절에서는 신경망 학습의 기본 절차를 학습 순서에 따라 단계별로 기술하며, 각 단계의 학술적 의의를 명확히 한다.
1. 학습의 학술적 정의
학습은 가설 공간 \mathcal{H}의 매개 변수 \theta에 대하여 손실 함수 \mathcal{L}(\theta)를 최소화하는 절차이다.
\theta^* = \arg\min_{\theta} \mathcal{L}(\theta)
손실 함수는 일반적으로 학습 데이터에 대한 경험적 손실로 정의된다.
\mathcal{L}(\theta) = \frac{1}{N} \sum_{k=1}^{N} \ell\left(f_\theta(\mathbf{x}^{(k)}), \mathbf{y}^{(k)}\right)
여기서 \ell은 손실 함수, f_\theta는 신경망의 함수, (\mathbf{x}^{(k)}, \mathbf{y}^{(k)})는 학습 데이터의 k번째 표본이다.
2. 학습의 일반적 절차
신경망 학습의 일반적 절차는 다음과 같다.
- 초기화: 가중치와 편향을 적절한 초기화 기법(예: Xavier 또는 He 초기화)으로 초기화한다.
- 데이터 전처리: 입력 데이터의 정규화, 데이터 증강 등을 수행한다.
- 미니배치 추출: 학습 데이터에서 미니배치를 무작위로 추출한다.
- 순전파: 미니배치를 신경망에 입력하여 출력을 계산한다.
- 손실 평가: 신경망의 출력과 목표 값에 대하여 손실 함수를 평가한다.
- 역전파: 손실 함수에 대한 매개 변수의 기울기를 역전파 알고리즘으로 계산한다.
- 매개 변수 갱신: 경사 하강법 또는 그 변형(예: SGD, Momentum, Adam)으로 매개 변수를 갱신한다.
- 반복: 사전에 정의된 종료 조건이 만족될 때까지 단계 3에서 7을 반복한다.
- 평가와 검증: 검증 데이터에 대한 성능을 평가하고, 필요시 하이퍼파라미터를 조정한다.
3. 미니배치 학습
전체 학습 데이터를 한 번에 처리하는 배치 경사 하강법(batch gradient descent)은 데이터가 큰 경우 계산과 메모리의 부담이 크다. 반대로 한 번에 한 표본만을 처리하는 확률적 경사 하강법(stochastic gradient descent, SGD)은 기울기 추정의 분산이 크다. 두 극단의 절충으로 미니배치 경사 하강법(mini-batch gradient descent)이 학술적·실용적으로 채택된다. 미니배치의 크기는 학습의 안정성, 일반화 성능, 계산 효율의 균형을 고려하여 결정된다.
4. 종료 조건
학습의 종료 조건은 다음과 같이 다양하게 설정된다.
- 사전에 정의된 에포크(epoch) 수의 도달
- 검증 손실의 개선이 일정 횟수 동안 관찰되지 않을 때(조기 종료, early stopping)
- 학습 손실의 절대 값 또는 변화율이 사전에 정의된 임계값 이하로 감소
- 사전에 정의된 학습 시간 또는 계산 자원의 소진
조기 종료는 과적합을 완화하는 학술적 기법으로도 활용되며, 학습 곡선의 모니터링을 통하여 적용된다.
5. 검증과 시험
학습 절차에서는 학습 데이터, 검증 데이터, 시험 데이터의 세 가지 분리가 학술적으로 권고된다.
- 학습 데이터(training data): 매개 변수의 학습에 사용
- 검증 데이터(validation data): 하이퍼파라미터의 조정과 조기 종료의 결정에 사용
- 시험 데이터(test data): 최종 모형의 일반화 성능 평가에만 사용
이러한 분리는 시험 데이터에 대한 성능이 모형의 진정한 일반화 성능의 추정으로 신뢰될 수 있도록 보장한다.
6. 학습률 일정
학습률(learning rate) \eta는 매개 변수 갱신의 크기를 결정하는 하이퍼파라미터이다. 학습률은 학습의 수렴성과 속도에 직접적으로 관련되며, 학술적으로 다음과 같은 일정(schedule)이 사용된다.
- 상수 학습률: 학습 전반에 걸쳐 동일한 학습률 사용
- 단계 감쇠(step decay): 정해진 시점마다 학습률을 일정 비율로 감소
- 코사인 감쇠(cosine decay): 코사인 함수에 따라 학습률을 점진적으로 감소
- 지수 감쇠(exponential decay): 매 단계마다 학습률을 일정 비율로 감소
- 워밍업(warm-up): 학습 초기에 학습률을 점진적으로 증가시킨 후 본 일정으로 진입
7. 재현성과 결정성
학습의 재현성을 보장하기 위하여 다음의 학술적 요건이 권고된다.
- 무작위 시드(random seed)의 고정
- 데이터 분할의 결정성
- 하드웨어와 소프트웨어 환경의 명시
- 하이퍼파라미터의 명시
- 학습 곡선과 평가 결과의 보고
이러한 요건은 Reproducibility checklist와 같은 학술 출판의 권고 사항으로 자주 제시된다.
8. 출처 및 버전 정보
- Rumelhart, D. E., Hinton, G. E., Williams, R. J., Learning representations by back-propagating errors, Nature, 1986
- Bottou, L., Large-Scale Machine Learning with Stochastic Gradient Descent, COMPSTAT, 2010
- Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
- Kingma, D. P., Ba, J., Adam: A Method for Stochastic Optimization, International Conference on Learning Representations, 2015
- Loshchilov, I., Hutter, F., SGDR: Stochastic Gradient Descent with Warm Restarts, International Conference on Learning Representations, 2017
- Pineau, J., 외, Improving Reproducibility in Machine Learning Research, Journal of Machine Learning Research, 2021