11.6 입력층, 은닉층, 출력층의 구성
다층 신경망은 입력층(input layer), 하나 이상의 은닉층(hidden layer), 출력층(output layer)으로 구성된다. 각 층은 학술적·기능적으로 서로 다른 역할을 수행하며, 그 구성은 신경망의 표현력, 학습 가능성, 응용 적합성에 직접적 영향을 미친다. 이 절에서는 각 층의 학술적 정의, 구성 원리, 차원의 결정 방법을 학습 순서에 따라 기술한다.
1. 입력층
입력층은 신경망의 외부 입력 데이터를 받아들이는 층이다. 입력층은 일반적으로 가중치와 활성화 함수를 가지지 않으며, 입력 벡터의 각 성분이 단위(unit)에 직접 할당된다. 입력층의 차원 d_0은 입력 데이터의 특징 벡터의 차원과 일치한다.
입력 데이터의 형태에 따라 입력층의 구성이 달라진다.
- 표 형식 데이터: 입력 벡터는 1차원이며, 각 성분은 하나의 특징을 표현한다.
- 영상 데이터: 입력은 일반적으로 채널, 높이, 너비의 3차원 텐서이다.
- 시계열 데이터: 입력은 시간 단계와 특징의 2차원 텐서이거나, 시간 단계마다 입력 벡터가 순차적으로 공급된다.
- 그래프 데이터: 입력은 노드 특징 행렬과 인접 행렬의 결합이다.
입력의 정규화(normalisation)는 학습의 수렴성에 중요한 영향을 미치므로, 학술적으로는 평균 제거와 분산 정규화 또는 최소-최대 정규화가 일반적으로 적용된다.
2. 은닉층
은닉층은 입력층과 출력층 사이에 위치한 층으로, 그 출력은 외부에 직접 노출되지 않는다. 은닉층의 학술적 역할은 입력의 표현(representation)을 점진적으로 변환하여, 출력층에서의 과제 수행에 적합한 형태로 만드는 것이다.
은닉층의 수와 너비의 결정은 다음의 학술적 원칙에 따른다.
- 표현력의 보장: 너무 작은 은닉층은 과제의 복잡도를 표현하지 못하므로 학습 데이터에 대한 과소 적합(underfitting)이 발생한다.
- 일반화 능력의 유지: 너무 큰 은닉층은 학습 데이터에 과적합(overfitting)을 일으킬 수 있으며, 충분한 데이터와 정칙화가 요구된다.
- 학습 가능성: 매우 깊은 은닉층은 기울기 소실(vanishing gradient)이나 기울기 폭발(exploding gradient) 문제를 발생시킬 수 있으며, 이를 완화하기 위하여 잔차 연결, 정규화, 적절한 초기화가 사용된다.
은닉층의 활성화 함수는 일반적으로 ReLU, GELU, 쌍곡 탄젠트 등의 비선형 함수가 사용된다. 비선형 활성화는 다층 구조의 표현력을 보장하는 학술적 필요 조건이다.
3. 출력층
출력층은 신경망의 최종 출력을 산출하는 층이다. 출력층의 단위 수와 활성화 함수는 과제의 종류에 따라 결정된다.
| 과제 | 출력층 단위 수 | 활성화 함수 |
|---|---|---|
| 회귀(scalar) | 1 | 항등 함수 |
| 회귀(vector) | 출력 벡터의 차원 | 항등 함수 |
| 이진 분류 | 1 | 시그모이드 |
| 다중 분류(K 클래스) | K | 소프트맥스 |
| 다중 라벨 분류 | 라벨 수 | 시그모이드(라벨별) |
| 분포 예측 | 분포의 매개 변수 수 | 분포에 따라 |
출력층의 활성화 함수와 손실 함수는 학술적으로 결합되어 정의되며, 예를 들어 다중 분류에서는 소프트맥스와 교차 엔트로피 손실이 결합되어 사용된다.
4. 층의 구성에 대한 학술적 원칙
층의 구성은 다음의 학술적 원칙을 따른다.
- 단순성과 충분성의 균형: 가능한 한 단순하면서도 과제의 복잡도를 표현할 수 있는 구성을 선택한다.
- 하이퍼파라미터의 검증: 층의 수와 너비는 학습 데이터와 검증 데이터를 통한 교차 검증으로 결정한다.
- 특화된 구조의 활용: 영상, 시계열, 그래프와 같은 입력의 구조를 활용하기 위한 특화된 층(합성곱 층, 순환 층, 그래프 합성곱 층 등)을 사용한다.
- 학습 가능성의 확보: 잔차 연결, 정규화, 적절한 초기화를 통하여 깊은 신경망의 학습 가능성을 확보한다.
5. 출처 및 버전 정보
- Rumelhart, D. E., Hinton, G. E., Williams, R. J., Learning representations by back-propagating errors, Nature, 1986
- Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
- Bengio, Y., Learning Deep Architectures for AI, Foundations and Trends in Machine Learning, 2009
- He, K., Zhang, X., Ren, S., Sun, J., Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition, 2016