14.4 풀링층(Pooling Layer)의 구조

풀링층(pooling layer)은 입력 텐서의 작은 지역에서 통계 요약을 계산하여 출력하는 층이다. 풀링층은 학습 가능한 매개 변수를 가지지 않으며, 공간 차원의 축소와 작은 평행 이동에 대한 강건성을 학술적으로 제공한다. 이 절에서는 풀링층의 학술적 정의, 종류, 출력 크기 계산, 학술적 특성, 학술적 의의를 학습 순서에 따라 기술한다.

1. 학술적 정의

풀링층은 입력의 한 채널 $X$ 에 대하여 슬라이딩 윈도우 $W$ 에서의 통계 요약 함수 $\Psi$ 를 계산한다.

$Y_{i, j} = \Psi\left(\{ X_{i + u, j + v} \mid 0 \leq u < k_h, 0 \leq v < k_w \}\right)$

요약 함수 $\Psi$ 의 종류에 따라 풀링의 종류가 결정된다. 가장 일반적인 풀링은 최대 풀링과 평균 풀링이다.

14.4.2 풀링의 종류

14.4.2.1 최대 풀링(max pooling)

최대 풀링은 윈도우 내의 최대값을 출력한다.

$Y_{i, j} = \max_{0 \leq u < k_h, 0 \leq v < k_w} X_{i + u, j + v}$

최대 풀링은 윈도우 내에서 가장 강한 활성화를 보존하므로, 학술적으로 두드러진 특징의 검출에 적합한 것으로 평가된다.

1.1 평균 풀링(average pooling)

평균 풀링은 윈도우 내의 평균값을 출력한다.

$Y_{i, j} = \frac{1}{k_h \cdot k_w} \sum_{u = 0}^{k_h - 1} \sum_{v = 0}^{k_w - 1} X_{i + u, j + v}$

평균 풀링은 윈도우 내의 모든 활성화의 평균을 표현하므로, 학술적으로 매끄러운 표현을 산출한다.

14.4.2.3 전역 평균 풀링(global average pooling)

전역 평균 풀링은 입력 텐서의 한 채널 전체에 대한 평균을 출력한다.

$Y_c = \frac{1}{H \cdot W} \sum_{i = 0}^{H - 1} \sum_{j = 0}^{W - 1} X_{c, i, j}$

이 풀링은 Lin, Chen, Yan의 Network in Network (2014)에서 학술적으로 도입되었으며, 완전 연결층의 매개 변수 수를 감소시키는 데에 사용된다.

1.2 적응적 풀링(adaptive pooling)

적응적 풀링은 출력 크기를 사전에 지정하고, 입력 크기에 따라 윈도우 크기와 스트라이드를 자동으로 조정한다. 이 학술적 변형은 입력 크기가 가변적인 경우에 사용된다.

1.3 그 외의 풀링

학술적으로 다음의 풀링 변형도 제안되어 왔다.

$L_p$ 풀링: 윈도우 내의 $L_p$ 노름을 출력
확률적 풀링(stochastic pooling): 윈도우 내의 활성화 값에 비례하는 확률로 무작위 표본을 추출
혼합 풀링(mixed pooling): 최대 풀링과 평균 풀링을 결합

2. 풀링층의 매개 변수

풀링층은 학습 가능 매개 변수를 가지지 않지만, 다음의 하이퍼파라미터를 가진다.

윈도우 크기 $k_h \times k_w$ : 일반적으로 2×2 또는 3×3이 사용된다.
스트라이드 $s$ : 일반적으로 윈도우 크기와 동일한 값(예: 2)이 사용되어 출력 크기가 입력 크기의 절반이 된다.
패딩 $p$ : 일반적으로 0이지만, 일부 경우에 사용된다.

3. 출력 크기의 계산

풀링층의 출력 크기는 합성곱층과 동일한 식으로 계산된다.

$L_{\text{out}} = \left\lfloor \frac{L_{\text{in}} + 2p - k}{s} \right\rfloor + 1$

가장 일반적인 2×2 최대 풀링(스트라이드 2, 패딩 0)의 경우 출력 크기는 입력 크기의 약 절반이 된다.

14.4.5 풀링층의 학술적 특성

풀링층의 주요 학술적 특성은 다음과 같다.

매개 변수 부재: 학습 가능 매개 변수가 없으므로 모형 용량을 증가시키지 않는다.
공간 차원의 축소: 후속 층의 계산 비용과 메모리 사용량을 감소시킨다.
작은 평행 이동에 대한 강건성: 윈도우 내의 작은 위치 변화에 대한 출력의 변화가 완화된다.
수용 영역의 확장: 풀링 후의 합성곱은 원본 입력의 더 넓은 영역에 영향을 받는다.
채널 독립성: 풀링은 각 채널에 독립적으로 적용된다.

14.4.6 학술적 한계와 보완

풀링층은 다음의 학술적 한계를 가진다.

정보 손실: 풀링 윈도우 내의 일부 정보가 손실된다.
위치 정보의 손실: 평행 이동 강건성과 위치 정확도의 학술적 균형이 요구되며, 일부 과제(예: 의미 분할, 객체 검출)에서는 이 균형이 학술적으로 문제가 된다.
학습 가능성의 부재: 풀링 자체가 학습되지 않으므로 데이터에 따른 적응이 어렵다.

이러한 한계를 완화하기 위하여 학술적으로 다음의 보완 기법이 제안되어 왔다.

스트라이드 합성곱: 풀링 대신 스트라이드가 큰 합성곱을 사용하여 학습 가능한 다운샘플링을 수행한다.
팽창 합성곱: 풀링 없이 수용 영역을 확장하여 위치 정보를 보존한다.
전역 평균 풀링: 완전 연결층 대신 사용하여 매개 변수 수를 감소시킨다.

14.4.7 출처 및 버전 정보

LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998
Krizhevsky, A., Sutskever, I., Hinton, G. E., ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, 2012
Lin, M., Chen, Q., Yan, S., Network in Network, International Conference on Learning Representations, 2014
Springenberg, J. T., Dosovitskiy, A., Brox, T., Riedmiller, M., Striving for Simplicity: The All Convolutional Net, International Conference on Learning Representations Workshop, 2015
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016