14.2 합성곱 신경망의 기본 구성 요소

합성곱 신경망은 여러 종류의 층을 결합하여 영상 또는 격자 구조 데이터의 표현을 점진적으로 변환하는 신경망이다. 이 절에서는 합성곱 신경망을 구성하는 핵심 층의 학술적 정의, 그 결합 원리, 일반적 흐름을 학습 순서에 따라 기술한다.

1. 핵심 구성 요소의 분류

합성곱 신경망의 기본 구성 요소는 다음의 세 종류로 분류된다.

이외에 활성화 함수, 정규화 층(예: 배치 정규화), 드롭아웃 층, 정칙화 모듈 등이 부수적으로 결합된다.

합성곱층은 학습 가능한 합성곱 필터(또는 커널)를 사용하여 입력 텐서에 대한 합성곱 연산을 수행한다. 각 필터는 입력의 작은 지역에 적용되어 단일 출력 값을 산출하며, 이를 입력 전체에 걸쳐 미끄러뜨리면서 적용한다. 이러한 절차는 학술적으로 다음의 결과를 가진다.

여러 개의 필터를 결합하면 동일 입력에 대하여 다양한 특징이 추출되며, 그 결과는 채널(channel)을 가진 출력 텐서가 된다.

풀링층은 입력의 작은 지역에서 통계 요약(예: 최대값, 평균)을 계산하여 출력하는 층이다. 풀링은 학습 가능한 매개 변수를 가지지 않으며, 다음의 학술적 역할을 수행한다.

대표적 풀링 종류는 최대 풀링(max pooling)과 평균 풀링(average pooling)이며, 학술적으로는 최대 풀링이 분류 과제에서 더 자주 사용되어 왔다.

완전 연결층은 합성곱과 풀링에 의하여 추출된 특징을 1차원 벡터로 평탄화(flatten)한 후, 전통적 다층 퍼셉트론과 동일한 방식으로 최종 출력을 산출한다. 분류 과제에서는 완전 연결층의 출력이 클래스의 점수 또는 확률에 대응한다.

다만 학술적으로 완전 연결층은 매개 변수 수가 매우 많으므로, 일부 후속 합성곱 신경망(예: GoogLeNet, ResNet)은 전역 평균 풀링(global average pooling)을 사용하여 완전 연결층의 매개 변수 수를 감소시켰다.

합성곱층과 완전 연결층의 출력에는 일반적으로 비선형 활성화 함수(예: ReLU)가 적용된다. 또한 배치 정규화와 같은 정규화 층이 합성곱층과 활성화 함수 사이에 삽입되어 학습의 안정성과 속도를 향상시킨다.

전형적인 합성곱 블록은 다음과 같은 순서로 구성된다.

이 순서는 학술적·실용적 관행에 의하여 정립되었으며, 모형에 따라 약간의 변형이 있을 수 있다.

전형적인 합성곱 신경망의 일반적 흐름은 다음과 같다.

이러한 일반적 흐름은 LeNet-5 이후의 합성곱 신경망에서 학술적으로 정립된 표준 구조이다.

합성곱 신경망의 기본 구성 요소는 다음의 학술적 의의를 가진다.

LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998
Krizhevsky, A., Sutskever, I., Hinton, G. E., ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, 2012
Lin, M., Chen, Q., Yan, S., Network in Network, International Conference on Learning Representations, 2014
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Simonyan, K., Zisserman, A., Very Deep Convolutional Networks for Large-Scale Image Recognition, International Conference on Learning Representations, 2015