14.1 합성곱 신경망의 개요와 발전 배경

합성곱 신경망(Convolutional Neural Network, CNN)은 영상이나 음성과 같이 격자(grid) 구조를 가진 데이터를 처리하기 위하여 고안된 인공 신경망의 한 부류이다. 합성곱 신경망은 생물학적 시각 피질의 구조에 대한 학술적 영감과 가중치 공유, 지역 연결, 평행 이동 불변성과 같은 학술적 원리를 결합하여 설계되었다. 이 절에서는 합성곱 신경망의 학술적 동기, 역사적 발전, 핵심 학술적 원리, 학술적 의의를 학습 순서에 따라 기술한다.

1. 학술적 동기

전통적인 다층 퍼셉트론을 영상 데이터에 그대로 적용하는 데에는 학술적 한계가 있다. 영상의 모든 픽셀을 입력층의 단위로 사용하면 매개 변수의 수가 매우 커지고, 영상의 공간적 구조가 명시적으로 활용되지 않으며, 평행 이동에 대한 강건성이 부족하다.

합성곱 신경망은 이러한 학술적 한계를 다음의 원리로 완화한다.

지역 연결(local connectivity): 각 단위가 입력의 작은 지역에만 연결됨
가중치 공유(weight sharing): 동일한 가중치가 입력의 여러 위치에 적용됨
평행 이동 등변성(translation equivariance): 입력의 평행 이동이 출력의 평행 이동으로 표현됨
계층적 표현(hierarchical representation): 얕은 층은 단순한 특징을, 깊은 층은 복잡한 특징을 학습함

2. 생물학적 영감

합성곱 신경망의 학술적 영감은 Hubel과 Wiesel의 Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex (1962)에서 비롯된다. 이 학술 문헌은 고양이의 시각 피질이 단순 세포(simple cell)와 복합 세포(complex cell)로 구성되어 있으며, 단순 세포는 특정 방향의 가장자리에 반응하고 복합 세포는 위치 변화에 어느 정도 강건한 반응을 보인다는 것을 학술적으로 발견하였다. 이 발견은 1981년 Hubel과 Wiesel의 노벨 생리·의학상 수상으로 이어졌으며, 합성곱 신경망의 학술적 출발점이 되었다.

3. 네오코그니트론

Fukushima가 1980년에 Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position에서 학술적으로 제안한 네오코그니트론(neocognitron)은 합성곱 신경망의 직접적 전신이다. 네오코그니트론은 단순 세포에 대응하는 S-층과 복합 세포에 대응하는 C-층을 교대로 쌓아 위치 변화에 강건한 패턴 인식을 수행하였다. 그러나 학습 알고리즘이 역전파에 기반하지 않았기 때문에 학술적 한계를 가졌다.

4. LeNet의 등장

LeCun, Bottou, Bengio, Haffner가 1998년에 Gradient-based learning applied to document recognition에서 학술적으로 제안한 LeNet-5는 합성곱 신경망과 역전파 학습을 결합한 학술적 전환점이다. LeNet-5는 손글씨 숫자 인식 과제에서 우수한 성능을 보였으며, 합성곱층, 풀링층, 완전 연결층의 전형적 구성을 학술적으로 정립하였다. 이 모형은 미국의 우편 분류 시스템과 은행의 수표 인식 시스템에 실제로 적용된 학술적·산업적 사례이다.

5. 심층 학습 시대의 합성곱 신경망

2012년 Krizhevsky, Sutskever, Hinton의 ImageNet Classification with Deep Convolutional Neural Networks는 합성곱 신경망의 학술적 도약을 이끈 사건이다. 이 학술 문헌은 AlexNet이라는 깊은 합성곱 신경망을 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 영상 분류 과제에 적용하여, 이전의 최고 성능을 큰 차이로 갱신하였다. 이 결과는 깊은 합성곱 신경망과 GPU 기반 학습의 학술적 가치를 입증하였으며, 심층 학습 시대의 출발점이 되었다.

이후 VGGNet (Simonyan and Zisserman, 2015), GoogLeNet (Szegedy 외, 2015), ResNet (He 외, 2016) 등 다수의 합성곱 신경망 아키텍처가 학술적으로 제안되어, 영상 분류뿐만 아니라 객체 검출, 의미 분할, 자세 추정 등 다양한 컴퓨터 비전 과제의 표준이 되었다.

6. 학술적 의의

합성곱 신경망은 다음의 학술적 의의를 가진다.

격자 구조 데이터에 대한 학술적으로 정교한 모형
가중치 공유와 지역 연결을 통한 매개 변수 효율성
평행 이동 등변성에 의한 일반화 능력
계층적 표현 학습의 자동화
컴퓨터 비전 분야의 학술적 표준

또한 합성곱 신경망은 영상 외에도 음성, 자연 언어, 시계열, 그래프 등 다양한 격자 또는 격자에 가까운 구조를 가진 데이터에 학술적으로 확장되어 왔다.

7. 자율주행에서의 합성곱 신경망

자율주행 시스템의 인지 모듈은 합성곱 신경망을 광범위하게 활용한다. 카메라 영상의 객체 검출, 의미 분할, 차로 검출, 깊이 추정 등은 모두 합성곱 신경망 또는 그 변형에 기반한다. 또한 LiDAR 점군의 처리에서도 점군을 격자로 변환하거나 직접적으로 처리하는 합성곱 기반 모형이 활용된다.

8. 출처 및 버전 정보

Hubel, D. H., Wiesel, T. N., Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex, The Journal of Physiology, 1962
Fukushima, K., Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998
Krizhevsky, A., Sutskever, I., Hinton, G. E., ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, 2012
Simonyan, K., Zisserman, A., Very Deep Convolutional Networks for Large-Scale Image Recognition, International Conference on Learning Representations, 2015
Szegedy, C., 외, Going Deeper with Convolutions, IEEE Conference on Computer Vision and Pattern Recognition, 2015
He, K., Zhang, X., Ren, S., Sun, J., Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition, 2016
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016