14.7 AlexNet 아키텍처
AlexNet은 Krizhevsky, Sutskever, Hinton이 2012년에 ImageNet Classification with Deep Convolutional Neural Networks에서 학술적으로 제안한 깊은 합성곱 신경망이다. AlexNet은 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012에서 이전의 최고 성능을 큰 차이로 갱신하여 학술적으로 심층 학습의 시대를 열었다는 평가를 받는다. 이 절에서는 AlexNet의 학술적 배경, 구조, 학습 기법, 학술적 의의를 학습 순서에 따라 기술한다.
1. 학술적 배경
ILSVRC는 ImageNet 데이터셋의 약 120만 장의 영상을 1000개의 클래스로 분류하는 대규모 컴퓨터 비전 과제이다. 2010년과 2011년의 ILSVRC에서는 전통적인 컴퓨터 비전 기법(예: SIFT, HOG, Bag-of-Words, 서포트 벡터 머신)이 학술적 표준이었으며, 최고 성능은 약 26%의 상위 5위 오류율(top-5 error rate)이었다.
2012년에 Krizhevsky, Sutskever, Hinton은 깊은 합성곱 신경망과 GPU 기반 학습을 결합하여 약 15.3%의 상위 5위 오류율을 달성하였으며, 이는 차순위 결과에 비하여 약 10% 포인트 우수한 성능이었다. 이 결과는 깊은 합성곱 신경망의 학술적 가치를 입증하였으며, 컴퓨터 비전 분야에 광범위한 영향을 미쳤다.
2. AlexNet의 구조
AlexNet은 다음의 여덟 개 학습 가능 층(다섯 개의 합성곱층과 세 개의 완전 연결층)으로 구성된다. 입력 영상의 크기는 일반적으로 224×224 또는 227×227로 보고된다.
| 층 | 종류 | 출력 채널 | 필터 크기 | 스트라이드 |
|---|---|---|---|---|
| Conv1 | 합성곱 | 96 | 11×11 | 4 |
| Pool1 | 최대 풀링 | 96 | 3×3 | 2 |
| Conv2 | 합성곱 | 256 | 5×5 | 1 |
| Pool2 | 최대 풀링 | 256 | 3×3 | 2 |
| Conv3 | 합성곱 | 384 | 3×3 | 1 |
| Conv4 | 합성곱 | 384 | 3×3 | 1 |
| Conv5 | 합성곱 | 256 | 3×3 | 1 |
| Pool5 | 최대 풀링 | 256 | 3×3 | 2 |
| FC6 | 완전 연결 | 4096 | - | - |
| FC7 | 완전 연결 | 4096 | - | - |
| FC8 | 완전 연결 | 1000 | - | - |
AlexNet의 학습 가능 매개 변수의 총 수는 약 6천만 개이다.
3. 학술적 기여
AlexNet의 학술적 기여는 다음과 같다.
3.1 ReLU 활성화 함수
AlexNet은 ReLU를 깊은 합성곱 신경망의 활성화 함수로 채택하였다. 이는 시그모이드와 쌍곡 탄젠트에 비하여 학습 속도를 학술적으로 크게 향상시켰으며, 기울기 소실 문제를 완화하였다.
3.2 GPU 기반 학습
AlexNet은 두 개의 NVIDIA GTX 580 GPU에서 약 6일 동안 학습되었다. 학습은 두 GPU 사이에 모형을 분할하는 모형 병렬화로 수행되었으며, 이는 깊은 합성곱 신경망의 학술적 학습 가능성을 입증하였다.
3.3 드롭아웃
완전 연결층에서 드롭아웃(dropout)이 사용되어 과적합을 학술적으로 완화하였다. 드롭아웃은 Hinton 외의 Improving neural networks by preventing co-adaptation of feature detectors (2012)에서 학술적으로 제안된 정칙화 기법이다.
3.4 데이터 증강
학습 데이터의 무작위 절단, 좌우 반전, 색상 변형 등의 데이터 증강이 학습에 사용되어 일반화 성능을 학술적으로 향상시켰다.
3.5 지역 응답 정규화
지역 응답 정규화(Local Response Normalization, LRN)가 일부 층에 적용되었다. 이는 인접한 채널의 활성화 강도에 기반한 정규화로, 학술적으로 일정한 정칙화 효과를 가진다고 보고되었다. 후속 연구에서는 LRN의 효과가 제한적임이 보고되었으며, 배치 정규화로 대체되어 왔다.
4. 학술적 의의
AlexNet의 학술적 의의는 다음과 같다.
- 깊은 합성곱 신경망의 학술적 입증
- 컴퓨터 비전 분야의 패러다임 전환
- ReLU, 드롭아웃, GPU 학습, 데이터 증강 등의 학술적 결합
- 후속 합성곱 신경망(VGGNet, GoogLeNet, ResNet 등)의 학술적 출발점
- 심층 학습 시대의 시작
AlexNet의 학술적 성공은 학계와 산업계 모두에 광범위한 영향을 미쳤으며, 이후 영상 분류, 객체 검출, 의미 분할, 자연 언어 처리 등 다양한 분야에서 깊은 신경망의 학술적 채택을 촉진하였다.
5. 한계와 후속 발전
AlexNet은 다음의 학술적 한계를 가진다.
- 매우 큰 매개 변수 수: 약 6천만 개
- 큰 필터 크기: 첫 번째 층의 11×11 필터는 후대의 합성곱 신경망에 비하여 학술적으로 비효율적이다.
- 지역 응답 정규화의 제한된 효과
- 두 GPU에 분할된 구조
이러한 한계는 후속 합성곱 신경망에서 점진적으로 학술적으로 개선되었다. VGGNet은 작은 필터(3×3)의 반복으로 효율성을 향상시켰으며, GoogLeNet은 인셉션 모듈로 매개 변수 효율을 크게 개선하였고, ResNet은 잔차 연결로 매우 깊은 신경망의 학습을 가능하게 하였다.
6. 출처 및 버전 정보
- Krizhevsky, A., Sutskever, I., Hinton, G. E., ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, 2012
- Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R. R., Improving neural networks by preventing co-adaptation of feature detectors, arXiv:1207.0580, 2012
- Russakovsky, O., 외, ImageNet Large Scale Visual Recognition Challenge, International Journal of Computer Vision, 2015
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
- Schmidhuber, J., Deep learning in neural networks: An overview, Neural Networks, 2015