14.6 LeNet 아키텍처
LeNet은 LeCun과 그의 동료들이 1980년대 후반부터 1990년대에 걸쳐 학술적으로 발전시킨 합성곱 신경망의 초기 아키텍처이다. 가장 광범위하게 알려진 변형은 LeNet-5이며, 이는 LeCun, Bottou, Bengio, Haffner가 1998년에 Gradient-based learning applied to document recognition에서 학술적으로 정형화한 모형이다. LeNet-5는 합성곱과 풀링의 반복으로 영상의 표현을 학습한 후 완전 연결층으로 분류를 수행하는 합성곱 신경망의 전형적 구성을 학술적으로 정립하였다. 이 절에서는 LeNet의 학술적 배경, 구조, 학습 절차, 응용, 학술적 의의를 학습 순서에 따라 기술한다.
1. 학술적 배경
LeNet은 미국 우편 분류와 은행 수표 인식과 같은 손글씨 인식 과제를 해결하기 위하여 학술적으로 개발되었다. 이 시기에 손글씨 인식은 컴퓨터 비전의 학술적 도전 과제 중 하나였으며, 전통적 패턴 인식 방법은 손글씨의 다양성에 대처하기에 한계가 있었다. LeCun과 그의 동료들은 합성곱 신경망과 역전파 학습을 결합하여 학술적으로 우수한 결과를 달성하였다.
2. LeNet-5의 구조
LeNet-5는 다음의 일곱 개 층으로 구성된다.
| 층 | 종류 | 출력 크기 (채널 × 높이 × 너비) | 매개 변수 |
|---|---|---|---|
| 입력 | 입력 | 1 × 32 × 32 | 0 |
| C1 | 합성곱 (5×5) | 6 × 28 × 28 | 156 |
| S2 | 평균 풀링 (2×2) | 6 × 14 × 14 | 12 |
| C3 | 합성곱 (5×5) | 16 × 10 × 10 | 1,516 |
| S4 | 평균 풀링 (2×2) | 16 × 5 × 5 | 32 |
| C5 | 합성곱 (5×5) | 120 × 1 × 1 | 48,120 |
| F6 | 완전 연결 | 84 | 10,164 |
| 출력 | 완전 연결 | 10 | 850 |
LeNet-5의 학습 가능 매개 변수의 총 수는 약 6만 개이며, 이는 후대의 깊은 합성곱 신경망에 비하여 매우 작다.
3. 구성 요소의 학술적 특성
LeNet-5의 학술적 특성은 다음과 같다.
- 평균 풀링: 학습 가능한 가중치를 가지는 평균 풀링이 사용된다(현대 평균 풀링과 약간의 차이가 있음).
- 활성화 함수: 시그모이드 또는 쌍곡 탄젠트가 사용된다.
- C3 층의 부분 연결: C3의 일부 출력 채널은 S2의 일부 입력 채널만을 사용하여 매개 변수 수와 학술적 다양성을 조절한다.
- 출력층: F6의 출력은 학술적으로 정의된 표준 패턴 벡터와의 거리에 기반하여 분류된다.
4. 학습 절차
LeNet-5의 학습은 역전파와 확률적 경사 하강법을 사용하여 수행된다. 학습 데이터는 손글씨 숫자(MNIST 데이터셋과 그 전신)이며, 손실 함수는 출력 벡터와 표준 패턴 벡터 사이의 거리로 정의된다. 학습은 수십 에포크에 걸쳐 수행되었으며, 당시의 컴퓨팅 자원으로도 학술적으로 실현 가능한 규모였다.
5. 응용
LeNet은 다음의 학술적·산업적 응용에 적용되었다.
- 미국 우편 분류: 우편물의 우편 번호를 자동으로 인식
- 은행 수표 인식: 수표의 금액 필드를 자동으로 인식
- 손글씨 숫자 인식: MNIST 데이터셋의 학술적 벤치마크
특히 미국과 유럽의 은행에서 수십 만 장의 수표를 자동으로 처리하는 시스템에 적용되어, 학술적 성과가 산업적 가치로 이어진 대표적 사례이다.
6. 학술적 의의
LeNet의 학술적 의의는 다음과 같다.
- 합성곱 신경망의 학술적 정립: 합성곱과 풀링, 완전 연결의 결합을 학술적으로 정형화
- 역전파와 합성곱 신경망의 결합: 학습 가능한 합성곱 신경망의 학술적 가능성을 입증
- 산업적 적용의 학술적 정당화: 학술적 성과가 산업적 가치로 이어지는 사례를 제공
- 후속 합성곱 신경망의 학술적 출발점: AlexNet 이후의 깊은 합성곱 신경망의 학술적 토대
LeNet은 1990년대에는 학술적으로 광범위하게 인정되었지만, 컴퓨팅 자원과 데이터의 한계로 인하여 그 응용이 제한되었다. 2010년대에 GPU 기반의 깊은 합성곱 신경망이 등장하면서 LeNet의 학술적 원리가 재조명되었으며, 합성곱 신경망의 학술적 기원으로서 학술적 가치를 인정받고 있다.
7. 출처 및 버전 정보
- LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., Jackel, L. D., Backpropagation Applied to Handwritten Zip Code Recognition, Neural Computation, 1989
- LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998
- LeCun, Y., Cortes, C., Burges, C. J. C., The MNIST Database of Handwritten Digits, 1998
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
- Schmidhuber, J., Deep learning in neural networks: An overview, Neural Networks, 2015