14.8 VGGNet 아키텍처

VGGNet은 옥스포드 대학교의 Visual Geometry Group이 학술적으로 제안한 깊은 합성곱 신경망 아키텍처이다. Simonyan과 Zisserman이 2015년에 Very Deep Convolutional Networks for Large-Scale Image Recognition에서 학술적으로 발표하였으며, 작은 3×3 합성곱 필터의 반복으로 깊이를 학술적으로 증가시킨 단순하고 균일한 구조로 학술적 영향을 미쳤다. 이 절에서는 VGGNet의 학술적 동기, 구조, 학술적 기여, 한계, 응용을 학습 순서에 따라 기술한다.

1. 학술적 동기

AlexNet은 깊은 합성곱 신경망의 학술적 가능성을 입증하였지만, 큰 필터 크기(11×11, 5×5)와 다양한 층 구성은 학술적으로 최적화의 여지가 있었다. VGGNet의 학술적 동기는 다음과 같다.

매우 작은 합성곱 필터(3×3)의 반복으로 효과적인 수용 영역을 학술적으로 확보
균일한 구조로 단순성과 학술적 분석의 용이성 제공
깊이의 증가가 영상 분류 성능에 미치는 학술적 영향의 분석

VGGNet은 이러한 동기에서 출발하여 11층에서 19층에 이르는 다양한 깊이의 변형을 학술적으로 비교하였다.

2. VGGNet의 구조

VGGNet은 다음의 학술적 원칙으로 구성된다.

모든 합성곱 필터의 크기는 3×3이며, 스트라이드는 1, 패딩은 1이다.
모든 최대 풀링 윈도우는 2×2이며, 스트라이드는 2이다.
합성곱 블록은 여러 개의 3×3 합성곱이 풀링 없이 연속적으로 적용된 후 풀링이 적용되는 구조이다.
채널 수는 풀링 후에 두 배로 증가한다(64 → 128 → 256 → 512 → 512).
마지막에는 세 개의 완전 연결층이 적용된다(4096 → 4096 → 1000).

대표적 변형은 VGG-11, VGG-13, VGG-16, VGG-19이며, 숫자는 학습 가능한 층(합성곱과 완전 연결)의 수를 의미한다.

2.1 VGG-16의 구조

VGG-16의 구조는 다음과 같다.

블록	층 구성	출력 크기
입력	입력 영상	3 × 224 × 224
블록 1	Conv3×3-64, Conv3×3-64, MaxPool	64 × 112 × 112
블록 2	Conv3×3-128, Conv3×3-128, MaxPool	128 × 56 × 56
블록 3	Conv3×3-256, Conv3×3-256, Conv3×3-256, MaxPool	256 × 28 × 28
블록 4	Conv3×3-512, Conv3×3-512, Conv3×3-512, MaxPool	512 × 14 × 14
블록 5	Conv3×3-512, Conv3×3-512, Conv3×3-512, MaxPool	512 × 7 × 7
FC	FC-4096, FC-4096, FC-1000	1000

VGG-16의 학습 가능 매개 변수 수는 약 1억 3천8백만 개이며, 그 중 대부분이 완전 연결층에 집중되어 있다.

3. 작은 필터의 학술적 동기

VGGNet은 모든 합성곱 필터의 크기를 3×3으로 고정한다. 이러한 학술적 선택은 다음의 동기에 기반한다.

두 개의 3×3 합성곱의 결합은 5×5 합성곱과 동일한 수용 영역을 가지지만, 매개 변수 수가 더 작다(2 × 9 = 18 대 25).
세 개의 3×3 합성곱의 결합은 7×7 합성곱과 동일한 수용 영역을 가지지만, 매개 변수 수가 더 작다(3 × 9 = 27 대 49).
더 깊은 비선형 변환이 표현력을 증가시킨다.

이러한 학술적 분석은 작은 필터의 반복이 큰 필터의 단일 적용보다 매개 변수 효율성과 표현력 모두에서 학술적으로 우수함을 보여준다.

4. 학술적 기여

VGGNet의 학술적 기여는 다음과 같다.

작은 합성곱 필터의 반복에 기반한 균일한 깊은 합성곱 신경망의 학술적 정립
깊이가 영상 분류 성능에 미치는 학술적 영향의 분석
사전 학습된 가중치의 학술적·실용적 가치: VGG-16과 VGG-19의 사전 학습된 가중치는 다양한 후속 컴퓨터 비전 과제(전이 학습, 객체 검출, 의미 분할 등)에서 광범위하게 사용되었다.
학술적·교육적 가치: 단순하고 균일한 구조로 인하여 학술적 분석과 교육에 적합한 모형이 되었다.

5. 한계

VGGNet은 다음의 학술적 한계를 가진다.

매우 큰 매개 변수 수: 약 1억 3천8백만 개로, 계산 비용과 메모리 사용량이 매우 크다.
완전 연결층에의 집중: 매개 변수의 대부분이 완전 연결층에 있으므로, 이 부분의 학술적 비효율성이 두드러진다.
학습의 어려움: 깊이가 19층을 넘어서면 학습이 학술적으로 어려워진다.
잔차 연결 없음: 매우 깊은 신경망의 학술적 학습 가능성이 제한된다.

이러한 한계는 후속 학술 연구에서 GoogLeNet의 인셉션 모듈, ResNet의 잔차 연결로 점진적으로 완화되었다.

6. 응용

VGGNet은 다음의 학술적 활용 사례에서 사용되었다.

영상 분류: ILSVRC 2014에서 학술적으로 우수한 결과
전이 학습: 사전 학습된 VGG의 특징 추출기가 다양한 컴퓨터 비전 과제에 광범위하게 사용
객체 검출: Fast R-CNN, Faster R-CNN과 같은 객체 검출 모형의 백본
의미 분할: FCN과 같은 분할 모형의 백본
지각 손실(perceptual loss): 영상 생성 과제에서 사전 학습된 VGG의 특징을 사용한 지각 손실 함수

7. 출처 및 버전 정보

Simonyan, K., Zisserman, A., Very Deep Convolutional Networks for Large-Scale Image Recognition, International Conference on Learning Representations, 2015
Russakovsky, O., 외, ImageNet Large Scale Visual Recognition Challenge, International Journal of Computer Vision, 2015
Long, J., Shelhamer, E., Darrell, T., Fully Convolutional Networks for Semantic Segmentation, IEEE Conference on Computer Vision and Pattern Recognition, 2015
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Johnson, J., Alahi, A., Fei-Fei, L., Perceptual Losses for Real-Time Style Transfer and Super-Resolution, European Conference on Computer Vision, 2016