14.8 VGGNet 아키텍처

VGGNet은 옥스포드 대학교의 Visual Geometry Group이 학술적으로 제안한 깊은 합성곱 신경망 아키텍처이다. Simonyan과 Zisserman이 2015년에 Very Deep Convolutional Networks for Large-Scale Image Recognition에서 학술적으로 발표하였으며, 작은 3×3 합성곱 필터의 반복으로 깊이를 학술적으로 증가시킨 단순하고 균일한 구조로 학술적 영향을 미쳤다. 이 절에서는 VGGNet의 학술적 동기, 구조, 학술적 기여, 한계, 응용을 학습 순서에 따라 기술한다.

1. 학술적 동기

AlexNet은 깊은 합성곱 신경망의 학술적 가능성을 입증하였지만, 큰 필터 크기(11×11, 5×5)와 다양한 층 구성은 학술적으로 최적화의 여지가 있었다. VGGNet의 학술적 동기는 다음과 같다.

  • 매우 작은 합성곱 필터(3×3)의 반복으로 효과적인 수용 영역을 학술적으로 확보
  • 균일한 구조로 단순성과 학술적 분석의 용이성 제공
  • 깊이의 증가가 영상 분류 성능에 미치는 학술적 영향의 분석

VGGNet은 이러한 동기에서 출발하여 11층에서 19층에 이르는 다양한 깊이의 변형을 학술적으로 비교하였다.

2. VGGNet의 구조

VGGNet은 다음의 학술적 원칙으로 구성된다.

  • 모든 합성곱 필터의 크기는 3×3이며, 스트라이드는 1, 패딩은 1이다.
  • 모든 최대 풀링 윈도우는 2×2이며, 스트라이드는 2이다.
  • 합성곱 블록은 여러 개의 3×3 합성곱이 풀링 없이 연속적으로 적용된 후 풀링이 적용되는 구조이다.
  • 채널 수는 풀링 후에 두 배로 증가한다(64 → 128 → 256 → 512 → 512).
  • 마지막에는 세 개의 완전 연결층이 적용된다(4096 → 4096 → 1000).

대표적 변형은 VGG-11, VGG-13, VGG-16, VGG-19이며, 숫자는 학습 가능한 층(합성곱과 완전 연결)의 수를 의미한다.

2.1 VGG-16의 구조

VGG-16의 구조는 다음과 같다.

블록층 구성출력 크기
입력입력 영상3 × 224 × 224
블록 1Conv3×3-64, Conv3×3-64, MaxPool64 × 112 × 112
블록 2Conv3×3-128, Conv3×3-128, MaxPool128 × 56 × 56
블록 3Conv3×3-256, Conv3×3-256, Conv3×3-256, MaxPool256 × 28 × 28
블록 4Conv3×3-512, Conv3×3-512, Conv3×3-512, MaxPool512 × 14 × 14
블록 5Conv3×3-512, Conv3×3-512, Conv3×3-512, MaxPool512 × 7 × 7
FCFC-4096, FC-4096, FC-10001000

VGG-16의 학습 가능 매개 변수 수는 약 1억 3천8백만 개이며, 그 중 대부분이 완전 연결층에 집중되어 있다.

3. 작은 필터의 학술적 동기

VGGNet은 모든 합성곱 필터의 크기를 3×3으로 고정한다. 이러한 학술적 선택은 다음의 동기에 기반한다.

  • 두 개의 3×3 합성곱의 결합은 5×5 합성곱과 동일한 수용 영역을 가지지만, 매개 변수 수가 더 작다(2 × 9 = 18 대 25).
  • 세 개의 3×3 합성곱의 결합은 7×7 합성곱과 동일한 수용 영역을 가지지만, 매개 변수 수가 더 작다(3 × 9 = 27 대 49).
  • 더 깊은 비선형 변환이 표현력을 증가시킨다.

이러한 학술적 분석은 작은 필터의 반복이 큰 필터의 단일 적용보다 매개 변수 효율성과 표현력 모두에서 학술적으로 우수함을 보여준다.

4. 학술적 기여

VGGNet의 학술적 기여는 다음과 같다.

  • 작은 합성곱 필터의 반복에 기반한 균일한 깊은 합성곱 신경망의 학술적 정립
  • 깊이가 영상 분류 성능에 미치는 학술적 영향의 분석
  • 사전 학습된 가중치의 학술적·실용적 가치: VGG-16과 VGG-19의 사전 학습된 가중치는 다양한 후속 컴퓨터 비전 과제(전이 학습, 객체 검출, 의미 분할 등)에서 광범위하게 사용되었다.
  • 학술적·교육적 가치: 단순하고 균일한 구조로 인하여 학술적 분석과 교육에 적합한 모형이 되었다.

5. 한계

VGGNet은 다음의 학술적 한계를 가진다.

  • 매우 큰 매개 변수 수: 약 1억 3천8백만 개로, 계산 비용과 메모리 사용량이 매우 크다.
  • 완전 연결층에의 집중: 매개 변수의 대부분이 완전 연결층에 있으므로, 이 부분의 학술적 비효율성이 두드러진다.
  • 학습의 어려움: 깊이가 19층을 넘어서면 학습이 학술적으로 어려워진다.
  • 잔차 연결 없음: 매우 깊은 신경망의 학술적 학습 가능성이 제한된다.

이러한 한계는 후속 학술 연구에서 GoogLeNet의 인셉션 모듈, ResNet의 잔차 연결로 점진적으로 완화되었다.

6. 응용

VGGNet은 다음의 학술적 활용 사례에서 사용되었다.

  • 영상 분류: ILSVRC 2014에서 학술적으로 우수한 결과
  • 전이 학습: 사전 학습된 VGG의 특징 추출기가 다양한 컴퓨터 비전 과제에 광범위하게 사용
  • 객체 검출: Fast R-CNN, Faster R-CNN과 같은 객체 검출 모형의 백본
  • 의미 분할: FCN과 같은 분할 모형의 백본
  • 지각 손실(perceptual loss): 영상 생성 과제에서 사전 학습된 VGG의 특징을 사용한 지각 손실 함수

7. 출처 및 버전 정보

  • Simonyan, K., Zisserman, A., Very Deep Convolutional Networks for Large-Scale Image Recognition, International Conference on Learning Representations, 2015
  • Russakovsky, O., 외, ImageNet Large Scale Visual Recognition Challenge, International Journal of Computer Vision, 2015
  • Long, J., Shelhamer, E., Darrell, T., Fully Convolutional Networks for Semantic Segmentation, IEEE Conference on Computer Vision and Pattern Recognition, 2015
  • Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
  • Johnson, J., Alahi, A., Fei-Fei, L., Perceptual Losses for Real-Time Style Transfer and Super-Resolution, European Conference on Computer Vision, 2016