14.2 합성곱 신경망의 기본 구성 요소

14.2 합성곱 신경망의 기본 구성 요소

합성곱 신경망은 여러 종류의 층을 결합하여 영상 또는 격자 구조 데이터의 표현을 점진적으로 변환하는 신경망이다. 이 절에서는 합성곱 신경망을 구성하는 핵심 층의 학술적 정의, 그 결합 원리, 일반적 흐름을 학습 순서에 따라 기술한다.

1. 핵심 구성 요소의 분류

합성곱 신경망의 기본 구성 요소는 다음의 세 종류로 분류된다.

  • 합성곱층(convolutional layer): 학습 가능한 합성곱 필터로 입력의 공간적 특징을 추출하는 층
  • 풀링층(pooling layer): 입력의 공간 차원을 축소하면서 표현의 강건성을 향상시키는 층
  • 완전 연결층(fully connected layer): 특징 벡터를 받아 최종 출력을 산출하는 전통적 다층 퍼셉트론의 층

이외에 활성화 함수, 정규화 층(예: 배치 정규화), 드롭아웃 층, 정칙화 모듈 등이 부수적으로 결합된다.

2. 합성곱층의 역할

합성곱층은 학습 가능한 합성곱 필터(또는 커널)를 사용하여 입력 텐서에 대한 합성곱 연산을 수행한다. 각 필터는 입력의 작은 지역에 적용되어 단일 출력 값을 산출하며, 이를 입력 전체에 걸쳐 미끄러뜨리면서 적용한다. 이러한 절차는 학술적으로 다음의 결과를 가진다.

  • 지역 연결: 각 출력 단위가 입력의 작은 지역에만 의존
  • 가중치 공유: 동일한 필터가 입력의 모든 위치에 적용
  • 평행 이동 등변성: 입력의 평행 이동이 출력의 평행 이동으로 표현
  • 매개 변수 효율성: 필터의 가중치 수가 영상의 크기와 무관

여러 개의 필터를 결합하면 동일 입력에 대하여 다양한 특징이 추출되며, 그 결과는 채널(channel)을 가진 출력 텐서가 된다.

3. 풀링층의 역할

풀링층은 입력의 작은 지역에서 통계 요약(예: 최대값, 평균)을 계산하여 출력하는 층이다. 풀링은 학습 가능한 매개 변수를 가지지 않으며, 다음의 학술적 역할을 수행한다.

  • 공간 차원의 축소: 표현의 크기를 감소시켜 후속 층의 계산 비용을 절감
  • 작은 평행 이동에 대한 강건성: 작은 위치 변화에 대한 출력의 변화를 완화
  • 수용 영역의 확장: 풀링 후에 적용되는 합성곱은 입력의 더 넓은 영역에 영향을 받는다.

대표적 풀링 종류는 최대 풀링(max pooling)과 평균 풀링(average pooling)이며, 학술적으로는 최대 풀링이 분류 과제에서 더 자주 사용되어 왔다.

4. 완전 연결층의 역할

완전 연결층은 합성곱과 풀링에 의하여 추출된 특징을 1차원 벡터로 평탄화(flatten)한 후, 전통적 다층 퍼셉트론과 동일한 방식으로 최종 출력을 산출한다. 분류 과제에서는 완전 연결층의 출력이 클래스의 점수 또는 확률에 대응한다.

다만 학술적으로 완전 연결층은 매개 변수 수가 매우 많으므로, 일부 후속 합성곱 신경망(예: GoogLeNet, ResNet)은 전역 평균 풀링(global average pooling)을 사용하여 완전 연결층의 매개 변수 수를 감소시켰다.

5. 활성화 함수와 정규화

합성곱층과 완전 연결층의 출력에는 일반적으로 비선형 활성화 함수(예: ReLU)가 적용된다. 또한 배치 정규화와 같은 정규화 층이 합성곱층과 활성화 함수 사이에 삽입되어 학습의 안정성과 속도를 향상시킨다.

전형적인 합성곱 블록은 다음과 같은 순서로 구성된다.

  1. 합성곱 연산
  2. 정규화(예: 배치 정규화)
  3. 활성화 함수(예: ReLU)
  4. 선택적 풀링

이 순서는 학술적·실용적 관행에 의하여 정립되었으며, 모형에 따라 약간의 변형이 있을 수 있다.

6. 일반적 흐름

전형적인 합성곱 신경망의 일반적 흐름은 다음과 같다.

  1. 입력 영상이 입력층에 주어진다.
  2. 여러 개의 합성곱 블록이 적용되어 점진적으로 추상화된 특징을 추출한다.
  3. 풀링층이 공간 차원을 축소한다.
  4. 위의 과정이 반복되어 입력의 표현이 점진적으로 변환된다.
  5. 마지막 합성곱 또는 풀링의 출력이 평탄화되거나 전역 평균 풀링이 적용된다.
  6. 완전 연결층이 최종 출력을 산출한다.
  7. 출력층의 활성화 함수가 분류, 회귀 등 과제에 따라 적용된다.

이러한 일반적 흐름은 LeNet-5 이후의 합성곱 신경망에서 학술적으로 정립된 표준 구조이다.

7. 학술적 의의

합성곱 신경망의 기본 구성 요소는 다음의 학술적 의의를 가진다.

  • 영상의 공간적 구조에 대한 효율적 활용
  • 매개 변수 효율성과 학습 가능성의 동시 달성
  • 계층적 표현 학습의 자동화
  • 다양한 컴퓨터 비전 과제에 대한 학술적 일반성

8. 출처 및 버전 정보

  • LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998
  • Krizhevsky, A., Sutskever, I., Hinton, G. E., ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, 2012
  • Lin, M., Chen, Q., Yan, S., Network in Network, International Conference on Learning Representations, 2014
  • Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
  • Simonyan, K., Zisserman, A., Very Deep Convolutional Networks for Large-Scale Image Recognition, International Conference on Learning Representations, 2015