채널 어텐션 메커니즘 (2018)

채널 어텐션 메커니즘 (2018)

1. 채널 어텐션의 개념과 의의

1.1 어텐션 메커니즘의 본질: ’무엇(What)’과 ’어디(Where)’에 집중할 것인가

어텐션(Attention) 메커니즘은 인간의 시각 인지 시스템에서 영감을 받은 개념이다. 인간은 방대한 양의 시각 정보에 직면했을 때, 모든 정보를 동등하게 처리하는 대신 특정 부분에 선택적으로 집중하여 효율적으로 정보를 처리한다.1 딥러닝에서의 어텐션은 이러한 원리를 모방하여, 제한된 계산 자원을 현재 과업 수행에 더 중요한 정보에 동적으로 할당하는 메커니즘으로 정의할 수 있다.1

컴퓨터 비전 분야에서 어텐션 메커니즘은 크게 두 가지 근본적인 질문에 답하고자 한다. 첫째는 이미지의 ’어디(Where)’에 집중할 것인가이며, 이는 공간 어텐션(Spatial Attention)의 영역이다. 둘째는 이미지에 존재하는 특징들 중 ’무엇(What)’에 집중할 것인가이며, 이것이 바로 채널 어텐션(Channel Attention)의 핵심이다.3

합성곱 신경망(Convolutional Neural Networks, CNN)의 기본 연산자인 컨볼루션은 각 계층의 지역적 수용장(local receptive field) 내에서 공간적 정보와 채널별 정보를 융합하여 유의미한 특징을 추출한다.6 과거의 많은 연구는 모델의 표현력을 강화하기 위해 주로 공간적 관계를 향상시키는 데 집중해왔다. 그러나 특징 맵의 각 채널이 어떠한 정보를 담고 있으며, 이 채널들 간의 관계가 어떻게 형성되는지 이해하고 활용하는 것 역시 모델의 성능을 결정하는 매우 중요한 요소이다.6

1.2 채널 어텐션의 정의: 특징 맵(Feature Map)의 채널 간 상호의존성 모델링

채널 어텐션은 CNN이 생성하는 특징 맵의 각 채널이 고유한 ’특징 탐지기(feature detector)’로서 기능한다는 개념에서 출발한다.5 예를 들어, ‘자동차’ 이미지를 인식하는 모델이 있다면, 어떤 채널은 ’타이어’의 둥근 형태를, 다른 채널은 ’창문’의 사각 형태나 ’헤드라이트’의 빛나는 질감을 탐지하는 데 특화될 수 있다.3

채널 어텐션의 핵심 목표는 이러한 채널들 사이의 상호의존성(interdependencies)을 명시적으로 모델링하여, 입력 이미지의 내용에 따라 동적으로 각 채널의 중요도를 재조정(recalibrate)하는 것이다.6 이 과정을 통해 네트워크는 현재 과업에 더 정보성이 높은 특징 채널은 강조(emphasize)하고, 상대적으로 덜 유용한 채널은 억제(suppress)함으로써 전체적인 표현력을 극대화한다.1 이는 입력에 따라 계산 흐름의 일부를 동적으로 조절하는 일종의 조건부 계산(conditional computation) 방식으로도 해석될 수 있다.10

1.3 안내서의 구조 및 목표

본 안내서는 채널 어텐션 메커니즘의 효시가 된 Squeeze-and-Excitation Network (SENet)를 시작으로, 이를 발전시킨 Convolutional Block Attention Module (CBAM), 그리고 효율성에 초점을 맞춘 ECA-Net과 FcaNet에 이르기까지 주요 채널 어텐션 아키텍처를 심층적으로 분석한다. 각 메커니즘의 구조적 특징과 수학적 원리를 상세히 설명하고, 표준 벤치마크 데이터셋에서의 성능을 정량적으로 비교 평가한다. 나아가 채널 어텐션의 내재적 한계를 고찰하고, Vision Transformer와 같은 최신 아키텍처와의 융합 동향을 탐구하며 미래 연구 방향을 제시하는 것을 목표로 한다.

채널 어텐션은 단순히 성능을 소폭 개선하는 추가 모듈이 아니라, CNN 아키텍처가 본질적으로 지니는 정보 처리의 한계를 극복하고 보완하기 위한 구조적 혁신으로 이해해야 한다. CNN의 컨볼루션 연산은 두 가지 근본적인 한계를 내포한다. 첫째는 ’지역성(Locality)’으로, 필터가 국소적인 수용장 내에서만 작동하기 때문에 전역적인 문맥(global context) 정보를 직접적으로 포착하기 어렵다.3 둘째는 ’암시적 채널 의존성(Implicit Channel Dependency)’으로, 채널 간의 관계가 필터가 학습하는 공간적 패턴과 복잡하게 얽혀 있어 명시적으로 모델링되지 않는다.3 채널 어텐션의 선구자인 SENet의 ‘Squeeze’ 단계는 전역 평균 풀링(Global Average Pooling)을 통해 각 채널의 공간 정보를 단일 값으로 압축함으로써 전역적 문맥을 포착하여 ‘지역성’ 한계를 극복하려 시도한다.3 이어지는 ‘Excitation’ 단계는 이 전역 정보를 바탕으로 채널 간의 관계를 명시적으로 모델링하고 가중치를 학습하여 ‘암시적 채널 의존성’ 문제를 해결한다.3 이처럼 채널 어텐션은 CNN의 내재적 약점을 보완하는 핵심적인 메커니즘으로서 그 의의를 찾을 수 있다.

2. Squeeze-and-Excitation Networks (SENet): 채널 어텐션의 서막

2.1 SE 블록의 개념과 목표

Squeeze-and-Excitation Network (SENet)는 ILSVRC 2017 이미지 분류 대회에서 1위를 차지하며 채널 어텐션 메커니즘의 잠재력과 효과를 세상에 처음으로 입증한 선구적인 연구이다.6 SENet의 핵심은 ‘Squeeze-and-Excitation’ (SE) 블록이라는 새로운 구조적 단위를 제안한 데 있다. 이 블록의 목표는 네트워크가 전역적인 정보(global information)를 활용하여 채널별 특징 응답을 입력에 따라 동적으로 재조정(adaptively recalibrate)하도록 학습시키는 것이다.6 SE 블록은 기존의 최신 CNN 아키텍처에 매우 적은 추가 계산 비용만으로 쉽게 통합될 수 있는 경량 모듈(lightweight module)로 설계되었다.6

2.2 SE 블록의 구조적 해부: Squeeze, Excitation, Rescale

SE 블록은 기존 컨볼루션 변환을 거친 특징 맵 U \in \mathbb{R}^{H \times W \times C}를 입력으로 받아 세 단계의 연산을 순차적으로 수행한다.

2.2.1 Squeeze 연산: 전역 공간 정보 압축 (Global Information Embedding)

Squeeze 연산의 목표는 채널별 특징 맵에 흩어져 있는 공간적(spatial, H \times W) 정보를 단일 숫자 값으로 압축하여 각 채널을 위한 전역적 문맥 디스크립터(descriptor)를 생성하는 것이다.3 이는 네트워크의 하위 계층에서도 전체 이미지에 대한 정보를 활용할 수 있게 하여, 지역적 수용장에만 국한되는 컨볼루션의 한계를 보완한다.7 이를 위해 각 채널에 대해 전역 평균 풀링(Global Average Pooling, GAP)을 적용한다.

c번째 채널 u_c에 대한 Squeeze 연산의 결과인 스칼라 값 z_c는 다음과 같이 수식으로 표현된다.
z_c = F_{sq}(u_c) = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} u_c(i, j)
이 연산을 통해 H \times W \times C 크기의 특징 맵 U1 \times 1 \times C 크기의 채널 디스크립터 벡터 z로 압축된다.7

2.2.2 Excitation 연산: 채널 간 관계 학습 및 가중치 재조정 (Adaptive Recalibration)

Excitation 연산은 Squeeze 단계에서 생성된 전역 정보 벡터 z를 활용하여 채널 간의 복잡하고 비선형적인 상호의존성을 포착하는 것을 목표로 한다. 최종적으로 각 채널의 상대적 중요도를 나타내는 0과 1 사이의 활성화(activation) 값, 즉 채널별 가중치를 생성한다.3 이 과정은 두 개의 완전 연결 계층(Fully Connected Layers)으로 구성된 게이팅 메커니즘(gating mechanism)을 통해 이루어진다.

  1. 차원 축소 (Dimensionality Reduction): 첫 번째 FC 계층은 채널의 수 C를 하이퍼파라미터인 감소율(reduction ratio) r로 나눈 C/r로 축소한다. 이는 모델의 파라미터 수를 줄여 계산 복잡도를 제어하기 위함이며, 이러한 구조를 ’보틀넥(Bottleneck)’이라고도 부른다.3
  2. 비선형성 부여: 차원이 축소된 벡터에 ReLU 활성화 함수(\delta)를 적용하여 비선형성을 추가한다.
  3. 차원 복원: 두 번째 FC 계층은 채널 수를 다시 원래의 C로 복원한다.
  4. 가중치 정규화: 마지막으로 시그모이드(Sigmoid) 활성화 함수(\sigma)를 통과시켜 각 채널의 가중치가 0과 1 사이의 값을 갖도록 정규화한다.

이 전체 과정을 수식으로 나타내면 다음과 같다. 여기서 W_1 \in \mathbb{R}^{\frac{C}{r} \times C}W_2 \in \mathbb{R}^{C \times \frac{C}{r}}는 각각 두 FC 계층의 학습 가능한 가중치 행렬이다.
s = F_{ex}(z, W) = \sigma(W_2 \delta(W_1 z))

2.2.3 Rescale (Feature Recalibration) 연산

마지막 Rescale 단계에서는 Excitation 연산을 통해 얻은 채널별 가중치 벡터 s를 원래의 특징 맵 U에 적용한다. 이는 중요한 정보를 담고 있는 채널은 강조하고, 덜 유용한 채널은 억제하는 효과를 낳는다. 이 과정은 sc번째 스칼라 값 s_c를 특징 맵 Uc번째 채널(2D 행렬) u_c에 채널별 곱셈(channel-wise multiplication)을 수행하여 이루어진다.
\tilde{X}_c = F_{scale}(u_c, s_c) = s_c \cdot u_c
이렇게 재조정된 특징 맵 \tilde{X} = [\tilde{X}_1, \tilde{X}_2,..., \tilde{X}_C]가 SE 블록의 최종 출력이 된다.

2.3 성능 분석: 비용-효율성 트레이드오프

SE 블록의 가장 큰 장점 중 하나는 미미한 계산 비용 증가만으로 상당한 성능 향상을 이끌어낸다는 점이다.6 ResNet-50 아키텍처를 기준으로 분석하면, SE-ResNet-50은 기존 ResNet-50 대비 GFLOPs(Giga Floating-point Operations per Second)가 약 0.26% 증가하고, 파라미터 수가 약 10% 증가하는 데 그쳤다. 그럼에도 불구하고 ImageNet 검증 데이터셋에서 Top-1 오류율을 1.51%p, Top-5 오류율을 0.86%p 개선하는 놀라운 성과를 보였다.6 특히, SE-ResNet-50은 훨씬 더 깊은 구조를 가진 ResNet-101의 성능에 근접하면서도, 계산 비용은 절반 수준에 불과하여 뛰어난 효율성을 입증했다.6

SE 블록의 역할은 네트워크의 모든 계층에서 동일하게 작용하는 정적인 모듈이 아니다. 그 역할은 계층의 깊이에 따라 동적으로 변화하며, 이는 SE 블록의 진정한 가치를 보여준다. 네트워크의 초기 계층에서 SE 블록은 특정 클래스와 무관한 방식(class agnostic manner)으로 작동하여, 엣지, 질감, 색상과 같은 기본적인 저수준 특징 표현의 품질을 전반적으로 강화한다.7 그러나 네트워크가 깊어져 특징이 점차 추상화되는 후기 계층으로 갈수록, SE 블록은 점점 더 전문화(specialised)되어 입력 이미지의 내용에 따라 매우 클래스별(class-specific) 방식으로 반응하게 된다.6 예를 들어, ‘개’ 이미지가 입력되면 ’개의 귀’나 ’코’와 관련된 특징을 탐지하는 채널에 높은 가중치를 부여하고, ‘새’ 이미지가 입력되면 ’부리’나 ’날개’와 관련된 채널을 활성화하는 식이다. 이러한 동작 방식은 입력 데이터(z)에 따라 게이트(s)의 값이 결정되고, 이 게이트가 특징 맵(U)의 정보 흐름을 제어하는 구조로 이루어진다. 이는 입력에 따라 계산 경로의 일부(특정 채널들)를 선택적으로 활성화하거나 억제하는 ’조건부 계산(Conditional Computation)’의 원리와 정확히 일치한다.10 따라서 SE 블록은 정적인 CNN 아키텍처에 동적인 적응성을 부여하는 중요한 혁신으로 평가할 수 있다.

3. Convolutional Block Attention Module (CBAM): 공간과 채널의 협응

3.1 CBAM의 동기: SENet을 넘어서

Convolutional Block Attention Module (CBAM)은 SENet이 채널 축(channel axis)의 관계에만 집중한 것에서 한 걸음 더 나아가, 공간 축(spatial axis)과 채널 축이라는 두 가지 주요 차원에서 모두 의미 있는 특징을 강조하고 정제하는 것을 목표로 한다.4 CBAM의 핵심 철학은 어텐션 메커니즘을 ’무엇(what)’에 집중할지 결정하는 채널 어텐션과 ’어디(where)’에 집중할지 결정하는 공간 어텐션으로 분리하고, 이 두 모듈을 순차적으로(sequentially) 결합하여 상호 보완적인 효과를 얻는 것이다.4 이 구조는 간단하면서도 다양한 CNN 아키텍처에 쉽게 통합될 수 있는 경량 범용 모듈이다.4

3.2 채널 어텐션 모듈의 개선: Max Pooling과 Average Pooling의 병행 활용

CBAM은 SENet의 채널 어텐션 모듈을 개선하는 것에서 시작한다. SENet은 공간 정보를 전역 평균 풀링(GAP)만으로 압축하는데, 이는 평균화 과정에서 중요한 특징 정보가 희석될 수 있다는 잠재적 한계를 가진다. CBAM은 이 문제를 해결하기 위해 GAP와 함께 전역 최대 풀링(Global Max Pooling, GMP)을 병렬로 활용한다.4

이 두 풀링 방식은 상호 보완적인 정보를 제공한다. GAP는 각 채널의 전반적인 통계 정보를 부드럽게 인코딩하는 데 효과적인 반면, GMP는 각 채널에서 가장 활성화가 큰, 즉 가장 두드러진(salient) 특징의 위치 정보를 포착하는 데 강점이 있다.4 이 두 가지 정보를 함께 사용함으로써 네트워크는 채널별 어텐션을 더욱 정교하고 풍부하게 추론할 수 있다.

구조적으로, 입력 특징 맵 F에 대해 평균 풀링과 최대 풀링을 각각 적용하여 두 개의 1 \times 1 \times C 벡터 F_{avg}^cF_{max}^c를 생성한다. 이 두 벡터는 파라미터를 공유하는 다층 퍼셉트론(Shared MLP)을 각각 통과한 후, 그 결과가 요소별 덧셈(element-wise summation)으로 합쳐진다. 최종적으로 시그모이드 함수를 거쳐 채널 어텐션 맵 M_c \in \mathbb{R}^{C \times 1 \times 1}가 생성된다. 이 과정은 다음 수식으로 요약된다.
M_c(F) = \sigma(\text{MLP}(\text{AvgPool}(F)) + \text{MLP}(\text{MaxPool}(F)))

M_c(F) = \sigma(W_1(W_0(F_{avg}^c)) + W_1(W_0(F_{max}^c)))

여기서 W_0 \in \mathbb{R}^{\frac{C}{r} \times C}W_1 \in \mathbb{R}^{C \times \frac{C}{r}}는 SENet과 유사하게 보틀넥 구조를 가진 공유 MLP의 가중치이며, W_0 다음에는 ReLU 활성화 함수가 적용된다.4

3.3 공간 어텐션 모듈(Spatial Attention Module)

채널 어텐션이 ’무엇’에 집중할지를 결정했다면, 공간 어텐션 모듈은 ’어디’가 정보적으로 중요한 부분인지를 찾아내는 보완적인 역할을 수행한다.4 이를 위해 채널 축을 따라 정보를 집계하여 2D 공간 어텐션 맵을 생성한다.

먼저, 채널 축에 대해 평균 풀링과 최대 풀링을 적용하여 각각 F_{avg}^s \in \mathbb{R}^{1 \times H \times W}F_{max}^s \in \mathbb{R}^{1 \times H \times W}라는 두 개의 2D 맵을 생성한다. 이 두 맵을 채널 방향으로 연결(concatenate)하여 2 \times H \times W 크기의 특징 디스크립터를 만든다. 마지막으로, 이 디스크립터에 필터 크기가 7 \times 7인 단일 컨볼루션 레이어를 적용하고 시그모이드 함수를 통과시켜 최종 공간 어텐션 맵 M_s \in \mathbb{R}^{H \times W}를 생성한다. 수식은 다음과 같다.
M_s(F) = \sigma(f^{7 \times 7}([\text{AvgPool}(F); \text{MaxPool}(F)]))

M_s(F) = \sigma(f^{7 \times 7}([F_{avg}^s; F_{max}^s]))

여기서 f^{7 \times 7}7 \times 7 커널을 사용하는 컨볼루션 연산을 의미한다.4

3.4 모듈 결합 및 최종 출력

CBAM은 채널 어텐션과 공간 어텐션을 순차적으로 적용한다. 먼저 입력 특징 맵 F에 채널 어텐션 맵 M_c를 요소별로 곱하여 채널이 정제된 특징 맵 F'을 얻는다. 그 다음, 이 F'에 공간 어텐션 맵 M_s를 다시 요소별로 곱하여 최종적으로 공간과 채널이 모두 정제된 특징 맵 F''을 출력한다.
F' = M_c(F) \otimes F

F'' = M_s(F') \otimes F'

여기서 \otimes는 요소별 곱셈(element-wise multiplication)을 의미하며, 곱셈 시 어텐션 값은 브로드캐스팅(broadcasting)되어 적용된다.4

CBAM이 채널 어텐션을 먼저 적용하고 공간 어텐션을 나중에 적용하는 순차적 구조는 단순한 설계 선택을 넘어, ’선택 후 집중(Select-then-Focus)’이라는 효율적인 계층적 추론 과정을 모델에 내재화한다. 이 구조는 병렬 구조가 아닌 순차적 구조를 의도적으로 채택한 것이다.4 첫 단계인 채널 어텐션은 입력 이미지 전체에서 “무엇이 의미 있는 특징인가?“라는 질문에 답한다.5 이는 이미지에 존재하는 객체나 패턴의 종류와 관련된 채널들을 우선적으로 활성화하는 과정이다. 이렇게 채널별 가중치가 부여된 중간 특징 맵 F'은 이미 중요한 정보가 한 차례 걸러지고 강조된 상태이다. 두 번째 단계인 공간 어텐션은 이 정제된 특징 맵 F'을 입력으로 받아, “강조된 그 특징들이 공간적으로 어디에 밀집해 있는가?“를 탐색한다.4 즉, 이미 한 번 필터링된 정보 내에서 공간적 집중 영역을 효율적으로 찾는 것이다. 이는 인간이 “빨간색 스포츠카를 찾아라“는 지시를 받았을 때, 먼저 시각 시스템이 ’빨간색’과 ’스포츠카 형태’라는 특징(채널)을 활성화한 뒤, 그 특징이 두드러지는 특정 영역으로 시선을 이동(공간)시키는 인지 과정과 매우 유사하다. 따라서 CBAM의 순차적 구조는 복잡한 시각적 장면을 분석하는 데 효과적인 추론 전략을 딥러닝 모델에 구현한 것으로 해석할 수 있다.

4. 효율성을 향한 진화: ECA-Net과 FcaNet

SENet과 CBAM이 채널 어텐션의 효과를 입증한 이후, 연구의 흐름은 더 적은 계산 비용으로 더 높은 성능을 달성하는 ’효율성’에 초점을 맞추기 시작했다. 이러한 흐름을 주도한 대표적인 모델이 ECA-Net과 FcaNet이다. 이들은 기존 모델의 구조를 비판적으로 분석하고, 이론적 기반 위에서 새로운 해결책을 제시했다.

4.1 ECA-Net: 차원 축소의 한계 극복

4.1.1 SENet의 Bottleneck 구조에 대한 비판적 고찰

Efficient Channel Attention (ECA-Net)의 저자들은 SENet의 핵심 설계 원리였던 보틀넥 구조의 차원 축소(dimensionality reduction)가 채널 어텐션 학습에 오히려 해가 될 수 있다고 주장했다.13 차원 축소는 모델의 복잡도를 낮추는 데는 기여하지만, 채널과 그에 해당하는 어텐션 가중치 간의 직접적인 대응 관계를 깨뜨려 정보 손실을 유발하고 결과적으로 성능 저하의 원인이 될 수 있다는 것이다.2 또한, 모든 채널 간의 의존성을 포착하려는 시도는 비효율적이고 불필요하다고 보았다.13

4.1.2 지역적 교차 채널 상호작용(Local Cross-Channel Interaction) 개념 도입

이러한 문제의식 하에, ECA-Net은 차원 축소를 완전히 피하면서도 효율성을 극대화하는 새로운 전략을 제안했다. 바로 ’지역적 교차 채널 상호작용’이다. 이 아이디어는 각 채널의 어텐션 가중치를 계산할 때, 모든 다른 채널을 고려하는 대신 자신의 주변에 있는 k개의 이웃 채널들과만 상호작용하도록 제한하는 것이다.14 이 방식은 1차원 컨볼루션(1D Convolution)을 통해 매우 효율적으로 구현될 수 있다.13

4.1.3 D Convolution을 이용한 구현 및 수학적 원리

ECA-Net의 연산 과정은 다음과 같다. 먼저 SENet과 동일하게 Global Average Pooling을 통해 1 \times 1 \times C 크기의 벡터 y를 얻는다. 그 다음, 보틀넥 구조의 FC 계층 대신, 커널 크기가 k인 1D 컨볼루션을 이 벡터에 직접 적용한다. 마지막으로 시그모이드 함수를 통과시켜 최종 채널 가중치 \omega를 계산한다.
\omega = \sigma(\text{C1D}_k(y))
여기서 \text{C1D}_k는 커널 크기가 k인 1D 컨볼루션 연산을 의미한다. 이 방식은 단 k개의 파라미터만으로 채널 어텐션을 구현할 수 있어 극도로 경량화가 가능하다.14

4.1.4 채널 차원에 따른 커널 크기(k)의 적응적 결정 방법론

ECA-Net은 더 나아가 하이퍼파라미터인 커널 크기 k를 수동으로 튜닝해야 하는 번거로움을 없애기 위해, 채널 차원 C에 따라 k를 적응적으로 결정하는 방법을 제안했다. 고차원 채널일수록 더 넓은 범위의 상호작용이 필요하다는 직관에 기반하여, 채널 차원 C와 커널 크기 k 사이에 다음과 같은 비선형적 매핑 관계를 설정했다.14
k = \psi(C) = \left| \frac{\log_2(C)}{\gamma} + \frac{b}{\gamma} \right|_{\text{odd}}
여기서 |t|_{\text{odd}}t에 가장 가까운 홀수를 의미하며, \gammab는 실험을 통해 각각 2와 1로 설정된 매핑 파라미터이다. 이 수식을 통해 네트워크의 채널 차원이 주어지면 최적의 k값이 자동으로 결정되어 모델의 유연성과 편의성을 높였다.14

4.2 FcaNet: 주파수 영역에서의 채널 재해석

4.2.1 GAP에 대한 이론적 분석: 정보 손실 문제

FcaNet은 채널 어텐션의 가장 기본적인 전처리 단계인 Global Average Pooling(GAP) 자체에 근본적인 문제가 있다고 지적하며 등장했다.17 FcaNet의 저자들은 주파수 분석이라는 새로운 관점에서 GAP를 분석했다. 그들은 수학적 증명을 통해, GAP가 2차원 이산 코사인 변환(Discrete Cosine Transform, DCT)의 무수히 많은 주파수 성분 중 가장 낮은 주파수 성분(0번 성분) 하나만을 사용하는 특수한 경우와 동일하다는 것을 밝혔다.19 이는 GAP가 채널의 평균적인 밝기 값과 같은 저주파 정보만 남기고, 텍스처나 엣지와 같은 중요한 고주파수 정보를 모두 버리는 심각한 정보 손실을 야기함을 의미한다.

4.2.2 다중 스펙트럼 채널 어텐션(Multi-spectral Channel Attention) 제안

이러한 분석을 바탕으로 FcaNet은 GAP를 일반화하여 DCT의 여러 주파수 성분을 채널 정보 압축에 활용하는 ’다중 스펙트럼 채널 어텐션’이라는 새로운 프레임워크를 제안했다.19 이 방식은 입력 채널을 여러 그룹으로 분할한 뒤, 각 그룹에 서로 다른 DCT 주파수 성분을 할당하여 정보를 추출한다. 예를 들어, 한 그룹은 저주파 성분(GAP과 유사)을, 다른 그룹들은 다양한 고주파수 성분을 담당하게 하는 식이다. 이렇게 각 그룹에서 추출된 주파수 정보를 모두 연결(concatenate)하여 더욱 풍부하고 다각적인 채널 디스크립터를 생성한다.

전체 다중 스펙트럼 채널 어텐션 프레임워크는 다음과 같이 표현될 수 있다.
\text{ms\_att} = \text{sigmoid}(fc(\text{Freq}))
여기서 \text{Freq}는 여러 DCT 주파수 성분을 적용하고 연결하여 얻은 다중 스펙트럼 벡터이며, fc는 일반적인 FC 계층이다.19 이 접근법은 SENet과 동일한 파라미터 수와 계산 비용을 유지하면서도 훨씬 더 풍부한 채널 정보를 포착할 수 있어, 정보 손실 문제를 효과적으로 완화한다.17

ECA-Net과 FcaNet의 등장은 채널 어텐션 연구의 패러다임이 ’경험적 설계’에서 ’이론적 분석 기반 개선’으로 전환되었음을 보여주는 중요한 이정표이다. SENet과 CBAM이 “이러한 구조를 적용하니 성능이 향상되었다“는 경험적 결과를 중심으로 아키텍처를 제시했다면 4, ECA-Net과 FcaNet은 기존 방식의 근본적인 약점을 이론적으로 파고들었다. ECA-Net은 SENet의 핵심 설계 요소인 ’차원 축소’에 대해 “이것이 정말 최선인가?“라는 근본적인 질문을 던지고, 실험을 통해 그 단점을 입증한 뒤 ’지역적 상호작용’이라는 더 원칙적인 해결책을 제시했다.2 FcaNet은 한 걸음 더 나아가, SENet의 가장 기본적인 연산인 ’GAP’를 주파수 분석이라는 수학적 도구로 해부하여 정보 손실이 이론적으로 필연적임을 보였다.19 이러한 흐름은 연구의 초점이 단순히 새로운 모듈을 발명하는 것에서 기존 모듈의 작동 원리를 깊이 이해하고 근본적으로 개선하는 방향으로 이동하고 있음을 시사한다. 이는 해당 연구 분야가 성숙기에 접어들었음을 의미하며, 향후 채널 어텐션 연구가 더욱 정교하고 이론에 기반한 방향으로 발전할 것임을 예고한다.

5. 주요 채널 어텐션 메커니즘 비교 분석

5.1 주요 모듈의 개념적 비교

지금까지 논의된 네 가지 주요 채널 어텐션 메커니즘(SENet, CBAM, ECA-Net, FcaNet)은 각기 다른 철학과 접근 방식을 통해 채널의 중요도를 재조정한다. 각 모듈은 이전 세대 모듈의 한계를 인식하고 이를 개선하려는 시도 속에서 탄생했다.

  • SENet: 채널 간의 동적인 상호의존성을 모델링한다는 개념을 최초로 제시했다. 전역 평균 풀링(GAP)으로 전역 문맥을 포착하고, 보틀넥 구조의 FC 계층을 통해 채널별 가중치를 학습하는 ‘Squeeze-and-Excitation’ 패러다임을 확립했다.6
  • CBAM: SENet이 채널 차원에만 집중한 것을 넘어, 공간 차원의 중요성을 함께 고려했다. 채널 어텐션 단계에서 GAP와 GMP를 병행 사용하여 정보 표현을 풍부하게 하고, 이를 공간 어텐션 모듈과 순차적으로 결합하여 ’무엇’과 ’어디’에 집중할지를 종합적으로 판단한다.4
  • ECA-Net: SENet의 보틀넥 구조가 야기하는 차원 축소와 정보 손실 문제를 정면으로 비판했다. 이를 해결하기 위해 차원 축소를 배제하고, 1D 컨볼루션을 이용한 ’지역적 교차 채널 상호작용’이라는 매우 효율적인 대안을 제시했다.13
  • FcaNet: 가장 기본적인 GAP 연산 자체의 정보 손실 문제에 주목했다. 주파수 분석(DCT)을 도입하여 GAP가 DCT의 최저주파수 성분만을 사용하는 것임을 증명하고, 다중 스펙트럼 정보를 활용하여 채널 정보를 더욱 풍부하게 압축하는 방법을 제안했다.17

이러한 개념적 차이는 아래 표 1에 요약되어 있다. 이 표는 각 모듈의 핵심 아이디어와 구조적 특징을 한눈에 비교하여 이해를 돕는다.

표 1: 주요 채널 어텐션 모듈 개요

모듈 (Module)핵심 아이디어 (Core Idea)Squeeze 방식 (Squeeze Method)Excitation 방식 (Excitation Method)
SENet전역 정보를 이용한 동적 채널 재조정Global Average Pooling (GAP)Bottleneck FC Layers (with dimensionality reduction)
CBAM채널과 공간 어텐션의 순차적 결합GAP + Global Max Pooling (GMP)Shared MLP (with dimensionality reduction)
ECA-Net차원 축소 없는 지역적 교차 채널 상호작용Global Average Pooling (GAP)1D Convolution (adaptive kernel size)
FcaNet주파수 영역에서의 채널 정보 압축Multi-spectral (DCT)Standard FC Layers (no reduction specified)

5.2 성능 및 효율성 정량 비교

각 어텐션 모듈의 실제 효과를 평가하기 위해, ResNet-50과 같은 표준 백본 네트워크에 적용했을 때의 성능 향상과 그에 따른 비용 증가를 정량적으로 비교하는 것이 중요하다. 주요 벤치마크인 ImageNet 데이터셋에서의 이미지 분류 성능과 COCO 데이터셋에서의 객체 탐지 성능이 주요 지표로 활용된다.6

  • SENet은 ResNet-50 대비 약 10%의 파라미터와 0.26%의 GFLOPs 증가라는 비교적 적은 비용으로 ImageNet Top-1 정확도를 1.51%p 향상시켜, 비용 대비 효율적인 성능 개선을 입증했다.6
  • CBAM은 SENet과 유사한 비용으로 공간 어텐션을 추가하여, SENet보다 소폭 더 높은 성능 향상을 보였다. 이는 채널과 공간을 함께 고려하는 접근법의 유효성을 보여준다.2
  • ECA-Net은 효율성 측면에서 가장 두드러진다. ResNet-50에 추가되는 파라미터는 단 80개, GFLOPs 증가는 4.7e-4G로 거의 무시할 수 있는 수준임에도 불구하고, Top-1 정확도를 2.28%p나 향상시켜 압도적인 효율성을 자랑한다.13
  • FcaNet은 SENet과 동일한 파라미터 및 GFLOPs 조건 하에서, 더 풍부한 정보 압축 방식을 통해 SENet 대비 0.71%p의 추가적인 Top-1 정확도 향상을 달성했다.19

이러한 정량적 비교 결과는 아래 표 2에 정리되어 있다. 이 표는 연구자나 개발자가 특정 응용 분야에 적합한 어텐션 모듈을 선택할 때, 성능과 효율성 간의 트레이드오프를 명확하게 판단하는 데 도움을 줄 수 있다.

표 2: ResNet-50 기반 성능 및 효율성 비교 (ImageNet)

모델 (Model)추가 파라미터 (Params Inc.)추가 GFLOPs (GFLOPs Inc.)Top-1 정확도 (%)Top-1 정확도 향상 (Top-1 Acc. Gain)
ResNet-50 (Baseline)--76.15% (Typical)-
SE-ResNet-50+2.5M (~10%)+0.01G (~0.26%)77.66%+1.51%p
CBAM-ResNet-50+2.5M (~10%)+0.01G (~0.26%)77.84%+1.69%p
ECA-Net50+80 params (~0%)+4.7e-4G (~0%)78.43%+2.28%p
FcaNet-ResNet50동일 (vs. SE)동일 (vs. SE)78.57%+2.42%p (vs. Baseline), +0.71%p (vs. SE)

6. 채널 어텐션의 한계와 미래 전망

채널 어텐션 메커니즘은 CNN의 표현력을 한 단계 끌어올린 중요한 혁신이지만, 동시에 몇 가지 내재적인 한계와 도전 과제를 안고 있다. 이러한 한계를 이해하고 극복하려는 노력은 차세대 어텐션 메커니즘의 발전을 이끌고 있다.

6.1 내재적 한계 및 실패 사례(Failure Cases)

  • 정보 손실 문제: FcaNet이 이론적으로 지적했듯이, GAP나 GMP와 같은 풀링 연산은 2D 특징 맵을 1D 벡터로 압축하는 과정에서 필연적으로 공간 정보의 손실을 유발한다.2 이는 채널의 복잡한 공간적 분포나 미세한 텍스처 정보를 충분히 반영하지 못하는 결과로 이어질 수 있다.
  • 연산 오버헤드: ECA-Net과 같이 극도로 경량화된 모델도 있지만, SENet이나 CBAM과 같이 FC 계층을 사용하는 모델들은 상당한 수의 파라미터를 추가한다. 이는 특히 모바일이나 엣지 디바이스와 같이 자원이 제한된 환경에 모델을 배포할 때 큰 부담으로 작용할 수 있다.16
  • 편향 및 충돌 문제: 채널 어텐션과 공간 어텐션을 독립적으로 계산하고 단순히 결합할 경우, 두 메커니즘이 서로 다른 측면에 집중하여 상충하는 결과를 낳을 수 있다. 예를 들어, 공간적으로는 매우 중요하지만(예: 작은 객체의 일부), 채널 전체의 평균적인 관점에서는 중요도가 낮아 채널 어텐션에 의해 억제되는 경우가 발생할 수 있다. 이는 두 어텐션 간의 시너지 효과를 저해하는 요인이 된다.27
  • 복잡한 장면에 대한 취약성: 어텐션 메커니즘이 의도와 달리 배경의 노이즈나 무관한 정보를 오히려 증폭시키거나, 크기가 작고 형태가 불규칙한 객체를 탐지하는 데 어려움을 겪는 실패 사례들이 보고되고 있다.28

6.2 시각화를 통한 어텐션 해석

이러한 한계에도 불구하고 채널 어텐션의 긍정적인 효과는 시각화 기법을 통해 직관적으로 확인할 수 있다. Grad-CAM(Gradient-weighted Class Activation Mapping)과 같은 도구를 사용하면, 모델이 최종 결정을 내릴 때 이미지의 어느 영역에 집중했는지를 히트맵 형태로 시각화할 수 있다.2 다수의 연구에서 SENet이나 CBAM과 같은 어텐션 모듈을 탑재한 모델이 그렇지 않은 베이스라인 모델보다 실제 객체의 의미 있는 영역에 더 정확하고 집중적으로 활성화되는 경향을 보였다.2 이는 채널 어텐션이 모델의 성능 향상뿐만 아니라, 의사결정 과정을 더 해석 가능하게 만드는 데도 기여할 수 있음을 시사한다.1

6.3 최신 동향: Vision Transformer(ViT) 및 하이브리드 아키텍처로의 확장

채널 어텐션의 기본 원리는 CNN을 넘어 최신 아키텍처인 Vision Transformer(ViT) 및 하이브리드 모델로 확장 및 변형되어 적용되고 있다.

  • ViT에서의 채널 개념: 전통적인 ViT는 이미지를 패치(patch) 시퀀스로 처리하므로 CNN과 같은 명시적인 ‘채널’ 개념은 약하다. 하지만 ViT 블록 내의 MLP(다층 퍼셉트론) 계층이 각 패치 토큰의 특징 벡터 내에서 채널별 변환을 수행하는 ‘채널 믹서(channel mixer)’ 역할을 한다. 최근 연구들은 이 MLP 블록의 효율성과 성능을 높이기 위해 채널 어텐션의 원리를 적용하려는 시도를 하고 있다.31
  • 하이브리드 아키텍처: CNN의 지역적 특징 추출 능력과 Transformer의 전역적 관계 모델링 능력을 결합한 하이브리드 모델이 각광받고 있다. 이러한 모델에서는 CNN 파트에서 추출된 특징 맵에 채널 어텐션을 적용하거나, CNN 특징과 Transformer 특징 간의 상호작용을 조율하는 퓨전 모듈에 채널 어텐션을 활용하는 방식이 활발히 연구되고 있다.32 예를 들어, SCSA(Spatial and Channel Enhanced Self-Attention)는 Transformer의 Multi-Head Self-Attention(전역 정보)과 컨볼루션 기반 어텐션(지역 정보)을 병렬로 처리한 후, 채널 어텐션 기반 퓨전 모듈을 통해 두 정보를 효과적으로 결합하여 시너지를 창출한다.33
  • CoAtNet: 컨볼루션과 셀프 어텐션을 더욱 깊이 있게 통합한 CoAtNet과 같은 모델은, 상대적 위치 어텐션(relative attention)과 같은 진화된 메커니즘을 통해 두 연산의 장점을 모두 취한다.35 이는 채널과 공간 정보를 동시에 고려하는 보다 정교한 어텐션의 형태로 볼 수 있다.

6.4 결론 및 향후 연구 방향

채널 어텐션은 CNN의 표현력을 한 단계 끌어올린 중요한 돌파구였으며, 그 핵심 철학은 오늘날 다양한 최신 아키텍처에 계승되고 발전하고 있다. ’무엇’이 중요한지에 대한 질문에 답하는 이 능력은 앞으로도 인공지능 비전 모델의 핵심 요소로 남을 것이다.

향후 연구는 다음과 같은 방향으로 전개될 것으로 전망된다.

  1. 이론적 기반 강화: 채널 어텐션이 왜, 그리고 어떻게 작동하는지에 대한 더 깊은 수학적, 이론적 분석을 통해 보다 원칙적인 설계 방법론을 확립하는 연구가 필요하다.20
  2. 새로운 정보 압축 방식: GAP와 DCT의 한계를 넘어, 정보 손실을 최소화하면서 채널의 다각적인 통계적 특성(예: 고차 모멘트)을 포착할 수 있는 새로운 정보 압축 방법론에 대한 탐구가 활발해질 것이다.39
  3. 동적 및 적응형 아키텍처: 입력 데이터의 특성이나 특정 과업의 요구에 따라 어텐션 모듈의 구조나 하이퍼파라미터(예: 감소율 r, 커널 크기 k)가 동적으로 변하는 메타-러닝 기반의 적응형 아키텍처 연구가 기대된다.
  4. 차세대 어텐션과의 융합: 셀프 어텐션의 이차적 복잡도 문제를 해결하기 위해 등장한 선형 어텐션, 상태 공간 모델(SSM, Mamba)과 같은 차세대 어텐션 메커니즘에 채널 어텐션의 원리를 효과적으로 결합하는 연구가 새로운 가능성을 열 것이다.40
  5. 다중 모달리티 적용: RGB 이미지를 넘어, 각 채널이 뚜렷하고 독립적인 의미를 갖는 다중 스펙트럼 위성 영상, 의료 영상(MRI, CT), 깊이 정보 등에 채널 어텐션을 효과적으로 적용하고 해석하는 연구의 중요성이 더욱 커질 것이다.42

7. 참고 자료

  1. A Review on the Attention Mechanism of Deep Learning - ResearchGate, https://www.researchgate.net/publication/350565955_A_Review_on_the_Attention_Mechanism_of_Deep_Learning
  2. Spatial Channel Attention for Deep Convolutional Neural Networks - MDPI, https://www.mdpi.com/2227-7390/10/10/1750
  3. 무엇에 주목할 것인가 ? Channel attention, https://zzziito.tistory.com/52
  4. CBAM: Convolutional Block Attention Module - CVF Open Access, https://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Woo_Convolutional_Block_Attention_ECCV_2018_paper.pdf
  5. arXiv:1807.06521v2 [cs.CV] 18 Jul 2018, https://arxiv.org/pdf/1807.06521
  6. Squeeze-and-Excitation Networks - arXiv, https://arxiv.org/pdf/1709.01507
  7. Squeeze-and-Excitation Networks - CVF Open Access, https://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Squeeze-and-Excitation_Networks_CVPR_2018_paper.pdf
  8. [1709.01507] Squeeze-and-Excitation Networks - arXiv, https://arxiv.org/abs/1709.01507
  9. [PDF] CBAM: Convolutional Block Attention Module - Semantic Scholar, https://www.semanticscholar.org/paper/CBAM%3A-Convolutional-Block-Attention-Module-Woo-Park/de95601d9e3b20ec51aa33e1f27b1880d2c44ef2
  10. Conditional Attention Module (CAM) - Emergent Mind, https://www.emergentmind.com/topics/conditional-attention-module-cam
  11. Conditional Computation - Aussie AI, https://www.aussieai.com/research/conditional-computation
  12. [1807.06521] CBAM: Convolutional Block Attention Module - arXiv, https://arxiv.org/abs/1807.06521
  13. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural …, https://arxiv.org/abs/1910.03151
  14. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_ECA-Net_Efficient_Channel_Attention_for_Deep_Convolutional_Neural_Networks_CVPR_2020_paper.pdf
  15. arXiv:1910.03151v4 [cs.CV] 7 Apr 2020, https://arxiv.org/pdf/1910.03151
  16. Efficient Channel Attention | ECANet-sweep – Weights & Biases - Wandb, https://wandb.ai/diganta/ECANet-sweep/reports/Efficient-Channel-Attention–VmlldzozNzgwOTE
  17. FcaNet: Frequency Channel Attention Networks - ResearchGate, https://www.researchgate.net/publication/347624620_FcaNet_Frequency_Channel_Attention_Networks
  18. [2012.11879] FcaNet: Frequency Channel Attention Networks - arXiv, https://arxiv.org/abs/2012.11879
  19. arXiv:2012.11879v4 [cs.CV] 23 Jul 2021, https://arxiv.org/pdf/2012.11879
  20. FcaNet: Frequency Channel Attention Networks - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2021/papers/Qin_FcaNet_Frequency_Channel_Attention_Networks_ICCV_2021_paper.pdf
  21. MCA: Moment Channel Attention Networks - AAAI Publications, https://ojs.aaai.org/index.php/AAAI/article/view/28035/28082
  22. GCA: A Graph-based Channel Attention Module for Convolutional Neural Networks, https://www.researchgate.net/publication/370271292_GCA_A_Graph-based_Channel_Attention_Module_for_Convolutional_Neural_Networks
  23. Enhanced mechanisms of pooling and channel attention for deep learning feature maps - PMC - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC9748832/
  24. Senet: spatial information enhancement for semantic segmentation neural networks, https://search.proquest.com/openview/14e7d8bd87a91ae9d30ffd6f095f1d58/1?pq-origsite=gscholar&cbl=2043737
  25. Senet: spatial information enhancement for semantic segmentation neural networks | Request PDF - ResearchGate, https://www.researchgate.net/publication/373045685_Senet_spatial_information_enhancement_for_semantic_segmentation_neural_networks
  26. CNNtention: Can CNNs do better with Attention? - arXiv, https://arxiv.org/html/2412.11657v1
  27. considering Channel Relation within Spatial Attention for Semantic Segmentation - Association for the Advancement of Artificial Intelligence (AAAI), https://cdn.aaai.org/ojs/19985/19985-13-23998-1-2-20220628.pdf
  28. What are the limitations of attention mechanisms in semantic segmentation of remote sensing images? - Consensus, https://consensus.app/search/what-are-the-limitations-of-attention-mechanisms-i/DIG530pOQPau-pPs-paJjQ/
  29. arXiv:2101.09666v1 [cs.CV] 24 Jan 2021, https://arxiv.org/pdf/2101.09666
  30. Attention Branch Network: Learning of Attention Mechanism for Visual Explanation - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2019/papers/Fukui_Attention_Branch_Network_Learning_of_Attention_Mechanism_for_Visual_Explanation_CVPR_2019_paper.pdf
  31. SCHEME: Scalable Channel Mixer for Vision Transformers - arXiv, https://arxiv.org/pdf/2312.00412
  32. Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images - arXiv, https://arxiv.org/html/2501.03629v1
  33. Lightweight Vision Transformer with Spatial and Channel Enhanced Self-Attention - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2023W/RCV/papers/Zheng_Lightweight_Vision_Transformer_with_Spatial_and_Channel_Enhanced_Self-Attention_ICCVW_2023_paper.pdf
  34. A Hybrid Network of CNN and Transformer for Lightweight Image Super-Resolution - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2022W/NTIRE/papers/Fang_A_Hybrid_Network_of_CNN_and_Transformer_for_Lightweight_Image_CVPRW_2022_paper.pdf
  35. CoAtNet: Marrying Convolution and Attention for All Data Sizes - ResearchGate, https://www.researchgate.net/publication/352280938_CoAtNet_Marrying_Convolution_and_Attention_for_All_Data_Sizes
  36. CoAtNet: Marrying Convolution and Attention for All Data Sizes - arXiv, https://arxiv.org/pdf/2106.04803
  37. [2106.04803] CoAtNet: Marrying Convolution and Attention for All Data Sizes - arXiv, https://arxiv.org/abs/2106.04803
  38. WaveNets: Wavelet Channel Attention Networks - arXiv, https://arxiv.org/html/2211.02695v2
  39. arXiv:2403.01713v1 [cs.CV] 4 Mar 2024, https://arxiv.org/pdf/2403.01713
  40. [2501.05730] Element-wise Attention Is All You Need - arXiv, https://arxiv.org/abs/2501.05730
  41. MambaOut: Do We Really Need Mamba for Vision? - CVPR 2025 Open Access Repository, https://openaccess.thecvf.com/content/CVPR2025/html/Yu_MambaOut_Do_We_Really_Need_Mamba_for_Vision_CVPR_2025_paper.html
  42. Channel Vision Transformers: An Image Is Worth 1×16×16 Words - arXiv, https://arxiv.org/html/2309.16108v4
  43. Channel Attention Networks - CVF Open Access, https://openaccess.thecvf.com/content_CVPRW_2019/papers/PBVS/Bastidas_Channel_Attention_Networks_CVPRW_2019_paper.pdf