아키텍처, 진화, 그리고 미래 전망
컴퓨터 비전의 근간을 이루는 이미지 분할(Image Segmentation)은 이미지를 단순히 인식하는 것을 넘어, 이미지 내 각 픽셀을 의미 있는 단위로 분할하고 분류하는 고차원적인 작업이다. 딥러닝 기술이 부상하기 이전, 이미지 분할은 주로 임계값 기반(thresholding), 영역 성장(region growing), 엣지 검출(edge detection)과 같은 전통적인 알고리즘에 의존했다. 이러한 기법들은 특정 조건 하에서는 유용했지만, 복잡하고 다양한 패턴을 가진 이미지에 적용하기에는 본질적인 한계를 지니고 있었다. 특히, 분석가의 수작업 특징 공학(hand-crafted feature engineering)에 크게 의존하여 일반화 성능이 낮고, 조명이나 노이즈 변화에 매우 취약했다.
이러한 상황 속에서 2015년, Long 등이 발표한 FCN(Fully Convolutional Network)은 이미지 분할 분야에 패러다임의 전환을 가져왔다.1 FCN은 기존의 이미지 분류용 컨볼루션 신경망(CNN)의 마지막 완전 연결 계층(fully connected layer)을 컨볼루션 계층으로 대체함으로써, 이미지의 공간 정보를 유지한 채 픽셀 단위의 조밀한 예측(dense prediction)이 가능한 ‘End-to-End’ 학습 모델을 최초로 제안했다.3 이는 분할 작업을 분류 문제의 확장으로 재정의한 혁신이었으나, 인코더에서 압축된 특징 맵을 업샘플링(upsampling)하는 과정에서 상당한 양의 세부 정보가 손실되어 분할 경계가 흐릿하게 나타나는 명백한 한계를 보였다.2
이러한 기술적 배경 속에서, 생의학 이미지 분할(biomedical image segmentation) 분야는 더욱 특수하고 어려운 도전 과제들을 안고 있었다. 첫째, 의료 영상은 개인정보보호 문제와 전문적인 주석 작업의 어려움으로 인해 ImageNet과 같은 대규모 공개 데이터셋을 확보하기가 매우 어렵다.5 둘째, 종양, 세포, 병변과 같은 분할 대상은 환자마다, 심지어 동일 환자 내에서도 그 형태와 크기가 매우 다양하다.7 셋째, 많은 의료 영상은 주변 조직과의 대비(contrast)가 낮아 경계가 불분명한 경우가 많다.8 마지막으로, 의료 분야에서는 단순한 객체 분류를 넘어, 진단과 치료 계획에 직결되는 픽셀 단위의 극도로 정밀한 지역화(localization)가 요구된다.5 당시 사용되던 슬라이딩 윈도우(sliding-window) 방식은 각 픽셀마다 주변 패치를 독립적으로 분석하여 중복 계산이 많고 속도가 느렸으며, 넓은 컨텍스트(context) 확보와 정밀한 지역화 사이의 고질적인 트레이드오프 문제를 해결하지 못했다.5
2015년, 독일 프라이부르크 대학의 Olaf Ronneberger 연구팀이 MICCAI 학회에서 발표한 U-Net은 바로 이러한 생의학 분야의 복합적인 문제들을 정면으로 돌파하기 위해 탄생한 아키텍처다.10 U-Net의 등장은 기술 발전이 범용 기술(FCN)이 특정 응용 분야의 절실한 ‘필요’와 만나 최적화된 해결책을 모색하는 과정에서 어떻게 폭발적인 혁신을 이룰 수 있는지를 보여주는 대표적인 사례다. FCN이 열어준 픽셀 단위 예측의 가능성 위에서, U-Net은 생의학 도메인의 핵심 제약 조건인 ‘데이터 부족’과 ‘정밀도 요구’를 해결하는 데 집중했다. ‘데이터 부족’ 문제는 실제 조직의 변형을 모사한 탄성 변형(elastic deformation)과 같은 강력한 데이터 증강(data augmentation) 전략으로 극복했다.5 그리고 FCN의 가장 큰 약점이었던 ‘정밀도’ 문제는 U-Net의 상징이 된 U자형 대칭 구조와 ‘스킵 연결(skip connection)’을 통해 해결했다. 이 구조는 다운샘플링 과정에서 손실되기 쉬운 저수준의 공간 정보를 디코더로 직접 전달하여, 넓은 맥락 정보와 정밀한 위치 정보를 동시에 활용할 수 있게 했다.
이러한 최적화된 혁신을 통해 U-Net은 매우 적은 수의 훈련 이미지(예: 단 30장)만으로도 뛰어난 성능을 보였으며, ISBI 2015 세포 분할 챌린지에서 압도적인 격차로 우승하며 그 효과를 입증했다.10 이로써 U-Net은 생의학 이미지 분할의 사실상 표준(de facto standard) 아키텍처로 자리매김했으며, 그 영향력은 의료 분야를 넘어 수많은 컴퓨터 비전 분야로 확장되었다. 본 보고서는 이처럼 이미지 분할의 역사에 한 획을 그은 U-Net 모델의 아키텍처를 심층적으로 분석하고, 그 진화 과정과 주요 변형 모델들을 탐구하며, 다른 분할 모델과의 비교를 통해 그 독창성을 고찰한다. 나아가 다양한 응용 분야와 현재의 한계, 그리고 Transformer와 같은 새로운 기술의 등장 속에서 U-Net이 나아갈 미래 방향을 종합적으로 전망하고자 한다.
U-Net 아키텍처의 핵심은 그 이름에서도 알 수 있듯이 시각적으로 ‘U’자 형태를 띠는 대칭적 구조에 있다.12 이 우아한 구조는 단순히 미학적인 특징을 넘어, 이미지 분할이라는 과업의 본질, 즉 ‘무엇(what)’을 인식하는 의미론적 이해와 ‘어디(where)’에 있는지 파악하는 공간적 정밀도를 동시에 달성하기 위한 철학적 설계를 담고 있다. U-Net은 크게 두 부분, 즉 특징을 추출하고 압축하는 ‘수축 경로(Contracting Path)’와 압축된 특징을 다시 확장하며 정밀한 분할 맵을 생성하는 ‘확장 경로(Expansive Path)’로 구성된 인코더-디코더 프레임워크를 따른다.12
U-Net의 인코더-디코더 구조는 이미지 분할 문제를 두 가지 하위 문제로 나누어 접근하는 전략을 취한다. 인코더는 입력 이미지를 점진적으로 다운샘플링하며 이미지의 전반적인 맥락과 고수준의 의미론적 특징(semantic feature)을 포착하는 역할을 한다. 이는 이미지 안에 ‘무엇’이 있는지, 예를 들어 ‘이것은 종양이다’ 또는 ‘이것은 세포다’와 같은 정보를 이해하는 과정에 해당한다.6 반면, 디코더는 인코더의 마지막 단에서 생성된 압축된 특징 맵을 다시 점진적으로 업샘플링하여 원래 이미지의 해상도로 복원한다. 이 과정에서 디코더는 객체의 정확한 위치와 경계를 재구성하여 픽셀 단위의 정밀한 지역화(localization)를 수행하며, 이는 ‘그것이 어디에 있는지’에 대한 답을 찾는 과정이다.12 U-Net의 대칭적 구조는 이 두 경로가 긴밀하게 협력하여 의미 정보와 공간 정보를 효과적으로 융합하도록 설계되었다.
수축 경로는 일반적인 컨볼루션 신경망(CNN)의 특징 추출부와 유사한 구조를 따른다. 원본 U-Net 논문에 따르면, 각 블록은 패딩을 사용하지 않는(unpadded) 두 개의 연속된 3×3 컨볼루션 연산과 그 뒤를 잇는 ReLU(Rectified Linear Unit) 활성화 함수로 구성된다.5 이 컨볼루션 블록 다음에는 스트라이드(stride) 2를 사용하는 2×2 최대 풀링(max pooling) 연산이 적용되어 다운샘플링이 이루어진다.13
이 과정이 반복될 때마다 특징 맵의 공간적 해상도(가로, 세로 크기)는 절반으로 줄어드는 반면, 특징 맵의 깊이, 즉 채널 수는 두 배로 증가한다 (예: 64 –» 128 –» 256 –» 512).5 이러한 계층적 다운샘플링 구조는 두 가지 중요한 목적을 달성한다. 첫째, 연산량을 줄여 모델을 효율적으로 만든다. 둘째, 더 중요한 것은, 각 단계에서 컨볼루션 필터가 바라보는 영역, 즉 수용장(receptive field)이 점차 넓어지게 된다는 점이다. 이를 통해 네트워크는 초기 레이어에서는 이미지의 국소적인 특징(엣지, 코너, 질감 등)을 학습하고, 깊은 레이어로 갈수록 더 넓은 영역의 정보를 통합하여 이미지의 전반적인 맥락(context)과 추상적이고 의미론적인 고수준 특징을 포착하게 된다.12 U-Net의 가장 깊은 병목(bottleneck) 구간에 도달했을 때, 특징 맵은 가장 작은 공간 해상도와 가장 많은 채널 수를 가지며, 입력 이미지의 핵심적인 의미 정보를 압축적으로 담게 된다.6
확장 경로는 수축 경로와 정확히 대칭적인 구조를 이루며, 압축된 의미 정보를 다시 공간 정보로 변환하는 역할을 한다. 각 디코더 블록은 먼저 2×2 ‘업-컨볼루션(up-convolution)’, 즉 전치 컨볼루션(transposed convolution)을 통해 특징 맵의 해상도를 두 배로 높이고 채널 수를 절반으로 줄이는 것으로 시작한다.5
이후 U-Net 아키텍처의 가장 핵심적인 부분인 스킵 연결(skip connection)이 수행된다. 업샘플링된 특징 맵은 수축 경로의 동일한 레벨에 있던 특징 맵과 채널 축을 따라 결합(concatenation)된다. 이 결합된 특징 맵은 다시 두 개의 연속된 3×3 컨볼루션과 ReLU 활성화 함수를 통과하며 정제된다.5 이 과정이 반복되면서 특징 맵의 해상도는 점차 원래 이미지 크기로 복원되고, 채널 수는 줄어든다. 최종적으로 마지막 레이어에서
1×1 컨볼루션이 적용되어 각 픽셀의 특징 벡터를 원하는 클래스 수(예: 배경과 종양의 2개 클래스)에 해당하는 스코어 맵으로 매핑하고, 이를 통해 최종 분할 마스크가 생성된다.5 이 확장 경로의 설계 덕분에 U-Net은 단순히 이미지를 복원하는 것을 넘어, 스킵 연결을 통해 전달받은 고해상도의 정밀한 위치 정보를 활용하여 객체의 정확한 경계를 재구성하고 매우 세밀한 분할 결과를 만들어낼 수 있다.6
U-Net의 성공을 논할 때 스킵 연결을 빼놓을 수 없다. 이는 U-Net의 성능을 극대화하는 가장 중요한 혁신으로, 정보의 흐름을 근본적으로 바꾸어 놓았다. 스킵 연결의 작동 원리는 수축 경로의 각 레벨에서 생성된 특징 맵을 복사하여, 확장 경로의 대칭적인 레벨에서 업샘플링된 특징 맵과 결합하는 것이다.5 이 ‘결합’은 ResNet에서처럼 덧셈(addition) 방식이 아니라, 채널 축을 따라 두 특징 맵을 그대로 이어 붙이는 결합(concatenation) 방식이다.14 예를 들어, 인코더에서 온 512채널 특징 맵과 디코더에서 업샘플링된 512채널 특징 맵이 결합되면, 다음 컨볼루션 레이어는 1024채널의 풍부한 특징 맵을 입력으로 받게 된다.5
이 메커니즘은 단순한 정보 전달을 넘어 ‘의미론적-공간적 정보의 재결합’이라는 깊은 철학을 담고 있다. 이미지 분할은 본질적으로 (A) 각 픽셀이 어떤 클래스에 속하는가(분류/의미)와 (B) 그 클래스의 경계는 어디인가(지역화/공간)라는 두 가지 과업의 결합이다.5 인코더는 다운샘플링을 거치며 공간 정보를 점차 잃는 대신, (A)에 대한 답, 즉 의미 정보를 강화한다.14 반면, 디코더는 업샘플링을 통해 공간 정보를 복원하려 하지만, 이미 인코더에서 손실된 날카로운 경계와 같은 세부 정보를 스스로 완벽하게 만들어내기는 어렵다.17 바로 이 지점에서 스킵 연결이 결정적인 역할을 한다. 스킵 연결은 인코더의 초기 레이어에 보존되어 있던, 정보 손실이 적은 고해상도의 공간 정보(B에 대한 강력한 단서)를 디코더로 직접 ‘배달’해준다.13 결과적으로 디코더의 컨볼루션 레이어는 업샘플링을 통해 재구성된 고수준의 의미 정보(‘이것은 종양이다’)와 스킵 연결로 전달받은 저수준의 공간 정보(‘종양의 정확한 경계는 여기다’)를 동시에 입력받아, 두 정보를 융합하고 정제하여 최종적으로 두 과업을 모두 만족시키는 정밀한 분할 맵을 생성할 수 있게 된다.12 따라서 U-Net의 스킵 연결은 단순한 기술적 트릭이 아니라, 분할 문제의 이중적 본질을 해결하기 위한 근본적인 아키텍처 설계 철학이라 할 수 있다.
참고로, 원본 논문에서는 패딩 없는(unpadded) 컨볼루션을 사용했기 때문에 매 연산마다 특징 맵의 경계 픽셀이 손실되어 크기가 약간씩 줄어든다. 이로 인해 스킵 연결 시 수축 경로의 특징 맵을 확장 경로의 특징 맵 크기에 맞게 중앙을 잘라내야(crop) 하는 과정이 필요했다.5 하지만 최근의 많은 U-Net 구현에서는 연산 후에도 크기가 유지되는 ‘same’ 패딩을 사용하여 이 잘라내기 과정을 생략하고 설계를 단순화하기도 한다.14
U-Net의 성공은 아키텍처뿐만 아니라, 제한된 데이터를 효과적으로 활용하는 독창적인 훈련 전략에도 기인한다.
U-Net의 혁신성을 제대로 이해하기 위해서는 동시대의 다른 주요 의미론적 분할(semantic segmentation) 아키텍처와의 비교가 필수적이다. 특히, U-Net의 선구자 격인 FCN과, 유사한 인코더-디코더 구조를 가지면서도 다른 철학을 담은 SegNet과의 비교는 U-Net의 설계가 왜 그토록 효과적이었는지를 명확히 보여준다.
FCN은 의미론적 분할의 가능성을 연 선구적인 모델이지만, 업샘플링 과정에서 발생하는 정보 손실로 인해 분할 결과가 다소 거칠고 경계가 흐릿한 단점이 있었다. 이를 보완하기 위해 FCN(특히 FCN-8s)은 스킵 연결 개념을 도입했다. 그러나 FCN의 스킵 연결은 U-Net의 방식과는 근본적인 차이가 있다. FCN은 인코더의 얕은 레이어에서 나온 예측 결과(score map, 즉 클래스별 확률 맵)를 디코더의 깊은 레이어에서 업샘플링된 예측 결과와 ‘덧셈(element-wise addition)’하는 방식을 사용한다.2 이는 여러 스케일의 예측을 융합하여 최종 결과를 정제하는 개념이지만, 예측 스코어라는 정제된 정보만을 전달하므로 원본 특징 맵이 가진 풍부한 세부 정보를 상당 부분 잃어버린 상태다.
반면, U-Net은 예측 결과가 아닌 특징 맵(feature map) 전체를 채널 방향으로 ‘결합(concatenation)’한다.2 이는 인코더의 얕은 레이어가 가진 모든 정보를 거의 손실 없이 디코더로 전달하는 방식이다. 이 덕분에 디코더는 고수준의 의미 정보와 저수준의 풍부한 공간 정보를 모두 활용하여 훨씬 더 정교한 분할 경계를 복원할 수 있다. 결과적으로 U-Net은 FCN에 비해 경계가 더 명확하고, 작거나 복잡한 구조의 객체를 더 잘 분할하는 경향을 보인다.
SegNet은 U-Net과 마찬가지로 대칭적인 인코더-디코더 구조를 가지지만, 디코더의 업샘플링 메커니즘에서 근본적인 차이를 보인다. 이 차이는 ‘정보의 양’과 ‘효율성’ 사이의 철학적 트레이드오프를 명확하게 보여준다.
이러한 디코더 설계 방식의 차이는 두 모델의 지향점이 다름을 시사한다. U-Net은 ‘최대한 많은 정보를 보존하여 디코더가 현명하게 선택하고 학습하게 하자’는 철학을 따른다. 특징 맵 전체를 전달하는 것은 정보 손실을 최소화하여 디코더에게 더 많은 유연성과 재구성 능력을 부여하지만, 그 대가로 메모리와 계산 비용이 증가한다. 반면, SegNet은 ‘가장 중요한 공간적 위치 정보만 전달하여 효율성을 극대화하자’는 철학을 따른다. 풀링 인덱스는 가장 두드러진 특징의 위치라는 핵심 정보만 전달하므로 매우 효율적이지만, 그 외의 미묘한 공간 정보(예: 해당 영역의 평균값, 다른 픽셀들의 값)는 모두 버려진다.
이러한 구조적 차이는 세 모델의 성능과 특성으로 이어진다.
결론적으로, 어떤 아키텍처가 절대적으로 우월하다고 말하기는 어렵다. SegNet은 효율성과 명확한 경계가 중요할 때, U-Net은 최고의 정확도와 복잡한 상황에 대한 강건함이 필요할 때 각각의 강점을 발휘한다. 이들의 비교는 딥러닝 아키텍처 설계에 있어 ‘만병통치약’은 없으며, 해결하려는 문제의 특성과 제약 조건(예: 실시간 처리 요구, 가용 자원)에 따라 최적의 아키텍처를 선택하거나 설계해야 함을 명확히 보여준다.
| 특징 (Feature) | FCN (Fully Convolutional Network) | SegNet | U-Net |
|---|---|---|---|
| 핵심 아이디어 | 완전 연결 계층을 컨볼루션화, End-to-End 분할 | 인코더-디코더, 풀링 인덱스를 이용한 업샘플링 | 인코더-디코더, 스킵 연결을 통한 특징 맵 결합 |
| 디코더 메커니즘 | 학습 가능한 역컨볼루션(Deconvolution) | 학습 불필요한 업샘플링 (풀링 인덱스 사용) | 학습 가능한 업-컨볼루션(Transposed Conv) |
| 스킵 연결 방식 | 얕은 레이어의 예측(score)을 덧셈(Addition) | 풀링 인덱스 전달 (특징 맵 직접 전달 X) | 얕은 레이어의 특징 맵(feature map)을 결합(Concatenation) |
| 메모리 효율성 | 중간 수준 | 높음 (풀링 인덱스만 저장) | 낮음 (특징 맵 전체 복사) |
| 주요 장점 | 의미론적 분할의 개념 정립 | 메모리 효율성, 빠른 추론, 명확한 경계 복원 | 높은 분할 정확도, 데이터 부족에 강함, 강건함 |
| 주요 단점 | 공간 정보 손실 큼, 흐릿한 경계 | U-Net 대비 정보 손실 가능성 | 상대적으로 높은 메모리/계산 요구량 |
| 관련 자료 | 2 | 19 | 2 |
U-Net이 발표된 이후, 그 강력한 성능과 명료한 구조는 수많은 후속 연구에 영감을 주었다. 연구자들은 U-Net의 기본 골격을 유지하면서 특정 문제를 해결하거나 성능을 더욱 끌어올리기 위해 다양한 변형 모델들을 제안했다. U-Net의 진화 과정은 마치 ‘스킵 연결을 어떻게 더 지능적으로 만들 것인가’에 대한 역사와 같다. 이는 스킵 연결이 U-Net 아키텍처의 성능을 좌우하는 가장 핵심적인 요소임을 방증한다. 이 장에서는 U-Net의 주요 변형 모델들을 탐구하며 이러한 진화의 흐름을 살펴본다.
의료 영상의 상당수(예: MRI, CT 스캔)는 단일 2D 슬라이스의 집합이 아닌, 본질적으로 3차원 볼륨(volumetric) 데이터다. 2D U-Net을 사용하여 각 슬라이스를 개별적으로 처리할 경우, 슬라이스 간의 깊이(z-축) 방향 연속성과 공간적 맥락 정보를 놓치게 되어 분할 결과가 슬라이스마다 일관되지 않거나 부정확해질 수 있다.25
이 문제를 해결하기 위해 등장한 3D U-Net은 기존 U-Net의 모든 2D 연산(2D 컨볼루션, 2D 풀링, 2D 업샘플링)을 각각 그에 상응하는 3D 연산(3D 컨볼루션, 3D 풀링, 3D 업샘플링)으로 단순하게 대체한 모델이다.25 이 간단하지만 강력한 확장을 통해 3D U-Net은 3차원 공간의 맥락 정보를 온전히 활용할 수 있게 되었다. 예를 들어, 뇌종양을 분할할 때 인접한 슬라이스들의 정보를 함께 고려하여 종양의 전체적인 3차원 형태를 더 정확하게 파악하고, 더 일관성 있는 분할 결과를 생성할 수 있다.6 3D U-Net은 3차원 의료 영상 분할의 표준으로 자리 잡았으며, 그 원리는 다양한 volumetric 데이터 분석에 널리 적용되고 있다.
기존 U-Net의 스킵 연결은 인코더의 얕은 레이어(저수준 특징)와 디코더의 깊은 레이어(고수준 특징)를 직접 결합한다. 하지만 이 두 특징 맵은 의미론적으로 매우 상이하기 때문에, 이러한 직접적인 결합이 최적화 과정을 어렵게 만들 수 있다는 문제가 제기되었다. 이를 ‘의미론적 간극(semantic gap)’ 문제라고 한다.29
U-Net++는 이 문제를 해결하기 위해 스킵 연결을 재설계했다.31 U-Net++의 핵심 아이디어는 인코더와 디코더를 연결하는 스킵 경로를 중첩되고(nested) 조밀한(dense) 컨볼루션 블록으로 구성하는 것이다. U-Net의 U자 내부에 더 작은 U-Net들이 중첩된 형태를 띠며, 인코더의 특징 맵이 디코더와 바로 결합되는 대신, 이 조밀한 중간 경로들을 거치게 된다. 이 과정에서 저수준의 공간적 특징이 점진적으로 고수준의 의미 정보를 받아들이며 정제되어, 최종적으로 디코더와 결합될 때는 두 특징 맵 간의 의미론적 간극이 크게 줄어든다.29
또한, U-Net++는 이러한 중첩 구조를 활용하여 ‘깊은 감독(deep supervision)’을 도입했다.32 중첩된 각 U-Net의 출력단에서 최종 분할 맵과 유사한 중간 분할 맵을 생성하고, 이 모든 중간 출력에 대해 손실(loss)을 계산하여 학습을 보조한다. 이는 그래디언트 흐름을 원활하게 하고 모델의 학습을 안정화시키는 효과가 있다. 특히, 추론(inference) 시에는 이 모든 중간 출력을 평균내어 더 정확한 결과를 얻거나(정확 모드), 가장 얕은 수준의 출력 하나만을 사용하여 모델의 나머지 부분을 가지치기(pruning)함으로써 추론 속도를 대폭 향상시킬 수 있다(빠른 모드).29
U-Net의 스킵 연결은 인코더 특징 맵의 모든 영역을 동등한 중요도로 디코더에 전달한다. 하지만 실제 분할 대상은 이미지의 일부 영역에만 존재하며, 나머지 배경 영역의 정보는 오히려 노이즈로 작용할 수 있다. Attention U-Net은 이러한 문제에 착안하여, 모델이 스스로 ‘어디에 집중해야 할지’를 학습하도록 하는 메커니즘을 제안했다.33
Attention U-Net은 기존 U-Net의 스킵 연결 경로에 ‘어텐션 게이트(Attention Gates, AGs)’라는 모듈을 추가한다.35 어텐션 게이트는 두 가지 입력을 받는다: (1) 인코더에서 넘어오는 저수준 특징 맵(
xL)과 (2) 디코더의 더 깊은 레이어에서 오는 고수준의 컨텍스트 정보(g, gating signal). 어텐션 게이트는 이 게이팅 신호(g)를 활용하여, 저수준 특징 맵(xL)의 각 픽셀 위치에 대한 ‘중요도(attention coefficient, α)를 계산한다. 이 중요도 값은 0과 1 사이로 정규화되며, 분할 대상과 관련이 높은 영역일수록 1에 가까운 값을, 관련 없는 배경 영역일수록 0에 가까운 값을 갖도록 학습된다. 마지막으로, 계산된 어텐션 맵(α)을 원래의 저수준 특징 맵(xL)에 곱해준다. 이를 통해 관련 있는 영역(예: 종양)의 특징은 강조되고, 관련 없는 배경 영역의 특징은 억제된 새로운 특징 맵이 디코더로 전달된다.33
이러한 동적 제어 방식은 모델이 불필요한 정보에 계산 자원을 낭비하는 것을 막고, 중요한 대상에 집중하여 분할의 민감도(sensitivity)와 정확도를 높이는 효과를 가져온다. 이는 U-Net의 정보 흐름을 한 단계 더 지능화시킨 중요한 발전으로 평가받는다.37
U-Net과 그 변형 모델들이 높은 성능을 달성했지만, 깊은 네트워크 구조와 많은 파라미터 수로 인해 계산 복잡성이 높다는 단점이 있었다. 이는 특히 모바일 기기나 실시간 처리가 요구되는 환경에서 큰 제약이 된다. 이에 U-Net의 성능은 최대한 유지하면서 모델을 경량화하려는 연구들이 활발히 진행되었다.
이 외에도 스킵 연결 자체의 수를 줄여 메모리 사용량을 획기적으로 감소시킨 UNet– 40 등, 효율성을 추구하는 다양한 변형 모델들이 U-Net 생태계를 더욱 풍부하게 만들고 있다.
| 변형 모델 (Variant) | 핵심 아이디어 (Core Idea) | 주요 구조 변경 (Key Structural Change) | 해결하려는 문제 (Target Problem) | 관련 자료 |
|---|---|---|---|---|
| 3D U-Net | 3차원 공간 컨텍스트 활용 | 모든 2D 연산을 3D로 대체 (3D Conv, 3D Pool) | Volumetric 데이터의 슬라이스 간 정보 손실 | 25 |
| U-Net++ | 스킵 경로의 Semantic Gap 완화 | 중첩되고 조밀한 스킵 경로(Nested & Dense Skip Pathways) | 인코더-디코더 특징 간의 의미적 불일치, 정밀도 향상 | 29 |
| Attention U-Net | 관련 영역에 집중 | 스킵 연결에 Attention Gates(AGs) 추가 | 관련 없는 배경 정보 억제, 중요 특징 강조, 모델 민감도 향상 | 33 |
| SD-UNet | 계산 효율성 극대화 | Depthwise Separable Convolution으로 표준 Conv 대체 | 높은 계산 복잡성, 모델 경량화 | 38 |
| AID-U-Net | 유연한 구조와 계산 복잡성 감소 | 주 경로에 하위(sub) 수축/확장 경로 추가 | 복잡한 객체 분할, 계산 복잡성, 모델 유연성 | 39 |
| TransUNet | CNN과 Transformer의 결합 | 인코더를 CNN-ViT 하이브리드 구조로 대체 | CNN의 제한된 전역 컨텍스트(Global Context) 포착 능력 | 41 |
제4장: 응용 분야의 확장: 의료를 넘어 산업으로
U-Net은 생의학 이미지 분할이라는 특정 목적을 위해 탄생했지만, 그 아키텍처가 가진 근본적인 힘, 즉 ‘정밀한 경계 분할’ 능력은 특정 도메인에 국한되지 않는 보편적인 요구사항이었다. 종양의 경계, 건물의 윤곽, 도로의 가장자리는 모두 ‘정확한 모양과 위치’를 알아야 하는 공통된 과제로 귀결된다. U-Net의 스킵 연결 구조는 바로 이 문제를 해결하는 데 특화되어 있었기에, 도메인 지식과 데이터셋만 바꾸면 다른 여러 분야에서도 높은 이식성(portability)을 보이며 성공적으로 확장될 수 있었다.
U-Net의 탄생지이자 가장 활발하게 연구되고 응용되는 분야는 단연 생의학 이미지 분할이다. MRI, CT, X-ray, 초음파, 현미경 등 다양한 의료 영상 양식(modality)에서 U-Net과 그 변형 모델들은 사실상의 표준으로 자리 잡았다.7
U-Net의 픽셀 단위 정밀 분할 능력은 원격 감지(remote sensing) 및 지리 정보 시스템(GIS) 분야에서도 그 가치를 인정받았다.
U-Net의 원리는 의료와 위성 분석을 넘어 다양한 산업 현장으로 확산되고 있다.
이처럼 U-Net은 ‘정밀한 경계 분할’이라는 보편적인 문제 해결 능력을 바탕으로, 탄생 분야인 의료를 넘어 사회 기반 시설 관리, 미래 교통, 스마트 농업, 첨단 제조에 이르기까지 그 영향력을 끊임없이 확장해 나가고 있다.
U-Net은 이미지 분할 분야에서 기념비적인 성공을 거두었지만, 완벽한 아키텍처는 아니다. U-Net 역시 그 기반이 되는 CNN의 내재적 한계를 공유하며, 기술이 발전함에 따라 새로운 경쟁자들이 등장하고 있다. U-Net의 한계를 이해하고 미래 발전 방향을 전망하는 것은 이 분야의 연구를 지속하기 위해 필수적이다. U-Net의 미래는 아마도 완전한 대체가 아닌, 새로운 기술과의 융합을 통한 ‘진화’의 형태가 될 것이다.
U-Net을 포함한 모든 CNN 기반 모델의 가장 근본적인 한계는 컨볼루션 연산의 본질적인 특성, 즉 ‘지역적 수용장(local receptive field)’에서 비롯된다. 컨볼루션 필터는 이미지의 일부 지역에만 적용되어 특징을 추출한다. 네트워크의 레이어가 깊어짐에 따라 수용장이 점차 넓어져 더 넓은 영역의 정보를 볼 수는 있지만, 이미지 내 멀리 떨어진 픽셀들 간의 관계나 이미지 전체를 아우르는 전역적인 맥락(global context)을 명시적으로 모델링하는 데에는 구조적인 한계가 있다.46 예를 들어, 이미지의 왼쪽 끝에 있는 픽셀과 오른쪽 끝에 있는 픽셀의 관계를 파악하기가 어렵다. 이로 인해 매우 크고 복잡한 구조를 가진 객체를 분할하거나, 이미지 전체의 조화와 균형을 이해해야 하는 작업에서 성능 저하가 발생할 수 있다.
이러한 CNN의 한계를 극복할 대안으로 자연어 처리(NLP) 분야에서 혁명을 일으킨 Transformer가 주목받기 시작했다. Transformer의 핵심인 ‘셀프 어텐션(Self-Attention)’ 메커니즘은 입력 시퀀스 내의 모든 요소(이미지에서는 픽셀 또는 패치) 쌍 간의 관계를 직접 계산한다. 이를 통해 거리에 상관없이 모든 요소 간의 의존성을 파악할 수 있어, 전역적인 맥락을 포착하는 데 매우 강력한 능력을 보인다.41
이러한 Transformer의 강점을 이미지 분할에 접목하려는 시도 속에서, U-Net과 Transformer를 결합한 하이브리드 모델들이 등장했다. 그 대표적인 예가 TransUNet이다.41 TransUNet은 기존 U-Net의 인코더 부분을 CNN과 Vision Transformer(ViT)의 하이브리드 구조로 대체한다. 먼저, 초기 레이어에서는 CNN을 사용하여 이미지의 지역적인 특징(텍스처, 엣지 등)을 효율적으로 추출한다. 그 다음, 이 특징 맵을 여러 개의 작은 패치(patch)로 나누어 ViT의 입력으로 사용한다. ViT는 셀프 어텐션을 통해 이 패치들 간의 전역적인 관계를 학습한다. 이렇게 지역적 특징과 전역적 맥락을 모두 학습한 인코더의 출력은 기존 U-Net과 유사한 디코더와 스킵 연결을 통해 융합되어 최종 분할 맵을 생성한다.41
이러한 하이브리드 접근 방식은 U-Net의 미래를 암시한다. CNN은 지역적 특징 추출과 공간적 계층 구조 학습에 대한 강력한 ‘귀납적 편향(inductive bias)’을 가지고 있어 적은 데이터로도 효율적인 학습이 가능하다.6 반면, Transformer는 데이터가 충분할 때 전역적 관계 모델링에서 압도적인 성능을 보인다.6 따라서 U-Net의 검증된 U자형 골격과 스킵 연결 구조는 유지하되, 전역적 맥락 파악이 약한 컨볼루션 블록을 Transformer 블록으로 대체하거나 보강하는 방식은 두 아키텍처의 장점만을 취하는 최적의 전략이 될 수 있다.52 즉, U-Net은 하나의 강력한 ‘플랫폼’으로 남고, Transformer는 그 위에서 작동하는 고성능 ‘엔진’으로 통합되는 방향으로 진화하고 있다.
U-Net의 미래는 아키텍처, 데이터, 응용 분야 전반에 걸쳐 다각적인 발전을 이룰 것으로 전망된다.
2015년 등장한 U-Net은 단순히 하나의 뛰어난 성능을 가진 딥러닝 모델을 넘어, 이미지 분할, 특히 생의학 이미지 분석 분야의 연구와 응용 생태계 전체를 바꾸어 놓은 기념비적인 아키텍처다. U-Net의 유산은 여러 측면에서 평가될 수 있으며, 그 영향력은 Transformer와 같은 새로운 기술의 등장 속에서도 여전히 지속되고 있다.
U-Net의 가장 중요한 유산은 의료 인공지능 연구의 문턱을 극적으로 낮추었다는 점이다. 대규모 데이터셋이 필수적이라는 당시의 통념을 깨고, 매우 적은 양의 데이터와 강력한 데이터 증강만으로도 전문가 수준의 분할이 가능함을 입증함으로써, 데이터 확보가 어려운 수많은 의료 및 생물학 연구자들이 딥러닝 기술을 자신의 분야에 도입할 수 있는 길을 열어주었다.5
둘째, U-Net은 ‘인코더-디코더 + 스킵 연결’이라는 구조를 의미론적 분할의 표준으로 정립했다. 이 우아하고 강력한 구조는 ‘무엇’을 인식하는 의미 정보와 ‘어디’에 있는지 파악하는 공간 정보를 융합하는 문제에 대한 매우 효과적인 해결책임을 보여주었으며, 이후 등장한 수많은 분할 아키텍처의 기본 골격이 되었다.49 U-Net++, Attention U-Net 등 U-Net 자체의 변형 모델들은 물론, 다른 분야의 모델들까지도 U-Net의 설계 철학에 큰 영향을 받았다.
셋째, U-Net은 단일 모델을 넘어 하나의 거대한 ‘생태계’를 창조했다. U-Net을 기반으로 파생된 수많은 변형 모델들, 이를 활용한 다양한 응용 연구, 그리고 공개된 코드와 데이터셋들은 하나의 거대한 연구 커뮤니티를 형성하며 해당 분야의 발전을 가속화하는 원동력이 되었다.8
현재와 미래에도 U-Net의 가치는 여전히 유효하다. U-Net의 기본 원리는 직관적이면서도 강력하며, 수많은 최신 하이브리드 모델들의 근간을 이루고 있다. 특히, CNN이 가진 강력한 공간적 귀납적 편향은 Transformer가 쉽게 대체하기 어려운 장점으로, U-Net의 U자형 구조는 이러한 장점을 극대화한 형태로 남아있다. Transformer와 같은 새로운 기술은 U-Net을 대체하는 것이 아니라, U-Net의 구성 요소를 더욱 강력하게 만드는 ‘업그레이드 모듈’로서 융합되며 그 생명력을 이어나갈 것이다.52
결론적으로, U-Net의 진화는 계속될 것이다. 앞으로의 연구는 단순히 분할 정확도(IoU, Dice score)를 소수점 단위로 높이는 경쟁을 넘어, 모델의 효율성(더 적은 자원으로 더 빠르게), 해석 가능성(의료진이 신뢰하고 이해할 수 있도록), 강건성(다양한 환경과 데이터 변형에 강인하게), 그리고 실제 임상 및 산업 현장에서의 신뢰성을 확보하는 방향으로 나아가야 할 것이다. U-Net은 딥러닝 기술이 어떻게 특정 도메인의 구체적인 문제와 만나 상호작용하며 발전하는지를 보여주는 가장 성공적인 서사 중 하나로, 컴퓨터 비전의 역사에 깊이 기록될 것이다.
| Why U-Net Excels in Biomedical Image Segmentation | Excelra, accessed July 19, 2025, https://www.excelra.com/blogs/u-net-biomedical-image-segmentation/ |
| The U-Net : A Complete Guide | Medium, accessed July 19, 2025, https://medium.com/@alejandro.itoaramendia/decoding-the-u-net-a-complete-guide-810b1c6d56d8 |
| Understanding U-Net | Towards Data Science, accessed July 19, 2025, https://towardsdatascience.com/understanding-u-net-61276b10f360 |
| Understanding U-Net | Towards Data Science, accessed July 19, 2025, https://towardsdatascience.com/understanding-u-net-61276b10f360/ |
| Attention U-Net: Learning Where to Look for the Pancreas | Bernhard Kainz, accessed July 19, 2025, https://wp.doc.ic.ac.uk/bkainz/publication/attention-u-net-learning-where-to-look-for-the-pancreas/ |
| Attention‐guided duplex adversarial U‐net for pancreatic segmentation from computed tomography images - National Institutes of Health (NIH) | , accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8992955/ |
| Computational complexity comparison of the proposed model with Unet… | Download Scientific Diagram - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/figure/Computational-complexity-comparison-of-the-proposed-model-with-Unet-based-models_tbl7_368736510 |