Booil Jung

U-Net 모델

아키텍처, 진화, 그리고 미래 전망

컴퓨터 비전의 근간을 이루는 이미지 분할(Image Segmentation)은 이미지를 단순히 인식하는 것을 넘어, 이미지 내 각 픽셀을 의미 있는 단위로 분할하고 분류하는 고차원적인 작업이다. 딥러닝 기술이 부상하기 이전, 이미지 분할은 주로 임계값 기반(thresholding), 영역 성장(region growing), 엣지 검출(edge detection)과 같은 전통적인 알고리즘에 의존했다. 이러한 기법들은 특정 조건 하에서는 유용했지만, 복잡하고 다양한 패턴을 가진 이미지에 적용하기에는 본질적인 한계를 지니고 있었다. 특히, 분석가의 수작업 특징 공학(hand-crafted feature engineering)에 크게 의존하여 일반화 성능이 낮고, 조명이나 노이즈 변화에 매우 취약했다.

이러한 상황 속에서 2015년, Long 등이 발표한 FCN(Fully Convolutional Network)은 이미지 분할 분야에 패러다임의 전환을 가져왔다.1 FCN은 기존의 이미지 분류용 컨볼루션 신경망(CNN)의 마지막 완전 연결 계층(fully connected layer)을 컨볼루션 계층으로 대체함으로써, 이미지의 공간 정보를 유지한 채 픽셀 단위의 조밀한 예측(dense prediction)이 가능한 ‘End-to-End’ 학습 모델을 최초로 제안했다.3 이는 분할 작업을 분류 문제의 확장으로 재정의한 혁신이었으나, 인코더에서 압축된 특징 맵을 업샘플링(upsampling)하는 과정에서 상당한 양의 세부 정보가 손실되어 분할 경계가 흐릿하게 나타나는 명백한 한계를 보였다.2

이러한 기술적 배경 속에서, 생의학 이미지 분할(biomedical image segmentation) 분야는 더욱 특수하고 어려운 도전 과제들을 안고 있었다. 첫째, 의료 영상은 개인정보보호 문제와 전문적인 주석 작업의 어려움으로 인해 ImageNet과 같은 대규모 공개 데이터셋을 확보하기가 매우 어렵다.5 둘째, 종양, 세포, 병변과 같은 분할 대상은 환자마다, 심지어 동일 환자 내에서도 그 형태와 크기가 매우 다양하다.7 셋째, 많은 의료 영상은 주변 조직과의 대비(contrast)가 낮아 경계가 불분명한 경우가 많다.8 마지막으로, 의료 분야에서는 단순한 객체 분류를 넘어, 진단과 치료 계획에 직결되는 픽셀 단위의 극도로 정밀한 지역화(localization)가 요구된다.5 당시 사용되던 슬라이딩 윈도우(sliding-window) 방식은 각 픽셀마다 주변 패치를 독립적으로 분석하여 중복 계산이 많고 속도가 느렸으며, 넓은 컨텍스트(context) 확보와 정밀한 지역화 사이의 고질적인 트레이드오프 문제를 해결하지 못했다.5

2015년, 독일 프라이부르크 대학의 Olaf Ronneberger 연구팀이 MICCAI 학회에서 발표한 U-Net은 바로 이러한 생의학 분야의 복합적인 문제들을 정면으로 돌파하기 위해 탄생한 아키텍처다.10 U-Net의 등장은 기술 발전이 범용 기술(FCN)이 특정 응용 분야의 절실한 ‘필요’와 만나 최적화된 해결책을 모색하는 과정에서 어떻게 폭발적인 혁신을 이룰 수 있는지를 보여주는 대표적인 사례다. FCN이 열어준 픽셀 단위 예측의 가능성 위에서, U-Net은 생의학 도메인의 핵심 제약 조건인 ‘데이터 부족’과 ‘정밀도 요구’를 해결하는 데 집중했다. ‘데이터 부족’ 문제는 실제 조직의 변형을 모사한 탄성 변형(elastic deformation)과 같은 강력한 데이터 증강(data augmentation) 전략으로 극복했다.5 그리고 FCN의 가장 큰 약점이었던 ‘정밀도’ 문제는 U-Net의 상징이 된 U자형 대칭 구조와 ‘스킵 연결(skip connection)’을 통해 해결했다. 이 구조는 다운샘플링 과정에서 손실되기 쉬운 저수준의 공간 정보를 디코더로 직접 전달하여, 넓은 맥락 정보와 정밀한 위치 정보를 동시에 활용할 수 있게 했다.

이러한 최적화된 혁신을 통해 U-Net은 매우 적은 수의 훈련 이미지(예: 단 30장)만으로도 뛰어난 성능을 보였으며, ISBI 2015 세포 분할 챌린지에서 압도적인 격차로 우승하며 그 효과를 입증했다.10 이로써 U-Net은 생의학 이미지 분할의 사실상 표준(de facto standard) 아키텍처로 자리매김했으며, 그 영향력은 의료 분야를 넘어 수많은 컴퓨터 비전 분야로 확장되었다. 본 보고서는 이처럼 이미지 분할의 역사에 한 획을 그은 U-Net 모델의 아키텍처를 심층적으로 분석하고, 그 진화 과정과 주요 변형 모델들을 탐구하며, 다른 분할 모델과의 비교를 통해 그 독창성을 고찰한다. 나아가 다양한 응용 분야와 현재의 한계, 그리고 Transformer와 같은 새로운 기술의 등장 속에서 U-Net이 나아갈 미래 방향을 종합적으로 전망하고자 한다.

U-Net 아키텍처의 핵심은 그 이름에서도 알 수 있듯이 시각적으로 ‘U’자 형태를 띠는 대칭적 구조에 있다.12 이 우아한 구조는 단순히 미학적인 특징을 넘어, 이미지 분할이라는 과업의 본질, 즉 ‘무엇(what)’을 인식하는 의미론적 이해와 ‘어디(where)’에 있는지 파악하는 공간적 정밀도를 동시에 달성하기 위한 철학적 설계를 담고 있다. U-Net은 크게 두 부분, 즉 특징을 추출하고 압축하는 ‘수축 경로(Contracting Path)’와 압축된 특징을 다시 확장하며 정밀한 분할 맵을 생성하는 ‘확장 경로(Expansive Path)’로 구성된 인코더-디코더 프레임워크를 따른다.12

U-Net의 인코더-디코더 구조는 이미지 분할 문제를 두 가지 하위 문제로 나누어 접근하는 전략을 취한다. 인코더는 입력 이미지를 점진적으로 다운샘플링하며 이미지의 전반적인 맥락과 고수준의 의미론적 특징(semantic feature)을 포착하는 역할을 한다. 이는 이미지 안에 ‘무엇’이 있는지, 예를 들어 ‘이것은 종양이다’ 또는 ‘이것은 세포다’와 같은 정보를 이해하는 과정에 해당한다.6 반면, 디코더는 인코더의 마지막 단에서 생성된 압축된 특징 맵을 다시 점진적으로 업샘플링하여 원래 이미지의 해상도로 복원한다. 이 과정에서 디코더는 객체의 정확한 위치와 경계를 재구성하여 픽셀 단위의 정밀한 지역화(localization)를 수행하며, 이는 ‘그것이 어디에 있는지’에 대한 답을 찾는 과정이다.12 U-Net의 대칭적 구조는 이 두 경로가 긴밀하게 협력하여 의미 정보와 공간 정보를 효과적으로 융합하도록 설계되었다.

수축 경로는 일반적인 컨볼루션 신경망(CNN)의 특징 추출부와 유사한 구조를 따른다. 원본 U-Net 논문에 따르면, 각 블록은 패딩을 사용하지 않는(unpadded) 두 개의 연속된 3×3 컨볼루션 연산과 그 뒤를 잇는 ReLU(Rectified Linear Unit) 활성화 함수로 구성된다.5 이 컨볼루션 블록 다음에는 스트라이드(stride) 2를 사용하는 2×2 최대 풀링(max pooling) 연산이 적용되어 다운샘플링이 이루어진다.13

이 과정이 반복될 때마다 특징 맵의 공간적 해상도(가로, 세로 크기)는 절반으로 줄어드는 반면, 특징 맵의 깊이, 즉 채널 수는 두 배로 증가한다 (예: 64 –» 128 –» 256 –» 512).5 이러한 계층적 다운샘플링 구조는 두 가지 중요한 목적을 달성한다. 첫째, 연산량을 줄여 모델을 효율적으로 만든다. 둘째, 더 중요한 것은, 각 단계에서 컨볼루션 필터가 바라보는 영역, 즉 수용장(receptive field)이 점차 넓어지게 된다는 점이다. 이를 통해 네트워크는 초기 레이어에서는 이미지의 국소적인 특징(엣지, 코너, 질감 등)을 학습하고, 깊은 레이어로 갈수록 더 넓은 영역의 정보를 통합하여 이미지의 전반적인 맥락(context)과 추상적이고 의미론적인 고수준 특징을 포착하게 된다.12 U-Net의 가장 깊은 병목(bottleneck) 구간에 도달했을 때, 특징 맵은 가장 작은 공간 해상도와 가장 많은 채널 수를 가지며, 입력 이미지의 핵심적인 의미 정보를 압축적으로 담게 된다.6

확장 경로는 수축 경로와 정확히 대칭적인 구조를 이루며, 압축된 의미 정보를 다시 공간 정보로 변환하는 역할을 한다. 각 디코더 블록은 먼저 2×2 ‘업-컨볼루션(up-convolution)’, 즉 전치 컨볼루션(transposed convolution)을 통해 특징 맵의 해상도를 두 배로 높이고 채널 수를 절반으로 줄이는 것으로 시작한다.5

이후 U-Net 아키텍처의 가장 핵심적인 부분인 스킵 연결(skip connection)이 수행된다. 업샘플링된 특징 맵은 수축 경로의 동일한 레벨에 있던 특징 맵과 채널 축을 따라 결합(concatenation)된다. 이 결합된 특징 맵은 다시 두 개의 연속된 3×3 컨볼루션과 ReLU 활성화 함수를 통과하며 정제된다.5 이 과정이 반복되면서 특징 맵의 해상도는 점차 원래 이미지 크기로 복원되고, 채널 수는 줄어든다. 최종적으로 마지막 레이어에서

1×1 컨볼루션이 적용되어 각 픽셀의 특징 벡터를 원하는 클래스 수(예: 배경과 종양의 2개 클래스)에 해당하는 스코어 맵으로 매핑하고, 이를 통해 최종 분할 마스크가 생성된다.5 이 확장 경로의 설계 덕분에 U-Net은 단순히 이미지를 복원하는 것을 넘어, 스킵 연결을 통해 전달받은 고해상도의 정밀한 위치 정보를 활용하여 객체의 정확한 경계를 재구성하고 매우 세밀한 분할 결과를 만들어낼 수 있다.6

U-Net의 성공을 논할 때 스킵 연결을 빼놓을 수 없다. 이는 U-Net의 성능을 극대화하는 가장 중요한 혁신으로, 정보의 흐름을 근본적으로 바꾸어 놓았다. 스킵 연결의 작동 원리는 수축 경로의 각 레벨에서 생성된 특징 맵을 복사하여, 확장 경로의 대칭적인 레벨에서 업샘플링된 특징 맵과 결합하는 것이다.5 이 ‘결합’은 ResNet에서처럼 덧셈(addition) 방식이 아니라, 채널 축을 따라 두 특징 맵을 그대로 이어 붙이는 결합(concatenation) 방식이다.14 예를 들어, 인코더에서 온 512채널 특징 맵과 디코더에서 업샘플링된 512채널 특징 맵이 결합되면, 다음 컨볼루션 레이어는 1024채널의 풍부한 특징 맵을 입력으로 받게 된다.5

이 메커니즘은 단순한 정보 전달을 넘어 ‘의미론적-공간적 정보의 재결합’이라는 깊은 철학을 담고 있다. 이미지 분할은 본질적으로 (A) 각 픽셀이 어떤 클래스에 속하는가(분류/의미)와 (B) 그 클래스의 경계는 어디인가(지역화/공간)라는 두 가지 과업의 결합이다.5 인코더는 다운샘플링을 거치며 공간 정보를 점차 잃는 대신, (A)에 대한 답, 즉 의미 정보를 강화한다.14 반면, 디코더는 업샘플링을 통해 공간 정보를 복원하려 하지만, 이미 인코더에서 손실된 날카로운 경계와 같은 세부 정보를 스스로 완벽하게 만들어내기는 어렵다.17 바로 이 지점에서 스킵 연결이 결정적인 역할을 한다. 스킵 연결은 인코더의 초기 레이어에 보존되어 있던, 정보 손실이 적은 고해상도의 공간 정보(B에 대한 강력한 단서)를 디코더로 직접 ‘배달’해준다.13 결과적으로 디코더의 컨볼루션 레이어는 업샘플링을 통해 재구성된 고수준의 의미 정보(‘이것은 종양이다’)와 스킵 연결로 전달받은 저수준의 공간 정보(‘종양의 정확한 경계는 여기다’)를 동시에 입력받아, 두 정보를 융합하고 정제하여 최종적으로 두 과업을 모두 만족시키는 정밀한 분할 맵을 생성할 수 있게 된다.12 따라서 U-Net의 스킵 연결은 단순한 기술적 트릭이 아니라, 분할 문제의 이중적 본질을 해결하기 위한 근본적인 아키텍처 설계 철학이라 할 수 있다.

참고로, 원본 논문에서는 패딩 없는(unpadded) 컨볼루션을 사용했기 때문에 매 연산마다 특징 맵의 경계 픽셀이 손실되어 크기가 약간씩 줄어든다. 이로 인해 스킵 연결 시 수축 경로의 특징 맵을 확장 경로의 특징 맵 크기에 맞게 중앙을 잘라내야(crop) 하는 과정이 필요했다.5 하지만 최근의 많은 U-Net 구현에서는 연산 후에도 크기가 유지되는 ‘same’ 패딩을 사용하여 이 잘라내기 과정을 생략하고 설계를 단순화하기도 한다.14

U-Net의 성공은 아키텍처뿐만 아니라, 제한된 데이터를 효과적으로 활용하는 독창적인 훈련 전략에도 기인한다.

탄성 변형 (Elastic Deformations): 생의학 분야의 고질적인 데이터 부족 문제를 해결하기 위해, U-Net 논문은 매우 강력한 데이터 증강 기법을 제안했다. 특히, 실제 조직의 비강체 변형(non-rigid deformation)과 유사한 ‘무작위 탄성 변형’을 훈련 이미지에 실시간으로 적용하는 것이 핵심이었다.5 이 기법은 이동, 회전, 스케일링과 같은 일반적인 증강을 넘어, 이미지를 국소적으로 부드럽게 왜곡시킨다. 이를 통해 네트워크는 주석이 달린 소수의 이미지로부터 변형에 대한 불변성(invariance)과 강건성(robustness)을 학습하게 되며, 이는 모델의 일반화 성능을 획기적으로 향상시키는 비결이 되었다.5
가중 손실 함수 (Weighted Loss): U-Net은 분할의 난이도가 픽셀마다 다르다는 점에 주목했다. 예를 들어, 서로 맞닿아 있는 세포들을 분리하는 것은 매우 어려운 과제다. 이를 해결하기 위해 픽셀별로 다른 가중치를 적용하는 손실 함수를 사용했다. 구체적으로, 맞닿은 세포들 사이의 경계에 해당하는 배경 픽셀에 훨씬 높은 가중치를 부여함으로써, 모델이 이 중요한 경계를 학습하는 데 더 집중하도록 유도했다.5 이는 모델이 객체의 내부를 채우는 것뿐만 아니라 객체 간의 미세한 경계를 명확하게 구분하도록 만드는 효과적인 전략이다.
기타 훈련 기법: 원본 논문에서는 당시 GPU 메모리의 한계를 고려하여, 배치 크기(batch size)를 1로 최소화하는 대신 입력 타일(tile)의 크기를 키워 학습의 안정성을 확보했다. 또한, 이전 스텝의 그래디언트 정보를 더 많이 반영하기 위해 매우 높은 모멘텀 값(0.99)을 사용하는 확률적 경사 하강법(SGD)을 최적화기로 채택했다. 이는 작은 배치 크기로 인한 학습의 불안정성을 완화하고, 이전 샘플들의 정보를 누적하여 더 안정적인 업데이트를 가능하게 했다.5

U-Net의 혁신성을 제대로 이해하기 위해서는 동시대의 다른 주요 의미론적 분할(semantic segmentation) 아키텍처와의 비교가 필수적이다. 특히, U-Net의 선구자 격인 FCN과, 유사한 인코더-디코더 구조를 가지면서도 다른 철학을 담은 SegNet과의 비교는 U-Net의 설계가 왜 그토록 효과적이었는지를 명확히 보여준다.

FCN은 의미론적 분할의 가능성을 연 선구적인 모델이지만, 업샘플링 과정에서 발생하는 정보 손실로 인해 분할 결과가 다소 거칠고 경계가 흐릿한 단점이 있었다. 이를 보완하기 위해 FCN(특히 FCN-8s)은 스킵 연결 개념을 도입했다. 그러나 FCN의 스킵 연결은 U-Net의 방식과는 근본적인 차이가 있다. FCN은 인코더의 얕은 레이어에서 나온 예측 결과(score map, 즉 클래스별 확률 맵)를 디코더의 깊은 레이어에서 업샘플링된 예측 결과와 ‘덧셈(element-wise addition)’하는 방식을 사용한다.2 이는 여러 스케일의 예측을 융합하여 최종 결과를 정제하는 개념이지만, 예측 스코어라는 정제된 정보만을 전달하므로 원본 특징 맵이 가진 풍부한 세부 정보를 상당 부분 잃어버린 상태다.

반면, U-Net은 예측 결과가 아닌 특징 맵(feature map) 전체를 채널 방향으로 ‘결합(concatenation)’한다.2 이는 인코더의 얕은 레이어가 가진 모든 정보를 거의 손실 없이 디코더로 전달하는 방식이다. 이 덕분에 디코더는 고수준의 의미 정보와 저수준의 풍부한 공간 정보를 모두 활용하여 훨씬 더 정교한 분할 경계를 복원할 수 있다. 결과적으로 U-Net은 FCN에 비해 경계가 더 명확하고, 작거나 복잡한 구조의 객체를 더 잘 분할하는 경향을 보인다.

SegNet은 U-Net과 마찬가지로 대칭적인 인코더-디코더 구조를 가지지만, 디코더의 업샘플링 메커니즘에서 근본적인 차이를 보인다. 이 차이는 ‘정보의 양’과 ‘효율성’ 사이의 철학적 트레이드오프를 명확하게 보여준다.

SegNet의 풀링 인덱스 기반 업샘플링: SegNet의 가장 독창적인 특징은 디코더가 업샘플링을 수행할 때, 인코더의 최대 풀링(max-pooling) 과정에서 저장해 둔 ‘풀링 인덱스(pooling indices)’를 재사용한다는 점이다.20 최대 풀링은 보통 2×2 영역에서 가장 큰 값 하나를 선택하는 연산인데, SegNet은 이때 선택된 값의 위치(인덱스)를 기억해둔다. 그리고 디코더에서 업샘플링할 때, 이 기억해둔 위치에만 값을 복원하고 나머지 위치는 0으로 채운다.4 이렇게 생성된 희소한(sparse) 특징 맵을 후속 컨볼루션 레이어를 통해 조밀하게(dense) 만든다. 이 방식은 업샘플링 과정 자체에 학습 가능한 파라미터가 필요 없고, 인코더의 특징 맵 전체를 저장할 필요 없이 2비트짜리 인덱스 정보만 저장하면 되므로 메모리 효율성이 극도로 높다.20
U-Net의 학습 기반 업샘플링: U-Net은 학습 가능한 파라미터를 가진 업-컨볼루션(transposed convolution)을 사용하여 업샘플링을 수행한다. 또한, 인코더의 특징 맵 전체를 복사하여 디코더의 업샘플링된 특징 맵과 결합한다.19 이는 SegNet보다 훨씬 더 많은 파라미터와 메모리를 요구하는 방식이다.

이러한 디코더 설계 방식의 차이는 두 모델의 지향점이 다름을 시사한다. U-Net은 ‘최대한 많은 정보를 보존하여 디코더가 현명하게 선택하고 학습하게 하자’는 철학을 따른다. 특징 맵 전체를 전달하는 것은 정보 손실을 최소화하여 디코더에게 더 많은 유연성과 재구성 능력을 부여하지만, 그 대가로 메모리와 계산 비용이 증가한다. 반면, SegNet은 ‘가장 중요한 공간적 위치 정보만 전달하여 효율성을 극대화하자’는 철학을 따른다. 풀링 인덱스는 가장 두드러진 특징의 위치라는 핵심 정보만 전달하므로 매우 효율적이지만, 그 외의 미묘한 공간 정보(예: 해당 영역의 평균값, 다른 픽셀들의 값)는 모두 버려진다.

이러한 구조적 차이는 세 모델의 성능과 특성으로 이어진다.

FCN: 아키텍처가 비교적 단순하지만, 공간 정보 손실이 커서 분할 정확도가 상대적으로 낮고, 특히 복잡한 배경이나 세밀한 구조가 많은 환경(예: 원격 감지 이미지의 시골 풍경)에서 성능이 저하되는 경향이 있다.19
SegNet: 풀링 인덱스 방식 덕분에 메모리 효율성이 매우 뛰어나고 추론 시간이 빠르다. 이는 실시간 처리가 중요한 자율 주행이나 모바일 기기에서의 응용에 큰 장점이다.20 또한, 경계 위치 정보를 명시적으로 사용하므로 경계 복원(boundary delineation)에 강점을 보인다.19
U-Net: FCN이나 SegNet에 비해 더 많은 파라미터와 메모리를 사용하지만 3, 스킵 연결을 통해 전달되는 풍부한 특징 정보 덕분에 일반적으로 가장 높은 분할 정확도를 보인다. 특히 복잡한 텍스처나 다양한 형태를 가진 객체가 있는 어려운 분할 문제에서 강건한 적응성을 보여준다.19

결론적으로, 어떤 아키텍처가 절대적으로 우월하다고 말하기는 어렵다. SegNet은 효율성과 명확한 경계가 중요할 때, U-Net은 최고의 정확도와 복잡한 상황에 대한 강건함이 필요할 때 각각의 강점을 발휘한다. 이들의 비교는 딥러닝 아키텍처 설계에 있어 ‘만병통치약’은 없으며, 해결하려는 문제의 특성과 제약 조건(예: 실시간 처리 요구, 가용 자원)에 따라 최적의 아키텍처를 선택하거나 설계해야 함을 명확히 보여준다.

특징 (Feature)	FCN (Fully Convolutional Network)	SegNet	U-Net
핵심 아이디어	완전 연결 계층을 컨볼루션화, End-to-End 분할	인코더-디코더, 풀링 인덱스를 이용한 업샘플링	인코더-디코더, 스킵 연결을 통한 특징 맵 결합
디코더 메커니즘	학습 가능한 역컨볼루션(Deconvolution)	학습 불필요한 업샘플링 (풀링 인덱스 사용)	학습 가능한 업-컨볼루션(Transposed Conv)
스킵 연결 방식	얕은 레이어의 예측(score)을 덧셈(Addition)	풀링 인덱스 전달 (특징 맵 직접 전달 X)	얕은 레이어의 특징 맵(feature map)을 결합(Concatenation)
메모리 효율성	중간 수준	높음 (풀링 인덱스만 저장)	낮음 (특징 맵 전체 복사)
주요 장점	의미론적 분할의 개념 정립	메모리 효율성, 빠른 추론, 명확한 경계 복원	높은 분할 정확도, 데이터 부족에 강함, 강건함
주요 단점	공간 정보 손실 큼, 흐릿한 경계	U-Net 대비 정보 손실 가능성	상대적으로 높은 메모리/계산 요구량
관련 자료	2	19	2

U-Net이 발표된 이후, 그 강력한 성능과 명료한 구조는 수많은 후속 연구에 영감을 주었다. 연구자들은 U-Net의 기본 골격을 유지하면서 특정 문제를 해결하거나 성능을 더욱 끌어올리기 위해 다양한 변형 모델들을 제안했다. U-Net의 진화 과정은 마치 ‘스킵 연결을 어떻게 더 지능적으로 만들 것인가’에 대한 역사와 같다. 이는 스킵 연결이 U-Net 아키텍처의 성능을 좌우하는 가장 핵심적인 요소임을 방증한다. 이 장에서는 U-Net의 주요 변형 모델들을 탐구하며 이러한 진화의 흐름을 살펴본다.

의료 영상의 상당수(예: MRI, CT 스캔)는 단일 2D 슬라이스의 집합이 아닌, 본질적으로 3차원 볼륨(volumetric) 데이터다. 2D U-Net을 사용하여 각 슬라이스를 개별적으로 처리할 경우, 슬라이스 간의 깊이(z-축) 방향 연속성과 공간적 맥락 정보를 놓치게 되어 분할 결과가 슬라이스마다 일관되지 않거나 부정확해질 수 있다.25

이 문제를 해결하기 위해 등장한 3D U-Net은 기존 U-Net의 모든 2D 연산(2D 컨볼루션, 2D 풀링, 2D 업샘플링)을 각각 그에 상응하는 3D 연산(3D 컨볼루션, 3D 풀링, 3D 업샘플링)으로 단순하게 대체한 모델이다.25 이 간단하지만 강력한 확장을 통해 3D U-Net은 3차원 공간의 맥락 정보를 온전히 활용할 수 있게 되었다. 예를 들어, 뇌종양을 분할할 때 인접한 슬라이스들의 정보를 함께 고려하여 종양의 전체적인 3차원 형태를 더 정확하게 파악하고, 더 일관성 있는 분할 결과를 생성할 수 있다.6 3D U-Net은 3차원 의료 영상 분할의 표준으로 자리 잡았으며, 그 원리는 다양한 volumetric 데이터 분석에 널리 적용되고 있다.

기존 U-Net의 스킵 연결은 인코더의 얕은 레이어(저수준 특징)와 디코더의 깊은 레이어(고수준 특징)를 직접 결합한다. 하지만 이 두 특징 맵은 의미론적으로 매우 상이하기 때문에, 이러한 직접적인 결합이 최적화 과정을 어렵게 만들 수 있다는 문제가 제기되었다. 이를 ‘의미론적 간극(semantic gap)’ 문제라고 한다.29

U-Net++는 이 문제를 해결하기 위해 스킵 연결을 재설계했다.31 U-Net++의 핵심 아이디어는 인코더와 디코더를 연결하는 스킵 경로를 중첩되고(nested) 조밀한(dense) 컨볼루션 블록으로 구성하는 것이다. U-Net의 U자 내부에 더 작은 U-Net들이 중첩된 형태를 띠며, 인코더의 특징 맵이 디코더와 바로 결합되는 대신, 이 조밀한 중간 경로들을 거치게 된다. 이 과정에서 저수준의 공간적 특징이 점진적으로 고수준의 의미 정보를 받아들이며 정제되어, 최종적으로 디코더와 결합될 때는 두 특징 맵 간의 의미론적 간극이 크게 줄어든다.29

또한, U-Net++는 이러한 중첩 구조를 활용하여 ‘깊은 감독(deep supervision)’을 도입했다.32 중첩된 각 U-Net의 출력단에서 최종 분할 맵과 유사한 중간 분할 맵을 생성하고, 이 모든 중간 출력에 대해 손실(loss)을 계산하여 학습을 보조한다. 이는 그래디언트 흐름을 원활하게 하고 모델의 학습을 안정화시키는 효과가 있다. 특히, 추론(inference) 시에는 이 모든 중간 출력을 평균내어 더 정확한 결과를 얻거나(정확 모드), 가장 얕은 수준의 출력 하나만을 사용하여 모델의 나머지 부분을 가지치기(pruning)함으로써 추론 속도를 대폭 향상시킬 수 있다(빠른 모드).29

U-Net의 스킵 연결은 인코더 특징 맵의 모든 영역을 동등한 중요도로 디코더에 전달한다. 하지만 실제 분할 대상은 이미지의 일부 영역에만 존재하며, 나머지 배경 영역의 정보는 오히려 노이즈로 작용할 수 있다. Attention U-Net은 이러한 문제에 착안하여, 모델이 스스로 ‘어디에 집중해야 할지’를 학습하도록 하는 메커니즘을 제안했다.33

Attention U-Net은 기존 U-Net의 스킵 연결 경로에 ‘어텐션 게이트(Attention Gates, AGs)’라는 모듈을 추가한다.35 어텐션 게이트는 두 가지 입력을 받는다: (1) 인코더에서 넘어오는 저수준 특징 맵(

xL)과 (2) 디코더의 더 깊은 레이어에서 오는 고수준의 컨텍스트 정보(g, gating signal). 어텐션 게이트는 이 게이팅 신호(g)를 활용하여, 저수준 특징 맵(xL)의 각 픽셀 위치에 대한 ‘중요도(attention coefficient, α)를 계산한다. 이 중요도 값은 0과 1 사이로 정규화되며, 분할 대상과 관련이 높은 영역일수록 1에 가까운 값을, 관련 없는 배경 영역일수록 0에 가까운 값을 갖도록 학습된다. 마지막으로, 계산된 어텐션 맵(α)을 원래의 저수준 특징 맵(xL)에 곱해준다. 이를 통해 관련 있는 영역(예: 종양)의 특징은 강조되고, 관련 없는 배경 영역의 특징은 억제된 새로운 특징 맵이 디코더로 전달된다.33

이러한 동적 제어 방식은 모델이 불필요한 정보에 계산 자원을 낭비하는 것을 막고, 중요한 대상에 집중하여 분할의 민감도(sensitivity)와 정확도를 높이는 효과를 가져온다. 이는 U-Net의 정보 흐름을 한 단계 더 지능화시킨 중요한 발전으로 평가받는다.37

U-Net과 그 변형 모델들이 높은 성능을 달성했지만, 깊은 네트워크 구조와 많은 파라미터 수로 인해 계산 복잡성이 높다는 단점이 있었다. 이는 특히 모바일 기기나 실시간 처리가 요구되는 환경에서 큰 제약이 된다. 이에 U-Net의 성능은 최대한 유지하면서 모델을 경량화하려는 연구들이 활발히 진행되었다.

SD-UNet (Stripped-Down UNet): U-Net의 표준 컨볼루션을 계산 효율성이 매우 높은 ‘깊이별 분리형 컨볼루션(depthwise separable convolution)’으로 대체하는 방식을 제안했다. 이를 통해 원본 U-Net 대비 모델 파라미터 수를 8배, 모델 크기를 23배나 줄이면서도 생의학 이미지 분할에서 유사한 성능을 유지하는 데 성공했다.38
AID-U-Net: 기존 U-Net의 단일 수축/확장 경로에 ‘하위(sub)’ 수축/확장 경로를 추가하는 혁신적인 구조를 제안했다. 이 구조는 네트워크의 전체 깊이를 유연하게 조절하면서도 계산 복잡성을 크게 줄일 수 있게 해준다. 실험 결과, AID-U-Net은 더 적은 파라미터로도 기존 U-Net보다 복잡한 형태의 객체 분할에서 더 나은 성능을 보였다.39

이 외에도 스킵 연결 자체의 수를 줄여 메모리 사용량을 획기적으로 감소시킨 UNet– 40 등, 효율성을 추구하는 다양한 변형 모델들이 U-Net 생태계를 더욱 풍부하게 만들고 있다.

변형 모델 (Variant)	핵심 아이디어 (Core Idea)	주요 구조 변경 (Key Structural Change)	해결하려는 문제 (Target Problem)	관련 자료
3D U-Net	3차원 공간 컨텍스트 활용	모든 2D 연산을 3D로 대체 (3D Conv, 3D Pool)	Volumetric 데이터의 슬라이스 간 정보 손실	25
U-Net++	스킵 경로의 Semantic Gap 완화	중첩되고 조밀한 스킵 경로(Nested & Dense Skip Pathways)	인코더-디코더 특징 간의 의미적 불일치, 정밀도 향상	29
Attention U-Net	관련 영역에 집중	스킵 연결에 Attention Gates(AGs) 추가	관련 없는 배경 정보 억제, 중요 특징 강조, 모델 민감도 향상	33
SD-UNet	계산 효율성 극대화	Depthwise Separable Convolution으로 표준 Conv 대체	높은 계산 복잡성, 모델 경량화	38
AID-U-Net	유연한 구조와 계산 복잡성 감소	주 경로에 하위(sub) 수축/확장 경로 추가	복잡한 객체 분할, 계산 복잡성, 모델 유연성	39
TransUNet	CNN과 Transformer의 결합	인코더를 CNN-ViT 하이브리드 구조로 대체	CNN의 제한된 전역 컨텍스트(Global Context) 포착 능력	41

제4장: 응용 분야의 확장: 의료를 넘어 산업으로

U-Net은 생의학 이미지 분할이라는 특정 목적을 위해 탄생했지만, 그 아키텍처가 가진 근본적인 힘, 즉 ‘정밀한 경계 분할’ 능력은 특정 도메인에 국한되지 않는 보편적인 요구사항이었다. 종양의 경계, 건물의 윤곽, 도로의 가장자리는 모두 ‘정확한 모양과 위치’를 알아야 하는 공통된 과제로 귀결된다. U-Net의 스킵 연결 구조는 바로 이 문제를 해결하는 데 특화되어 있었기에, 도메인 지식과 데이터셋만 바꾸면 다른 여러 분야에서도 높은 이식성(portability)을 보이며 성공적으로 확장될 수 있었다.

U-Net의 탄생지이자 가장 활발하게 연구되고 응용되는 분야는 단연 생의학 이미지 분할이다. MRI, CT, X-ray, 초음파, 현미경 등 다양한 의료 영상 양식(modality)에서 U-Net과 그 변형 모델들은 사실상의 표준으로 자리 잡았다.7

뇌종양 분할 (Brain Tumor Segmentation): 뇌종양의 정확한 위치, 크기, 세부 영역(예: 부종, 괴사, 강화 종양)을 분할하는 것은 진단, 수술 계획, 방사선 치료 및 예후 예측에 매우 중요하다. BraTS(Brain Tumor Segmentation) 챌린지 데이터셋 등을 활용한 연구에서 3D U-Net과 그 변형 모델(Attention U-Net, Res-UNet 등)들은 수동 분할에 필적하거나 이를 능가하는 높은 정확도를 보여주며 임상적 유용성을 입증했다.6
세포핵 분할 (Cell Nuclei Segmentation): 조직 병리 현미경 이미지에서 개별 세포핵을 정확하게 분리하고 계수하는 것은 암 진단, 등급 판정, 약물 반응 연구 등에서 필수적인 과정이다. U-Net은 서로 겹치거나 맞닿아 있는 세포핵들을 효과적으로 분리하여, 수작업으로 이루어지던 지루하고 시간 소모적인 분석 과정을 자동화하는 데 크게 기여했다. 2018 Data Science Bowl과 같은 챌린지에서도 U-Net 기반 모델들이 우수한 성능을 보였다.13
췌장 분할 (Pancreas Segmentation): 췌장은 주변 장기와의 대비가 낮고 환자마다 모양과 위치의 변이가 커서 자동 분할이 매우 어려운 장기 중 하나다. Attention U-Net은 이러한 어려운 문제에 적용되어, 어텐션 게이트를 통해 췌장 영역에 집중하고 주변의 관련 없는 장기나 조직의 영향을 억제함으로써 분할 정확도를 크게 향상시키는 사례를 보여주었다.33
기타 장기 및 병변 분할: 이 외에도 U-Net 패밀리는 거의 모든 종류의 의료 영상 분할 문제에 적용되고 있다. CT 영상에서의 간, 신장, 비장 분할 8, 폐 CT에서의 결절 탐지 및 분할 29, 대장 내시경 영상에서의 용종(polyp) 분할 29, 피부과 이미지에서의 피부암 병변 분할 7, 망막 이미지에서의 혈관 분할 8 등 그 응용 범위는 매우 넓다. U-Net++와 같은 모델은 특히 크기가 다양한 병변들을 효과적으로 처리하는 데 강점을 보인다.7

U-Net의 픽셀 단위 정밀 분할 능력은 원격 감지(remote sensing) 및 지리 정보 시스템(GIS) 분야에서도 그 가치를 인정받았다.

건물 추출 (Building Extraction): 고해상도 위성 이미지나 항공 사진에서 건물의 윤곽(footprint)을 자동으로 추출하는 것은 도시 계획, 인구 밀도 추정, 불법 건축물 단속, 재난 발생 시 피해 규모 평가, 태양광 패널 설치 가능 면적 산정 등 다양한 응용에 필수적이다. U-Net 기반 모델들은 Massachusetts Buildings Dataset과 같은 공개 데이터셋을 활용하여 높은 정확도로 건물을 추출하는 능력을 보여주었다.43
도로 및 토지 피복 분할 (Road & Land Cover Segmentation): 자율 주행을 위한 고정밀 지도 제작이나 교통망 분석을 위해 위성 이미지에서 도로 영역을 분할하는 데 U-Net이 활용된다.19 또한, LoveDA와 같은 대규모 데이터셋을 이용하여 도시와 농촌 지역의 토지 피복을 건물, 도로, 농지, 숲, 수역 등 여러 클래스로 분할하여 도시 확장 모니터링, 환경 변화 분석, 농업 생산량 예측 등에 기여한다.19
구름 탐지 (Cloud Detection): 위성 이미지는 구름에 의해 가려지는 경우가 많아 분석의 정확도를 떨어뜨린다. Cloud-AttU와 같은 U-Net 기반 모델은 어텐션 메커니즘을 활용하여 이미지에서 구름 영역을 정확하게 탐지하고 마스킹함으로써, 후속 분석의 품질을 높이는 전처리 과정에 중요한 역할을 한다.45

U-Net의 원리는 의료와 위성 분석을 넘어 다양한 산업 현장으로 확산되고 있다.

자율 주행 (Autonomous Driving): 자율 주행 차량의 카메라나 LiDAR 센서로부터 입력된 이미지를 실시간으로 분할하여 주행 환경을 이해하는 데 U-Net이 활용된다. 도로, 차선, 보행자, 다른 차량, 신호등, 표지판 등을 픽셀 단위로 정확하게 분할함으로써, 차량은 주행 가능 영역을 판단하고 잠재적 위험을 인지하며 안전한 의사결정을 내릴 수 있다.6
농업 (Agriculture): 정밀 농업(precision agriculture) 분야에서 U-Net은 드론이나 지상 로봇이 촬영한 이미지 분석에 사용된다. 밭에서 작물과 잡초를 정확하게 분리하여 제초제를 필요한 곳에만 선택적으로 살포하게 하거나, 잎의 색이나 패턴 변화를 분석하여 식물의 질병이나 영양 상태를 조기에 진단하는 데 적용된다.6
제조업 (Manufacturing): 공장 자동화 및 품질 관리(QC) 공정에서 U-Net은 제품 표면의 미세한 긁힘, 균열, 오염 등 결함을 픽셀 단위로 정밀하게 검출하는 데 사용될 수 있다. 이는 수작업 검사에 비해 훨씬 빠르고 일관된 품질 관리를 가능하게 한다.7

이처럼 U-Net은 ‘정밀한 경계 분할’이라는 보편적인 문제 해결 능력을 바탕으로, 탄생 분야인 의료를 넘어 사회 기반 시설 관리, 미래 교통, 스마트 농업, 첨단 제조에 이르기까지 그 영향력을 끊임없이 확장해 나가고 있다.

U-Net은 이미지 분할 분야에서 기념비적인 성공을 거두었지만, 완벽한 아키텍처는 아니다. U-Net 역시 그 기반이 되는 CNN의 내재적 한계를 공유하며, 기술이 발전함에 따라 새로운 경쟁자들이 등장하고 있다. U-Net의 한계를 이해하고 미래 발전 방향을 전망하는 것은 이 분야의 연구를 지속하기 위해 필수적이다. U-Net의 미래는 아마도 완전한 대체가 아닌, 새로운 기술과의 융합을 통한 ‘진화’의 형태가 될 것이다.

U-Net을 포함한 모든 CNN 기반 모델의 가장 근본적인 한계는 컨볼루션 연산의 본질적인 특성, 즉 ‘지역적 수용장(local receptive field)’에서 비롯된다. 컨볼루션 필터는 이미지의 일부 지역에만 적용되어 특징을 추출한다. 네트워크의 레이어가 깊어짐에 따라 수용장이 점차 넓어져 더 넓은 영역의 정보를 볼 수는 있지만, 이미지 내 멀리 떨어진 픽셀들 간의 관계나 이미지 전체를 아우르는 전역적인 맥락(global context)을 명시적으로 모델링하는 데에는 구조적인 한계가 있다.46 예를 들어, 이미지의 왼쪽 끝에 있는 픽셀과 오른쪽 끝에 있는 픽셀의 관계를 파악하기가 어렵다. 이로 인해 매우 크고 복잡한 구조를 가진 객체를 분할하거나, 이미지 전체의 조화와 균형을 이해해야 하는 작업에서 성능 저하가 발생할 수 있다.

이러한 CNN의 한계를 극복할 대안으로 자연어 처리(NLP) 분야에서 혁명을 일으킨 Transformer가 주목받기 시작했다. Transformer의 핵심인 ‘셀프 어텐션(Self-Attention)’ 메커니즘은 입력 시퀀스 내의 모든 요소(이미지에서는 픽셀 또는 패치) 쌍 간의 관계를 직접 계산한다. 이를 통해 거리에 상관없이 모든 요소 간의 의존성을 파악할 수 있어, 전역적인 맥락을 포착하는 데 매우 강력한 능력을 보인다.41

이러한 Transformer의 강점을 이미지 분할에 접목하려는 시도 속에서, U-Net과 Transformer를 결합한 하이브리드 모델들이 등장했다. 그 대표적인 예가 TransUNet이다.41 TransUNet은 기존 U-Net의 인코더 부분을 CNN과 Vision Transformer(ViT)의 하이브리드 구조로 대체한다. 먼저, 초기 레이어에서는 CNN을 사용하여 이미지의 지역적인 특징(텍스처, 엣지 등)을 효율적으로 추출한다. 그 다음, 이 특징 맵을 여러 개의 작은 패치(patch)로 나누어 ViT의 입력으로 사용한다. ViT는 셀프 어텐션을 통해 이 패치들 간의 전역적인 관계를 학습한다. 이렇게 지역적 특징과 전역적 맥락을 모두 학습한 인코더의 출력은 기존 U-Net과 유사한 디코더와 스킵 연결을 통해 융합되어 최종 분할 맵을 생성한다.41

이러한 하이브리드 접근 방식은 U-Net의 미래를 암시한다. CNN은 지역적 특징 추출과 공간적 계층 구조 학습에 대한 강력한 ‘귀납적 편향(inductive bias)’을 가지고 있어 적은 데이터로도 효율적인 학습이 가능하다.6 반면, Transformer는 데이터가 충분할 때 전역적 관계 모델링에서 압도적인 성능을 보인다.6 따라서 U-Net의 검증된 U자형 골격과 스킵 연결 구조는 유지하되, 전역적 맥락 파악이 약한 컨볼루션 블록을 Transformer 블록으로 대체하거나 보강하는 방식은 두 아키텍처의 장점만을 취하는 최적의 전략이 될 수 있다.52 즉, U-Net은 하나의 강력한 ‘플랫폼’으로 남고, Transformer는 그 위에서 작동하는 고성능 ‘엔진’으로 통합되는 방향으로 진화하고 있다.

U-Net의 미래는 아키텍처, 데이터, 응용 분야 전반에 걸쳐 다각적인 발전을 이룰 것으로 전망된다.

아키텍처의 진화:
- 하이브리드 모델의 정교화: CNN과 Transformer를 단순히 결합하는 것을 넘어, U-MixFormer처럼 두 아키텍처의 특징을 더 효율적으로 융합하는 새로운 어텐션 모듈이나 구조에 대한 연구가 계속될 것이다.50
- 경량화와 효율성: 계산 복잡성은 여전히 중요한 과제다. SD-UNet, AID-U-Net과 같이 더 적은 파라미터와 계산량으로 높은 성능을 내는 효율적인 경량 아키텍처에 대한 요구는 모바일 헬스케어, 엣지 컴퓨팅 분야에서 더욱 커질 것이다.38
- 도메인 특화 설계: 특정 문제에 맞는 기하학적 구조나 사전 지식을 모델 아키텍처에 직접 통합하려는 시도도 이루어지고 있다. 예를 들어, 삼각형 격자 위에서 정의된 편미분방정식(PDE) 문제를 풀기 위한 새로운 형태의 U-Net 프레임워크가 제안되기도 했다.55
데이터와 학습 전략:
- 데이터 부족 문제 해결: 의료 분야의 고질적인 데이터 부족과 과적합 문제를 해결하기 위해, 정교한 데이터 증강 및 정규화 기법의 발전과 더불어, 레이블이 없는 대량의 데이터를 활용하는 준지도 학습(Semi-Supervised Learning) 및 자기 지도 학습(Self-Supervised Learning)과의 결합이 핵심적인 연구 방향이 될 것이다.49
- 해석 가능성 (Interpretability): 의료 진단이나 자율 주행과 같이 모델의 결정에 대한 설명이 중요한 ‘고위험(high-stakes)’ 분야에서는, 모델이 왜 특정 영역을 분할했는지 시각적으로 또는 논리적으로 설명하는 XAI(Explainable AI) 기술과의 결합이 필수적이다. Attention U-Net의 어텐션 맵 시각화는 그 초기 형태로 볼 수 있으며, 앞으로 더욱 정교한 해석 가능성 기법이 요구될 것이다.49
응용 분야의 확장:
- 멀티모달 융합 (Multi-modal Fusion): 단일 종류의 이미지만을 사용하는 것을 넘어, CT와 PET, MRI T1과 T2 영상 등 여러 종류의 의료 영상(modality)을 함께 입력받아 상호 보완적인 정보를 활용하는 멀티모달 분할 모델의 개발이 더욱 활발해질 것이다. 이는 단일 영상으로는 파악하기 어려운 복잡한 병변의 특성을 더 정확하게 분석하여 진단의 정확도를 높일 수 있다.8
- 새로운 응용으로의 확장: U-Net의 인코더-디코더와 스킵 연결 구조가 가진 원리는 이미지 분할을 넘어 다양한 분야로 확장 적용되고 있다. 이미지 노이즈 제거 및 복원(예: NAFNet) 40, 시계열 데이터 예측(예: UnetTSF) 57, 이미지 생성 모델(예: Diffusion Models의 노이즈 예측) 55 등에서 U-Net의 구조적 원리가 차용되어 뛰어난 성능을 보이고 있으며, 이러한 추세는 계속될 것이다.

2015년 등장한 U-Net은 단순히 하나의 뛰어난 성능을 가진 딥러닝 모델을 넘어, 이미지 분할, 특히 생의학 이미지 분석 분야의 연구와 응용 생태계 전체를 바꾸어 놓은 기념비적인 아키텍처다. U-Net의 유산은 여러 측면에서 평가될 수 있으며, 그 영향력은 Transformer와 같은 새로운 기술의 등장 속에서도 여전히 지속되고 있다.

U-Net의 가장 중요한 유산은 의료 인공지능 연구의 문턱을 극적으로 낮추었다는 점이다. 대규모 데이터셋이 필수적이라는 당시의 통념을 깨고, 매우 적은 양의 데이터와 강력한 데이터 증강만으로도 전문가 수준의 분할이 가능함을 입증함으로써, 데이터 확보가 어려운 수많은 의료 및 생물학 연구자들이 딥러닝 기술을 자신의 분야에 도입할 수 있는 길을 열어주었다.5

둘째, U-Net은 ‘인코더-디코더 + 스킵 연결’이라는 구조를 의미론적 분할의 표준으로 정립했다. 이 우아하고 강력한 구조는 ‘무엇’을 인식하는 의미 정보와 ‘어디’에 있는지 파악하는 공간 정보를 융합하는 문제에 대한 매우 효과적인 해결책임을 보여주었으며, 이후 등장한 수많은 분할 아키텍처의 기본 골격이 되었다.49 U-Net++, Attention U-Net 등 U-Net 자체의 변형 모델들은 물론, 다른 분야의 모델들까지도 U-Net의 설계 철학에 큰 영향을 받았다.

셋째, U-Net은 단일 모델을 넘어 하나의 거대한 ‘생태계’를 창조했다. U-Net을 기반으로 파생된 수많은 변형 모델들, 이를 활용한 다양한 응용 연구, 그리고 공개된 코드와 데이터셋들은 하나의 거대한 연구 커뮤니티를 형성하며 해당 분야의 발전을 가속화하는 원동력이 되었다.8

현재와 미래에도 U-Net의 가치는 여전히 유효하다. U-Net의 기본 원리는 직관적이면서도 강력하며, 수많은 최신 하이브리드 모델들의 근간을 이루고 있다. 특히, CNN이 가진 강력한 공간적 귀납적 편향은 Transformer가 쉽게 대체하기 어려운 장점으로, U-Net의 U자형 구조는 이러한 장점을 극대화한 형태로 남아있다. Transformer와 같은 새로운 기술은 U-Net을 대체하는 것이 아니라, U-Net의 구성 요소를 더욱 강력하게 만드는 ‘업그레이드 모듈’로서 융합되며 그 생명력을 이어나갈 것이다.52

결론적으로, U-Net의 진화는 계속될 것이다. 앞으로의 연구는 단순히 분할 정확도(IoU, Dice score)를 소수점 단위로 높이는 경쟁을 넘어, 모델의 효율성(더 적은 자원으로 더 빠르게), 해석 가능성(의료진이 신뢰하고 이해할 수 있도록), 강건성(다양한 환경과 데이터 변형에 강인하게), 그리고 실제 임상 및 산업 현장에서의 신뢰성을 확보하는 방향으로 나아가야 할 것이다. U-Net은 딥러닝 기술이 어떻게 특정 도메인의 구체적인 문제와 만나 상호작용하며 발전하는지를 보여주는 가장 성공적인 서사 중 하나로, 컴퓨터 비전의 역사에 깊이 기록될 것이다.

U-Net architecture. Skip connection between encoder and decoder efficiently complements the feature maps - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/figure/U-Net-architecture-Skip-connection-between-encoder-and-decoder-efficiently-complements_fig2_352982155
Supporting Fully Convolutional Networks (and U-Net) for Image Segmentation - Datature, accessed July 19, 2025, https://datature.io/blog/supporting-fully-convolutional-networks-and-u-net-for-image-segmentation
A New Semantic Segmentation Framework Based on UNet - PMC, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10575066/
arXiv:1505.07293v1 [cs.CV] 27 May 2015, accessed July 19, 2025, http://mi.eng.cam.ac.uk/~cipolla/publications/inproceedings/2015-arxiv-SegNet.pdf
U-Net: Convolutional Networks for Biomedical Image … - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/1505.04597
A guide on U-Net architecture and its applications - Ultralytics, accessed July 19, 2025, https://www.ultralytics.com/blog/a-guide-on-u-net-architecture-and-its-applications

Why U-Net Excels in Biomedical Image Segmentation

Excelra, accessed July 19, 2025, https://www.excelra.com/blogs/u-net-biomedical-image-segmentation/

A Comprehensive Review of U-Net and Its Variants: Advances and Applications in Medical Image Segmentation - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/2502.06895
Image Segmentation with U-Net - Analytics Vidhya, accessed July 19, 2025, https://www.analyticsvidhya.com/blog/2022/10/image-segmentation-with-u-net/
U-Net: Convolutional Networks for Biomedical Image Segmentation, accessed July 19, 2025, https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/
U-Net: Convolutional Networks for Biomedical Image Segmentation - Hugging Face, accessed July 19, 2025, https://huggingface.co/papers/1505.04597
U-Net Architecture Explained - GeeksforGeeks, accessed July 19, 2025, https://www.geeksforgeeks.org/machine-learning/u-net-architecture-explained/
sauravmishra1710/U-Net—Biomedical-Image-Segmentation: Implementation of the paper titled - U-Net: Convolutional Networks for Biomedical Image Segmentation @ https://arxiv.org/abs/1505.04597 - GitHub, accessed July 19, 2025, https://github.com/sauravmishra1710/U-Net—Biomedical-Image-Segmentation
UNet Architecture Explained In One Shot [TUTORIAL] - Kaggle, accessed July 19, 2025, https://www.kaggle.com/code/akshitsharma1/unet-architecture-explained-in-one-shot-tutorial

The U-Net : A Complete Guide

Medium, accessed July 19, 2025, https://medium.com/@alejandro.itoaramendia/decoding-the-u-net-a-complete-guide-810b1c6d56d8

Understanding U-Net Towards Data Science, accessed July 19, 2025, https://towardsdatascience.com/understanding-u-net-61276b10f360
Understanding U-Net Towards Data Science, accessed July 19, 2025, https://towardsdatascience.com/understanding-u-net-61276b10f360/
Complexity comparison of FCN-8s, SegNet, DeconvNet, U-Net, ResUNet - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/figure/Complexity-comparison-of-FCN-8s-SegNet-DeconvNet-U-Net-ResUNet-DeepUNet-and-the_tbl4_334743027
(PDF) Performance and Analysis of FCN, U-Net, and SegNet in …, accessed July 19, 2025, https://www.researchgate.net/publication/388315318_Performance_and_Analysis_of_FCN_U-Net_and_SegNet_in_Remote_Sensing_Image_Segmentation_Based_on_the_LoveDA_Dataset
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation - arXiv, accessed July 19, 2025, http://arxiv.org/pdf/1511.00561
[1505.07293] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling - ar5iv, accessed July 19, 2025, https://ar5iv.labs.arxiv.org/html/1505.07293
SegNet: A Deep Convolutional Encoder-Decoder … - arXiv, accessed July 19, 2025, https://arxiv.org/pdf/1511.00561
(PDF) SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/283471087_SegNet_A_Deep_Convolutional_Encoder-Decoder_Architecture_for_Image_Segmentation
[1511.00561] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation - arXiv, accessed July 19, 2025, https://arxiv.org/abs/1511.00561
3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation, accessed July 19, 2025, https://www.researchgate.net/publication/304226155_3D_U-Net_Learning_Dense_Volumetric_Segmentation_from_Sparse_Annotation
The Evolution of U-Net Architectures in Medical Image Segmentation - ITM Web of Conferences, accessed July 19, 2025, https://www.itm-conferences.org/articles/itmconf/pdf/2025/04/itmconf_iwadi2024_02019.pdf
Abstract What is 3D U-Net Segmentation? - MICCAI Educational …, accessed July 19, 2025, https://miccai-sb.github.io/materials/Hoang2019b.pdf
3D-UNet Medical Image Segmentation for TensorFlow - NVIDIA NGC, accessed July 19, 2025, https://catalog.ngc.nvidia.com/orgs/nvidia/resources/unet3d_medical_for_tensorflow
UNet++: A Nested U-Net Architecture for Medical Image Segmentation - PMC, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7329239/
(PDF) UNet++: A Nested U-Net Architecture for Medical Image …, accessed July 19, 2025, https://www.researchgate.net/publication/324574642_UNet_A_Nested_U-Net_Architecture_for_Medical_Image_Segmentation
Unet++: A nested u-net architecture for medical image segmentation, accessed July 19, 2025, https://asu.elsevierpure.com/en/publications/unet-a-nested-u-net-architecture-for-medical-image-segmentation
Optimal Res-UNET architecture with deep supervision for tumor segmentation - PMC, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12162509/
(PDF) Attention U-Net: Learning Where to Look for the Pancreas - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/324472010_Attention_U-Net_Learning_Where_to_Look_for_the_Pancreas

Attention U-Net: Learning Where to Look for the Pancreas

Bernhard Kainz, accessed July 19, 2025, https://wp.doc.ic.ac.uk/bkainz/publication/attention-u-net-learning-where-to-look-for-the-pancreas/

Attention U-Net: Learning Where to Look for the Pancreas, accessed July 19, 2025, http://arxiv.org/pdf/1804.03999
Attention U-Net: Learning Where to Look for the Pancreas - OpenReview, accessed July 19, 2025, https://openreview.net/forum?id=Skft7cijM

Attention‐guided duplex adversarial U‐net for pancreatic segmentation from computed tomography images - National Institutes of Health (NIH)

, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8992955/

SD-UNet: Stripping down U-Net for Segmentation of Biomedical …, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7167802/
AID-U-Net: An Innovative Deep Convolutional Architecture for …, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC9777521/
[2412.18276] UNet–: Memory-Efficient and Feature-Enhanced Network Architecture based on U-Net with Reduced Skip-Connections - arXiv, accessed July 19, 2025, https://arxiv.org/abs/2412.18276
TransUNet: Transformers Make Strong Encoders for Medical Image …, accessed July 19, 2025, https://vitalab.github.io/article/2021/06/25/transUnet.html
U-Net—Biomedical-Image-Segmentation/UNet In Action.ipynb at main - GitHub, accessed July 19, 2025, https://github.com/sauravmishra1710/U-Net—Biomedical-Image-Segmentation/blob/main/UNet%20In%20Action.ipynb
Automatic Building Extraction on Satellite Images Using Unet and ResNet50 - PMC, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8881177/
Satellite Image Segmentation for Building Detection using U-net - CS229, accessed July 19, 2025, https://cs229.stanford.edu/proj2017/final-reports/5243715.pdf
Cloud Detection for Satellite Imagery Using Attention-Based U-Net Convolutional Neural Network - MDPI, accessed July 19, 2025, https://www.mdpi.com/2073-8994/12/6/1056
UNet and Transformers: Deep Learning Based Methods for Medical Image Segmentation - SciTePress, accessed July 19, 2025, https://www.scitepress.org/Papers/2024/128383/128383.pdf
Contextual Attention Network: Transformer Meets U-Net - lfb.rwth-aachen.de, accessed July 19, 2025, https://www.lfb.rwth-aachen.de/bibtexupload/pdf/AZA22b.pdf
Hybrid U-Net Model with Visual Transformers for Enhanced Multi-Organ Medical Image Segmentation - MDPI, accessed July 19, 2025, https://www.mdpi.com/2078-2489/16/2/111
The Evolution of U-Net Architectures in Medical Image Segmentation - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/389064726_The_Evolution_of_U-Net_Architectures_in_Medical_Image_Segmentation
U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient Semantic Segmentation, accessed July 19, 2025, https://arxiv.org/html/2312.06272v1
DA-TransUNet: integrating spatial and channel dual attention with transformer U-net for medical image segmentation - Frontiers, accessed July 19, 2025, https://www.frontiersin.org/journals/bioengineering-and-biotechnology/articles/10.3389/fbioe.2024.1398237/full
Next-Gen Medical Imaging: U-Net Evolution and the Rise of … - MDPI, accessed July 19, 2025, https://www.mdpi.com/1424-8220/24/14/4668
[Literature Review] A Comprehensive Review of U-Net and Its Variants: Advances and Applications in Medical Image Segmentation - Moonlight, accessed July 19, 2025, https://www.themoonlight.io/en/review/a-comprehensive-review-of-u-net-and-its-variants-advances-and-applications-in-medical-image-segmentation

Computational complexity comparison of the proposed model with Unet…

Download Scientific Diagram - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/figure/Computational-complexity-comparison-of-the-proposed-model-with-Unet-based-models_tbl7_368736510

A Unified Framework for U-Net Design and Analysis, accessed July 19, 2025, https://proceedings.neurips.cc/paper_files/paper/2023/file/58575be50c9b47902359920a4d5d1ab4-Paper-Conference.pdf
Next-Gen Medical Imaging: U-Net Evolution and the Rise of Transformers - PubMed Central, accessed July 19, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11280776/
UnetTSF: A Better Performance Linear Complexity Time Series Prediction Model - arXiv, accessed July 19, 2025, https://arxiv.org/html/2401.03001v1
Medical Image Segmentation Review: The success of U-Net - ResearchGate, accessed July 19, 2025, https://www.researchgate.net/publication/365821084_Medical_Image_Segmentation_Review_The_success_of_U-Net