4.6 의미론적 분할(Semantic Segmentation)

4.6 의미론적 분할(Semantic Segmentation)

1. 정의

의미론적 분할(Semantic Segmentation)은 영상의 각 픽셀에 사전 정의된 의미적 범주 레이블을 부여하는 과업이다. 객체 탐지가 경계 상자 수준의 위치 정보를 제공하는 것과 달리, 의미론적 분할은 픽셀 수준의 밀집 예측(Dense Prediction)을 수행하여 장면의 세밀한 공간적 구조를 파악한다.

2. 자율주행에서의 의미론적 범주

자율주행에서 사용되는 주요 의미론적 범주는 다음과 같다.

대분류범주 예시
평면 (Flat)도로, 인도, 주차 구역
구조물 (Construction)건물, 벽, 울타리, 가드레일
자연 (Nature)식생, 지형
차량 (Vehicle)승용차, 트럭, 버스, 이륜차
인간 (Human)보행자, 자전거 탑승자
하늘 (Sky)하늘
객체 (Object)교통 표지판, 교통 신호등, 전신주

Cityscapes 데이터셋(Cordts et al., 2016)은 도시 환경 의미론적 분할의 표준 벤치마크로, 19개 범주에 대한 픽셀 단위 레이블을 제공한다.

3. 주요 알고리즘

FCN(Fully Convolutional Network) (Long et al., 2015): 분류용 CNN의 완전 연결 계층을 합성곱 계층으로 대체하여 임의 크기의 영상에 대한 밀집 예측을 가능하게 한 최초의 심층 학습 기반 분할 네트워크이다.

U-Net (Ronneberger et al., 2015): 인코더-디코더 구조에 스킵 연결(Skip Connection)을 도입하여 다중 해상도 특징을 통합한다. 의료 영상 분할에서 제안되었으나 자율주행 분할에도 널리 사용된다.

DeepLab 계열 (Chen et al., 2017): 확장 합성곱(Dilated/Atrous Convolution)과 조건부 랜덤 필드(CRF)를 결합하여 넓은 수용 영역(Receptive Field)을 확보하면서도 세밀한 경계를 유지한다.

SegFormer (Xie et al., 2021): 트랜스포머 기반의 인코더와 경량 MLP 디코더를 결합한 효율적인 분할 네트워크이다.

4. 평가 지표

의미론적 분할의 표준 평가 지표는 mIoU(mean Intersection over Union)이다.

\text{IoU}_c = \frac{TP_c}{TP_c + FP_c + FN_c}

\text{mIoU} = \frac{1}{C} \sum_{c=1}^{C} \text{IoU}_c

여기서 TP_c, FP_c, FN_c는 각각 범주 c에 대한 진양성, 위양성, 위음성 픽셀 수이며, C는 총 범주 수이다.

5. 참고 문헌

  • Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2017). DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4), 834–848.
  • Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., … & Schiele, B. (2016). The Cityscapes dataset for semantic urban scene understanding. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 3213–3223.
  • Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 3431–3440.
  • Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., & Luo, P. (2021). SegFormer: Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems, 34, 12077–12090.

v1.0