YOLO-DroneMS - 드론 비전을 위한 다중 스케일 객체 탐지 (2024-10-24)

YOLO-DroneMS - 드론 비전을 위한 다중 스케일 객체 탐지 (2024-10-24)

1. 서론: 공중 지능의 새로운 지평, 드론 비전

무인 항공기(Unmanned Aerial Vehicle, UAV), 즉 드론은 현대 산업의 다양한 영역에서 핵심적인 데이터 수집 도구로 급부상했다. 보안 감시, 정밀 농업, 재난 관리, 물류 운송, 전력선 검사 등 드론의 활용 범위는 전방위적으로 확장되고 있다.1 그러나 드론이 제공하는 공중 시점의 영상 데이터는 기존의 지상 기반 이미지와는 본질적으로 다른 특성을 지니며, 이는 컴퓨터 비전, 특히 객체 탐지 분야에 중대한 기술적 난제를 제기한다.4

드론 비전이 직면한 핵심 난제는 다음과 같이 요약할 수 있다. 첫째, **소형 객체 문제(Small Object Problem)**이다. 높은 비행 고도에서 촬영된 이미지 속 객체들은 종종 수 픽셀에 불과한 크기로 나타나며, 이로 인해 심층 신경망의 특징 추출 과정에서 고유한 형태나 질감 정보가 소실되기 쉽다.4 둘째, **극심한 다중 스케일 변화(Multi-Scale Variation)**이다. 단일 이미지 프레임 안에 버스나 트럭과 같은 대형 객체와 보행자나 자전거와 같은 소형 객체가 동시에 존재하여, 단일 모델이 모든 스케일에 걸쳐 효과적으로 대응하기 어렵다.1 셋째, **복잡한 배경 및 밀집 환경(Cluttered Background & High Density)**이다. 도심의 건물, 숲의 초목, 주차장의 밀집된 차량 등은 탐지 대상과 시각적으로 혼동을 일으키거나 서로를 가려 개별 객체의 정확한 식별을 방해한다.6

이러한 문제들은 기존 객체 탐지 모델들의 근본적인 가정을 무너뜨린다. 대부분의 성공적인 모델들은 객체가 이미지 내에서 충분한 픽셀을 차지하고, 배경과 명확히 구분되며, 익숙한 지상 시점에서 촬영된다는 암묵적 전제하에 설계되었다.6 드론 이미지는 이러한 가정을 정면으로 위배하므로, 기존 모델의 성능 저하는 단순한 정확도 부족이 아니라 학습 데이터와 실제 운용 환경 간의 ’도메인 갭(Domain Gap)’에서 비롯된 필연적 결과이다. 따라서 범용 모델을 단순히 미세 조정(fine-tuning)하는 것만으로는 이 근본적인 ’패러다임의 불일치’를 해결할 수 없으며, 드론 환경의 특수성을 고려한 아키텍처 수준의 재설계가 필수적이다.

이러한 배경 속에서, YOLOv8 모델을 기반으로 드론 환경에 특화된 구조적 개선을 이룬 YOLO-DroneMS가 해결책으로 등장했다.1 본 보고서는 YOLO-DroneMS의 핵심 아키텍처, 각 기술 요소가 드론 비전의 특정 난제를 해결하는 원리, 정량적 성능 지표, 그리고 실제적 활용 방안을 심층적으로 분석하고자 한다. 이를 통해 드론 비전 분야의 연구자 및 개발자들에게 깊이 있는 기술적 통찰을 제공하는 것을 목표로 한다.

2. YOLO 아키텍처의 진화와 YOLOv8

2.1 YOLO의 핵심 철학: 회귀 문제로의 재정의

YOLO(You Only Look Once)의 등장은 객체 탐지 분야의 패러다임을 전환시켰다. 이전의 R-CNN 계열과 같은 2-stage detector들이 ’영역 제안(Region Proposal)’과 ’분류(Classification)’의 두 단계를 거쳤던 것과 달리, YOLO는 객체 탐지를 이미지 전체를 단 한 번만 보고 객체의 위치(Bounding Box)와 클래스(Class)를 동시에 예측하는 단일 회귀 문제(Single Regression Problem)로 재정의했다.9 이 혁신적인 접근 방식은 추론 속도를 비약적으로 향상시켜 실시간 객체 탐지의 시대를 열었다.

2.2 주요 기술적 변곡점

YOLO는 첫 버전 발표 이후 지속적인 개선을 통해 정확도와 속도의 균형을 발전시켜왔다.

  • YOLOv2 (2016): 앵커 박스(Anchor Box) 개념을 도입하여 바운딩 박스 예측의 안정성과 정확도를 높였다. 또한 배치 정규화(Batch Normalization)를 적용하여 학습을 안정시켰다.9

  • YOLOv3 (2018): 특징 피라미드 네트워크(Feature Pyramid Network, FPN) 구조를 채택하여 세 가지 다른 스케일에서 예측을 수행했다. 이를 통해 다양한 크기의 객체, 특히 탐지가 어려웠던 소형 객체에 대한 탐지 성능을 크게 개선했다.11

  • YOLOv4 & YOLOv5 (2020): 백본 네트워크에 CSP(Cross Stage Partial) 구조를 도입하여 연산 효율성을 높이면서도 풍부한 특징 표현을 유지했다. 또한, FPN에 하향식(top-down) 경로뿐만 아니라 상향식(bottom-up) 경로를 추가한 PANet(Path Aggregation Network)을 넥(Neck) 부분에 적용하여 서로 다른 수준의 특징 맵 간의 정보 흐름을 극대화했다.12

  • YOLOv8 (2023): 이전 버전들의 성공적인 아이디어를 집대성하고 현대적인 개선 사항을 통합했다. 백본의 CSP 블록을 C2f(CSPNet with 2 convolutions) 모듈로 개선하여 더 풍부한 그래디언트 흐름을 가능하게 했다. 넥 부분에서는 기존 SPP(Spatial Pyramid Pooling) 모듈을 여러 개의 작은 커널을 직렬로 연결한 SPPF(Spatial Pyramid Pooling Fast)로 대체하여 동일한 수용 영역(Receptive Field)을 더 빠른 속도로 확보했다. 또한, 분류(Classification)와 회귀(Regression) 작업을 위한 헤드를 분리하는 Decoupled Head 구조를 채택하여 각 작업의 최적화를 통해 전반적인 성능을 향상시켰다.1

2.3 YOLO-DroneMS의 기반, YOLOv8n 분석

YOLO-DroneMS는 YOLOv8 제품군 중 가장 작고 빠른 모델인 YOLOv8n(nano)을 기반으로 한다.1 YOLOv8의 성공은 단순히 성능 향상에만 있지 않다. YOLOv5 이후, 아키텍처는 점차 ’모듈화’되고 ’확장 가능’한 형태로 진화했다. 초기 YOLO가 단일 프레임워크 내에서 수정이 어려운 구조였다면, YOLOv8은 백본, 넥, 헤드의 각 구성 요소가 명확히 분리된 설계를 채택하여 사용자가 특정 모듈을 쉽게 교체하거나 맞춤화할 수 있는 유연성을 제공한다.1

이러한 설계 철학은 YOLO-DroneMS와 같은 도메인 특화 모델이 탄생할 수 있었던 결정적인 배경이 되었다. 연구자들은 YOLOv8이라는 검증된 ‘기반 플랫폼(Base Platform)’ 위에서, 드론 환경이라는 특정 문제에 맞춰 필요한 부품(모듈)을 교체하고 개선함으로써 새로운 솔루션을 효율적으로 구축할 수 있게 된 것이다. 따라서 YOLO-DroneMS의 혁신을 이해하기 위해서는 그 출발점인 YOLOv8n의 구조적 특징을 명확히 인지하는 것이 선행되어야 한다.

3. 드론 이미지 객체 탐지의 본질적 한계

드론을 이용한 객체 탐지는 지상 환경과는 다른, 고유하고 복합적인 난제들을 내포하고 있다. 이러한 문제들은 개별적으로도 어렵지만, 서로 맞물려 성능 저하를 가속하는 악순환 구조를 형성한다.

3.1 저해상도와 정보 손실

드론이 높은 고도에서 지상을 촬영할 때, 관심 객체는 이미지 상에서 극히 일부의 픽셀만을 차지하게 된다.4 예를 들어, 사람은 수십 픽셀, 자동차는 백여 픽셀에 불과할 수 있다. 심층 신경망, 특히 CNN(Convolutional Neural Network) 기반의 객체 탐지기는 입력 이미지에 대해 반복적인 컨볼루션과 풀링(Pooling) 연산을 수행하며 특징 맵의 크기를 점진적으로 줄여나간다(다운샘플링). 이 과정에서 고수준의 의미론적 정보(semantic information)를 추출하지만, 필연적으로 공간적 해상도(spatial resolution)는 손실된다. 소형 객체의 경우, 몇 번의 다운샘플링만으로도 그 형태와 경계에 대한 정보가 완전히 사라져 배경의 노이즈와 구분할 수 없게 된다. 이는 저해상도 문제가 배경-객체 혼동 문제로 직접 이어지는 연결고리가 된다.

3.2 스케일 불변성(Scale Invariance)의 붕괴

드론 이미지는 한 장의 사진 안에 버스, 트럭과 같은 거대 객체부터 자전거, 사람과 같은 소형 객체까지 극단적인 스케일 차이를 보인다.1 YOLOv3 이후 도입된 FPN과 같은 다중 스케일 탐지 구조는 이러한 문제에 대응하기 위해 설계되었지만, 드론 환경의 광범위한 스케일 변화 앞에서는 한계를 드러낸다. 기존 구조는 얕은 레이어에서 추출된 고해상도, 저수준 특징(위치, 경계선 등)과 깊은 레이어에서 추출된 저해상도, 고수준 특징(객체의 정체성 등)을 융합한다. 그러나 이 융합 과정이 상대적으로 단순하여, 극심한 스케일 차이 속에서 각 스케일에 최적화된 정보를 효과적으로 통합하지 못하는 경우가 많다. 특히 이는 IoU 기반 손실 함수의 편향성 문제를 더욱 악화시킨다.

3.3 배경-객체 혼동(Background-Object Confusion)

도심의 복잡한 건물 옥상, 숲의 무성한 나뭇잎, 도로의 다양한 그림자 등은 탐지 대상 객체와 유사한 질감이나 형태를 가질 수 있다.6 모델이 객체의 본질적인 형상보다 표면적인 질감 정보에 과도하게 의존하여 학습할 경우, 이러한 배경 요소를 객체로 오인하는 거짓 양성(False Positive) 오류가 급증한다. 객체가 저해상도가 되어 변별력 있는 특징이 부족해지면, 모델은 더욱더 주변 배경의 패턴에 의존하게 되어 이 문제는 심화된다.

3.4 IoU 기반 손실 함수의 편향성

객체 탐지 모델의 성능 평가와 학습에 널리 사용되는 IoU(Intersection over Union)는 예측된 바운딩 박스와 실제 바운딩 박스 간의 겹치는 영역을 측정하는 지표이다. 그러나 IoU는 객체의 크기에 따라 민감도가 달라지는 본질적인 편향성을 가진다.4 예를 들어, 크기가 100x100 픽셀인 큰 객체와 10x10 픽셀인 작은 객체가 있고, 두 경우 모두 예측 박스가 x축 방향으로 5픽셀만큼 벗어났다고 가정하자. 큰 객체의 경우 IoU 감소는 미미하지만, 작은 객체의 경우 IoU는 급격하게 떨어진다. 이로 인해 학습 과정에서 모델은 소형 객체의 위치를 조금만 잘못 예측해도 큰 페널티를 받게 되며, 결국 소형 객체의 정확한 위치 학습을 포기하고 상대적으로 학습이 쉬운 대형 객체에 집중하도록 유도된다.

이 네 가지 난제는 독립적이지 않다. 저해상도는 배경 혼동을 유발하고, 극심한 스케일 변화는 IoU 편향을 악화시키며, 이는 다시 소형 객체 탐지 능력을 저하시키는 악순환의 고리(Vicious Cycle)를 형성한다. 따라서 드론 객체 탐지 성능을 근본적으로 개선하기 위해서는 이 고리의 여러 지점을 동시에 공략하는 총체적이고 시스템적인 접근이 필수적이다.

4. YOLO-DroneMS 아키텍처 심층 분석

YOLO-DroneMS는 YOLOv8n의 효율적인 구조를 유지하면서, 드론 비전의 난제들을 해결하기 위해 백본, 넥, 그리고 손실 함수에 걸쳐 전략적인 증강을 수행했다. 그 핵심 철학은 불확실하고 예측 불가능한 드론 환경에 대응하기 위해 모델의 ‘정적(Static)’ 구조를 ‘동적(Dynamic)’ 구조로 전환하는 데 있다.

4.1 전체 구조: YOLOv8n의 전략적 증강

YOLO-DroneMS는 YOLOv8n의 기본 골격을 따르지만, 핵심 모듈들을 드론 환경에 최적화된 새로운 구성 요소로 대체했다. 백본의 C2f 모듈은 C2f-iRMB-DRB로, 넥의 SPPF 모듈은 SPPF-LSKA로, 특징 융합 부분은 ASF-DySample 구조로, 그리고 손실 함수는 WIoUv3로 변경되었다. 이러한 변경점들은 모델이 드론 이미지의 특성에 보다 지능적으로 적응하도록 설계되었다.1

4.2 넥(Neck) 혁신 1: SPPF-LSKA를 통한 형상 중심의 특징 추출

YOLOv8n의 SPPF 모듈은 세 개의 5x5 Max-Pooling 레이어를 직렬로 연결하여, 큰 커널을 사용하는 것과 동일한 수용 영역 확장 효과를 더 적은 계산량으로 달성하는 효율적인 구조이다.1 YOLO-DroneMS는 이 SPPF 모듈 바로 뒤에 LSKA(Large-Kernel Spatial Attention) 모듈을 추가하여 특징 추출의 패러다임을 전환했다.1

LSKA는 이름에서 알 수 있듯이 매우 큰 컨볼루션 커널을 사용하여 공간적 어텐션(Spatial Attention) 맵을 생성한다. 일반적으로 작은 커널(예: 3x3)은 이미지의 질감이나 색상과 같은 지역적이고 세부적인 정보에 집중하는 경향이 있다. 반면, 큰 커널은 훨씬 넓은 영역의 정보를 종합하여 객체의 전체적인 ’형상(Shape)’과 ’구조(Structure)’를 파악하는 데 유리하다. 드론 이미지에서는 조명 변화, 그림자, 복잡한 배경 텍스처 등으로 인해 객체의 표면 정보가 신뢰하기 어려울 때가 많다. LSKA는 이러한 변화에 덜 민감한 ‘형상’ 정보에 집중하도록 모델을 유도한다. 계산된 어텐션 맵은 특징 맵에 곱해져, 모델이 객체의 구조적으로 중요한 부분에 더 높은 가중치를 부여하고 배경과 같은 비본질적인 정보는 억제하도록 만든다. 이는 고정된 연산을 수행하는 대신, 이미지 내용에 따라 동적으로 집중할 영역을 바꾸는 첫 번째 단계이다.

4.3 넥(Neck) 혁신 2: ASF-DySample을 이용한 동적 특징 융합

기존의 FPN/PAN 구조는 고정된 방식의 업샘플링(예: 최근접 이웃 보간법)과 단순한 덧셈 또는 연결(Concatenation) 연산을 통해 서로 다른 스케일의 특징을 기계적으로 결합한다. 이는 드론 이미지의 극심한 스케일 변화에 유연하게 대처하기 어렵다. YOLO-DroneMS는 이를 해결하기 위해 ASF-DySample이라는 새로운 특징 융합 구조를 제안했다.1

  • ASF (Attentional Scale Sequence Fusion): ASF는 각기 다른 스케일에서 온 특징 맵들을 융합할 때, 각 특징 맵의 중요도에 따라 어텐션 가중치를 부여한다. 이를 통해 고해상도 특징 맵이 가진 세밀한 공간 정보와 저해상도 특징 맵이 가진 풍부한 의미 정보를 보다 지능적으로, 그리고 선별적으로 결합할 수 있다.

  • DySample (Dynamic Upsampling): DySample은 업샘플링 과정 자체를 동적으로 만든다. 기존 업샘플링이 고정된 그리드 포인트의 값을 보간하는 방식이었다면, DySample은 학습 가능한 오프셋(offset)을 예측하여 샘플링할 위치를 스스로 결정한다. 이는 마치 객체의 실제 경계나 형태를 따라 샘플링 포인트를 유연하게 조정하는 것과 같다. 이를 통해 경직된 업샘플링 과정에서 발생하는 정보의 왜곡이나 손실을 최소화하고, 객체의 특징을 훨씬 더 정확하게 상위 레이어로 전달할 수 있다.

ASF-DySample은 특징 융합 과정을 정적인 연산에서 데이터 기반의 동적이고 적응적인 프로세스로 변환하여, 드론 이미지의 다변성에 효과적으로 대응한다.

4.4 백본(Backbone) 및 손실 함수 최적화

백본의 C2f 모듈 내부에는 iRMB-DRB(Inverted Residual Mobile Block with Dual Residual Block)가 통합되어, 경량화를 유지하면서도 특징 표현 능력을 강화했다.1

하지만 가장 결정적인 개선은 손실 함수에서 이루어졌다. YOLO-DroneMS는 기존의 CIoU(Complete IoU) 손실 함수를 WIoUv3(Wise-IoU v3)로 대체했다.1 이는 제2장에서 지적한 ‘IoU 기반 손실 함수의 편향성’ 문제를 직접적으로 해결하기 위한 전략이다. WIoU는 ’아웃라이어 정도(outlier degree)’라는 개념을 도입하여, 예측된 바운딩 박스의 품질에 따라 손실의 가중치를 동적으로 조절한다.

WIoU의 손실 함수는 다음과 같이 표현될 수 있다.

코드 스니펫

$$\mathcal{L}_{WIoU} = R_{WIoU} \mathcal{L}_{IoU}$$

여기서 $\mathcal{L}_{IoU}$는 일반적인 IoU 기반 손실이며, $R_{WIoU}$는 아웃라이어 정도에 기반하여 계산되는 동적 가중치이다. 예측이 실제와 많이 벗어나 품질이 낮은 앵커 박스(아웃라이어)에 대해서는 $R_{WIoU}$ 값을 크게 하여 더 강한 그래디언트를 부여하고, 반대로 예측이 이미 정확하여 품질이 좋은 앵커 박스에 대해서는 가중치를 줄여준다. 이 비단조적(non-monotonic) 포커싱 메커니즘은 모델이 학습하기 어려운 샘플, 특히 IoU 페널티에 민감한 소형 객체에 더 집중하도록 강제한다. 이는 모든 샘플에 동일한 규칙을 적용하는 정적인 방식에서 벗어나, 각 예측의 품질에 따라 학습 강도를 동적으로 조절하는 혁신적인 접근이다.

제4장: 성능 평가 및 비교 분석

YOLO-DroneMS의 아키텍처 개선이 실제 성능 향상으로 이어졌는지를 검증하기 위해, 표준화된 벤치마크 데이터셋과 평가 지표를 사용한 엄밀한 실험이 수행되었다.

실험 환경 및 데이터셋

  • 데이터셋: 실험에는 VisDrone2019 데이터셋이 사용되었다.1 이 데이터셋은 10개의 객체 클래스(예: 보행자, 자동차, 자전거 등)에 대해 10,209개의 정지 이미지와 261,908개의 비디오 프레임, 그리고 260만 개 이상의 수동 주석 바운딩 박스를 포함한다.17 특히 소형 객체가 많고, 객체 밀도가 높으며, 다양한 촬영 환경을 포함하고 있어 드론 객체 탐지 알고리즘의 성능을 평가하기 위한 대표적인 벤치마크로 인정받는다.4

  • 평가 지표: 모델의 성능은 mAP(mean Average Precision)와 FPS(Frames Per Second)를 통해 측정되었다.

  • mAP: 객체 탐지 모델의 정확도를 종합적으로 평가하는 표준 지표이다. mAP@50은 IoU(Intersection over Union) 임계값을 0.5로 설정했을 때의 평균 정밀도를 의미하며, 일반적인 탐지 성능을 나타낸다. mAP@50-95는 IoU 임계값을 0.5부터 0.95까지 0.05 간격으로 변화시키며 계산한 mAP 값들의 평균으로, 더 정밀한 위치 예측(localization) 능력을 요구한다.18

  • FPS: 초당 처리할 수 있는 프레임 수를 의미하며, 모델이 실시간으로 작동할 수 있는지를 판단하는 속도 지표이다.19

성능 비교 분석

실험 결과, YOLO-DroneMS는 베이스라인 모델인 YOLOv8n 대비 정확도와 속도 모든 면에서 의미 있는 성능 향상을 달성했다.

  • 정확도: IoU 0.5를 기준으로 측정한 mAP@50 지표에서 YOLO-DroneMS는 YOLOv8n에 비해 3.6% 향상된 결과를 보였다.1

  • 속도: FPS는 78.7에서 83.3으로 증가하여, 더 정확한 모델임에도 불구하고 처리 속도 또한 개선되었음을 확인했다.1

이러한 결과를 직관적으로 비교하기 위해 다음 표로 정리할 수 있다.

모델 (Model)mAP@50FPS
YOLOv8n기준78.7
YOLO-DroneMS기준 + 3.6%83.3

이러한 성능 향상은 제3장에서 분석한 아키텍처 개선점들과 직접적으로 연결된다. mAP의 향상은 주로 WIoUv3 손실 함수가 소형 객체에 대한 학습을 강화하고, SPPF-LSKA 모듈이 복잡한 배경 속에서 객체의 형상을 더 잘 포착한 결과로 분석된다. 동시에 FPS가 증가한 것은 백본에 통합된 iRMB-DRB와 같은 경량화 블록과 DySample의 효율적인 구조 덕분으로, 정확도 향상을 위해 무조건적인 연산량 증가를 택하지 않은 설계의 우수성을 보여준다.

관련 연구와의 비교

드론 객체 탐지를 위해 제안된 다른 YOLO 기반 모델들, 예를 들어 효율적인 다중 스케일 특징 강화를 목표로 한 EMFE-YOLO 7, 움직임 정보를 활용하는 YOLOMG 20, ConvNeXt 백본을 사용한 YOLO-Drone 21 등과 비교했을 때, YOLO-DroneMS는 형상 중심의 어텐션(LSKA), 동적 업샘플링(DySample), 그리고 예측 품질 기반의 동적 손실 함수(WIoUv3)라는 독창적인 조합을 통해 문제에 접근했다. 이는 드론 비전의 복합적인 난제들을 해결하기 위해 시스템의 여러 부분을 상호보완적으로 개선하는 총체적 접근법의 유효성을 입증한다.

제5장: 활용 및 구현 가이드

YOLO-DroneMS의 우수한 성능은 이론적 성과를 넘어 다양한 실제 산업 현장에서 실용적인 가치를 창출할 잠재력을 지닌다. 특히 이 모델의 높은 정확도와 실시간 처리 능력의 균형은 자원이 제한된 엣지 디바이스(edge device)에서의 활용 가능성을 시사한다.

주요 응용 분야

  • 정밀 농업 (Precision Agriculture): 광활한 농경지를 드론으로 촬영하며 특정 작물의 성장 상태, 수분 스트레스, 혹은 병충해 감염 여부를 픽셀 단위로 정밀하게 탐지하여 수확량을 극대화하고 자원 낭비를 최소화할 수 있다.2

  • 군중 분석 및 보안 감시 (Crowd Analysis & Surveillance): 대규모 행사나 도심 지역에서 군중의 밀집도를 분석하고, 특정 인물이나 이상 행동(예: 폭력, 쓰러짐)을 실시간으로 탐지하여 신속한 대응을 가능하게 한다.3

  • 인프라 점검 (Infrastructure Inspection): 사람이 접근하기 어려운 교량, 송전탑, 풍력 터빈, 건물 외벽 등의 미세한 균열, 부식, 볼트 풀림과 같은 결함을 자동으로 탐지하여 유지보수 비용과 안전사고 위험을 줄일 수 있다.1

  • 재난 대응 및 수색 구조 (Disaster Response & Search/Rescue): 지진, 홍수, 산불 등 광범위한 재난 지역에서 실종자를 소형 객체로 신속하게 탐지하여 골든타임 내 구조 확률을 높인다.2

구현 파이프라인

자율 드론이 실시간으로 임무를 수행하기 위해서는 영상 데이터를 지상으로 전송하여 처리하는 것이 아니라, 드론에 탑재된 임베디드 프로세서, 즉 ’엣지’에서 직접 AI 연산을 수행해야 한다.2 YOLO-DroneMS의 높은 효율성은 이러한 ‘온디바이스 AI(On-device AI)’ 구현에 매우 적합하다.

  • 프레임워크: Ultralytics YOLO 프레임워크는 모델 학습, 검증, 벤치마킹, 배포를 위한 통합된 환경을 제공하여 개발 과정을 크게 단축시킨다.16

  • 학습: 사용자는 자신만의 드론 이미지 데이터셋을 구축한 후, Ultralytics 프레임워크의 yolo train 명령어를 사용하여 YOLO-DroneMS 아키텍처를 구현한 모델을 손쉽게 학습시킬 수 있다.

Bash

# 커스텀 데이터셋(my_drone_dataset.yaml)으로 모델 학습 예시
yolo detect train data=my_drone_dataset.yaml model=yolo_dronems.pt epochs=100 imgsz=640

17

  • 추론 및 배포: 학습된 모델(.pt 파일)은 실시간 비디오 스트림에 적용하여 객체 탐지 및 추적을 수행할 수 있다. 추론 속도를 극대화하기 위해, 모델을 ONNX(CPU 최적화)나 TensorRT(NVIDIA GPU 최적화) 형식으로 내보내(export) 엣지 디바이스에 배포하는 것이 권장된다.19

성공적인 시스템 구축을 위한 제언

  • 데이터셋의 중요성: 모델의 성능은 결국 데이터의 질과 양에 의해 결정된다. 성공적인 드론 탐지 시스템을 구축하기 위해서는 다양한 고도, 각도, 조명, 날씨 조건에서 수집된 고품질의 드론 특화 데이터셋을 확보하는 것이 무엇보다 중요하다.2 Kaggle, Roboflow 등에서 제공되는 공개 데이터셋을 활용하거나, 직접 데이터를 수집하여 정밀하게 주석(annotation)을 다는 노력이 필요하다.9

  • 데이터 증강 (Data Augmentation): 드론 이미지는 시점과 환경이 매우 다양하므로, 모델의 강인함(robustness)을 높이기 위해 데이터 증강 기법을 적극적으로 활용해야 한다. YOLOv8에 내장된 Mosaic, MixUp, 색상 변환(HSV jitter)과 같은 강력한 증강 기법들은 제한된 데이터셋으로도 모델이 다양한 변화에 효과적으로 대응하도록 돕는다.23

결론적으로, YOLO-DroneMS의 실용적 가치는 단순히 더 나은 탐지기를 제공하는 것을 넘어, 정확도와 효율성의 절묘한 균형을 통해 실제 드론에 탑재되어 자율적으로 판단하고 행동하는 ’지능형 에이전트(Intelligent Agent)’의 구현 가능성을 한 단계 앞당겼다는 데 있다.

결론: 다중 스케일 문제 해결을 위한 정교한 접근

YOLO-DroneMS는 드론 비전이 직면한 핵심 난제, 특히 다중 스케일 및 소형 객체 탐지 문제를 해결하기 위해 YOLOv8n 아키텍처를 정교하게 개선한 모델이다. 본 보고서에서 분석한 바와 같이, 이 모델의 성공은 여러 혁신적인 기술 요소들의 유기적인 결합에 기인한다.

  • 핵심 기여 요약:

  • SPPF-LSKA: 대형 커널 어텐션을 통해 객체의 표면적 질감이 아닌 본질적인 ’형상’에 집중함으로써 복잡한 배경 속에서의 탐지 강인성을 확보했다.

  • ASF-DySample: 어텐션 기반의 특징 가중치 부여와 학습 가능한 동적 업샘플링을 통해 서로 다른 스케일의 특징을 지능적으로 융합했다.

  • WIoUv3 손실 함수: 예측 품질에 따라 손실 가중치를 동적으로 조절하여, 기존 IoU 기반 손실 함수가 가진 소형 객체에 대한 편향성을 효과적으로 완화했다.

이러한 개선점들은 단순히 개별 모듈의 성능을 높이는 것을 넘어, 드론 이미지의 동적이고 예측 불가능한 특성에 대응하기 위해 모델 아키텍처 자체에 ’적응성’과 ’동성’을 부여했다는 공통된 철학을 공유한다. 이는 특정 도메인의 문제를 깊이 이해하고, 그 근본 원인을 해결하기 위해 시스템의 여러 부분을 체계적으로 개선하는 **‘설계 지향적 접근(Design-Oriented Approach)’**의 성공 사례라 할 수 있다.

미래 전망

YOLO-DroneMS는 드론 객체 탐지 기술의 중요한 이정표이지만, 이 분야는 앞으로도 계속해서 진화할 것이다. 향후 연구는 다음과 같은 방향으로 나아갈 것으로 전망된다.

  • 초경량화 및 양자화: 더 제한된 연산 자원을 가진 초소형 드론이나 엣지 디바이스에 탑재하기 위해, 모델의 파라미터 수를 줄이는 경량화 기술과 부동소수점 연산을 정수 연산으로 변환하는 양자화(quantization) 기술이 더욱 중요해질 것이다.19

  • 실시간 추적과의 결합: 단일 프레임에서의 탐지를 넘어, ByteTrack이나 DeepSORT와 같은 효율적인 추적 알고리즘과 결합하여 다중 객체를 시간의 흐름에 따라 안정적으로 추적하는 통합 시스템으로 발전할 것이다.23

  • 개방형 어휘 탐지 (Open-Vocabulary Object Detection): 사전에 정의된 고정된 클래스 목록을 넘어서, 사용자가 자연어 텍스트로 “붉은 지붕을 가진 집“이나 “추락한 드론“과 같이 새로운 객체를 묘사하면 이를 즉시 탐지해내는 기술로 확장될 것이다.6

이러한 기술적 진보들이 결합될 때, 드론은 단순한 데이터 수집 도구를 넘어, 스스로 환경을 인지하고, 판단하며, 임무를 수행하는 완전한 자율 시스템으로 진화하게 될 것이다. YOLO-DroneMS는 그 미래를 향한 의미 있는 발걸음이라 평가할 수 있다.

참고 자료

  1. YOLO-DroneMS: Multi-Scale Object Detection Network for Unmanned Aerial Vehicle (UAV) Images - MDPI, 9월 23, 2025에 액세스, https://www.mdpi.com/2504-446X/8/11/609
  2. YOLO-Based UAV Technology: A Review of the Research and Its Applications - MDPI, 9월 23, 2025에 액세스, https://www.mdpi.com/2504-446X/7/3/190
  3. How to Use Drone Imagery for Accurate Object Detection with Deep Learning - UAVSphere, 9월 23, 2025에 액세스, https://www.uavsphere.com/post/how-to-use-drone-imagery-for-accurate-object-detection-with-deep-learning
  4. (PDF) AI-Enabled Object Detection in UAVs: Challenges, Design Choices, and Research Directions - ResearchGate, 9월 23, 2025에 액세스, https://www.researchgate.net/publication/350165151_AI-Enabled_Object_Detection_in_UAVs_Challenges_Design_Choices_and_Research_Directions
  5. A Survey of Object Detection for UAVs Based on Deep Learning - MDPI, 9월 23, 2025에 액세스, https://www.mdpi.com/2072-4292/16/1/149
  6. 1 Introduction - arXiv, 9월 23, 2025에 액세스, https://arxiv.org/html/2507.13359v1
  7. EMFE-YOLO: A Lightweight Small Object Detection Model for UAVs - PMC, 9월 23, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC12390314/
  8. Performance Optimization of YOLO-FEDER FusionNet for Robust Drone Detection in Visually Complex Environments - arXiv, 9월 23, 2025에 액세스, https://arxiv.org/html/2509.14012v1
  9. Introducing a curated dataset for drone detection and a state-of-the-art YOLOv7 model, enabling real-time and accurate identification of drones in complex environments. - GitHub, 9월 23, 2025에 액세스, https://github.com/doguilmak/Drone-Detection-YOLOv7
  10. doguilmak/Drone-Detection-YOLOv8x: This repository provides a dataset and model for real-time drone detection using YOLOv8, contributing to enhanced security and privacy protection. Join us in advancing drone detection technology for safer environments. - GitHub, 9월 23, 2025에 액세스, https://github.com/doguilmak/Drone-Detection-YOLOv8x
  11. YOLO Object Detection Explained: Models, Tools, Use Cases - Lightly AI, 9월 23, 2025에 액세스, https://www.lightly.ai/blog/yolo
  12. A Receptive Field Attention-Guided YOLO Network for Small-Object Detection in UAV Images - PMC, 9월 23, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC11991089/
  13. YOLODrone: improved YOLO architecture for object detection in drone images, 9월 23, 2025에 액세스, https://repository.bilkent.edu.tr/bitstream/11693/77149/1/YOLODrone_Improved_YOLO_Architecture_for_Object_Detection_in_Drone_Images.pdf
  14. Real-Time Object Detection Using YOLO-8 Model: A Drone Based Approach, 9월 23, 2025에 액세스, https://www.researchgate.net/publication/390476011_Real-Time_Object_Detection_Using_YOLO-8_Model_A_Drone_Based_Approach
  15. General Architecture of YOLO algorithm. | Download Scientific Diagram - ResearchGate, 9월 23, 2025에 액세스, https://www.researchgate.net/figure/General-Architecture-of-YOLO-algorithm_fig2_357684232
  16. Ultralytics YOLO - GitHub, 9월 23, 2025에 액세스, https://github.com/ultralytics/ultralytics
  17. VisDrone Dataset - Ultralytics YOLO Docs, 9월 23, 2025에 액세스, https://docs.ultralytics.com/datasets/detect/visdrone/
  18. Performance Metrics Deep Dive - Ultralytics YOLO Docs, 9월 23, 2025에 액세스, https://docs.ultralytics.com/guides/yolo-performance-metrics/
  19. Model Benchmarking with Ultralytics YOLO, 9월 23, 2025에 액세스, https://docs.ultralytics.com/modes/benchmark/
  20. YOLOMG: Vision-based Drone-to-Drone Detection with Appearance and Pixel-Level Motion Fusion - arXiv, 9월 23, 2025에 액세스, https://arxiv.org/html/2503.07115v1
  21. YOLO-Drone: A Scale-Aware Detector for Drone Vision - Chinese Journal of Electronics, 9월 23, 2025에 액세스, https://cje.ejournal.org.cn/article/doi/10.23919/cje.2023.00.254
  22. Build AI-powered drone applications with Ultralytics YOLO11, 9월 23, 2025에 액세스, https://www.ultralytics.com/blog/build-ai-powered-drone-applications-with-ultralytics-yolo11
  23. Drone Detection and Tracking using YOLOv11x - GitHub, 9월 23, 2025에 액세스, https://github.com/doguilmak/Drone-Detection-YOLOv11x
  24. drones-dataset-yolo - Kaggle, 9월 23, 2025에 액세스, https://www.kaggle.com/datasets/monkeyboy999/drones-dataset-yolo
  25. YOLO-based segmented dataset for drone vs. bird detection for deep and machine learning algorithms - PubMed, 9월 23, 2025에 액세스, https://pubmed.ncbi.nlm.nih.gov/37609648/