Booil Jung

객체 인식 모델 성능 평가에 대한 종합 분석 보고서

객체 인식(Object Detection)은 컴퓨터 비전 분야의 핵심적인 과제 중 하나로, 이미지나 비디오 내에 존재하는 특정 객체들의 종류를 분류(Classification)하고, 그 위치를 경계 상자(Bounding Box)로 정확하게 표시(Localization)하는 기술을 포괄한다.1 이는 단순히 이미지 안에 무엇이 있는지를 넘어, ‘어디에’ 있는지를 함께 알려준다는 점에서 단순 이미지 분류와 근본적인 차이를 가진다. 이러한 능력 덕분에 객체 인식 기술은 현대 사회의 다양한 영역에서 혁신을 주도하는 핵심 동력으로 자리매김했다.

자율주행 자동차는 객체 인식 기술의 대표적인 응용 분야로, 도로 위의 다른 차량, 보행자, 교통 신호 등을 실시간으로 정확하게 인식하여 안전한 주행 경로를 계획하고 돌발 상황에 대처하는 데 필수적으로 사용된다.3 의료 영상 분석 분야에서는 자기공명영상(MRI)이나 컴퓨터 단층촬영(CT) 스캔 이미지에서 종양이나 병변의 위치와 크기를 정밀하게 탐지하여 의사의 진단을 보조하고 치료 계획 수립에 기여한다.3 이 외에도 공장 자동화 라인에서의 불량품 검사, 소매점에서의 재고 관리, 보안 시스템에서의 침입자 감지, 스포츠 영상 분석 등 그 활용 범위는 무궁무진하게 확장되고 있다.5

경영학의 대가 피터 드러커(Peter Drucker)는 “측정되는 것이 개선된다(What gets measured gets improved)”라는 통찰을 남겼다.1 이 격언은 객체 인식 모델 개발 과정에도 그대로 적용된다. 모델의 성능을 정량적으로 측정하고 평가하는 과정 없이는 모델의 개선 방향을 설정하거나 그 효과를 검증하는 것이 불가능하다. 신뢰성 있는 성능 평가는 모델 개발의 전 과정에서 나침반과 같은 역할을 수행하며, 다음과 같은 핵심적인 기능을 담당한다.

첫째, 모델 간의 공정한 비교(Benchmarking)를 가능하게 한다. 표준화된 데이터셋과 평가 지표를 통해 연구자들은 새로 개발한 모델의 성능을 기존의 최첨단(State-of-the-Art, SOTA) 모델들과 객관적으로 비교할 수 있으며, 이를 통해 기술의 발전을 가속화할 수 있다.1

둘째, 응용 분야에 최적화된 모델 선택의 기준을 제공한다. 특정 응용 분야에서는 모델의 정확도 외에도 추론 속도, 메모리 사용량 등 다양한 요소가 중요하게 고려된다. 종합적인 성능 평가 지표는 이러한 요구사항에 가장 부합하는 모델을 선택하는 데 필요한 정량적 근거를 제공한다.2

셋째, 모델의 약점을 분석하고 최적화(Optimization) 방향을 제시한다. 정밀도(Precision), 재현율(Recall) 등의 세부 지표를 분석함으로써 모델이 어떤 종류의 오류를 주로 범하는지(예: 객체를 놓치는가, 혹은 배경을 객체로 잘못 탐지하는가) 파악할 수 있다. 이러한 오류 분석은 모델의 구조를 개선하거나 학습 데이터를 보강하는 등 구체적인 개선 전략을 수립하는 데 결정적인 단서를 제공한다.1

본 보고서는 객체 인식 모델의 성능을 평가하는 데 사용되는 다양한 지표와 방법론을 기초적인 개념부터 최신 연구 동향에 이르기까지 체계적으로 정리하고 심층적으로 분석하는 것을 목표로 한다. 각 평가 지표의 이론적 배경과 수학적 정의를 명확히 하고, 그 지표가 가지는 실질적인 의미와 장단점, 그리고 다른 지표와의 관계를 다각적으로 조명할 것이다.

보고서는 다음과 같은 구조로 전개된다.

객체 인식 모델의 성능을 평가하기 위해서는 먼저 평가의 기준이 되는 기본 요소들을 명확히 이해해야 한다. 이는 평가의 전 과정에서 사용되는 공통된 언어이자, 모든 복잡한 지표들의 근간을 이루는 초석이다.

성능 평가는 본질적으로 모델이 만들어낸 ‘예측’과 우리가 정답으로 간주하는 ‘Ground Truth’를 비교하는 과정이다.2

단순 분류 문제에서 사용되는 혼동 행렬의 개념은 객체 인식 평가의 핵심 구성 요소인 True Positive (TP), False Positive (FP), False Negative (FN)를 이해하는 데 기초를 제공한다. 하지만 객체 인식에서는 ‘위치’라는 차원이 추가되기 때문에 이들의 정의가 더 복잡해진다.1

이처럼 객체 인식에서의 TP, FP, FN 정의는 단순한 이진 분류와 근본적으로 다르다. 이는 ‘분류(Classification)’와 ‘위치(Localization)’라는 두 가지 과업이 결합된 평가의 복합성을 내포하기 때문이다. 동일한 모델의 동일한 예측이라도, 평가 기준이 되는 IoU 임계값이 0.5일 때는 TP가 될 수 있지만, 0.75로 더 엄격해지면 FP가 될 수 있다. 이처럼 평가 기준의 동적인 변화 가능성은 객체 인식 평가의 본질적인 특징이며, 이후에 설명할 mAP 지표가 단일 값이 아닌 다양한 IoU 임계값에 대해 계산되는 이유를 설명하는 근본적인 원인이 된다.

주목할 점은 객체 인식 평가에서는 일반적으로 True Negative (TN, 진음성)를 사용하지 않는다는 것이다.2 TN은 ‘모델이 배경을 배경으로 올바르게 판단한 경우’에 해당한다. 하지만 한 이미지 내에는 객체가 없는 무수히 많은 잠재적 위치(배경)가 존재하므로, 이를 모두 TN으로 계산하는 것은 실질적인 의미가 없으며 평가 지표를 왜곡시킬 수 있다. 객체 인식의 목표는 ‘존재하는 객체를 얼마나 잘 찾아내는가’에 맞춰져 있기 때문에, 평가는 존재하는 객체(Ground Truth)를 중심으로 TP, FP, FN을 통해 이루어진다.2

객체 인식은 ‘무엇’을 찾았는지(분류)와 ‘어디서’ 찾았는지(위치)를 모두 평가해야 하는 이중 과업이다. 이 중 위치 예측의 정확성을 정량적으로 측정하는 가장 기본적이고 핵심적인 지표가 바로 Intersection over Union (IoU)이다. IoU는 객체 인식 평가의 근간을 이루며, TP와 FP를 판정하는 기준이 되고, 더 나아가 모델 학습 과정에서 손실 함수로 직접 활용되기도 한다.

IoU는 직관적이고 계산이 간편하여 널리 사용되지만, 몇 가지 명백한 한계를 가지고 있다. 이러한 한계는 IoU를 평가 지표뿐만 아니라 손실 함수로 사용하고자 할 때 더욱 두드러진다.

IoU의 한계를 극복하고, 특히 손실 함수로서의 성능을 개선하기 위해 여러 변형 지표들이 제안되었다. IoU의 진화 과정은 ‘좋은 경계 상자’에 대한 정의를 점점 더 정교하게 수학적으로 모델링하고, 이를 모델 학습 과정에 직접 주입하여 성능을 근본적으로 향상시키려는 노력의 산물이다. 이는 평가 지표가 수동적인 측정 도구에서 능동적인 학습 가이드로 변모했음을 의미한다.

아래 표는 IoU와 그 변형 지표들의 특징을 요약하여 비교한 것이다.

지표 (Metric) 고려 요인 (Factors Considered) 주요 특징 (Key Characteristics)
IoU 겹침 영역 (Overlap Area) 가장 기본적인 위치 정확도 척도. 비겹침 시 그래디언트 소실 문제 발생.
GIoU 겹침 영역 + 전체적인 근접성 (Proximity) 비겹침 문제를 해결하기 위해 두 상자를 감싸는 최소 박스를 도입. 포함 관계 시 IoU로 퇴화.
DIoU 겹침 영역 + 중심점 거리 (Center Point Distance) 중심점 간 거리를 직접 페널티로 사용하여 GIoU보다 빠른 수렴 속도 달성.
CIoU 겹침 영역 + 중심점 거리 + 종횡비 일관성 (Aspect Ratio) 겹침, 거리, 모양 세 가지 요소를 모두 고려하여 가장 빠르고 정확한 회귀 성능 제공.

객체 인식 모델은 객체의 위치뿐만 아니라 클래스도 정확하게 예측해야 한다. 따라서 위치 정확도와 더불어 분류 성능을 평가하는 것이 필수적이다. 이를 위해 전통적인 분류 문제에서 널리 사용되는 정밀도(Precision)와 재현율(Recall) 개념이 객체 인식 평가에도 핵심적으로 사용된다.

정밀도와 재현율은 모델의 예측 결과가 얼마나 신뢰할 수 있는지, 그리고 얼마나 포괄적인지를 서로 다른 관점에서 측정하는 지표다.

예를 들어, 고양이가 화장실을 사용할 때마다 자동으로 물을 내리는 시스템을 개발한다고 가정해보자.27 이 경우, FP(고양이가 없는데 물을 내림)는 물 낭비와 고양이에게 스트레스를 주는 비용을 발생시킨다. 반면, FN(고양이가 사용했는데 물을 안 내림)은 약간의 불편함만 초래할 뿐이다. 따라서 FP로 인한 비용이 FN보다 크므로, 이 시스템은 FP를 최소화하는, 즉 높은

정밀도를 갖도록 최적화되어야 한다.

반대로, 송유관의 파열 징후를 감지하는 시스템의 경우 27, FP(파열이 없는데 경보 발령)는 엔지니어가 현장을 확인하는 약간의 수고를 유발한다. 하지만 FN(실제 파열을 놓침)은 막대한 환경 재앙과 경제적 손실이라는 치명적인 결과를 초래한다. 이 경우, FN으로 인한 비용이 FP보다 압도적으로 크므로, 시스템은 FN을 최소화하는, 즉 높은

재현율을 갖도록 설계되어야 한다. 이처럼 정밀도와 재현율의 선택은 기술적 문제를 넘어, 해당 기술이 적용되는 도메인의 요구사항과 위험 관리의 문제와 직결된다.

정밀도와 재현율은 일반적으로 서로 상충 관계(trade-off)에 있다.5 즉, 하나의 지표를 높이려고 하면 다른 지표가 낮아지는 경향이 있다. 이 관계의 중심에는 모델의 예측을 필터링하는 데 사용되는 신뢰도 임계값(confidence threshold)이 있다.

이러한 상충 관계 때문에 모델의 성능을 단 하나의 정밀도 또는 재현율 값으로 평가하는 것은 불완전하다. 모델의 전반적인 성능을 이해하기 위해서는 모든 가능한 임계값에 대한 정밀도와 재현율의 변화를 함께 살펴보아야 한다.

정밀도와 재현율의 상충 관계 속에서 두 지표의 균형을 고려한 단일 평가 지표가 필요할 때 F1 점수가 유용하게 사용된다.

정밀도-재현율 곡선은 모델의 성능을 다각적으로 보여주지만, 여러 모델을 비교하거나 단일 모델의 성능을 간결하게 보고하기 위해서는 이 곡선을 대표하는 단일 숫자 값이 필요하다. 이를 위해 등장한 것이 평균 정밀도(Average Precision, AP)이며, 이를 여러 클래스에 대해 확장한 것이 평균 AP(mean Average Precision, mAP)이다. mAP는 오늘날 객체 인식 모델의 성능을 평가하는 가장 표준적이고 핵심적인 지표로 자리 잡고 있다.

mAP 지표의 발전 과정, 특히 PASCAL VOC의 mAP@.5에서 COCO의 mAP@[.5:.95]로의 전환은 객체 탐지 연구 커뮤니티가 ‘좋은 탐지’에 대한 기준을 어떻게 점진적으로 상향 조정해왔는지를 보여주는 역사적 기록이다. 초기에는 객체의 존재를 탐지하는 것 자체에 중점을 두었기 때문에 IoU 0.5라는 기준은 합리적이었다.26 그러나 딥러닝 기반 모델들의 성능이 비약적으로 발전하면서, 단순히 객체를 ‘찾는 것’을 넘어 ‘얼마나 더 정밀하게 위치를 특정하는가’가 새로운 경쟁의 초점이 되었다. mAP@.5만으로는 IoU가 0.6인 모델과 0.9인 모델의 성능 차이를 변별하기 어려웠고, 이는 더 정밀한 평가 기준의 필요성으로 이어졌다.31 COCO의 mAP@[.5:.95]는 이러한 요구에 부응하여, 마치 높이뛰기 경기에서 바(bar)의 높이를 계속 올려가며 선수의 한계를 시험하듯, 점진적으로 더 높은 IoU 임계값을 요구함으로써 모델의 위치 정확도 성능을 세밀하게 평가한다.11 이 지표의 도입은 객체 탐지 기술의 성숙을 상징하며, 이제 커뮤니티가 실제 응용(예: 자율주행)에 필수적인 높은 수준의 위치 정밀도(localization precision)를 모델에게 요구하고 있음을 명확히 보여준다.

현대의 객체 인식 모델을 평가할 때, mAP로 대표되는 정확도만으로는 충분하지 않다. 특히 자율주행, 모바일 기기, 엣지 컴퓨팅과 같이 실시간성과 제한된 자원이 중요한 응용 분야에서는 모델의 효율성과 복잡도가 정확도만큼이나 중요한 평가 기준이 된다. 따라서 모델의 추론 속도와 계산적 복잡도를 나타내는 지표들을 함께 고려하는 다각적인 평가가 필수적이다.

추론 속도 지표는 모델이 얼마나 빠르게 예측을 수행할 수 있는지를 측정한다.

FPS와 Latency는 역수 관계($FPS \approx 1000 / Latency(ms)$)에 있지만, 평가하는 관점에 차이가 있다. FPS는 시스템의 처리량(throughput)을, Latency는 단일 요청에 대한 응답 시간(response time)을 나타낸다.

실시간 시스템, 특히 안전이 최우선인 자율주행과 같은 분야에서 이 지표들은 매우 중요하다. 자율주행 시스템은 주변 환경의 변화에 즉각적으로 반응해야 하므로, 객체 탐지의 지연 시간은 치명적인 사고로 이어질 수 있다. 일반적으로 자율주행 분야에서는 실시간 처리를 위해 최소 30 FPS 이상이 요구되는 것으로 알려져 있다.4 이상적으로는 차량에 장착된 카메라의 프레임 속도(예: 10~40 FPS)에 맞춰 지연 없이 처리하는 것이 목표이며, 예를 들어 40 FPS 카메라의 경우 프레임 간 시간 간격인 25ms 이내에 처리가 완료되어야 한다.41

모델 복잡도 지표는 모델의 규모와 계산 요구량을 나타내며, 이는 하드웨어 제약 조건과 밀접한 관련이 있다.

모델의 효율성을 평가할 때, FLOPs는 유용한 지표지만 맹신해서는 안 된다. 이론적인 계산량인 FLOPs와 실제 하드웨어에서 측정되는 Latency 사이에는 종종 상당한 괴리가 존재하기 때문이다. 이 간극을 이해하는 것은 실제 환경에 모델을 배포(deploy)할 때 매우 중요하다.23

연구 단계에서 개발자들은 mAP를 높이면서도 FLOPs를 낮추는 것을 목표로 새로운 아키텍처를 설계한다. 이는 하드웨어에 구애받지 않고 모델의 근본적인 계산 효율성을 보여주기 때문이다.42 그러나 실제 제품에 모델을 탑재하는 배포 단계에서는 이론적인 FLOPs보다 사용자가 체감하는 ‘응답 속도’, 즉 실제 Latency가 훨씬 중요하다.23

FLOPs가 낮은 모델이 특정 하드웨어에서 오히려 FLOPs가 높은 모델보다 느린 역설적인 현상이 발생할 수 있다. 이 간극은 다음과 같은 다양한 ‘숨겨진 변수’들에 의해 발생한다.

결론적으로, 모델 효율성 평가는 ‘정확도-속도 상충관계(Accuracy-Speed Trade-off)’라는 다차원적인 최적화 문제다. 이 문제에서 FLOPs는 이론적 계산량이라는 중요한 한 축을 보여주는 유용한 지표지만, 실제 배포 환경에서는 Latency라는 최종 결과에 영향을 미치는 수많은 변수가 존재한다. 따라서 진정한 모델 효율성 평가는 연구 단계에서 FLOPs를 통한 아키텍처 수준의 효율성 분석과, 배포 단계에서 목표 하드웨어에서의 직접적인 프로파일링을 통한 실제 Latency 및 병목 구간 분석이 반드시 함께 이루어져야 한다. FLOPs가 모델의 ‘가능성’을 보여준다면, Latency는 그 가능성이 실현된 ‘현실’을 보여준다.

객체 인식 모델의 성능을 객관적으로 비교하고 기술 발전을 측정하기 위해서는 모두가 동의하는 표준화된 규칙, 즉 평가 프로토G콜(evaluation protocol)이 필수적이다. 이 분야에서는 역사적으로 PASCAL VOC와 MS COCO라는 두 개의 대규모 챌린지 및 데이터셋이 표준 프로토콜의 발전을 이끌어왔다. 두 프로토콜은 단순히 데이터셋의 크기 차이를 넘어, 객체 인식 문제를 바라보는 ‘철학’의 차이를 반영하며, 이는 평가 방식의 설계에 그대로 드러난다.

표준화된 평가 프로토콜은 서로 다른 모델의 성능을 동일한 잣대로 공정하게 비교할 수 있게 해주는 필수적인 장치다. 어떤 프로토콜을 사용하느냐에 따라 모델 성능에 대한 평가가 달라질 수 있으므로, 결과를 해석할 때는 어떤 프로토콜 하에서 측정된 값인지를 명확히 인지해야 한다.

PASCAL VOC의 mAP@.5는 모델의 전반적인 탐지 능력을 평가하는 데 중점을 두는 반면, COCO의 AP@[.5:.95]는 높은 수준의 위치 정확도를 달성하는 능력을 훨씬 더 중요하게 평가한다. 따라서 한 모델이 mAP@.5에서는 다른 모델보다 우수하지만, AP@[.5:.95]에서는 뒤처지는 경우가 발생할 수 있다. 이는 전자의 모델이 객체를 잘 찾아내지만 위치는 다소 부정확하게 예측하는 경향이 있고, 후자의 모델은 일부 객체를 놓치더라도 일단 찾은 객체의 위치는 매우 정밀하게 예측하는 특성이 있음을 시사한다.

연구 동향의 관점에서 볼 때, COCO 프로토콜의 등장은 객체 탐지 기술이 높은 수준의 위치 정확도를 요구하는 방향으로 발전하고 있음을 명확히 보여준다. 오늘날 발표되는 대부분의 새로운 모델들은 COCO 데이터셋에서의 성능을 기준으로 그 우수성을 입증하며, AP@[.5:.95]는 모델의 종합적인 성능을 가늠하는 가장 중요한 척도로 받아들여지고 있다.26

연구자나 개발자가 자신의 모델을 어떤 데이터셋으로 평가할지 선택하는 것은, 단순히 벤치마크 점수를 얻는 행위를 넘어, 자신의 모델이 어떤 종류의 ‘지능’을 갖추기를 원하는지에 대한 철학적 선택과 같다. VOC는 강건한 ‘인식기’를, COCO는 정교한 ‘장면 분석기’를 만드는 것을 목표로 한다고 비유할 수 있다. 아래 표는 두 표준 프로토콜의 핵심적인 차이점을 요약한 것이다.

평가 항목 (Evaluation Item) PASCAL VOC MS COCO
발표 연도 2005-2012 2014-현재
클래스 수 20개 80개 (Things) + 91개 (Stuff)
이미지/인스턴스 수 ~1.1만 장 / ~2.7만 개 ~33만 장 / ~150만 개
주요 평가지표 mAP AP (실질적으로 mAP)
IoU 임계값 단일 임계값: 0.5 다중 임계값: 0.5 ~ 0.95 (0.05 간격)
객체 크기별 평가 없음 있음: Small, Medium, Large
주요 철학 분류 중심의 인식 (Recognition-centric) 문맥과 위치 중심의 이해 (Context-centric)

mAP는 모델의 전반적인 성능을 하나의 편리한 숫자로 요약해주지만, 그 이면의 복잡한 정보를 압축하는 과정에서 중요한 세부 사항을 놓치게 된다. mAP 점수가 낮은 이유가 무엇인지, 모델이 주로 어떤 종류의 실수를 저지르는지에 대한 구체적인 정보를 제공하지 못한다.56 예를 들어, 두 모델이 동일한 mAP 점수를 기록했더라도, 한 모델은 객체의 위치를 잘 못 잡는 ‘위치 오류’가 주된 문제일 수 있고, 다른 모델은 배경을 객체로 잘못 탐지하는 ‘배경 오탐’이 문제일 수 있다.59 모델을 실질적으로 개선하기 위해서는 이러한 실패의 근본 원인을 진단하는 과정이 필수적이다.

이러한 필요성에 따라, mAP를 넘어서 모델의 오류를 체계적으로 분석하고 정량화하는 심층 오류 분석 방법론들이 등장했다. 이는 객체 탐지 연구의 패러다임을 단순히 ‘성능 경쟁’에서 ‘과학적 분석과 디버깅’으로 전환시키는 중요한 흐름이다. 이 접근법은 모델을 더 이상 블랙박스로 취급하지 않고, 그 내부의 실패 메커니즘을 이해하고 체계적으로 개선하려는 성숙한 공학적 접근을 반영한다.

mAP와 같은 단일 종합 지표는 다음과 같은 한계를 가진다.

따라서 모델의 약점을 정확히 진단하고, 한정된 자원을 가장 효과적인 개선 방향에 집중시키기 위해서는 체계적인 오류 분석이 반드시 필요하다.1

오류 유형 (Error Type) 약어 (Abbr.) 정의 (Definition)
Classification Error Cls 위치는 정확하지만(IoU ≥ 0.5), 클래스를 잘못 예측한 경우.
Localization Error Loc 클래스는 맞지만, 위치가 부정확한 경우(0.1 ≤ IoU < 0.5).
Both Cls & Loc Error Both 클래스도 틀리고, 위치도 부정확한 경우.
Duplicate Detection Error Dup 올바른 탐지지만, 이미 더 높은 점수의 예측이 해당 Ground Truth에 매칭된 중복 탐지.
Background Error Bkg 배경을 객체로 잘못 탐지한 경우(모든 GT와의 IoU < 0.1).
Missed GT Error Miss 아예 탐지되지 않은 Ground Truth 객체.

이러한 심층 오류 분석 도구들은 모델 개선을 위한 구체적인 ‘처방’을 내리는 데 활용될 수 있다. 이는 ‘추측 기반의 튜닝’을 ‘데이터 기반의 체계적인 디버깅’으로 전환시키는 과학적인 개선 사이클을 가능하게 한다.

이처럼 심층 오류 분석은 모델의 성능을 단순히 하나의 숫자로 평가하는 것을 넘어, 성능 저하의 원인을 구체적으로 진단하고, 그에 맞는 효과적인 해결책을 제시함으로써 모델 개발 과정을 과학적이고 체계적으로 이끌어 나가는 핵심적인 역할을 수행한다.

객체 인식 모델의 성능 평가는 기술의 발전과 함께 끊임없이 진화해왔다. 초기의 평가는 IoU, 정밀도, 재현율과 같은 기본적인 지표에서 시작하여, 이들을 종합적으로 나타내는 AP와 mAP로 발전했다. 평가의 표준을 제시한 PASCAL VOC 챌린지는 mAP@.5라는 단일 IoU 임계값 기반의 평가 방식을 정립하며 초기 연구를 선도했다. 이후, 더 복잡하고 현실적인 시나리오를 담은 MS COCO 데이터셋의 등장은 평가의 패러다임을 한 단계 끌어올렸다. COCO는 mAP@[.5:.95]라는 다중 IoU 임계값과 객체 크기별 평가 방식을 도입함으로써, 모델의 위치 정확도와 다양한 스케일에 대한 강건성을 더욱 엄격하고 종합적으로 평가하는 새로운 표준을 제시했다.

현대에 이르러, mAP만으로는 모델의 가치를 온전히 평가할 수 없다는 인식이 확산되었다. 특히 실제 시스템에 모델을 배포하는 관점에서는 정확도와 함께 실용성을 평가하는 것이 필수적이다. 이에 따라, 모델의 추론 속도를 나타내는 FPS와 Latency, 그리고 계산 복잡도와 모델 크기를 나타내는 FLOPs와 파라미터 수를 함께 고려하는 다각적인 평가 방식이 표준으로 자리 잡고 있다. 이는 모델의 이론적 성능뿐만 아니라, 제한된 하드웨어 자원과 실시간 요구사항 속에서의 실제적인 효율성까지 종합적으로 평가하려는 시도다.

최근에는 mAP라는 단일 점수 뒤에 숨겨진 모델의 구체적인 실패 원인을 파악하려는 노력이 강조되고 있다. LRP, TIDE와 같은 심층 오류 분석 방법론의 등장은 이러한 흐름을 대표한다. 이들 도구는 모델의 오류를 위치, 분류, 배경 오탐 등 다양한 유형으로 분해하고 각 오류의 영향을 정량화함으로써, 개발자가 모델의 약점을 명확히 진단하고 데이터 기반의 체계적인 개선 전략을 수립할 수 있도록 돕는다. 이는 모델 개발 과정을 ‘성능 경쟁’에서 ‘과학적 디버깅’의 차원으로 격상시키는 중요한 패러다임 전환이다.

다양한 평가 지표 중에서 어떤 것을 선택하고 집중해야 하는지는 당면한 과제와 목표에 따라 달라진다. 다음은 상황별 최적 지표 선택을 위한 가이드라인이다.

객체 인식 성능 평가 방법론은 앞으로도 기술과 응용의 요구에 맞춰 계속해서 발전할 것이다. 미래의 평가 방법론은 더욱 세분화되고 특정 도메인에 특화된 형태로 진화할 것으로 전망된다. 예를 들어, 안전이 중요한(safety-critical) 자율주행 분야에서는 단순히 FP/FN을 계산하는 것을 넘어, ‘보행자를 차량으로 오인하는 오류’와 ‘보행자를 완전히 놓치는 오류’에 서로 다른 위험도 가중치를 부여하여 평가하는 방식이 도입될 수 있다. 또한, 악천후, 야간, 센서 노이즈 등 특정 환경에 대한 모델의 강건성(robustness)을 정량적으로 측정하는 지표나, 특정 인구 집단에 대한 편향성을 평가하는 공정성(fairness) 지표의 중요성도 더욱 커질 것이다. 이처럼, 성능 평가는 앞으로도 객체 인식 기술의 신뢰성을 담보하고 올바른 발전 방향을 제시하는 선도적인 역할을 계속해서 수행할 것이다.

  1. Key Object Detection Metrics for Computer Vision - Roboflow Blog, 8월 15, 2025에 액세스, https://blog.roboflow.com/object-detection-metrics/
  2. Object Detection: Key Metrics for Computer Vision Performance - Label Your Data, 8월 15, 2025에 액세스, https://labelyourdata.com/articles/object-detection-metrics
  3. Intersection over Union (IoU) Explained - Ultralytics, 8월 15, 2025에 액세스, https://www.ultralytics.com/glossary/intersection-over-union-iou
  4. Adaptive Real-Time Object Detection for Autonomous Driving Systems - MDPI, 8월 15, 2025에 액세스, https://www.mdpi.com/2313-433X/8/4/106
  5. Precision vs. Recall - Full Guide to Understanding Model Output, 8월 15, 2025에 액세스, https://viso.ai/computer-vision/precision-recall/
  6. ROMA: Run-Time Object Detection To Maximize Real-Time Accuracy, 8월 15, 2025에 액세스, https://research-portal.st-andrews.ac.uk/files/283409783/Lee_2023_IEEE_CVF_ROMA_AAM.pdf
  7. Mean Average Precision in Object Detection : A Comprehensive Guide - Encord, 8월 15, 2025에 액세스, https://encord.com/blog/mean-average-precision-object-detection/
  8. Performance Metrics Deep Dive - Ultralytics YOLO Docs, 8월 15, 2025에 액세스, https://docs.ultralytics.com/guides/yolo-performance-metrics/
  9. The Complete Guide to Object Detection Evaluation Metrics: From IoU to mAP and More by Prathamesh Amrutkar Medium, 8월 15, 2025에 액세스, https://medium.com/@prathameshamrutkar3/the-complete-guide-to-object-detection-evaluation-metrics-from-iou-to-map-and-more-1a23c0ea3c9d
  10. Checklist to Define the Identification of TP, FP, and FN Object Detections in Automated Driving - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2308.07106
  11. Evaluation Metrics for Object detection algorithms by Vijay Dubey …, 8월 15, 2025에 액세스, https://medium.com/@vijayshankerdubey550/evaluation-metrics-for-object-detection-algorithms-b0d6489879f3
  12. Object-Detection-Metrics/README.md at master / rafaelpadilla …, 8월 15, 2025에 액세스, https://github.com/rafaelpadilla/Object-Detection-Metrics/blob/master/README.md
  13. mAP in Object Detection: Mean Average Precision Explained - Roboflow Blog, 8월 15, 2025에 액세스, https://blog.roboflow.com/mean-average-precision/
  14. Generalized Intersection over Union, 8월 15, 2025에 액세스, https://giou.stanford.edu/
  15. viso.ai, 8월 15, 2025에 액세스, https://viso.ai/computer-vision/intersection-over-union-iou/#:~:text=We%20compute%20the%20IoU%20by,and%20ground%20truth%20bounding%20boxes.
  16. Intersection over Union (IoU): Definition, Calculation, Code - V7 Labs, 8월 15, 2025에 액세스, https://www.v7labs.com/blog/intersection-over-union-guide
  17. Generalized Intersection over Union: A Metric and A Loss for …, 8월 15, 2025에 액세스, https://arxiv.org/abs/1902.09630
  18. GIoU, CIoU and DIoU: Variants of IoU and how they are better compared to IoU by Abhishek Jain Medium, 8월 15, 2025에 액세스, https://medium.com/@abhishekjainindore24/giou-ciou-and-diou-variants-of-iou-and-how-they-are-better-compared-to-iou-4610a015643a
  19. Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/331371000_Generalized_Intersection_over_Union_A_Metric_and_A_Loss_for_Bounding_Box_Regression
  20. Distance-IoU Loss: Faster and Better Learning for Bounding … - AAAI, 8월 15, 2025에 액세스, https://cdn.aaai.org/ojs/6999/6999-13-10228-1-10-20200525.pdf
  21. Illustration of the limitations of IoU. A is the ground truth bounding… Download Scientific Diagram - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/figure/llustration-of-the-limitations-of-IoU-A-is-the-ground-truth-bounding-box-B-and-C-are_fig1_359451865
  22. NGIoU Loss: Generalized Intersection over Union Loss Based on a New Bounding Box Regression - MDPI, 8월 15, 2025에 액세스, https://www.mdpi.com/2076-3417/12/24/12785
  23. Latency Estimation Tool and Investigation of Neural Networks …, 8월 15, 2025에 액세스, https://www.mdpi.com/2073-431X/10/8/104
  24. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/337386850_Distance-IoU_Loss_Faster_and_Better_Learning_for_Bounding_Box_Regression
  25. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/342308234_Distance-IoU_Loss_Faster_and_Better_Learning_for_Bounding_Box_Regression
  26. mAP (mean Average Precision) for Object Detection by Jonathan …, 8월 15, 2025에 액세스, https://jonathan-hui.medium.com/map-mean-average-precision-for-object-detection-45c121a31173
  27. Precision and Recall in Machine Learning - Roboflow Blog, 8월 15, 2025에 액세스, https://blog.roboflow.com/precision-and-recall/
  28. How Compute Accuracy For Object Detection works-ArcGIS Pro Documentation, 8월 15, 2025에 액세스, https://pro.arcgis.com/en/pro-app/latest/tool-reference/image-analyst/how-compute-accuracy-for-object-detection-works.htm
  29. Mean Average Precision (mAP): A Complete Guide - Kili Technology, 8월 15, 2025에 액세스, https://kili-technology.com/data-labeling/machine-learning/mean-average-precision-map-a-complete-guide
  30. Evaluating Object Detection Models Using Mean Average Precision (mAP) - DigitalOcean, 8월 15, 2025에 액세스, https://www.digitalocean.com/community/tutorials/mean-average-precision
  31. Evaluation metrics for object detection and segmentation: mAP, 8월 15, 2025에 액세스, https://kharshit.github.io/blog/2019/09/20/evaluation-metrics-for-object-detection-and-segmentation
  32. Evaluation Metrics for Object Detection - DebuggerCafe, 8월 15, 2025에 액세스, https://debuggercafe.com/evaluation-metrics-for-object-detection/
  33. average_precision_score - scikit-learn 1.7.1 documentation, 8월 15, 2025에 액세스, https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html
  34. Area under Precision-Recall Curve (AUC of PR-curve) and Average Precision (AP), 8월 15, 2025에 액세스, https://stats.stackexchange.com/questions/157012/area-under-precision-recall-curve-auc-of-pr-curve-and-average-precision-ap
  35. What is Mean Average Precision (MAP) and how does it work Xailient, 8월 15, 2025에 액세스, https://xailient.com/blog/what-is-mean-average-precision-and-how-does-it-work/
  36. Understanding Evaluation parameters for Object Detection Models …, 8월 15, 2025에 액세스, https://medium.com/@nikitamalviya/evaluation-of-object-detection-models-flops-fps-latency-params-size-memory-storage-map-8dc9c7763cfe
  37. computer vision - What does the notation mAP@[.5:.95] mean …, 8월 15, 2025에 액세스, https://datascience.stackexchange.com/questions/16797/what-does-the-notation-map-5-95-mean
  38. Release the mAP5 - Kaggle, 8월 15, 2025에 액세스, https://www.kaggle.com/code/mpwolke/release-the-map5
  39. The Confusing Metrics of AP and mAP for Object Detection / Instance Segmentation, 8월 15, 2025에 액세스, https://yanfengliux.medium.com/the-confusing-metrics-of-ap-and-map-for-object-detection-3113ba0386ef
  40. Real-time Traffic Object Detection for Autonomous Driving - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2402.00128v2
  41. Re-thinking CNN Frameworks for Time-Sensitive Autonomous …, 8월 15, 2025에 액세스, https://www.cs.unc.edu/~anderson/papers/rtas19.pdf
  42. FLOPs: Machine Learning Model Computational Complexity - Ultralytics, 8월 15, 2025에 액세스, https://www.ultralytics.com/glossary/flops
  43. How can I measure time and memory complexity for a deep learning model?, 8월 15, 2025에 액세스, https://datascience.stackexchange.com/questions/104676/how-can-i-measure-time-and-memory-complexity-for-a-deep-learning-model
  44. How are FLOPS impacting LLM development? - Deepchecks, 8월 15, 2025에 액세스, https://www.deepchecks.com/question/flops-impact-on-llm-development/
  45. Mean Average Precision (mAP) in Object Detection - Learn OpenCV, 8월 15, 2025에 액세스, https://learnopencv.com/mean-average-precision-map-object-detection-model-evaluation-metric/
  46. voc TensorFlow Datasets, 8월 15, 2025에 액세스, https://www.tensorflow.org/datasets/catalog/voc
  47. The Pascal Visual Object Classes (VOC) Challenge - Microsoft Research, 8월 15, 2025에 액세스, https://www.microsoft.com/en-us/research/publication/the-pascal-visual-object-classes-voc-challenge/
  48. merve/pascal-voc / Datasets at Hugging Face, 8월 15, 2025에 액세스, https://huggingface.co/datasets/merve/pascal-voc
  49. PASCAL VOC 2012 DATASET - Kaggle, 8월 15, 2025에 액세스, https://www.kaggle.com/datasets/gopalbhattrai/pascal-voc-2012-dataset
  50. What is the COCO Dataset? What You Need to Know - viso.ai, 8월 15, 2025에 액세스, https://viso.ai/computer-vision/coco-dataset/
  51. COCO - Common Objects in Context, 8월 15, 2025에 액세스, https://cocodataset.org/
  52. Object-Detection-and-Tracking/COCO and Pascal VOC.md at master - GitHub, 8월 15, 2025에 액세스, https://github.com/yehengchen/Object-Detection-and-Tracking/blob/master/COCO%20and%20Pascal%20VOC.md
  53. COCO Dataset - Ultralytics YOLO Docs, 8월 15, 2025에 액세스, https://docs.ultralytics.com/datasets/detect/coco/
  54. [1405.0312] Microsoft COCO: Common Objects in Context - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/abs/1405.0312
  55. models/research/object_detection/g3doc/evaluation_protocols.md at master - GitHub, 8월 15, 2025에 액세스, https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/evaluation_protocols.md
  56. TIDE: A General Toolbox for Identifying Object … - Daniel Bolya, 8월 15, 2025에 액세스, https://dbolya.github.io/tide/paper.pdf
  57. TIDE: A General Toolbox for Identifying Object Detection Errors - European Computer Vision Association, 8월 15, 2025에 액세스, https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123480562.pdf
  58. Diagnosing Error in Object Detectors - Derek Hoiem, 8월 15, 2025에 액세스, https://dhoiem.web.engr.illinois.edu/publications/eccv2012_detanalysis_derek.pdf
  59. cancam/LRP: Localization Recall Precision Performance Metric toolkit for PASCAL-VOC, COCO datasets with Python and MATLAB implementations. - GitHub, 8월 15, 2025에 액세스, https://github.com/cancam/LRP
  60. How to Analyze Failure Modes of Object Detection Models for Debugging - Encord, 8월 15, 2025에 액세스, https://encord.com/blog/error-analysis-object-detection-models/
  61. One Metric to Measure Them All: Localisation Recall Precision (LRP) for Evaluating Visual Detection Tasks Request PDF - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/356480571_One_Metric_to_Measure_them_All_Localisation_Recall_Precision_LRP_for_Evaluating_Visual_Detection_Tasks
  62. Localization Recall Precision (LRP): A New Performance Metric for …, 8월 15, 2025에 액세스, https://arxiv.org/pdf/1807.01696
  63. Object Detection Metrics - AIgents, 8월 15, 2025에 액세스, https://aigents.co/data-science-blog/case-study/object-detection-metrics
  64. TIDE: A General Toolbox for Identifying Object Detection Errors - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/347456308_TIDE_A_General_Toolbox_for_Identifying_Object_Detection_Errors
  65. dbolya/tide: A General Toolbox for Identifying Object Detection Errors - GitHub, 8월 15, 2025에 액세스, https://github.com/dbolya/tide
  66. Road defect detection based on improved YOLOv8s model - PMC - PubMed Central, 8월 15, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC11271263/
  67. Improvement in Error Recognition of Real-Time Football Images by an Object-Augmented AI Model for Similar Objects - MDPI, 8월 15, 2025에 액세스, https://www.mdpi.com/2079-9292/11/23/3876