8.13 센서 융합의 성능 평가 지표
1. 3차원 객체 검출 평가 지표
1.1 평균 정밀도(Average Precision, AP)
평균 정밀도(AP)는 객체 검출 성능을 평가하는 가장 기본적인 지표이다. 검출 결과의 신뢰도(confidence) 임계치를 변화시키며 산출되는 정밀도-재현율(precision-recall) 곡선의 아래 면적으로 정의된다.
\text{AP} = \int_0^1 p(r) \, dr
여기서 p(r)은 재현율 r에서의 정밀도이다. 3차원 객체 검출에서는 검출 결과와 정답(ground truth) 간의 3차원 IoU(Intersection over Union)가 설정된 임계치(예: 0.5 또는 0.7)를 초과하는 경우 참 양성(true positive)으로 판정한다.
8.13.1.2 평균 평균 정밀도(mean Average Precision, mAP)
mAP는 복수 객체 클래스(차량, 보행자, 자전거 등)에 대한 AP의 평균이다.
\text{mAP} = \frac{1}{C} \sum_{c=1}^{C} \text{AP}_c
여기서 C는 클래스 수이다. KITTI(Geiger et al., 2012), nuScenes(Caesar et al., 2020), Waymo Open Dataset(Sun et al., 2020) 등 주요 벤치마크에서 mAP가 주요 순위 지표로 사용된다.
1.2 nuScenes 검출 스코어(NDS)
nuScenes 벤치마크는 mAP 외에 추가적인 오차 지표를 결합한 nuScenes Detection Score(NDS)를 제안하였다.
\text{NDS} = \frac{1}{10} \left[ 5 \cdot \text{mAP} + \sum_{i=1}^{5} (1 - \min(1, \text{mTP}_i)) \right]
여기서 mTP(mean True Positive) 지표는 참 양성 검출에 대한 다섯 가지 오차 요소의 평균이다.
| mTP 지표 | 측정 대상 |
|---|---|
| mATE (mean Average Translation Error) | 위치 오차 (m) |
| mASE (mean Average Scale Error) | 크기 오차 (1 - IoU) |
| mAOE (mean Average Orientation Error) | 방향 오차 (rad) |
| mAVE (mean Average Velocity Error) | 속도 오차 (m/s) |
| mAAE (mean Average Attribute Error) | 속성 오차 (1 - acc) |
NDS는 단순한 검출 여부(AP)를 넘어 검출 결과의 품질(위치, 크기, 방향, 속도 정확도)을 종합적으로 평가한다(Caesar et al., 2020).
8.13.2 BEV 분할 평가 지표
8.13.2.1 교차합 비율(Intersection over Union, IoU)
BEV(Bird’s Eye View) 공간에서의 의미적 분할(semantic segmentation) 성능을 평가하는 지표이다. 각 클래스에 대해 예측 영역과 정답 영역의 IoU를 산출한다.
\text{IoU} = \frac{\vert \text{예측} \cap \text{정답} \vert}{\vert \text{예측} \cup \text{정답} \vert}
평균 IoU(mIoU)는 모든 클래스에 대한 IoU의 평균이다. 주행 가능 영역(drivable area), 차선(lane), 보도(sidewalk) 등의 BEV 분할에 사용된다.
2. 추적 성능 평가 지표
2.1 MOTA(Multi-Object Tracking Accuracy)
MOTA는 다중 객체 추적의 종합적인 정확도를 나타내는 지표로, 미탐(miss), 오탐(false positive), 트랙 교환(identity switch)의 비율을 반영한다.
\text{MOTA} = 1 - \frac{\sum_t (\text{FN}_t + \text{FP}_t + \text{IDSW}_t)}{\sum_t \text{GT}_t}
여기서 \text{FN}_t는 시각 t에서의 미탐 수, \text{FP}_t는 오탐 수, \text{IDSW}_t는 트랙 교환 수, \text{GT}_t는 정답 객체 수이다(Bernardin & Stiefelhagen, 2008).
8.13.3.2 AMOTA(Average Multi-Object Tracking Accuracy)
nuScenes 추적 벤치마크에서 사용되는 지표로, 검출 신뢰도 임계치를 변화시키며 산출되는 MOTA 곡선의 평균이다. 검출기의 동작점(operating point)에 대한 의존성을 줄인다.
8.13.3.3 HOTA(Higher Order Tracking Accuracy)
HOTA는 검출 정확도와 연관 정확도를 분리하여 평가하는 지표로, 두 요소의 기하 평균으로 정의된다. 검출과 추적의 성능을 독립적으로 분석할 수 있어, 시스템 성능 향상의 병목을 식별하는 데 유용하다(Luiten et al., 2021).
\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}
여기서 DetA는 검출 정확도, AssA는 연관 정확도이다.
3. 깊이 추정 및 거리 정확도 평가 지표
3.1 절대 상대 오차(Absolute Relative Error)
깊이 추정의 정확도를 평가하는 지표이다.
\text{AbsRel} = \frac{1}{N} \sum_{i=1}^{N} \frac{\vert d_i - d_i^* \vert}{d_i^*}
여기서 d_i는 추정 깊이, d_i^*는 정답 깊이, N은 화소 수이다.
8.13.4.2 RMSE(Root Mean Square Error)
\text{RMSE} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (d_i - d_i^*)^2}
3.2 임계값 정확도(Threshold Accuracy)
추정 깊이와 정답 깊이의 비율이 설정된 임계값 \delta 이내인 화소의 비율이다.
\delta_k = \frac{1}{N} \sum_{i=1}^{N} \left[ \max\left(\frac{d_i}{d_i^*}, \frac{d_i^*}{d_i}\right) < 1.25^k \right], \quad k = 1, 2, 3
8.13.5 거리별 성능 분석
자율주행에서는 거리 범위에 따라 검출 성능이 상이하므로, 거리별(distance-stratified) 성능 분석이 중요하다. 일반적으로 근거리(0–30 m), 중거리(30–50 m), 원거리(50 m 이상)로 구간을 분할하여 AP를 산출한다. LiDAR는 근거리에서 높은 점군 밀도로 우수한 성능을 보이나, 원거리에서 점군 희소성으로 성능이 저하된다. 카메라는 원거리에서도 영상 분해능이 유지되나 깊이 추정 정확도가 저하된다. 융합 시스템의 성능 향상이 주로 어떤 거리 구간에서 발생하는지를 분석하는 것이 설계 개선에 유용하다.
8.13.6 환경 조건별 성능 분석
센서 융합의 핵심 동기 중 하나인 환경 강건성을 검증하기 위해, 주간/야간, 맑음/비/안개 등 환경 조건별로 분리된 성능 평가가 수행된다. nuScenes 데이터셋은 주간과 야간, 맑음과 비 등의 조건이 포함되어 이러한 분석을 지원한다.
8.13.7 연산 효율 평가 지표
8.13.7.1 추론 지연 시간(Inference Latency)
단일 프레임의 처리에 소요되는 시간(ms)이다. 자율주행에서 인지 파이프라인의 종단간 지연은 일반적으로 100 ms 이내가 요구된다.
8.13.7.2 초당 프레임 수(Frames Per Second, FPS)
단위 시간당 처리 가능한 프레임 수이다. 10 FPS 이상의 실시간 처리가 최소 요구사항이다.
8.13.7.3 모델 파라미터 수와 연산량(FLOPs)
모델의 크기와 연산 복잡도를 나타내며, 차량 탑재 연산 하드웨어(예: NVIDIA Orin)에서의 실행 가능성을 평가하는 데 사용된다.
참고문헌
- Bernardin, K., & Stiefelhagen, R. (2008). Evaluating multiple object tracking performance: The CLEAR MOT metrics. EURASIP Journal on Image and Video Processing, 2008, 1–10.
- Caesar, H., Bankiti, V., Lang, A. H., Vora, S., Liong, V. E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., & Beijbom, O. (2020). nuScenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 11621–11631.
- Geiger, A., Lenz, P., & Urtasun, R. (2012). Are we ready for autonomous driving? The KITTI vision benchmark suite. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 3354–3361.
- Luiten, J., Osep, A., Dendorfer, P., Torr, P., Geiger, A., Leal-Taixe, L., & Leibe, B. (2021). HOTA: A higher order metric for evaluating multi-object tracking. International Journal of Computer Vision, 129, 548–578.
- Sun, P., Kretzschmar, H., Dotiwalla, X., Chouard, A., Patnaik, V., Tsui, P., Guo, J., Zhou, Y., Chai, Y., Caine, B., et al. (2020). Scalability in perception for autonomous driving: Waymo Open Dataset. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2446–2454.
버전: v1.0, 2026-04-11