396.86 학습 기반 자율 에이전트의 임무 수행 평가 지표

1. 평가 지표의 필요성과 설계 원칙

1.1 학습 기반 자율 에이전트 임무 평가의 필요성

강화 학습(Reinforcement Learning, RL), 모방 학습(Imitation Learning), 대규모 언어 모델(LLM) 등 학습 기반 기법을 활용하는 자율 에이전트의 임무 수행 능력을 체계적으로 평가하는 것은 학술 연구와 실용적 배치 양 측면에서 핵심적이다. 학습 기반 에이전트는 전통적인 규칙 기반(rule-based) 에이전트와 달리 확률적(stochastic) 행동 특성을 보이며, 학습 데이터의 분포, 환경의 변이, 하이퍼파라미터 설정 등에 따라 성능이 크게 달라질 수 있다.

체계적인 평가 지표가 없으면 다음과 같은 문제가 발생한다.

연구 간 비교 불가: 서로 다른 연구에서 서로 다른 기준으로 성능을 보고하여 공정한 비교가 어렵다.
실용적 적합성 판단 불가: 실제 운용 환경에서의 성능을 예측할 수 없다.
안전성 검증 부재: 에이전트의 안전 관련 행동 특성을 정량화하지 못한다.
개선 방향 설정 곤란: 에이전트의 어떤 측면이 부족하고 어떤 측면이 충분한지 구분하기 어렵다.

1.2 평가 지표 설계의 원칙

효과적인 임무 수행 평가 지표 체계는 다음의 설계 원칙을 따라야 한다(Dautenhahn, 2007).

포괄성(Comprehensiveness): 임무 수행의 다양한 측면(효율성, 안전성, 견고성, 적응성 등)을 포괄적으로 평가한다.
객관성(Objectivity): 평가 결과가 평가자의 주관에 의존하지 않도록 정량적 지표를 우선한다.
재현성(Reproducibility): 동일한 조건에서 반복 평가 시 일관된 결과를 산출한다.
확장성(Scalability): 단순 과업부터 복합 임무까지 다양한 복잡도 수준에 적용 가능하다.
비교 가능성(Comparability): 서로 다른 에이전트, 알고리즘, 환경 간의 공정한 비교를 가능하게 한다.

2. 핵심 평가 지표의 체계적 분류

학습 기반 자율 에이전트의 임무 수행 평가 지표는 다음과 같은 범주로 체계적으로 분류할 수 있다.

2.1 과업 완수 관련 지표

과업 성공률(Task Success Rate, SR)

가장 기본적인 평가 지표로서, 시도 횟수 대비 성공적으로 완수한 과업의 비율을 나타낸다.

$\text{SR} = \frac{N_{\text{success}}}{N_{\text{total}}} \times 100\%$

여기서 $N_{\text{success}}$ 는 성공한 과업 수, $N_{\text{total}}$ 은 전체 시도 횟수이다. 성공의 판정 기준은 임무 유형에 따라 정확히 정의되어야 한다. 예를 들어, 물체 조작(manipulation) 과업에서는 목표 객체가 최종 위치에 일정 오차 범위 내로 배치되는 것을 성공으로 판정한다.

부분 완수율(Partial Completion Rate, PCR)

복합 임무에서 모든 하위 과업을 완수하지 못하더라도 부분적으로 달성한 정도를 평가하는 지표이다.

$\text{PCR} = \frac{1}{N_{\text{total}}} \sum_{i=1}^{N_{\text{total}}} \frac{n_{\text{completed},i}}{n_{\text{total},i}}$

여기서 $n_{\text{completed},i}$ 는 $i$ 번째 시도에서 완수한 하위 과업 수, $n_{\text{total},i}$ 는 전체 하위 과업 수이다.

목표 조건 만족도(Goal Condition Satisfaction, GCS)

임무 종료 시점에서 목표 조건의 충족 정도를 정량화한다. 다중 목표 조건 $\{g_1, g_2, \ldots, g_k\}$ 가 주어졌을 때:

$\text{GCS} = \frac{1}{k} \sum_{j=1}^{k} \mathbb{1}(g_j \text{ 충족})$

2.2 효율성 관련 지표

임무 완수 시간(Task Completion Time, TCT)

임무 시작부터 완수까지 소요된 시간이다.

$\text{TCT} = t_{\text{end}} - t_{\text{start}}$

정규화된 비교를 위하여, 최적 완수 시간 $T^*$ 대비 비율로 표현하기도 한다.

$\text{Time Efficiency} = \frac{T^*}{\text{TCT}}$

경로 효율(Path Efficiency, PE)

이동 과업에서 실제 이동 경로 길이와 최적 경로 길이의 비율이다.

$\text{PE} = \frac{L_{\text{optimal}}}{L_{\text{actual}}}$

$\text{PE} = 1$ 이면 최적 경로를 따른 것이고, $\text{PE} < 1$ 이면 비효율적 경로를 택한 것이다.

행동 효율(Action Efficiency, AE)

목표 달성을 위해 수행한 행동의 수와 최소 필요 행동 수의 비율이다.

$\text{AE} = \frac{N_{\text{min\_actions}}}{N_{\text{actual\_actions}}}$

불필요한 행동(redundant action)이나 탐색적 행동(exploratory action)이 많을수록 AE 값은 감소한다.

에너지 소비(Energy Consumption)

로봇의 에너지 소비량을 측정하는 지표이다.

$E = \int_{t_{\text{start}}}^{t_{\text{end}}} P(t) \, dt$

여기서 $P(t)$ 는 시각 $t$ 에서의 소비 전력이다. 에너지 효율은 임무 완수를 단위 에너지 소비당 달성도로 정규화하여 표현한다.

2.3 안전성 관련 지표

충돌 횟수(Number of Collisions)

임무 수행 중 로봇이 장애물, 벽, 인간, 다른 로봇 등과 충돌한 횟수를 기록한다.

$N_{\text{collision}} = \sum_{t=0}^{T} \mathbb{1}(\text{collision at } t)$

안전 위반률(Safety Violation Rate, SVR)

사전에 정의된 안전 규칙의 위반 빈도를 측정한다.

$\text{SVR} = \frac{N_{\text{violations}}}{N_{\text{timesteps}}}$

안전 거리 유지율(Safety Distance Compliance Rate)

인간이나 중요 객체와의 최소 안전 거리를 유지한 시간 비율이다.

$\text{SDCR} = \frac{1}{T} \int_{0}^{T} \mathbb{1}(d(t) \geq d_{\text{safe}}) \, dt$

여기서 $d(t)$ 는 시각 $t$ 에서의 최근접 객체까지의 거리, $d_{\text{safe}}$ 는 안전 거리 임계치이다.

2.4 견고성 관련 지표

분포 외 일반화(Out-of-Distribution Generalization)

학습 시 경험하지 못한 환경이나 과업에 대한 성능 유지 능력을 평가한다.

$\text{Gen}_{\text{OOD}} = \frac{\text{SR}_{\text{test\_OOD}}}{\text{SR}_{\text{test\_ID}}}$

여기서 $\text{SR}_{\text{test\_ID}}$ 는 학습 분포 내(in-distribution) 테스트 성공률, $\text{SR}_{\text{test\_OOD}}$ 는 분포 외(out-of-distribution) 테스트 성공률이다.

외란 견고성(Perturbation Robustness)

센서 잡음 증가, 액추에이터 오차, 환경 변화 등의 외란(perturbation)에 대한 성능 저하 정도를 측정한다.

$\text{Robustness}(\delta) = \frac{\text{SR}(\delta)}{\text{SR}(0)}$

여기서 $\delta$ 는 외란의 크기, $\text{SR}(\delta)$ 는 외란 수준 $\delta$ 에서의 과업 성공률이다.

오류 복구율(Error Recovery Rate)

수행 도중 오류가 발생한 후 자율적으로 복구하여 과업을 완수한 비율이다.

$\text{ERR} = \frac{N_{\text{recovered}}}{N_{\text{errors}}}$

2.5 적응성 관련 지표

전이 학습 효율(Transfer Learning Efficiency)

학습된 지식을 새로운 과업이나 환경에 전이할 때의 효율성을 측정한다.

$\text{TE} = \frac{\text{SR}_{\text{transfer}} - \text{SR}_{\text{scratch}}}{\text{SR}_{\text{fine-tuned}} - \text{SR}_{\text{scratch}}}$

여기서 $\text{SR}_{\text{transfer}}$ 는 전이 학습 후 성공률, $\text{SR}_{\text{scratch}}$ 는 무작위 초기화 후 성공률, $\text{SR}_{\text{fine-tuned}}$ 는 대상 과업에서의 전문가 수준 성공률이다.

표본 효율(Sample Efficiency)

목표 성능 수준에 도달하기 위해 필요한 학습 데이터(에피소드, 시간 스텝)의 양을 측정한다. 동일한 성능을 달성하기 위하여 더 적은 데이터를 필요로 하는 에이전트가 더 높은 표본 효율을 갖는다.

$\text{SE}(\text{SR}_{\text{target}}) = \min\{N \mid \text{SR}(N) \geq \text{SR}_{\text{target}}\}$

여기서 $N$ 은 학습 에피소드 수이다.

3. 복합 평가 체계

3.1 다차원 평가 매트릭스

단일 지표만으로는 학습 기반 에이전트의 전체적인 임무 수행 능력을 파악하기 어렵다. 따라서 다차원 평가 매트릭스(multi-dimensional evaluation matrix)를 구성하여 종합적 평가를 수행하는 것이 바람직하다.

평가 차원	주요 지표	가중치 (예시)
과업 완수	SR, PCR, GCS	$w_1 = 0.30$
효율성	TCT, PE, AE, Energy	$w_2 = 0.20$
안전성	$N_{\text{collision}}$ , SVR, SDCR	$w_3 = 0.25$
견고성	$\text{Gen}_{\text{OOD}}$ , Robustness	$w_4 = 0.15$
적응성	TE, SE	$w_5 = 0.10$

가중치 합산에 의한 종합 점수(composite score)는 다음과 같이 산출된다.

$\text{CS} = \sum_{i=1}^{5} w_i \cdot \bar{M}_i$

여기서 $\bar{M}_i$ 는 $i$ 번째 차원의 정규화된 평균 점수이다. 가중치 $w_i$ 는 응용 분야의 특성에 따라 조정된다.

3.2 시간 경과에 따른 성능 프로파일

학습 기반 에이전트의 특성상, 학습 진행에 따른 성능 변화(learning curve)를 기록하고 분석하는 것이 중요하다. 성능 프로파일은 다음의 주요 특성을 포착한다.

초기 성능(Initial Performance): 학습 이전 또는 초기 단계의 기본 성능
학습 속도(Learning Rate): 성능이 향상되는 속도
최종 성능(Asymptotic Performance): 충분한 학습 후의 수렴 성능
성능 안정성(Performance Stability): 학습 과정에서의 성능 변동 폭
저장된 성능(Retained Performance): 학습 중단 후 일정 시간 경과 시의 성능 유지율

4. 벤치마크 환경과 표준화

4.1 주요 벤치마크 환경

학습 기반 에이전트의 임무 수행 능력을 평가하기 위한 주요 벤치마크 환경은 다음과 같다.

벤치마크	도메인	특징
ALFRED	실내 가정 환경	자연어 지시 기반 장기 과업
Habitat	실내 탐색	현실적 3D 환경, 포인트 내비게이션
RLBench	로봇 조작	100개 이상의 조작 과업 모음
BEHAVIOR-1K	일상 활동	1,000개의 일상 과업 정의
Meta-World	로봇 조작	다중 과업 강화 학습
ManiSkill	로봇 조작	다양한 객체, 고사실도 물리 시뮬레이션

이들 벤치마크는 표준화된 과업 정의, 평가 지표, 환경 조건을 제공하여 서로 다른 에이전트 간의 공정한 비교를 가능하게 한다(James et al., 2020).

4.2 시뮬레이션-실제 간극(Sim-to-Real Gap)의 평가

시뮬레이션 환경에서 학습된 에이전트를 실제 로봇에 배포할 때의 성능 격차(sim-to-real gap)를 정량화하는 것도 중요한 평가 차원이다.

$\text{Sim-to-Real Gap} = \frac{\text{SR}_{\text{sim}} - \text{SR}_{\text{real}}}{\text{SR}_{\text{sim}}}$

이 지표가 0에 가까울수록 시뮬레이션에서의 성능이 실제 환경에서도 잘 유지됨을 나타낸다.

5. 참고 문헌

Dautenhahn, K. (2007). “Methodology and Themes of Human-Robot Interaction: A Growing Research Field.” International Journal of Advanced Robotic Systems, 4(1), 103–108.
James, S., Ma, Z., Arrojo, D. R., & Davison, A. J. (2020). “RLBench: The Robot Learning Benchmark.” IEEE Robotics and Automation Letters, 5(2), 3019–3026.
Yu, T., Quillen, D., He, Z., et al. (2020). “Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning.” Proceedings of the Conference on Robot Learning (CoRL).
Shridhar, M., Thomason, J., Gordon, D., et al. (2020). “ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks.” Proceedings of CVPR.
Li, C., et al. (2023). “BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation.” Proceedings of CoRL.

본 절은 로봇공학 서적 Version 0.1에 해당하며, 학습 기반 에이전트 평가 기법의 발전에 따라 지속적으로 갱신될 예정이다.