1315.42 선호도 기반 계획 품질 평가
1. 계획 품질 평가의 개요
PDDL 3.0의 선호도 기능을 활용한 계획 품질 평가는, 경성 목표의 달성 여부(이진 판정)에 더해 연성 선호도의 충족 정도를 정량적으로 측정하여 계획의 우수성을 평가하는 방법이다. 동일한 경성 목표를 달성하는 여러 계획 중에서, 선호도를 더 많이 충족하는 계획이 더 높은 품질로 평가된다.
2. 품질 메트릭의 구성
2.1 선호도 위반 횟수 기반 평가
가장 단순한 형태로, 위반된 선호도의 수를 최소화한다:
(:goal (and
(all_tasks_done)
(preference p1 (robot_at robot1 base))
(preference p2 (>= (battery_level robot1) 30))
(preference p3 (<= (total_distance) 50))
))
(:metric minimize (+
(is-violated p1)
(is-violated p2)
(is-violated p3)
))
이 메트릭에서 모든 선호도는 동일한 가중치(1)를 가진다.
2.2 가중 선호도 평가
선호도의 중요도에 따라 차등 가중치를 부여하여 품질을 평가한다:
(:metric minimize (+
(* 30 (is-violated safety_pref)) ;; 안전: 최고 가중
(* 15 (is-violated efficiency_pref)) ;; 효율: 중간 가중
(* 5 (is-violated comfort_pref)) ;; 편의: 낮은 가중
))
2.3 비용과 선호도의 복합 평가
실제 비용과 선호도 위반 페널티를 합산한 복합 메트릭:
(:metric minimize (+
(total_cost) ;; 실제 비용
(* 20 (is-violated p_return_home)) ;; 기지 복귀 선호
(* 10 (is-violated p_battery_margin)) ;; 배터리 여유 선호
))
이 메트릭에서 플래너는 “비용을 약간 증가시키더라도 선호도를 충족하는 것이 전체 메트릭을 줄이는 데 유리한지“를 판단한다.
3. 품질 수준의 계량화
계획 \pi의 품질 점수를 다음과 같이 정의할 수 있다:
Q(\pi) = 1 - \frac{\sum_{i=1}^{n} w_i \cdot v_i(\pi)}{\sum_{i=1}^{n} w_i}
여기서 w_i는 선호도 p_i의 가중치, v_i(\pi)는 계획 \pi에서 선호도 p_i의 위반 여부(0 또는 1)이다. Q(\pi) = 1이면 모든 선호도가 충족된 최고 품질이고, Q(\pi) = 0이면 모든 선호도가 위반된 최저 품질이다.
4. 다중 계획 비교
동일 문제에 대해 여러 플래너 또는 다른 설정으로 생성된 계획들을 선호도 기반으로 비교할 수 있다:
| 계획 | 비용 | p1 위반 | p2 위반 | p3 위반 | 총 메트릭 |
|---|---|---|---|---|---|
| \pi_1 | 30 | 0 | 0 | 1 | 30 + 0 + 0 + 5 = 35 |
| \pi_2 | 25 | 1 | 0 | 0 | 25 + 30 + 0 + 0 = 55 |
| \pi_3 | 40 | 0 | 0 | 0 | 40 + 0 + 0 + 0 = 40 |
이 비교에서 \pi_1이 가장 낮은 총 메트릭(35)을 가지므로 최우수 계획이다. \pi_2는 비용은 낮지만 안전 선호도 위반으로 높은 페널티를 받았다.
5. 로봇 도메인에서의 품질 평가 적용
5.1 물류 로봇 품질 기준
;; 품질 평가 기준
;; 1. 경성: 모든 배송 완료
;; 2. 선호: 시간 내 배송 (기한 준수)
;; 3. 선호: 연료 효율적 경로
;; 4. 선호: 로봇의 기지 복귀
(:metric minimize (+
(total_fuel_cost)
(* 50 (is-violated on_time_delivery))
(* 20 (is-violated fuel_efficient))
(* 10 (is-violated return_to_depot))
))
5.2 IPC 스타일 품질 평가
IPC에서는 참조 계획(reference plan)의 메트릭 값에 대한 상대 비율로 품질을 평가한다:
\text{IPC\_quality}(\pi) = \frac{\text{metric}(\pi^*)}{\text{metric}(\pi)}
여기서 \pi^*는 최적 계획(또는 최고 성능 계획)이다. 값이 1에 가까울수록 최적에 가까운 품질이다.
6. 설계 시 고려사항
- 선호도의 독립성: 가능하면 선호도 간에 논리적 독립성을 유지하여, 각 선호도의 충족 여부가 다른 선호도에 영향을 미치지 않도록 한다.
- 가중치의 의미 부여: 가중치가 실질적 비용(시간, 에너지 등)에 대응하도록 설정하면 메트릭의 해석이 용이하다.
- 선호도 수의 관리: 과도한 선호도는 메트릭의 복잡도를 높이고 최적화를 어렵게 한다. 핵심적인 품질 기준만을 선호도로 설정한다.
7. 참고 문헌
- Gerevini, A. & Long, D. (2005). “Plan Constraints and Preferences in PDDL3.” Technical Report, University of Brescia.
- Haslum, P., Lipovetzky, N., Magazzeni, D., & Muise, C. (2019). An Introduction to the Planning Domain Definition Language. Morgan & Claypool Publishers.