396.33 임무-목표 간 매핑과 유용도(Utility) 함수 설계

1. 서론

로봇 임무 관리에서 임무-목표 간 매핑(mission-to-goal mapping)은 고수준(high-level)의 임무 기술을 구체적이고 정량 가능한 목표(goal)로 변환하는 과정이다. “감시 지역을 탐색하라”, “물품을 배송하라” 등의 추상적 임무 기술은 어떤 지점을 방문하여야 하는지, 어떤 상태를 달성하여야 하는지, 어떤 수준의 성능이 요구되는지 등의 구체적 목표로 분해되고 연결되어야 한다.

유용도(utility) 함수는 임무 목표의 달성 수준을 정량적으로 평가하는 스칼라 함수로, 임무 계획 수립에서 최적화의 목적 함수(objective function) 또는 의사 결정의 평가 기준으로 핵심적인 역할을 수행한다. 본 절에서는 임무-목표 간 매핑의 체계적 방법론, 유용도 함수의 설계 원칙, 다양한 유용도 함수의 형태, 그리고 불확실성 하의 기대 유용도 모델을 기술한다.

2. 임무-목표 간 매핑

2.1 임무와 목표의 관계

임무(mission) $M$ 은 달성하여야 하는 복수의 목표(goal) $\{g_1, g_2, \ldots, g_K\}$ 로 분해된다. 임무-목표 간 매핑 함수 $\Phi$ 는:

$\Phi: M \rightarrow \mathcal{G} = \{g_1, g_2, \ldots, g_K\}$

각 목표 $g_k$ 는 시스템 상태 공간(state space) $\mathcal{S}$ 상의 부분 집합, 시간 논리(temporal logic) 공식, 또는 수치적 성능 지표(performance metric)로 정의된다.

2.2 목표의 유형

상태 목표(state goal): 시스템이 특정 상태에 도달하여야 함을 규정한다:

$g_k^{\text{state}}: \quad \mathbf{s}(T) \in \mathcal{S}_{\text{goal}}^{(k)}$

여기서 $\mathbf{s}(T)$ 는 시점 $T$ 에서의 시스템 상태, $\mathcal{S}_{\text{goal}}^{(k)}$ 는 목표 상태의 집합이다. 예: 로봇이 특정 위치에 도달, 물품이 목적지에 전달.

유지 목표(maintenance goal): 시스템이 특정 조건을 지속적으로 만족하여야 함을 규정한다:

$g_k^{\text{maint}}: \quad \mathbf{s}(t) \in \mathcal{S}_{\text{safe}}^{(k)}, \quad \forall t \in [0, T_{\text{mission}}]$

예: 충돌 없음, 에너지 안전 수준 유지, 통신 연결 유지.

성능 목표(performance goal): 수치적 성능 지표가 요구 수준을 달성하여야 함을 규정한다:

$g_k^{\text{perf}}: \quad J_k(\pi) \geq \eta_k \quad \text{또는} \quad J_k(\pi) \leq \eta_k$

여기서 $J_k(\pi)$ 는 계획 $\pi$ 에 따른 성능 지표(탐색 범위율, 배송 완료율, 임무 소요 시간 등), $\eta_k$ 는 목표 임계값이다.

궤적 목표(trajectory goal): 시간 논리 공식으로 표현되는 시간적 행동 패턴:

$g_k^{\text{traj}}: \quad \pi \models \varphi_k$

여기서 $\varphi_k$ 는 선형 시간 논리(Linear Temporal Logic, LTL) 공식이다. 예: $\Diamond(\text{visit}_{A} \wedge \Diamond \text{visit}_{B})$ 는 “A를 방문한 후 B를 방문하라“를 표현한다.

2.3 매핑의 계층 구조

임무-목표 간 매핑은 계층적(hierarchical) 구조를 가질 수 있다. 상위 목표가 하위 부목표(sub-goal)로 재귀적으로 분해되는 트리 구조를 형성한다:

$g_k \rightarrow \{g_{k,1}, g_{k,2}, \ldots, g_{k,l_k}\}$

이 구조는 AND/OR 트리로 표현된다:

AND 분해: 모든 하위 부목표의 달성이 상위 목표의 달성에 필요하다.
OR 분해: 하위 부목표 중 하나의 달성으로 상위 목표가 달성된다.

AND/OR 트리의 형식적 표현:

$g_k = \bigwedge_{j \in \text{AND}(k)} g_{k,j} \quad \text{또는} \quad g_k = \bigvee_{j \in \text{OR}(k)} g_{k,j}$

3. 유용도(Utility) 함수의 기본 개념

3.1 정의

유용도 함수 $U: \mathcal{O} \rightarrow \mathbb{R}$ 은 임무 결과(outcome) 공간 $\mathcal{O}$ 에서 실수로의 사상(mapping)으로, 각 임무 결과에 대한 의사 결정자(decision maker)의 선호도(preference)를 수량화한다(von Neumann and Morgenstern, 1944). 임무 결과 $o_1$ 이 $o_2$ 보다 선호되면:

$o_1 \succeq o_2 \iff U(o_1) \geq U(o_2)$

유용도 함수의 존재는 합리적 선호 관계가 완전성(completeness), 추이성(transitivity), 연속성(continuity) 등의 공리를 만족하는 경우에 보장된다.

3.2 과업 수준의 유용도 함수

개별 과업 $\tau_i$ 의 수행 결과에 대한 유용도 함수는 과업의 수행 품질, 소요 시간, 자원 소비 등의 함수이다:

$u_i = U_i(\text{quality}_i, t_i, \mathbf{r}_i)$

여기서 $\text{quality}_i$ 는 과업 수행 품질(예: 센서 데이터의 해상도, 배송 정확도), $t_i$ 는 과업 소요 시간, $\mathbf{r}_i$ 는 자원 소비 벡터이다.

3.3 임무 수준의 유용도 함수

전체 임무의 유용도는 개별 과업 유용도의 합성(aggregation)으로 구성된다. 합성의 형태에 따라 다양한 임무 유용도 함수가 설계된다.

4. 유용도 함수의 설계 형태

4.1 가산적(Additive) 유용도 함수

각 목표의 유용도가 독립적일 때, 전체 유용도는 개별 유용도의 가중 합으로 표현된다:

$U(\pi) = \sum_{k=1}^{K} w_k \cdot u_k(\pi)$

여기서 $w_k > 0$ 는 목표 $g_k$ 의 가중치(weight)이며, $\sum_k w_k = 1$ 로 정규화된다. 가중치는 목표의 상대적 중요도를 반영한다.

가산적 유용도 함수는 구조가 단순하고 최적화가 용이하나, 목표 간의 상호 의존성(interaction)을 포착하지 못하는 한계가 있다.

4.2 곱셈적(Multiplicative) 유용도 함수

목표 간에 보완적(complementary) 관계가 있을 때, 곱셈적 형태가 적절하다:

$U(\pi) = \prod_{k=1}^{K} u_k(\pi)^{w_k}$

이는 Cobb-Douglas 형태의 유용도 함수이며, 하나의 목표라도 완전히 실패하면( $u_k = 0$ ) 전체 유용도가 0이 되는 특성을 가진다. 안전이 최우선인 임무에서 적합하다.

4.3 최소값(Min) 유용도 함수

가장 낮은 성과의 목표가 전체 유용도를 결정하는 형태이다:

$U(\pi) = \min_{k} u_k(\pi)$

이는 Rawlsian 공정성(Rawlsian fairness) 원칙에 해당하며, 최악의 목표 달성도를 최대화하는 맥시민(maximin) 전략에 적합하다. 다중 로봇 시스템에서 모든 로봇의 최소 성과를 보장하는 경우 등에 적용된다.

4.4 비선형(Nonlinear) 유용도 함수

목표 간의 복잡한 상호 작용을 반영하기 위하여 비선형 유용도 함수가 사용된다. Choquet 적분(Choquet integral) 기반 유용도 함수는 목표 간의 상호 보완성과 대체성을 동시에 표현할 수 있다:

$U(\pi) = \sum_{k=1}^{K} \left[ u_{(k)}(\pi) - u_{(k-1)}(\pi) \right] \cdot \mu\!\left( \{(k), (k+1), \ldots, (K)\} \right)$

여기서 $u_{(1)} \leq u_{(2)} \leq \ldots \leq u_{(K)}$ 는 개별 유용도의 오름차순 정렬이며, $\mu$ 는 모든 목표 부분 집합에 대하여 정의된 퍼지 측도(fuzzy measure)이다.

4.5 한계 효용 체감(Diminishing Marginal Utility)

실제 임무에서 목표 달성도의 증가에 따른 유용도의 증가율은 체감하는 경우가 많다. 이는 오목(concave) 유용도 함수로 모델링된다:

$u_k(x) = 1 - e^{-\alpha_k x}, \quad \alpha_k > 0$

$u_k(x) = x^{\beta_k}, \quad 0 < \beta_k < 1$

$u_k(x) = \frac{x}{x + \kappa_k}, \quad \kappa_k > 0$

여기서 $x$ 는 목표 달성도(coverage, delivery rate 등)이며, $\alpha_k$ , $\beta_k$ , $\kappa_k$ 는 형상 매개변수이다. 오목 유용도 함수는 자원의 분산 배분(diversification)을 촉진한다.

4.6 임계값 기반 유용도 함수

목표 달성도가 특정 임계값을 초과하면 유용도가 급격히 증가하는 S자 형태(sigmoidal)의 유용도 함수:

$u_k(x) = \frac{1}{1 + e^{-\gamma_k(x - x_k^*)}}$

여기서 $x_k^*$ 는 임계값, $\gamma_k$ 는 전환 기울기이다. 이 형태는 “충분히 좋은(good enough)” 수준을 반영하는 데 적합하다.

5. 유용도 함수의 가중치 결정

5.1 직접 가중치 부여

임무 설계자가 각 목표의 상대적 중요도에 대한 주관적 판단에 기반하여 가중치를 직접 설정하는 방법이다. 단순하나, 목표 수가 증가하면 일관성 유지가 어렵다.

5.2 계층 분석 과정(AHP)

Saaty(1980)의 계층 분석 과정(Analytic Hierarchy Process, AHP)은 목표 간의 쌍별 비교(pairwise comparison)를 통하여 가중치를 체계적으로 도출한다. 비교 행렬 $\mathbf{A} = [a_{ij}]$ 에 대하여:

$a_{ij} = \frac{w_i}{w_j}, \quad a_{ij} > 0, \quad a_{ij} = \frac{1}{a_{ji}}$

가중치 벡터 $\mathbf{w}$ 는 비교 행렬의 주요 고유 벡터(principal eigenvector)로 추정된다:

$\mathbf{A} \mathbf{w} = \lambda_{\max} \mathbf{w}$

일관성 비율(Consistency Ratio, CR)은 $\text{CR} = \text{CI} / \text{RI}$ 로 계산되며, $\text{CR} < 0.1$ 이면 비교의 일관성이 수용 가능한 것으로 판정된다.

5.3 순위 기반 가중치

Rank-Order Centroid(ROC) 방법, Rank-Sum 방법 등 목표의 순위만으로 가중치를 도출하는 간략한 방법:

$w_k^{\text{ROC}} = \frac{1}{K} \sum_{j=k}^{K} \frac{1}{j}, \quad k = 1, 2, \ldots, K$

여기서 $k$ 는 목표의 중요도 순위(1이 가장 중요)이다.

6. 불확실성 하의 기대 유용도

6.1 기대 유용도 이론

임무 결과가 확률적인 환경에서, 합리적 의사 결정은 기대 유용도(expected utility)를 최대화하는 방향으로 이루어진다(von Neumann and Morgenstern, 1944):

$\mathbb{E}[U(\pi)] = \int_{\mathcal{O}} U(o) \cdot p(o \mid \pi) \, do$

여기서 $p(o \mid \pi)$ 는 계획 $\pi$ 에 따른 결과 $o$ 의 확률 분포이다.

이산적 결과 집합에 대하여:

$\mathbb{E}[U(\pi)] = \sum_{i=1}^{N} p_i \cdot U(o_i)$

6.2 위험 민감도(Risk Sensitivity)

유용도 함수의 곡률(curvature)은 의사 결정자의 위험 태도를 반영한다:

위험 회피(risk-averse): 오목(concave) 유용도 함수. 확실한 중간 결과를 불확실한 높은 결과보다 선호한다.
위험 중립(risk-neutral): 선형(linear) 유용도 함수. 기대값만 고려한다.
위험 추구(risk-seeking): 볼록(convex) 유용도 함수. 불확실하더라도 높은 결과를 선호한다.

로봇 임무 관리에서는 안전이 중요하므로 일반적으로 위험 회피적 유용도 함수가 적용된다.

6.3 조건부 가치 위험(CVaR) 기반 평가

극단적 위험을 명시적으로 고려하기 위하여 조건부 가치 위험(Conditional Value-at-Risk, CVaR)을 유용도 평가에 통합하는 접근법이 있다:

$\text{CVaR}_\alpha[U] = \mathbb{E}\left[ U \mid U \leq \text{VaR}_\alpha[U] \right]$

여기서 $\text{VaR}_\alpha$ 는 $\alpha$ -분위수의 유용도 값이다. CVaR을 최대화하는 계획은 최악의 경우에도 일정 수준 이상의 유용도를 보장한다.

7. 유용도 함수를 활용한 임무 계획

유용도 함수를 목적 함수로 하는 임무 계획 문제의 일반적 정식화는:

$\pi^* = \arg\max_{\pi \in \Pi_{\text{feasible}}} U(\pi)$

$\text{s.t.} \quad \mathcal{C}_{\text{time}}(\pi), \; \mathcal{C}_{\text{resource}}(\pi), \; \mathcal{C}_{\text{spatial}}(\pi), \; \mathcal{C}_{\text{prec}}(\pi)$

여기서 $\Pi_{\text{feasible}}$ 은 모든 제약을 만족하는 실현 가능한 계획의 집합이다. 유용도 함수의 형태에 따라 선형 계획법, 혼합 정수 계획법, 동적 프로그래밍(dynamic programming), 시뮬레이션 기반 최적화 등 상이한 해법이 적용된다.

8. 참고문헌

von Neumann, J. and Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.
Saaty, T. L. (1980). The Analytic Hierarchy Process. McGraw-Hill.
Keeney, R. L. and Raiffa, H. (1993). Decisions with Multiple Objectives: Preferences and Value Tradeoffs. Cambridge University Press.
Gerkey, B. P. and Matarić, M. J. (2004). “A Formal Analysis and Taxonomy of Task Allocation in Multi-Robot Systems.” The International Journal of Robotics Research, 23(9), 939–954.
Dias, M. B., Zlot, R. M., Kalra, N., and Stentz, A. (2006). “Market-Based Multirobot Coordination: A Survey and Analysis.” Proceedings of the IEEE, 94(7), 1257–1270.
Grabisch, M. (1997). “k-Order Additive Discrete Fuzzy Measures and Their Representation.” Fuzzy Sets and Systems, 92(2), 167–189.

본 절은 로봇공학 서적 Volume 9, Part 53, Chapter 396의 일부로 작성되었다. 버전: 2026-03-24 v2.0