396.88 임무 관리에서의 실시간성 보장 전략

1. 개요

로봇 임무 관리 시스템은 센서 데이터 수집, 의사 결정, 행동 명령 까지 이르는 일련의 처리 과정에서 시간적 제약 조건을 충족해야 한다. 실시간성(real-time guarantee)이 보장되지 않으면 임무 실행의 안전성과 신뢰성이 저하되며, 특히 동적 환경에서 운용되는 자율 로봇의 경우 치명적 결과를 초래할 수 있다. 본 절에서는 임무 관리 시스템의 실시간성 보장을 위한 설계 원칙, 아키텍처 패턴, 그리고 운용 전략을 체계적으로 다룬다.

2. 임무 관리에서의 실시간성의 의미

2.1 임무 관리 루프의 시간 구조

임무 관리 시스템은 다음과 같은 반복 루프를 통해 동작한다.

$\text{감지(Sense)} \rightarrow \text{판단(Decide)} \rightarrow \text{행동(Act)}$

이 루프의 각 단계에는 고유한 시간 제약이 부여된다. 감지 단계에서는 센서 데이터의 수집과 전처리가 소정의 시간 내에 완료되어야 하며, 판단 단계에서는 임무 상태 평가와 의사 결정이 제한된 시간 내에 이루어져야 한다. 행동 단계에서는 결정된 명령이 액추에이터에 적시에 전달되어야 한다.

2.2 실시간 요구사항의 분류

임무 관리 계층에서의 실시간 요구사항은 다음과 같이 분류된다.

요구사항 유형	마감 시한 범위	위반 시 영향	예시
경성 실시간	1–50 ms	시스템 장애, 안전 사고	비상 정지 명령 발행, 충돌 회피 기동
견고 실시간	50–500 ms	임무 결과 무효화	동적 경로 재계획, 표적 전환
연성 실시간	500 ms–5 s	성능 저하	GCS 상태 보고, 임무 로그 갱신

임무 관리자 자체는 일반적으로 연성 또는 견고 실시간 요구사항을 갖지만, 임무 관리자가 발행하는 비상 명령이나 안전 관련 판단은 경성 실시간 처리를 요구한다.

3. 아키텍처 수준의 실시간성 보장 전략

3.1 계층적 실행 아키텍처

실시간성 보장의 핵심 원칙은 시간 제약의 엄격성에 따라 소프트웨어 계층을 분리하는 것이다. 3계층 아키텍처(3-Tier Architecture)를 기반으로 한 전형적 구성은 다음과 같다.

숙의 계층(Deliberative Layer): 임무 계획, 재계획, 자원 할당 등 연산 집약적 처리를 수행한다. 연성 실시간 요구사항을 가지며, 비결정론적(non-deterministic) 실행 시간이 허용된다.
실행 계층(Executive Layer): 계획된 임무를 과업으로 분해하고 실행 순서를 조율한다. 견고 실시간 요구사항을 가지며, 한정된 응답 시간이 보장되어야 한다.
반응 계층(Reactive Layer): 센서 입력에 대한 즉각적 반응을 처리한다. 경성 실시간 요구사항을 만족해야 하며, 결정론적 실행 시간이 보장되어야 한다.

이 계층 분리를 통해, 상위 계층의 비결정론적 연산이 하위 계층의 실시간 성능에 간섭하지 않도록 보장한다.

3.2 시간 격리(Temporal Isolation) 메커니즘

시간 격리는 한 태스크의 시간적 행위가 다른 태스크의 시간적 행위에 영향을 미치지 않도록 보장하는 메커니즘이다. 구체적 기법은 다음과 같다.

예산 기반 스케줄링(Budget-Based Scheduling): 각 태스크에 CPU 시간 예산을 할당하고, 예산이 소진되면 태스크의 실행을 중단한다. 이를 통해 하나의 과부하 태스크가 다른 태스크의 실행을 방해하는 것을 방지한다.
서버 기반 스케줄링(Server-Based Scheduling): 주기적 서버(Periodic Server), 지연 서버(Deferrable Server), 산발적 서버(Sporadic Server) 등을 활용하여 비주기적 태스크의 CPU 점유를 제어한다.
파티션 스케줄링(Partition Scheduling): 프로세서 시간을 고정 비율로 분할하여 각 파티션에 독립적 태스크 집합을 할당한다. ARINC 653 표준이 이 방식을 채택하고 있다.

3.3 시간 트리거 아키텍처(Time-Triggered Architecture, TTA)

시간 트리거 아키텍처는 모든 태스크의 실행 시점이 사전에 결정된 시간표(schedule table)에 의해 정적으로 할당되는 방식이다. Kopetz(1997)가 제안한 이 접근법은 최고 수준의 시간 결정성을 제공하지만, 동적 임무 변경에 대한 유연성이 부족하다는 한계가 있다.

$\text{Schedule Table} = \{(t_k, \tau_k) \mid k = 1, 2, \ldots, N\}$

여기서 $t_k$ 는 태스크 $\tau_k$ 의 실행 시작 시점이다.

3.4 이벤트 트리거 대 시간 트리거의 하이브리드

실용적 임무 관리 시스템에서는 시간 트리거와 이벤트 트리거(event-triggered)의 혼합 방식이 효과적이다. 주기적 임무 모니터링과 상태 보고는 시간 트리거 방식으로 처리하고, 비상 상황 감지나 임무 변경 요청 같은 비동기적 이벤트는 이벤트 트리거 방식으로 처리한다.

4. 통신 경로의 실시간성 보장

4.1 결정론적 통신 프로토콜

임무 관리 시스템 내부 또는 외부 시스템과의 통신에서 실시간성을 보장하려면 결정론적 통신 프로토콜이 필요하다.

CAN(Controller Area Network): 메시지 우선순위에 따른 중재(arbitration)를 통해 높은 우선순위 메시지의 전송 지연을 한정한다. 최악 전송 지연 시간의 분석이 가능하다.
EtherCAT: 이더넷 프레임의 “on-the-fly” 처리를 통해 마이크로초 단위의 결정론적 통신을 제공한다.
TSN(Time-Sensitive Networking): IEEE 802.1 표준 기반으로, 표준 이더넷 위에서 시간 동기화(IEEE 802.1AS), 트래픽 스케줄링(IEEE 802.1Qbv), 스트림 예약(IEEE 802.1Qat) 등의 기능을 제공하여 실시간 통신을 보장한다.

4.2 DDS(Data Distribution Service)의 QoS 정책

ROS 2의 기반 미들웨어인 DDS는 다양한 QoS(Quality of Service) 정책을 통해 통신의 시간적 특성을 제어한다.

DEADLINE 정책: 메시지 발행자(publisher)와 구독자(subscriber) 사이에 메시지 도착의 최대 허용 간격을 설정한다. 설정된 간격 내에 메시지가 도착하지 않으면 위반 콜백이 호출된다.
LATENCY_BUDGET 정책: 메시지 전송 시 허용 가능한 최대 지연 시간을 명시한다. 미들웨어는 이 정보를 활용하여 전송 최적화를 수행한다.
LIVELINESS 정책: 발행자의 생존 여부를 주기적으로 확인하여, 통신 장애에 의한 임무 관리 상태 불일치를 조기에 감지한다.

5. 실행 시간 관리 전략

5.1 연산 시간 예산 할당(Computational Budget Allocation)

임무 관리자가 의사 결정에 사용할 수 있는 연산 시간은 유한하다. 주어진 시간 예산 $B$ 내에서 의사 결정 품질을 최대화하는 전략이 필요하다. 이 문제는 유한 시간 인식 계획(bounded-time planning)으로 정식화할 수 있다.

$\max_{a \in \mathcal{A}} \quad U(a) \quad \text{subject to} \quad T_{\text{compute}}(a) \leq B$

여기서 $U(a)$ 는 행동 $a$ 의 유용도, $T_{\text{compute}}(a)$ 는 행동 $a$ 를 계산하는 데 소요되는 시간, $B$ 는 할당된 시간 예산이다.

5.2 점진적 계획(Anytime Planning)

점진적 계획(Anytime Planning) 알고리즘은 할당된 시간이 길수록 더 나은 해를 산출하되, 임의의 시점에 중단되더라도 유효한 해를 반환하는 특성을 갖는다. Zilberstein(1996)이 제시한 점진적 알고리즘의 핵심 속성은 다음과 같다.

가용성(Availability): 임의의 시점에서 현재까지의 최적 해를 반환할 수 있다.
단조성(Monotonicity): 계산 시간이 증가하면 해의 품질이 감소하지 않는다.
점진적 개선(Diminishing Returns): 초기 계산 시간 투입이 해 품질 향상에 가장 큰 기여를 한다.

대표적인 점진적 계획 알고리즘으로 ARA*(Anytime Repairing A*), ANA*(Anytime Non-parametric A*), 점진적 RRT(Anytime RRT) 등이 있다.

5.3 시간 제한 연산(Time-Bounded Computation)

시간 제한 연산은 연산 과정에 워치독 타이머(watchdog timer)를 설정하여, 마감 시한에 도달하면 현재까지의 최선 결과를 반환하거나 기본 행동(default action)을 실행하는 방식이다. 구현 패턴은 다음과 같다.

function TimeBoundedDecision(budget):
    start_time ← CurrentTime()
    best_action ← default_action
    while CurrentTime() - start_time < budget:
        candidate ← ComputeNextCandidate()
        if Quality(candidate) > Quality(best_action):
            best_action ← candidate
    return best_action

이 패턴은 임무 재계획이나 동적 과업 할당 등 연산 시간이 가변적인 임무 관리 기능에 특히 유용하다.

6. 임무 상태 전이의 시간 보장

6.1 상태 전이 시간 한정(Bounded Transition Time)

임무 관리자가 사용하는 상태 머신 또는 행동 트리의 상태 전이에 소요되는 시간을 한정하는 것은 실시간성 보장의 핵심 요소이다. 상태 전이 시 수행되는 자원 해제, 새 상태의 초기화, 관련 태스크의 활성화/비활성화 등의 연산이 상한 시간 $T_{\text{trans}}$ 내에 완료되어야 한다.

$\forall\, s_i \xrightarrow{e} s_j, \quad T_{\text{trans}}(s_i, s_j) \leq T_{\text{trans}}^{\max}$

6.2 계약 기반 설계(Contract-Based Design)

Benveniste 등(2012)이 제안한 계약 기반 설계에서는, 각 임무 관리 구성 요소의 시간적 행위를 가정(assumption)과 보장(guarantee)의 쌍으로 명세한다. 상위 계층은 하위 계층에 특정 응답 시간을 가정하고, 하위 계층은 해당 응답 시간을 보장한다. 이 계약의 계층적 구성을 통해 전체 시스템의 실시간 속성을 구성적으로(compositionally) 검증할 수 있다.

$\text{Component}_k : (\mathcal{A}_k, \mathcal{G}_k)$

여기서 $\mathcal{A}_k$ 는 구성 요소 $k$ 가 가정하는 환경 조건(입력 도착 주기, 통신 지연 상한 등)이며, $\mathcal{G}_k$ 는 해당 가정 하에 보장하는 출력 특성(응답 시간, 출력 주기 등)이다.

7. 과부하 대응 전략

7.1 과부하 감지

시스템 과부하는 CPU 이용률, 큐 길이, 마감 여유(slack) 등의 지표를 통해 감지된다. 과부하 감지 함수 $O(t)$ 는 다음과 같이 정의할 수 있다.

$O(t) = \begin{cases} 1 & \text{if} \quad U(t) > U_{\text{threshold}} \lor \text{slack}_{\min}(t) < 0 \\ 0 & \text{otherwise} \end{cases}$

여기서 $U(t)$ 는 시점 $t$ 에서의 순간 CPU 이용률, $U_{\text{threshold}}$ 는 사전 설정된 과부하 임계값이다.

7.2 부하 경감(Load Shedding)

과부하 상황에서는 낮은 중요도의 임무 태스크를 동적으로 중단하거나 주기를 연장하여 시스템 부하를 경감한다. 이 전략은 다음의 최적화 문제로 정식화된다.

$\max \sum_{i=1}^{n} w_i \cdot x_i \quad \text{subject to} \quad \sum_{i=1}^{n} \frac{C_i}{T_i} \cdot x_i \leq U_{\text{target}}$

여기서 $w_i$ 는 태스크 $\tau_i$ 의 중요도 가중치, $x_i \in \{0, 1\}$ 은 태스크의 활성화 여부, $U_{\text{target}}$ 은 목표 이용률이다.

7.3 품질 적응(Quality Adaptation)

연성 실시간 임무 태스크의 경우, 출력 품질을 동적으로 조정하여 시간 제약을 만족시키는 전략이 가능하다. 예를 들어 임무 모니터링 태스크의 갱신 주기를 증가시키거나, 경로 계획의 해상도를 낮추는 방식이다. Rajkumar 등(1997)이 제안한 Q-RAM(Quality of Service-based Resource Allocation Model)은 다수 태스크의 품질 수준을 자원 제약 하에서 최적으로 결정하는 프레임워크이다.

8. 실시간 미들웨어의 활용

8.1 OROCOS(Open Robot Control Software)

OROCOS는 실시간 로봇 제어를 위해 설계된 C++ 프레임워크로, 실시간 운영체제(Xenomai, RTAI, RT-Linux) 위에서 동작한다. OROCOS의 TaskContext 모델은 입력/출력 포트, 속성, 연산을 캡슐화하며, 구성 요소 간 통신에서 실시간 안전한(real-time safe) 데이터 교환을 보장한다. 잠금 없는(lock-free) 데이터 포트를 통해 읽기/쓰기 연산의 한정된 실행 시간이 보장된다.

8.2 ROS 2의 실시간 강화

ROS 2 환경에서의 실시간성 강화를 위해 다음의 기법이 적용된다.

실시간 안전 메모리 관리: 동적 메모리 할당(malloc/free)을 실행 경로에서 배제하고, 사전 할당된 메모리 풀(memory pool)을 사용한다. tlsf_allocator 또는 foonathan::memory와 같은 실시간 안전 할당기를 활용한다.
콜백 그룹 우선순위 설정: MultiThreadedExecutor에서 콜백 그룹(callback group)의 우선순위를 차별화하여 중요 콜백의 처리 지연을 최소화한다.
전용 실시간 실행기(Real-Time Executor): ROS 2 Humble 이후 도입된 EventsExecutor는 이벤트 기반 실행 모델을 제공하여, 폴링(polling) 방식 대비 불필요한 CPU 소비를 줄이고 응답 지연을 개선한다.
커널 수준 설정: PREEMPT_RT 패치 적용, CPU 격리(isolcpus), IRQ 친화성(irq affinity) 설정, SCHED_FIFO 스케줄링 정책 적용 등 운영체제 수준의 튜닝을 병행한다.

9. 실시간 성능 검증

9.1 지연 시간 프로파일링(Latency Profiling)

임무 관리 시스템의 실시간 성능을 검증하기 위해 다음의 지표를 측정한다.

종단 간 지연 시간(End-to-End Latency): 입력 이벤트 발생부터 출력 명령 발행까지의 전체 소요 시간이다.
지터(Jitter): 주기적 태스크의 실제 실행 주기와 설정 주기 사이의 편차이다.
최악 응답 시간(Worst-Case Response Time): 장기간 운용 중 관측된 최대 응답 시간이다.

9.2 스트레스 테스트

부하 생성 도구(예: stress-ng, hackbench)를 사용하여 의도적으로 시스템에 과부하를 유발하고, 임무 관리 태스크의 마감 위반 여부를 확인한다. 이 과정에서 cyclictest와 같은 도구를 활용하여 스케줄링 지연의 분포를 측정한다.

9.3 형식적 시간 분석(Formal Timing Analysis)

모델 기반 접근법을 통해 임무 관리 시스템의 시간적 행위를 형식적으로 분석한다. 시간 오토마타(Timed Automata)와 UPPAAL 도구를 사용한 검증, 또는 네트워크 미적분학(Network Calculus)을 활용한 종단 간 지연의 상한 도출이 대표적이다.

10. 참고 문헌

Kopetz, H. (1997). Real-Time Systems: Design Principles for Distributed Embedded Applications. Kluwer Academic Publishers.
Zilberstein, S. (1996). “Using Anytime Algorithms in Intelligent Systems.” AI Magazine, 17(3), 73–83.
Rajkumar, R., Lee, C., Lehoczky, J., & Siewiorek, D. (1997). “A Resource Allocation Model for QoS Management.” Proceedings of the 18th IEEE Real-Time Systems Symposium (RTSS), 298–307.
Benveniste, A., Caillaud, B., Nickovic, D., Passerone, R., Raclet, J.-B., Reinkemeier, P., Sangiovanni-Vincentelli, A., Damm, W., Henzinger, T. A., & Larsen, K. G. (2012). “Contracts for System Design.” Foundations and Trends in Electronic Design Automation, 12(2–3), 124–400.
Casini, D., Blaß, T., Lütkebohle, I., & Buttazzo, G. (2019). “Response Time Analysis of ROS 2 Processing Chains Under Reservation-Based Scheduling.” Proceedings of the 31st Euromicro Conference on Real-Time Systems (ECRTS), 6:1–6:23.
OMG Data Distribution Service (DDS) Specification, Version 1.4.

본 절의 내용은 2025년 기준 임무 관리 시스템의 실시간성 보장 기법과 관련 연구 동향을 반영하였다.