A.4 ROS2 생명주기 (Lifecycle) 노드

초기화와 동시에 실행되는 일반적인 ROS2 노드와 달리, 복잡한 로봇 시스템에서는 다수의 노드가 실행되는 순서와 상태를 결정론적(deterministic)으로 제어하고 동기화할 필요가 있다. 이를 위해 ROS2는 상태 머신(State Machine) 아키텍처를 내장한 관리형 노드(Managed Node)인 생명주기 노드(Lifecycle Node)를 지원한다.

생명주기 노드는 명시적인 상태를 가지며, 외부 명령(Lifecycle Service Client)에 의해 상태가 전이된다. 이를 통해 시스템 전체의 기동(Startup), 정지(Shutdown), 오류 복구(Error Recovery) 과정을 안전하게 관리한다.

1. 주요 상태 (Primary States)

생명주기 노드의 주요 상태는 노드가 시스템 내에서 지속적으로 머무를 수 있는 4가지의 안정적인 상태(Stable states)를 의미한다. 시스템 관리 노드(Lifecycle Manager)나 외부의 상태 전이 요청이 발생하지 않는 한, 노드는 현재의 주요 상태를 유지한다. 각 상태의 학술적이고 기술적인 세부 특성은 다음과 같다.

미설정 (Unconfigured):
정의: 노드 객체가 메모리에 인스턴스화되었으나, 런타임에 필요한 리소스를 아직 할당받지 않은 초기 상태이다.
특징: 퍼블리셔(Publisher), 서브스크라이버(Subscriber), 서비스(Service), 타이머(Timer) 등의 ROS 통신 인터페이스가 활성화되지 않으며, 동작에 필요한 내부 파라미터 역시 로드되지 않는다.
진입 조건: 노드가 최초로 생성된 직후 진입하며, 비활성(Inactive) 상태에서 정리(CleaningUp) 전이를 거치거나, 예외 상황 발생 후 오류 복구(Error Processing)에 성공했을 때 이 상태로 복귀한다.
비활성 (Inactive):
정의: 노드의 초기 설정이 완료되어 동작을 위한 물리적, 논리적 준비를 마쳤으나, 실제 연산 및 데이터 통신 작업은 유보된 대기 상태이다.
특징: 메모리 할당, 하드웨어 디바이스 연결, 통신 객체의 생성 등 필수 리소스 확보가 완료된 상태이다. 그러나 네트워크 계층을 통한 실제 메시지 송수신과 콜백(Callback) 함수의 실행은 프레임워크 단에서 차단된다.
활용 목적: 분산 시스템 환경에서 다수의 노드가 모두 설정을 마칠 때까지 대기하여 동기화를 맞추거나, 런타임 중 노드의 동작을 일시 중단하고 파라미터를 동적으로 재설정(Dynamic Reconfiguration)할 때 활용된다.
활성 (Active):
정의: 노드가 본연의 목적과 설계에 맞춰 정상적으로 연산 및 통신을 수행하는 상태이다.
특징: 데이터 발행, 수신, 서비스 요청 및 응답, 타이머 기반의 제어 루프 실행 등 모든 시스템 동작이 개방된다. 로보틱스 시스템 내에서 센서 인지, 판단, 구동 제어 등의 실제 임무 연산이 이루어지는 유일한 주요 상태이다.
종료 (Finalized):
정의: 노드의 생명주기가 종료되어 소멸이 확정된 비가역적(Irreversible)인 최종 상태이다.
특징: 노드 동작을 위해 점유했던 모든 시스템 리소스(메모리, 통신 포트, 파일 디스크립터 등)가 운영체제에 반환된다.
제한 사항: 이 상태에 진입한 노드는 시스템 상에서 메모리 해제 및 파괴(Destruction)되는 과정만을 앞두고 있다. 어떠한 외부 상태 제어 명령을 통해서도 이전 주요 상태(Unconfigured, Inactive, Active)로 복귀할 수 없다.

2. 전이 상태 (Transition States)

전이 상태(Transition States)는 생명주기 노드가 하나의 주요 상태(Primary State)에서 다른 주요 상태로 이동할 때 일시적으로 머무르는 상태이다. 이 상태에서는 사용자 정의 콜백(Callback) 함수가 실행되며, 해당 콜백 함수의 반환값(SUCCESS, FAILURE, ERROR)에 따라 노드의 다음 상태가 결정론적으로 확정된다.

Configuring (on_configure 콜백):
동작: Unconfigured 상태에서 Inactive 상태로 전이할 때 진입한다. 하드웨어 디바이스 연결, 대규모 메모리 할당, 통신 토픽 및 파라미터 초기화 등 연산 부하가 큰 작업을 수행한다.
결과 전이: 콜백이 SUCCESS를 반환하면 Inactive 상태로 이동한다. FAILURE를 반환하면 초기화 실패로 간주하여 다시 Unconfigured 상태로 복귀한다. 처리 중 예외가 발생하거나 명시적인 ERROR를 반환하면 ErrorProcessing 상태로 진입한다.
CleaningUp (on_cleanup 콜백):
동작: Inactive 상태에서 Unconfigured 상태로 전이할 때 진입한다. Configuring 단계에서 할당된 메모리, 통신 객체 및 하드웨어 연결을 안전하게 해제하여 초기 상태로 되돌리는 작업을 수행한다.
결과 전이: SUCCESS 또는 FAILURE를 반환하는 경우 모두 최종적으로 Unconfigured 상태로 이동한다. 예외 발생 시 ErrorProcessing 상태로 진입한다.
Activating (on_activate 콜백):
동작: Inactive 상태에서 Active 상태로 전이할 때 진입한다. 퍼블리셔(Publisher)의 데이터 전송을 허용하고, 타이머(Timer) 및 제어 루프를 시작하여 실제 시스템 동작을 개시한다. 실시간성을 위해 이 단계의 작업은 지연 없이 신속하게 처리되어야 한다.
결과 전이: SUCCESS를 반환하면 Active 상태가 되어 정상 동작을 수행한다. FAILURE를 반환하면 Inactive 상태로 복귀한다. 예외 발생 시 ErrorProcessing 상태로 진입한다.
Deactivating (on_deactivate 콜백):
동작: Active 상태에서 Inactive 상태로 전이할 때 진입한다. 데이터 발행을 차단하고, 실행 중인 타이머와 제어 로직을 일시 중지한다. 통신 객체나 메모리를 파괴하지는 않고 동작만 정지시킨다.
결과 전이: SUCCESS 또는 FAILURE 반환 시 모두 Inactive 상태로 이동한다. 예외 발생 시 ErrorProcessing 상태로 진입한다.
ShuttingDown (on_shutdown 콜백):
동작: Unconfigured, Inactive, Active 상태 중 어느 곳에서든 시스템 종료 요청이 발생할 때 진입한다. 노드가 소멸(Finalized)되기 전, 메모리 누수나 하드웨어 손상을 방지하기 위해 할당된 모든 리소스를 강제로 정리한다.
결과 전이: 반환값과 무관하게(성공, 실패 모두) 실행 완료 후 Finalized 상태로 전이하여 소멸 대기 상태가 된다. 예외 발생 시에만 ErrorProcessing 상태로 진입한다.
ErrorProcessing (on_error 콜백):
동작: 앞선 모든 전이 상태에서 실행된 콜백 함수가 예상치 못한 예외(Exception)를 발생시키거나 ERROR를 반환했을 때 강제로 진입하는 상태이다. 오류의 원인을 기록(Logging)하고, 시스템을 안전한 상태로 복구하기 위한 제한적인 조치를 시도한다.
결과 전이: 복구 조치가 성공하여 SUCCESS를 반환하면 노드는 Unconfigured 상태로 이동하여 처음부터 다시 설정을 시도할 수 있다. 복구할 수 없는 치명적 오류로 판단하여 FAILURE 또는 ERROR를 반환하면 Finalized 상태로 전이되어 노드는 시스템에서 강제 종료된다.

stateDiagram-v2
    %% Primary States (안정 상태)
    state "Unconfigured" as Unconfigured
    state "Inactive" as Inactive
    state "Active" as Active
    state "Finalized" as Finalized

    %% Transition States (전이 상태)
    state "Configuring\n(on_configure)" as Configuring
    state "CleaningUp\n(on_cleanup)" as CleaningUp
    state "Activating\n(on_activate)" as Activating
    state "Deactivating\n(on_deactivate)" as Deactivating
    state "ShuttingDown\n(on_shutdown)" as ShuttingDown
    state "ErrorProcessing\n(on_error)" as ErrorProcessing

    [*] --> Unconfigured : 인스턴스화

    %% Configuring Transitions
    Unconfigured --> Configuring : 설정 요청
    Configuring --> Inactive : SUCCESS
    Configuring --> Unconfigured : FAILURE
    Configuring --> ErrorProcessing : ERROR / Exception

    %% CleaningUp Transitions
    Inactive --> CleaningUp : 정리 요청
    CleaningUp --> Unconfigured : SUCCESS / FAILURE
    CleaningUp --> ErrorProcessing : ERROR / Exception

    %% Activating Transitions
    Inactive --> Activating : 활성화 요청
    Activating --> Active : SUCCESS
    Activating --> Inactive : FAILURE
    Activating --> ErrorProcessing : ERROR / Exception

    %% Deactivating Transitions
    Active --> Deactivating : 비활성화 요청
    Deactivating --> Inactive : SUCCESS / FAILURE
    Deactivating --> ErrorProcessing : ERROR / Exception

    %% ShuttingDown Transitions
    Unconfigured --> ShuttingDown : 종료 요청
    Inactive --> ShuttingDown : 종료 요청
    Active --> ShuttingDown : 종료 요청
    ShuttingDown --> Finalized : SUCCESS / FAILURE
    ShuttingDown --> ErrorProcessing : ERROR / Exception

    %% ErrorProcessing Transitions
    ErrorProcessing --> Unconfigured : SUCCESS (복구 성공)
    ErrorProcessing --> Finalized : FAILURE / ERROR (치명적 오류)

    Finalized --> [*] : 메모리 해제

3. ROS2 생명주기 노드의 통신 및 제어 메커니즘

ROS2 생명주기 노드의 상태 전이는 노드 자체의 내부 로직에 의해 자발적으로 발생하기보다는, 독립된 시스템 관리 노드(Lifecycle Manager)에 의해 결정론적(deterministic)이고 중앙집중적으로 제어된다. 이러한 오케스트레이션(Orchestration)을 구현하기 위해 생명주기 노드는 인스턴스화 과정에서 lifecycle_msgs 패키지를 기반으로 하는 표준화된 통신 인터페이스를 자동으로 노출한다.

생명주기 노드가 제공하는 핵심 통신 및 제어 인터페이스는 다음과 같다.

상태 제어 서비스 (~/change_state):
메시지 타입: lifecycle_msgs/srv/ChangeState
기능: 외부 클라이언트(주로 Lifecycle Manager)가 대상 노드에 특정 전이(Transition)의 실행을 요청할 때 사용하는 서비스 인터페이스이다.
제어 방식: 요청(Request)에는 목적 상태로 가기 위한 전이 ID(예: TRANSITION_CONFIGURE, TRANSITION_ACTIVATE)가 포함된다. 대상 노드는 해당 전이에 매핑된 내부 콜백 함수(예: on_configure())를 실행하고, 그 연산 결과(Success, Failure, Error)를 서비스 응답(Response)으로 반환하여 관리 노드가 전이의 성공 여부를 명확히 판단할 수 있도록 설계되었다.
상태 조회 서비스 (~/get_state):
메시지 타입: lifecycle_msgs/srv/GetState
기능: 외부 시스템이 대상 노드의 현재 주요 상태(Primary State)를 동기적(Synchronous)으로 조회할 때 사용한다.
제어 방식: 서비스 요청 시 노드는 현재 머무르고 있는 상태 정보(예: UNCONFIGURED, ACTIVE)를 반환한다. 이는 관리 노드가 초기화 과정이나 런타임 중 특정 노드의 정확한 상태를 검증(Health Check)하고 전체 시스템 동기화를 수행하는 데 필수적으로 활용된다.
전이 이벤트 토픽 (~/transition_event):
메시지 타입: lifecycle_msgs/msg/TransitionEvent
기능: 노드의 상태 전이가 발생할 때마다 시스템 전체에 비동기적(Asynchronous)으로 상태 변경 사실을 전파(Broadcast)하는 퍼블리셔(Publisher)이다.
제어 방식: 메시지 페이로드(Payload)에는 이벤트 발생 타임스탬프, 트리거된 전이 내역, 변경 전 상태(Start State), 변경 후 상태(Goal State)에 대한 완전한 데이터가 포함된다. 이를 통해 다수의 서브스크라이버 노드가 특정 노드의 상태 변화를 인지하고 연쇄적인 동작(예: 상위 계층 노드의 활성화)을 수행할 수 있도록 이벤트 기반 아키텍처를 지원한다.
가용 상태 및 전이 조회 서비스 (~/get_available_states, ~/get_available_transitions):
메시지 타입: lifecycle_msgs/srv/GetAvailableStates, lifecycle_msgs/srv/GetAvailableTransitions
기능: 노드 내부에 구현된 상태 머신(State Machine)의 구성 자체를 조회하는 인터페이스이다.
제어 방식: 노드가 도달할 수 있는 모든 상태의 배열과, 현재 상태에서 실행 가능한 유효한 전이 목록을 반환한다. 이를 통해 관리 시스템은 노드의 상태를 하드코딩하지 않고, 런타임에 동적으로 유효한 제어 명령을 판별하여 전송할 수 있다.

제어 메커니즘 요약:

Lifecycle Manager는 ~/get_state를 통해 개별 노드의 상태를 확인하고, ~/change_state를 호출하여 시스템 의존성 그래프에 따라 순차적 상태 전이를 지시한다. 명령을 수신한 생명주기 노드는 내부 콜백 연산을 처리한 후 상태를 변경하며, 그 결과를 ~/transition_event를 통해 네트워크에 발행한다. 이러한 명시적 통신 및 제어 구조는 복잡한 분산 로봇 소프트웨어 시스템의 기동, 동작, 예외 처리 과정에서 높은 수준의 안정성과 예측 가능성을 보장한다.

flowchart TD
    classDef manager fill:#f0f0f0,stroke:#333,stroke-width:2px;
    classDef node fill:#e1f5fe,stroke:#0277bd,stroke-width:2px;
    classDef topic fill:#fff9c4,stroke:#fbc02d,stroke-width:1px,stroke-dasharray: 5 5;
    classDef service fill:#c8e6c9,stroke:#388e3c,stroke-width:1px;

    LM["생명주기 관리자<br>(Lifecycle Manager)"]:::manager
    LN["생명주기 노드<br>(Lifecycle Node)"]:::node
    Sub["기타 서브스크라이버 노드<br>(Other System Nodes)"]:::manager

    %% Service Interfaces (Synchronous)
    LM -- "[Request]<br>Transition ID" --> S1
    S1 -- "[Response]<br>Success / Failure / Error" --> LM
    S1{"~/change_state\n(Service)"}:::service <--> LN

    LM -- "[Request]" --> S2
    S2 -- "[Response]<br>Current Primary State" --> LM
    S2{"~/get_state\n(Service)"}:::service <--> LN

    LM -- "[Request]" --> S3
    S3 -- "[Response]<br>Available States & Transitions" --> LM
    S3{"~/get_available_...<br>(Service)"}:::service <--> LN

    %% Topic Interfaces (Asynchronous)
    LN -- "[Broadcast]<br>Start State, Goal State, Timestamp" --> T1
    T1{"~/transition_event<br>(Topic)"}:::topic --> LM
    T1 --> Sub

4. 생명주기 관리자 (Lifecycle Manager) 중심의 중앙 제어

생명주기 관리자(Lifecycle Manager)는 분산된 다수의 ROS2 생명주기 노드(Lifecycle Node) 상태를 중앙집중적으로 오케스트레이션(Orchestration)하는 핵심 컴포넌트이다. 개별 노드가 자율적으로 상태를 변경할 때 발생할 수 있는 비동기적 문제와 경쟁 상태(Race Condition)를 방지하고, 로봇 시스템 전체의 기동, 실행, 예외 처리, 종료 과정을 결정론적(Deterministic)으로 동기화하기 위해 설계되었다.

학술적 및 시스템 아키텍처 관점에서 생명주기 관리자의 주요 제어 메커니즘은 다음과 같이 구체화된다.

초기 설정 및 노드 식별 (Configuration and Node Discovery)

생명주기 관리자는 런타임 초기화 단계에서 YAML 파라미터 파일, Launch 스크립트 등을 통해 제어 대상이 되는 생명주기 노드들의 명칭과 네임스페이스(Namespace) 목록을 로드한다. 식별된 각 대상 노드에 대해 표준화된 상태 제어 서비스(~/change_state) 및 상태 조회 서비스(~/get_state) 클라이언트를 인스턴스화하여 물리적 통신 채널을 확보하고 제어 권한을 획득한다.

결정론적 기동 시퀀스 제어 (Deterministic Startup Sequencing)

관리자는 사전에 정의된 노드 간의 의존성 그래프(Dependency Graph)를 바탕으로 상태 전이를 순차적으로 지시한다. 하위 계층(센서, 구동기)부터 상위 계층(인지, 제어) 순서로 모든 대상 노드에 configure 명령을 하달하여 Inactive 상태로 동기화한다. 이후 메모리 및 하드웨어 리소스 할당이 검증되면, 다시 하위 노드부터 activate 명령을 전송하여 Active 상태로 일괄 또는 순차 전이시킨다. 이를 통해 퍼블리셔(Publisher)가 준비되지 않은 상태에서 서브스크라이버(Subscriber)가 데이터를 요구하는 논리적 오류를 원천 차단한다.

실시간 상태 모니터링 및 동기화 (Real-time State Monitoring)

중앙 관리자는 폴링(Polling) 방식의 서비스 호출(~/get_state) 또는 비동기 이벤트 기반(Event-driven)의 토픽 구독(~/transition_event)을 통해 제어 대상 노드들의 현재 주요 상태를 지속적으로 추적한다. 특정 노드가 지시받은 목표 상태(Goal State)에 정상적으로 도달했음을 시스템 수준에서 확증(Verification)한 이후에만 다음 단계의 제어 명령을 네트워크에 발행하는 엄격한 동기화(Synchronization)를 수행한다.

시스템 레벨의 예외 처리 및 연쇄 제어 (System-level Error Handling)

개별 노드 내부의 on_error 콜백을 통한 자가 복구를 넘어, 시스템 전반의 무결성을 유지하기 위한 거시적 통제를 수행한다. 핵심 데이터를 제공하는 하위 노드가 치명적 오류로 인해 Unconfigured 상태로 강등되거나 Finalized 상태로 소멸할 경우, 관리자는 이를 즉각 감지한다. 이후 해당 노드에 논리적으로 의존하는 모든 상위 계층 노드들에게 즉시 deactivate 명령을 하달하여 동작을 중지시킴으로써, 잘못된 데이터 입력에 따른 연쇄적인 오작동(Cascading Failure)을 방지하고 시스템을 안전 상태(Safe State)로 유지한다.

안전한 종료 오케스트레이션 (Safe Shutdown Orchestration)

시스템 종료 요청이 발생하면, 생명주기 관리자는 기동 시퀀스의 역방향(Top-down)으로 노드들을 제어한다. 활성화된 제어 및 인지 루프의 동작을 우선적으로 정지(deactivate)시킨 후, 하드웨어 및 센서 인터페이스의 리소스를 일제히 해제(cleanup 및 shutdown)한다. 이러한 절차적 제어는 운영체제 레벨의 메모리 누수나 디바이스 파일 디스크립터의 제어권 충돌 없이 전체 소프트웨어 스택을 Finalized 상태로 안전하게 소멸시킨다.

5. 계층적 의존성 기반의 설계 (Hierarchical Dependency)

복잡한 로보틱스 시스템 내에서 동작하는 다수의 생명주기 노드(Lifecycle Node)들은 독립적으로 존재하지 않으며, 데이터의 흐름과 논리적 처리 순서에 따라 방향성 비순환 그래프(DAG, Directed Acyclic Graph) 형태의 엄격한 의존성을 가진다. 생명주기 관리자(Lifecycle Manager)를 통한 시스템 전체의 상태 동기화는 이 의존성 그래프를 바탕으로 각 노드의 상태 전이 순서를 결정론적으로 조율한다.

이러한 시스템의 계층적 구조는 데이터의 가공 수준과 제어의 목적에 따라 크게 세 가지 계층으로 분류된다.

하위 계층 (계측 및 구동, Sensing & Actuation):
하드웨어 인터페이스, 센서 드라이버(LiDAR, Camera 등), 모터 제어기 등 물리적 하드웨어 장치와 직접 연결되어 통신하는 노드이다.
시스템 의존성 그래프의 최하단에 위치하며, 물리적 세계로부터 원시(Raw) 데이터를 획득하거나 최종 구동 명령을 물리적 움직임으로 변환하는 1차적인 관문 역할을 수행한다. 이 계층의 노드들이 활성(Active) 상태에 도달하지 않으면 상위 계층의 모든 연산은 무의미해진다.
중간 계층 (인지 및 처리, Perception & Processing):
하위 계층에서 발행된 데이터를 구독(Subscribe)하고 이를 융합하여 로봇의 현재 상태를 추정하거나 주변 환경(장애물, 지형 등)을 인식하는 노드이다.
센서 퓨전(Sensor Fusion), 동시적 위치 추정 및 지도 작성(SLAM), 객체 인식(Object Detection) 등의 알고리즘을 수행한다. 하위 계층 노드에 대한 직접적인 데이터 의존성을 지니며, 수집된 데이터를 논리적 정보로 가공하여 상위 계층으로 전달한다.
상위 계층 (계획 및 제어, Planning & Control):
중간 계층의 인식 및 상태 추정 결과를 바탕으로 로봇의 전역/지역 행동을 결정하고, 목표 지점까지의 궤적을 생성하며, 최종 제어 명령을 하달하는 노드이다.
경로 계획(Path Planning), 행동 트리(Behavior Tree), 내비게이션(Navigation) 스택 등이 이에 해당한다. 의존성 그래프의 최상단에 위치하며, 하위 및 중간 계층의 데이터가 정상적이고 연속적으로 유입된다는 전제하에 시스템의 최종적인 의사결정을 수행한다.

결과적으로 이와 같은 계층적 의존성 설계는 생명주기 관리자가 순차적 활성화(Bottom-up)를 통해 시스템을 안전하게 기동하고, 예외 발생 시 연쇄적 차단(Top-down)을 통해 로봇을 즉각적인 안전 상태(Safe state)로 전이시키기 위한 핵심적인 구조적 기반이 된다.

6. 순차적 활성화 메커니즘 (Sequential Activation)

ROS2 생명주기 아키텍처에서 순차적 활성화 메커니즘은 시스템 기동 시 방향성 비순환 그래프(DAG, Directed Acyclic Graph) 형태의 의존성을 기반으로, 노드의 상태 전이를 상향식(Bottom-up)으로 제어하는 동기화 기법이다. 생명주기 관리자(Lifecycle Manager)는 시스템의 논리적 처리 순서에 따라 최하단에 위치한 노드부터 상위 노드 방향으로 다음과 같은 단계적 활성화를 수행한다.

하위 계층 초기화 지시: 생명주기 관리자는 하드웨어 인터페이스나 센서 드라이버 등 최하단 계층 노드들에 configure 전이 명령을 인가한다. 해당 노드들은 메모리 할당 및 하드웨어 연결을 완료하고 비활성(Inactive) 상태에 도달한다.
하위 계층 활성화 및 동작 개시: 초기화가 완료된 하위 계층 노드들에 activate 전이 명령을 내려 데이터 발행과 제어 루프를 시작하도록 유도한다. 이를 통해 노드는 활성(Active) 상태로 진입한다.
상태 검증 및 동기화: 관리 노드는 전이 이벤트 토픽(~/transition_event)을 비동기적으로 구독하거나, 상태 조회 서비스(~/get_state)를 동기적으로 호출하여 하위 계층 노드들이 정상적으로 활성(Active) 상태에 도달했음을 검증한다.
상위 계층 순차 전이 진행: 하위 노드의 정상 동작 검증이 완전히 끝난 후에만, 해당 데이터에 의존하는 중간 계층(인지, SLAM 등) 및 상위 계층(경로 계획, 행동 제어 등) 노드들에 대해 configure 및 activate 전이를 순차적으로 진행한다.

이러한 상향식 동기화 메커니즘은 필수적인 센서 데이터가 아직 준비되지 않았거나 하드웨어 장치가 초기화되지 않은 상태에서, 상위 계층의 제어 루프가 연산을 시도하여 발생할 수 있는 치명적인 시스템 오작동과 예외를 원천적으로 차단한다. 이를 통해 복잡한 분산 로봇 시스템이 결정론적(deterministic)이고 안전하게 기동할 수 있도록 보장한다.

7. 연쇄적 안전망 및 예외 처리 동기화 (Cascading Fail-safe)

연쇄적 안전망(Cascading Fail-safe)은 분산 로봇 소프트웨어 시스템 운용 중 특정 생명주기 노드(Lifecycle Node)에 예외(Exception)나 치명적인 오류가 발생했을 때, 시스템 전체의 오작동을 방지하기 위해 노드 간의 의존성 그래프(DAG, Directed Acyclic Graph)를 역방향(Top-down)으로 탐색하여 연쇄적인 안전 조치를 수행하는 결정론적(Deterministic) 동기화 메커니즘이다.

생명주기 관리자(Lifecycle Manager)를 중심으로 수행되는 구체적인 오류 처리 및 동기화 절차는 다음과 같다.

1. 오류 감지 및 상태 강등 전파 (Error Detection and State Degradation)

예외 발생 및 전이: 하위 계층의 핵심 노드(예: LiDAR 드라이버, 모터 제어기 등)에서 하드웨어 통신 단절, 연산 지연 등의 예외가 발생하면, 대상 노드는 정상 실행 궤도를 이탈하여 강제로 ErrorProcessing 전이 상태에 진입한다.
오류 복구 실패 및 상태 강등: 노드 내부의 on_error 콜백 함수가 제한적인 복구 작업을 시도한다. 복구에 실패하여 FAILURE 또는 ERROR를 반환할 경우, 노드는 연산 및 통신이 차단된 Unconfigured 상태로 강등되거나 시스템에서 퇴출되는 Finalized 상태로 전이된다.
관리자의 상태 인지: 노드의 상태 강등이 확정되는 즉시 ~/transition_event 토픽을 통해 상태 변경 이벤트가 시스템 네트워크에 발행(Broadcast)되며, 생명주기 관리자는 이를 수신하여 특정 노드의 기능 상실을 즉각적으로 인지한다.

2. 의존성 그래프 기반 연쇄 차단 (Dependency-based Cascading Deactivation)

영향 범위 식별: 생명주기 관리자는 사전에 정의된 노드 간 계층적 의존성 그래프를 바탕으로, 기능이 정지된 하위 노드의 출력 데이터에 의존하는 모든 상위 계층 노드(인지 융합, 경로 계획, 최종 구동 제어 노드 등)를 식별한다.
강제 비활성화 명령 하달: 식별된 상위 노드들이 잘못된 연산을 수행하기 전에, 생명주기 관리자는 각 상위 노드의 상태 제어 서비스(~/change_state)를 호출하여 deactivate 명령을 하달한다.
연쇄적 연산 중단: 명령을 수신한 상위 계층 노드들은 즉시 Deactivating 단계를 거쳐 Active 상태에서 Inactive 상태로 강제 전환된다. 이 과정을 통해 해당 노드들의 데이터 발행, 서브스크라이버 콜백 실행, 그리고 타이머 기반의 제어 루프 연산이 모두 일시 중단된다.

3. 시스템 안전 상태 (Safe State) 확보 및 복구 기반 마련

결함 전파(Fault Propagation) 차단: 이러한 연쇄적 차단 메커니즘은 핵심 센서 데이터가 누락되거나 손상된 상황에서, 상위 제어 노드가 과거 데이터(Stale data)에 의존하여 로봇 구동부에 잘못된 제어 명령을 하달하는 치명적인 상황을 원천적으로 차단한다.
결정론적 시스템 동기화: 예외 발생 시 시스템 내 관련 노드들이 예측 불가능한 상태에 빠지는 것을 방지하고, 모두 통제 가능한 대기 상태(Inactive 또는 Unconfigured)로 동기화된다. 이는 이후 생명주기 관리자나 운영자가 명시적인 재초기화(Reconfiguration) 및 재시작 절차를 안전하게 수행할 수 있는 논리적 기반을 제공한다.