Booil Jung

무인 항공기 시스템의 결함 허용

본 보고서는 무인 항공기(UAV) 시스템의 결함 허용(Fault Tolerance)에 대한 포괄적인 고찰을 제공한다. UAV가 임무 및 안전이 중요한 애플리케이션에 점점 더 많이 배치됨에 따라, 결함 발생 시 신뢰성과 안전성을 보장하는 것이 무엇보다 중요해졌다. 본 보고서는 UAV 하드웨어, 소프트웨어, 통신 링크에 영향을 미치는 일반적인 결함의 분류부터 시작하여 해당 분야에 대한 구조적인 개요를 제시한다. 이어서 결함 허용 시스템의 두 가지 주요 기둥인 결함 감지 및 진단(FDD)과 결함 허용 제어(FTC)에 대해 심도 있게 다룬다. 모델 기반, 데이터 기반, 하이브리드 접근법을 포함한 FDD 방법론을 분석한다. 다음으로 수동적 FTC(PFTC) 기법인 슬라이딩 모드 제어(SMC) 및 L1 적응 제어와 실시간 시스템 재구성에 의존하는 능동적 FTC(AFTC) 방법을 비교하며 FTC 전략을 상세히 검토한다. 하드웨어 이중화, N-버전 프로그래밍과 같은 소프트웨어 결함 허용 기법, 실시간 운영체제(RTOS)의 중요한 역할을 통해 시스템 수준의 구현을 탐구한다. 특히 분산 제어, 탄력적인 통신 프로토콜, 합의 알고리즘을 포함하여 다중 UAV 군집(Swarm)에서의 결함 허용에 대한 고유한 과제와 해결책에 특별한 주의를 기울인다. 보고서는 디지털 트윈과 계층 간 신뢰성 모델의 통합과 같은 주요 미해결 과제와 유망한 미래 연구 방향을 제시하며, 진정으로 자율적이고 신뢰할 수 있는 UAV 시스템 개발을 진전시키는 것을 목표로 결론을 맺는다.

무인 항공기(UAV), 즉 드론은 초기의 군사적 및 취미용 기기를 넘어 현대 사회의 필수적인 도구로 빠르게 자리매김하고 있다. UAV는 물류 배송, 인프라 점검, 수색 및 구조, 정밀 농업 등 다양한 민간 부문에서 혁신을 주도하고 있다. 이러한 응용 분야의 확장은 UAV가 복잡하고 예측 불가능하며 종종 인간과 근접한 환경에서 작동해야 함을 의미한다. 이에 따라 시스템의 신뢰성과 성능에 대한 기준이 전례 없이 높아졌으며, 치명적인 고장으로 인한 재산 피해나 인명 손실을 방지하기 위해 결함 허용(Fault Tolerance) 기술은 선택이 아닌 필수가 되었다.

특히, 도심 항공 모빌리티(Urban Air Mobility, UAM) 개념의 등장은 이러한 요구를 더욱 증폭시킨다. “에어 택시”와 같은 미래형 교통수단은 상업용 항공기와 동등하거나 그 이상의 안전 수준을 요구하게 될 것이며, 이는 결함 허용 제어 기술이 UAV 설계의 핵심 요소가 되어야 함을 시사한다.

결함 허용 시스템을 논의하기 위해서는 먼저 기본적인 용어에 대한 명확한 이해가 필요하다.

결함 허용(Fault Tolerance)은 결함이 존재함에도 불구하고 시스템이 규정된 기능을, 비록 성능이 저하되더라도, 지속적으로 수행할 수 있는 능력을 의미한다. 이는 본질적으로 시스템 내에 다양한 형태의 이중화(Redundancy)를 도입함으로써 달성된다.

UAV의 신뢰성을 확보하는 것은 단순히 특정 부품의 내구성을 높이는 것 이상의 복합적인 과제이다. 현대의 복잡한 UAV 시스템은 하드웨어, 소프트웨어, 제어, 통신 등 여러 계층이 유기적으로 결합된 사이버-물리 시스템(Cyber-Physical System)으로 이해해야 한다. 초기에는 개별 부품의 평균 고장 시간(MTBF, Mean Time Between Failure)을 늘리는 등 부품 수준의 신뢰성에 집중했다. 그러나 시스템이 고도화되면서 하드웨어의 일시적인 소프트 에러(soft error)가 소프트웨어의 오작동을 유발하거나, 센서의 결함이 액추에이터의 비정상적인 움직임으로 이어지는 등 결함이 여러 계층에 걸쳐 발생하고 전파될 수 있다는 인식이 확산되었다.

특히, 다수의 UAV가 협력하는 군집 비행 시스템에서는 개별 드론의 고장이나 통신 링크의 단절과 같은 문제가 전체 임무의 실패로 이어질 수 있다. 이러한 복잡성을 해결하기 위해, 시스템의 모든 계층을 아우르는 통합적인 신뢰성 모델, 즉 계층 간 신뢰성(Cross-Layer Reliability, CLR) 모델의 필요성이 대두되고 있다. 이 접근법은 하드웨어 수준의 결함부터 통신 네트워크의 불안정성, 그리고 상위 수준의 제어 알고리즘에 이르기까지 모든 요소를 통합적으로 고려하여 시스템 전체의 강건함(robustness)을 확보하는 것을 목표로 한다. 따라서 효과적인 결함 허용 시스템 설계는 각 구성 요소를 개별적으로 다루는 대신, 이들 간의 상호작용을 이해하고 시스템 전체 관점에서 신뢰성을 평가하고 향상시키는 방향으로 나아가야 한다.

UAV 시스템의 신뢰성을 보장하기 위한 첫 단계는 발생 가능한 결함의 종류와 특성을 명확히 이해하는 것이다. UAV의 결함은 크게 하드웨어, 소프트웨어 및 알고리즘, 그리고 통신 시스템의 세 가지 범주로 분류할 수 있다.

하드웨어 결함은 물리적 부품의 성능 저하 또는 완전한 고장을 의미하며, 비행 안전에 직접적인 영향을 미친다.

소프트웨어는 UAV 자율성의 핵심이지만, 동시에 잠재적인 결함의 원천이기도 하다.

단일 UAV뿐만 아니라 특히 UAV 군집 시스템에서 통신은 임무 성공의 필수 요소이며, 통신 시스템의 결함은 심각한 문제를 야기한다.

이러한 결함 유형들은 독립적으로 발생하기보다는 상호 연관성을 가지는 경우가 많다. 예를 들어, 센서의 하드웨어 결함은 소프트웨어에 잘못된 데이터를 제공하고, 소프트웨어는 이 데이터를 기반으로 비정상적인 제어 명령을 생성하여 액추에이터를 오작동시킬 수 있다. 이 경우, 표면적으로는 액추에이터 결함처럼 보이지만 근본 원인은 센서에 있다. UAV 군집 비행에서는 한 대의 UAV에서 발생한 작은 항법 오류가 연쇄적으로 다른 UAV와의 충돌을 유발하여, 개별 기체의 구조적 결함과 군집 전체의 네트워크 토폴로지 결함으로 확산될 수 있다. 따라서, 효과적인 결함 허용 시스템은 단순히 결함의 증상을 감지하는 것을 넘어, 여러 시스템 계층의 정보를 종합적으로 분석하여 결함의 근본 원인을 정확히 진단할 수 있는 능력을 갖추어야 한다. 이는 계층 간(cross-layer) 진단 및 하이브리드 FDD 접근법의 필요성을 뒷받침한다.

결함 허용 제어(FTC)가 효과적으로 작동하기 위해서는 시스템의 상태를 정확히 파악하는 것이 선행되어야 한다. 이 역할을 수행하는 것이 결함 감지 및 진단(Fault Detection and Diagnosis, FDD) 시스템이다. FDD는 결함 발생 후 시스템이 적절히 대응할 수 있도록 정보를 제공하는 핵심적인 과정으로, 일반적으로 세 단계로 구성된다.

  1. 결함 감지 (Fault Detection): 시스템에서 비정상적인 상태가 발생했음을 인지하는 단계이다.
  2. 결함 분리 (Fault Isolation): 결함의 위치를 특정하는 단계이다. 예를 들어, 어떤 센서 또는 어느 모터에서 문제가 발생했는지 식별한다.
  3. 결함 식별 (Fault Identification): 결함의 종류와 심각도(크기)를 정량적으로 추정하는 단계이다. 예를 들어, ‘3번 모터의 효율이 50% 감소했다’고 판단하는 것이다.

이러한 FDD를 구현하기 위한 기술은 크게 모델 기반 방법, 데이터 기반 방법, 그리고 이 둘을 결합한 하이브리드 방법으로 나눌 수 있다.

모델 기반 FDD는 시스템의 수학적 모델을 기반으로 정상 상태의 출력을 예측하고, 실제 측정값과의 차이(잔차, residual)를 분석하여 결함을 감지하는 방식이다.

데이터 기반 FDD는 시스템의 정확한 수학적 모델 없이, 운용 중에 수집된 데이터를 학습하여 정상과 비정상 상태를 구분하는 방식이다.1

모델 기반과 데이터 기반 방법의 장점을 결합한 접근법도 활발히 연구되고 있다. 예를 들어, 칼만 필터로 시스템 상태를 추정한 뒤, 이를 적응형 신경망의 입력으로 사용하여 알려진 모델의 불확실성과 예측 불가능한 결함을 동시에 처리하는 방식이 있다.

FDD 기법 핵심 원리 장점 단점 주요 적용 분야
관측기 기반 수학적 모델과 실제 시스템 출력 비교 (잔차 생성) 이론적 기반이 명확하고, 결함 추정이 가능함. 시스템 모델의 정확도에 크게 의존함. 액추에이터, 센서 결함
칼만 필터 (KF/EKF) 노이즈 환경에서 상태 및 결함 추정 통계적으로 최적이며 노이즈에 강함. 비선형성이 강한 시스템에서는 구현이 복잡하고 계산량이 많음. 센서 및 액추에이터 결함
인공 신경망 (NN) 데이터로부터 정상/비정상 패턴 학습 복잡한 비선형 시스템에 적용 가능하며, 모델이 불필요함. 대량의 학습 데이터가 필요하고, ‘블랙박스’ 모델로 해석이 어려움. 센서, 액추에이터, 구조 결함
신호 처리 신호의 시간/주파수 영역 특성 분석 모델이 필요 없으며, 특정 결함(예: 모터 불균형)에 민감함. 다중 또는 동시 결함 감지에 한계가 있을 수 있음. 액추에이터(모터, 프로펠러) 결함
하이브리드 모델 기반과 데이터 기반 방법 결합 각 방법의 장점을 취합하여 강건성과 정확도를 높임. 시스템 설계 및 통합의 복잡성이 증가함. 복합적인 결함 시나리오

FDD 시스템 설계에 있어 중요한 고려사항은 감지 속도와 진단 정확도 사이의 균형이다. 능동형 결함 허용 제어(AFTC)는 FDD 모듈의 정보에 의존하여 제어기를 재구성하므로, 결함 감지가 늦어지면 시스템이 불안정해질 수 있다. 반면, 너무 민감한 감지 알고리즘은 외부 교란이나 센서 노이즈를 결함으로 오인하여 불필요하거나 심지어 위험한 제어기 재구성을 유발할 수 있다. 이처럼 빠른 반응속도와 높은 신뢰성 사이에는 본질적인 상충 관계가 존재한다. 이러한 문제를 해결하기 위해, 최근 연구들은 정해진 시간 내에 수렴을 보장하는 고정 시간 관측기(fixed-time observer)나 계산 부하를 줄인 온라인 학습 기계(online learning machine)와 같이, 감지 지연을 최소화하면서도 진단의 신뢰성을 높이는 방향으로 발전하고 있다. 이는 FDD 시스템이 단순히 ‘가장 정확한’ 알고리즘을 선택하는 문제가 아니라, 특정 임무와 시스템의 요구사항에 맞춰 속도와 신뢰성 간의 최적점을 찾는 복잡한 엔지니어링 문제임을 시사한다.

결함이 감지되고 진단되면, 시스템은 이를 극복하고 안정성을 유지하며 임무를 지속해야 한다. 이를 담당하는 것이 결함 허용 제어(Fault-Tolerant Control, FTC) 시스템이다. FTC는 결함 발생 시에도 사전에 정의된 수준의 성능을 유지하는 제어 전략을 포함하며, 크게 수동적(Passive) 방식과 능동적(Active) 방식으로 나뉜다.

PFTC는 별도의 결함 감지 및 진단(FDD) 모듈 없이, 사전에 예상되는 특정 범위의 결함과 불확실성에 대해 강건하도록 설계된 단일 제어기를 사용하는 방식이다. 이 접근법은 제어기 구조가 고정되어 있으며, 결함을 외부 교란(disturbance)의 일종으로 간주하고 이를 억제하는 데 초점을 맞춘다.

AFTC는 FDD 모듈을 통해 결함을 실시간으로 감지, 분리, 식별한 후, 이 정보를 바탕으로 제어 시스템을 동적으로 재구성하여 결함의 영향을 보상하는 방식이다. 이는 결함에 보다 능동적으로 대처할 수 있어 PFTC보다 더 넓은 범위의 결함을 처리하고 높은 성능을 유지할 수 있다.

PFTC와 AFTC의 장점을 결합하려는 시도도 활발히 이루어지고 있다.

특성 수동적 FTC (PFTC) 능동적 FTC (AFTC)
핵심 원리 고정된 단일 제어기를 사용하여 사전 정의된 결함에 대해 강건성을 확보함. FDD 모듈을 통해 결함을 감지하고, 제어기를 실시간으로 재구성하여 대응함.
FDD 요구사항 필요 없음. 필수적임.
응답 시간 즉각적 (별도의 감지/재구성 지연 없음). FDD 및 재구성 시간에 따른 지연 발생.
설계 복잡성 상대적으로 단순함. FDD 모듈과 재구성 로직으로 인해 복잡함.
계산 비용 낮음. 높음 (특히 온라인 최적화나 학습 기반 방법).
성능 (정상/고장) 정상 상태에서는 성능이 최적이 아닐 수 있음. 고장 시 성능 저하가 발생할 수 있음. 정상 상태에서 최적의 성능을 유지하며, 고장 발생 시 성능 저하를 최소화함.
결함 처리 범위 미리 예측된 범위 내의 결함만 처리 가능. 예측되지 않은 결함에도 적응할 수 있어 처리 범위가 더 넓음.
주요 기법 예시 강건 제어 (SMC, H∞), L1 적응 제어. 제어 할당, 적응 제어, 모델 예측 제어.

최근 연구 동향을 살펴보면, PFTC와 AFTC의 경계가 점차 모호해지고 있음을 알 수 있다. 예를 들어, 적응형 슬라이딩 모드 제어(Adaptive SMC)나 L1 적응 제어(L1-AC)와 같은 기법들은 본질적으로 강건한 제어 구조를 가지면서도(PFTC의 특징), 온라인으로 파라미터를 조정하여 시스템 변화에 대응한다(AFTC의 특징). 특히 L1-AC는 결함과 외부 교란을 ‘통합된 불확실성(lumped uncertainty)’으로 간주하고 이를 보상함으로써, 별도의 FDD 모듈 없이도 능동적인 대응이 가능한 구조를 제시한다. 이러한 “암묵적 능동형(implicitly active)” 또는 “적응형-강건(adaptive-robust)” 제어기들은 전통적인 AFTC의 복잡한 FDD-재구성 루프 없이도 높은 수준의 결함 허용 능력을 제공한다. 이는 UAV FTC 설계가 PFTC와 AFTC 사이의 이분법적 선택을 넘어, 성능, 복잡성, 신뢰성 간의 균형을 최적화하는 통합적인 솔루션으로 진화하고 있음을 보여준다.

안전 필수 UAV 시스템은 제어 알고리즘뿐만 아니라 시스템 아키텍처 전반에 걸쳐 결함 허용 설계가 통합되어야 한다. 이는 하드웨어, 소프트웨어, 운영체제 수준에서의 이중화 및 보호 메커니즘을 포함한다.

하드웨어 이중화는 결함 허용을 구현하는 가장 직접적이고 전통적인 방법으로, 핵심 부품을 복제하여 주 부품 고장 시 예비 부품이 즉시 임무를 인계받도록 하는 방식이다.

하드웨어 결함과 달리, 소프트웨어 결함은 복제로는 해결되지 않으므로(버그까지 복제되므로), ‘설계 다양성(Design Diversity)’이라는 개념을 기반으로 한다.

UAV의 복잡한 소프트웨어를 안정적으로 운영하기 위해서는 실시간 운영체제(RTOS)가 필수적이다. RTOS는 일반 운영체제와 달리 시간 결정성(determinism)을 보장하여 시스템의 신뢰성과 안전성을 높이는 데 핵심적인 역할을 한다.

UAV 기술이 발전함에 따라, 특히 소형 및 상업용 드론 시장에서는 하드웨어 이중화가 주는 무게와 비용 부담을 피하려는 경향이 뚜렷하다. 이로 인해 결함 허용의 패러다임이 하드웨어 중심에서 소프트웨어 중심으로 이동하고 있다. 단일 비행 제어 컴퓨터 내에서 주 시스템과 백업 시스템을 독립된 파티션으로 나누어 실행하거나, 멀티코어 프로세서의 컴퓨팅 자원을 활용하여 가상화 기반으로 시스템 스택 전체를 복제하는 FlyOS와 같은 접근법이 그 예이다. 이러한 소프트웨어 중심의 결함 허용 방식은 물리적 제약 조건과 신뢰성 요구사항 사이에서 효과적인 균형점을 찾아가는 중요한 연구 방향으로 자리 잡고 있다.

단일 UAV를 넘어 다수의 UAV가 협력하는 군집(swarm) 시스템에서 결함 허용은 새로운 차원의 복잡성을 띤다. 개별 기체의 고장뿐만 아니라, 개체 간의 상호작용과 통신 네트워크의 문제가 전체 시스템의 성능과 생존 가능성에 직접적인 영향을 미치기 때문이다. 따라서 군집 시스템의 결함 허용은 분산 시스템의 관점에서 접근해야 한다.

UAV 군집의 가장 큰 장점 중 하나는 분산 제어(decentralized control) 구조에 있다. 중앙 집중식 제어 시스템과 달리, 분산 제어 시스템에서는 각 UAV(에이전트)가 중앙 통제소의 지시 없이 자신의 주변 환경과 이웃 에이전트로부터 얻은 지역 정보(local information)를 바탕으로 자율적으로 판단하고 행동한다.

이러한 구조는 단일 고장점(single point of failure)을 제거하여 시스템의 강건성을 크게 향상시킨다. 만약 군집의 일부 에이전트가 고장 나거나 네트워크에서 이탈하더라도, 나머지 에이전트들이 임무를 계속 수행할 수 있어 시스템 전체가 붕괴되는 것을 막고 ‘점진적 성능 저하(graceful degradation)’를 가능하게 한다. 이처럼 분산 제어는 군집 시스템에 내재된 결함 허용 능력의 근간을 이룬다.

군집 시스템의 분산 제어와 협력은 안정적인 통신에 크게 의존한다. 그러나 UAV의 높은 이동성과 동적인 환경은 통신 링크의 불안정성을 야기하므로, 이를 극복하기 위한 탄력적인 통신 아키텍처가 필수적이다.

FANET 라우팅 프로토콜 유형 핵심 메커니즘 장점 단점/과제
OLSR 프로액티브 (Proactive) 링크 상태(Link-State) 기반, MPR(Multi-Point Relay)을 통한 플러딩 최적화 경로 설정 지연이 적음, 대규모 네트워크에 적합 주기적인 토폴로지 정보 교환으로 인한 오버헤드가 큼
AODV 리액티브 (Reactive) 경로 요청/응답(RREQ/RREP) 기반의 온디맨드 경로 탐색 네트워크 오버헤드가 낮고, 자원 소모가 적음 경로 설정 시 초기 지연 발생, 높은 이동성 환경에서 성능 저하
BATMAN-adv 프로액티브 (Proactive) 각 노드가 최적의 다음 홉(next-hop) 정보만 유지, 전체 토폴로지 불필요 분산적이고 확장성이 좋으며, 리눅스 커널에 통합되어 효율적임 특정 시나리오에서 다른 프로토콜(예: Babel) 대비 성능이 낮을 수 있음
Babel 프로액티브 (Distance-Vector) 다양한 라우팅 메트릭을 사용하는 거리-벡터 방식 높은 이동성과 동적 링크 품질 변화에 강건함 BATMAN-adv, OLSR 대비 실제 UAV 환경에서 더 나은 성능을 보임

군집 시스템은 개별 에이전트의 결함 허용 능력을 넘어, 협력을 통해 시스템 전체의 신뢰성을 높일 수 있다.

결론적으로, UAV 군집 시스템에서 통신은 협력을 가능하게 하는 핵심 요소인 동시에, 시스템 전체를 위협할 수 있는 주요 취약점이다. 군집의 높은 이동성은 통신 링크의 단절, 네트워크 혼잡, 보안 위협과 같은 문제를 야기한다. 역설적으로, 이러한 통신 결함에 대한 해결책 역시 더욱 정교한 통신 기술에서 찾아야 한다. 자가 치유가 가능한 메시 네트워크 토폴로지, 간헐적 연결 환경에서도 동작하는 라우팅 프로토콜, 그리고 분산 합의 알고리즘 등은 모두 통신의 취약성을 극복하고 군집의 회복탄력성을 높이기 위한 노력이다. 이는 군집의 결함 허용 설계가 개별 드론의 물리적 강건성을 넘어, 전체 네트워크의 정보 무결성과 연결성을 보장하는 문제로 확장됨을 의미하며, FANET, 라우팅, 분산 합의 기술이 군집 신뢰성 연구의 핵심이 되는 이유를 설명해준다.

본 고찰은 UAV 시스템의 결함 허용 기술이 단일 부품의 신뢰성 향상을 넘어, 하드웨어, 소프트웨어, 제어, 통신 등 다계층에 걸친 통합적인 시스템 공학적 접근법으로 발전하고 있음을 보여준다. 결함 감지 및 진단(FDD) 기술은 모델 기반 접근법의 정밀성과 데이터 기반 접근법의 유연성을 결합하는 하이브리드 형태로 진화하고 있다. 결함 허용 제어(FTC) 분야에서는 전통적인 수동적(PFTC) 및 능동적(AFTC) 방식의 경계가 허물어지며, 강건성과 적응성을 동시에 갖춘 고성능 제어기들이 등장하고 있다. 특히, 다중 UAV로 구성된 군집 시스템에서는 개별 에이전트의 신뢰성뿐만 아니라, 분산 제어, 탄력적인 통신 네트워크, 협력적 결함 관리를 통해 시스템 전체의 회복탄력성(resilience)을 확보하는 것이 핵심 과제로 부상했다.

UAV 결함 허용 기술은 상당한 발전을 이루었지만, 상용화 및 광범위한 적용을 위해서는 여전히 해결해야 할 과제들이 남아있다.

7.3. 미래 연구 방향

이러한 과제들을 해결하고 더욱 안전하고 신뢰할 수 있는 UAV 시스템을 구현하기 위해 다음과 같은 연구 방향이 유망할 것으로 전망된다.

이러한 연구들은 UAV가 물류, 감시, 재난 대응 등 사회의 핵심적인 역할을 안전하게 수행하는 미래를 앞당기는 데 기여할 것이다.

  1. UAV Fault Detection Methods, State-of-the-Art - MDPI, accessed July 5, 2025, https://www.mdpi.com/2504-446X/6/11/330