Booil Jung

무인 항공기 시스템의 결함 허용

본 보고서는 무인 항공기(UAV) 시스템의 결함 허용(Fault Tolerance)에 대한 포괄적인 고찰을 제공한다. UAV가 임무 및 안전이 중요한 애플리케이션에 점점 더 많이 배치됨에 따라, 결함 발생 시 신뢰성과 안전성을 보장하는 것이 무엇보다 중요해졌다. 본 보고서는 UAV 하드웨어, 소프트웨어, 통신 링크에 영향을 미치는 일반적인 결함의 분류부터 시작하여 해당 분야에 대한 구조적인 개요를 제시한다. 이어서 결함 허용 시스템의 두 가지 주요 기둥인 결함 감지 및 진단(FDD)과 결함 허용 제어(FTC)에 대해 심도 있게 다룬다. 모델 기반, 데이터 기반, 하이브리드 접근법을 포함한 FDD 방법론을 분석한다. 다음으로 수동적 FTC(PFTC) 기법인 슬라이딩 모드 제어(SMC) 및 L1 적응 제어와 실시간 시스템 재구성에 의존하는 능동적 FTC(AFTC) 방법을 비교하며 FTC 전략을 상세히 검토한다. 하드웨어 이중화, N-버전 프로그래밍과 같은 소프트웨어 결함 허용 기법, 실시간 운영체제(RTOS)의 중요한 역할을 통해 시스템 수준의 구현을 탐구한다. 특히 분산 제어, 탄력적인 통신 프로토콜, 합의 알고리즘을 포함하여 다중 UAV 군집(Swarm)에서의 결함 허용에 대한 고유한 과제와 해결책에 특별한 주의를 기울인다. 보고서는 디지털 트윈과 계층 간 신뢰성 모델의 통합과 같은 주요 미해결 과제와 유망한 미래 연구 방향을 제시하며, 진정으로 자율적이고 신뢰할 수 있는 UAV 시스템 개발을 진전시키는 것을 목표로 결론을 맺는다.

무인 항공기(UAV), 즉 드론은 초기의 군사적 및 취미용 기기를 넘어 현대 사회의 필수적인 도구로 빠르게 자리매김하고 있다. UAV는 물류 배송, 인프라 점검, 수색 및 구조, 정밀 농업 등 다양한 민간 부문에서 혁신을 주도하고 있다. 이러한 응용 분야의 확장은 UAV가 복잡하고 예측 불가능하며 종종 인간과 근접한 환경에서 작동해야 함을 의미한다. 이에 따라 시스템의 신뢰성과 성능에 대한 기준이 전례 없이 높아졌으며, 치명적인 고장으로 인한 재산 피해나 인명 손실을 방지하기 위해 결함 허용(Fault Tolerance) 기술은 선택이 아닌 필수가 되었다.

특히, 도심 항공 모빌리티(Urban Air Mobility, UAM) 개념의 등장은 이러한 요구를 더욱 증폭시킨다. “에어 택시”와 같은 미래형 교통수단은 상업용 항공기와 동등하거나 그 이상의 안전 수준을 요구하게 될 것이며, 이는 결함 허용 제어 기술이 UAV 설계의 핵심 요소가 되어야 함을 시사한다.

결함 허용 시스템을 논의하기 위해서는 먼저 기본적인 용어에 대한 명확한 이해가 필요하다.

결함(Fault): 결함은 시스템 구성 요소의 물리적 결함, 불완전성, 또는 설계상의 하자이다. 예를 들어, 프로펠러의 균열, 소프트웨어 코드의 버그, 또는 액추에이터가 특정 위치에 고착되는 현상 등이 결함에 해당한다. 결함은 문제의 근본 원인이다.
오류(Error): 오류는 결함으로 인해 발생하는 시스템의 비정상적인 내부 상태를 의미한다. 예를 들어, 센서의 부정확한 측정값, 메모리 내 데이터 손상 등이 오류에 해당한다. 오류는 결함이 시스템 내부에서 발현된 상태이다.
고장(Failure): 고장은 오류가 시스템의 출력으로 전파되어 시스템이 의도된 서비스를 제공하지 못하는 상태를 말한다. 비행 경로 이탈, 제어 불능, 추락 등이 고장의 예이다.

결함 허용(Fault Tolerance)은 결함이 존재함에도 불구하고 시스템이 규정된 기능을, 비록 성능이 저하되더라도, 지속적으로 수행할 수 있는 능력을 의미한다. 이는 본질적으로 시스템 내에 다양한 형태의 이중화(Redundancy)를 도입함으로써 달성된다.

UAV의 신뢰성을 확보하는 것은 단순히 특정 부품의 내구성을 높이는 것 이상의 복합적인 과제이다. 현대의 복잡한 UAV 시스템은 하드웨어, 소프트웨어, 제어, 통신 등 여러 계층이 유기적으로 결합된 사이버-물리 시스템(Cyber-Physical System)으로 이해해야 한다. 초기에는 개별 부품의 평균 고장 시간(MTBF, Mean Time Between Failure)을 늘리는 등 부품 수준의 신뢰성에 집중했다. 그러나 시스템이 고도화되면서 하드웨어의 일시적인 소프트 에러(soft error)가 소프트웨어의 오작동을 유발하거나, 센서의 결함이 액추에이터의 비정상적인 움직임으로 이어지는 등 결함이 여러 계층에 걸쳐 발생하고 전파될 수 있다는 인식이 확산되었다.

특히, 다수의 UAV가 협력하는 군집 비행 시스템에서는 개별 드론의 고장이나 통신 링크의 단절과 같은 문제가 전체 임무의 실패로 이어질 수 있다. 이러한 복잡성을 해결하기 위해, 시스템의 모든 계층을 아우르는 통합적인 신뢰성 모델, 즉 계층 간 신뢰성(Cross-Layer Reliability, CLR) 모델의 필요성이 대두되고 있다. 이 접근법은 하드웨어 수준의 결함부터 통신 네트워크의 불안정성, 그리고 상위 수준의 제어 알고리즘에 이르기까지 모든 요소를 통합적으로 고려하여 시스템 전체의 강건함(robustness)을 확보하는 것을 목표로 한다. 따라서 효과적인 결함 허용 시스템 설계는 각 구성 요소를 개별적으로 다루는 대신, 이들 간의 상호작용을 이해하고 시스템 전체 관점에서 신뢰성을 평가하고 향상시키는 방향으로 나아가야 한다.

UAV 시스템의 신뢰성을 보장하기 위한 첫 단계는 발생 가능한 결함의 종류와 특성을 명확히 이해하는 것이다. UAV의 결함은 크게 하드웨어, 소프트웨어 및 알고리즘, 그리고 통신 시스템의 세 가지 범주로 분류할 수 있다.

하드웨어 결함은 물리적 부품의 성능 저하 또는 완전한 고장을 의미하며, 비행 안전에 직접적인 영향을 미친다.

액추에이터 결함: 액추에이터(모터, 프로펠러, 서보 등)는 UAV의 자세와 위치를 제어하는 핵심 부품으로, 이 부분의 결함은 가장 빈번하게 연구되는 주제 중 하나이다.
- 효율성 상실 (Loss of Effectiveness, LOE): 모터의 추력 감소나 제어면의 작동 범위 축소와 같이 액추에이터의 성능이 부분적으로 저하되는 경우를 말한다. 이는 결빙, 물리적 손상 등으로 인해 발생할 수 있다.
- 고착 (Lock-in-Place): 액추에이터가 특정 위치에서 움직이지 않게 되는 결함이다.
- 완전 고장 (Total Failure): 모터가 완전히 정지하는 등 액추에이터 기능이 완전히 상실되는 경우이다.
센서 결함: 관성측정장치(IMU), GPS, 기압계 등과 같은 센서의 결함은 비행 제어 컴퓨터(FCC)에 잘못된 정보를 제공하여 치명적인 제어 오류를 유발할 수 있다. 센서 결함은 바이어스(bias), 드리프트(drift), 비정상적인 노이즈, 또는 완전한 기능 정지 등 다양한 형태로 나타난다. 특히 IMU와 GPS는 UAV의 실시간 제어에 필수적이므로 이들 센서의 결함은 심각한 결과를 초래할 수 있다.
컴퓨팅 플랫폼(CP) 결함: UAV의 두뇌 역할을 하는 컴퓨팅 플랫폼 자체의 결함도 중요한 고려 대상이다. 마이크로컨트롤러(MCU), 시스템 온 칩(SoC-FPGA), 메모리 등에서 발생하는 하드웨어 오류는 시스템 전체를 마비시킬 수 있다. 이러한 결함은 우주 방사선에 의한 단일 이벤트 효과(Single Event Effect, SEE), 고온, 부품 노후화 등 다양한 원인에 의해 발생한다.
기타 하드웨어 결함: 기체 프레임의 구조적 손상이나 전원 시스템의 고장 또한 UAV의 비행 지속성을 위협하는 주요 결함 요인이다.

소프트웨어는 UAV 자율성의 핵심이지만, 동시에 잠재적인 결함의 원천이기도 하다.

구현 버그: 비행 운영 프로그램(Operational Flight Program, OFP)이나 제어 알고리즘을 코딩하는 과정에서 발생하는 오류이다.
설계 결함: 제어 알고리즘의 논리 자체에 내재된 결함으로, 특정 조건에서 시스템을 불안정하게 만들 수 있다.
타이밍 결함: 실시간 운영체제(RTOS)에서 특정 작업이 정해진 시간(deadline) 내에 완료되지 못하는 경우로, 이는 제어 신호의 유효성을 상실시켜 시스템 불안정을 초래할 수 있다.

단일 UAV뿐만 아니라 특히 UAV 군집 시스템에서 통신은 임무 성공의 필수 요소이며, 통신 시스템의 결함은 심각한 문제를 야기한다.

링크 단절: UAV 간(U2U) 또는 UAV와 지상관제소(GCS) 간(U2I)의 통신 링크가 거리, 장애물, 전파 간섭 등으로 인해 끊어지는 현상이다.
데이터 손상: 전송 중인 데이터 패킷이 노이즈나 간섭으로 인해 변조되는 문제이다.
네트워크 토폴로지 불안정성: 비행 애드혹 네트워크(FANETs)에서 UAV의 빠른 이동으로 인해 네트워크 구조가 계속해서 변하면서 연결이 간헐적으로 끊기고 패킷 손실이 발생할 수 있다.
보안 위협: 재밍(jamming), 스푸핑(spoofing), 중간자 공격(man-in-the-middle) 등 악의적인 공격으로 인해 통신 시스템의 무결성이 훼손되는 경우도 결함의 일종으로 간주된다.

이러한 결함 유형들은 독립적으로 발생하기보다는 상호 연관성을 가지는 경우가 많다. 예를 들어, 센서의 하드웨어 결함은 소프트웨어에 잘못된 데이터를 제공하고, 소프트웨어는 이 데이터를 기반으로 비정상적인 제어 명령을 생성하여 액추에이터를 오작동시킬 수 있다. 이 경우, 표면적으로는 액추에이터 결함처럼 보이지만 근본 원인은 센서에 있다. UAV 군집 비행에서는 한 대의 UAV에서 발생한 작은 항법 오류가 연쇄적으로 다른 UAV와의 충돌을 유발하여, 개별 기체의 구조적 결함과 군집 전체의 네트워크 토폴로지 결함으로 확산될 수 있다. 따라서, 효과적인 결함 허용 시스템은 단순히 결함의 증상을 감지하는 것을 넘어, 여러 시스템 계층의 정보를 종합적으로 분석하여 결함의 근본 원인을 정확히 진단할 수 있는 능력을 갖추어야 한다. 이는 계층 간(cross-layer) 진단 및 하이브리드 FDD 접근법의 필요성을 뒷받침한다.

결함 허용 제어(FTC)가 효과적으로 작동하기 위해서는 시스템의 상태를 정확히 파악하는 것이 선행되어야 한다. 이 역할을 수행하는 것이 결함 감지 및 진단(Fault Detection and Diagnosis, FDD) 시스템이다. FDD는 결함 발생 후 시스템이 적절히 대응할 수 있도록 정보를 제공하는 핵심적인 과정으로, 일반적으로 세 단계로 구성된다.

결함 감지 (Fault Detection): 시스템에서 비정상적인 상태가 발생했음을 인지하는 단계이다.
결함 분리 (Fault Isolation): 결함의 위치를 특정하는 단계이다. 예를 들어, 어떤 센서 또는 어느 모터에서 문제가 발생했는지 식별한다.
결함 식별 (Fault Identification): 결함의 종류와 심각도(크기)를 정량적으로 추정하는 단계이다. 예를 들어, ‘3번 모터의 효율이 50% 감소했다’고 판단하는 것이다.

이러한 FDD를 구현하기 위한 기술은 크게 모델 기반 방법, 데이터 기반 방법, 그리고 이 둘을 결합한 하이브리드 방법으로 나눌 수 있다.

모델 기반 FDD는 시스템의 수학적 모델을 기반으로 정상 상태의 출력을 예측하고, 실제 측정값과의 차이(잔차, residual)를 분석하여 결함을 감지하는 방식이다.

관측기 기반 기법 (Observer-Based Techniques): 정상 시스템의 동작을 모사하는 수학적 모델(관측기)을 실제 시스템과 병렬로 실행한다. 실제 시스템의 센서 출력과 관측기가 예측한 출력 간의 차이인 잔차 신호를 지속적으로 모니터링한다. 평소에는 이 잔차가 0에 가깝지만, 결함이 발생하면 잔차가 커지게 되어 이를 통해 결함을 감지한다. 대표적인 예로 타우 관측기(Thau Observer)가 있다.
칼만 필터 (Kalman Filters, KF): 노이즈가 포함된 동적 시스템의 상태를 추정하는 데 널리 사용되는 기법이다. UAV와 같은 비선형 시스템에는 확장 칼만 필터(Extended Kalman Filter, EKF)가 주로 적용된다. 칼만 필터는 잔차를 분석하여 결함을 감지할 뿐만 아니라, 2단계 칼만 필터(Two-Stage Kalman Filter)와 같은 기법을 통해 결함의 크기까지 추정할 수 있다.
패리티 공간 접근법 (Parity Space Approach): 다수의 중복된 센서 정보를 이용하여 시스템의 상태를 완전히 추정하지 않고도 센서 측정값들 간의 일관성을 검사하는 분석적 이중화 기법이다. 이를 통해 특정 센서의 고장을 감지하고 분리할 수 있다.

데이터 기반 FDD는 시스템의 정확한 수학적 모델 없이, 운용 중에 수집된 데이터를 학습하여 정상과 비정상 상태를 구분하는 방식이다.1

인공 신경망 (Neural Networks, NN):
- 방사 기저 함수 신경망 (RBFNN): 시스템의 비선형성이나 알려지지 않은 결함의 동특성을 근사화하는 데 사용된다.
- 합성곱 신경망 (CNN): 프로펠러에서 발생하는 소음과 같은 비전통적인 데이터를 분석하여 프로펠러의 손상 상태를 분류하는 등, 패턴 인식에 강점을 보인다.
통계적 방법:
- 랜덤 포레스트 (Random Forest): 다수의 결정 트리를 활용하는 앙상블 학습 기법으로, 이를 개선한 “자동 순차 랜덤 포레스트(Auto Sequential Random Forest)”는 센서 결함을 실시간으로 분리하고 식별하는 데 사용될 수 있다.
- 순차 확률비 검정 (SPRT): 결함이 발생했다는 가설과 그렇지 않다는 가설 사이에서 통계적으로 유의미한 결정을 내리는 데 사용된다.
신호 처리 (Signal Processing): 시스템 모델 대신 측정된 신호 자체를 분석하는 방법이다. 예를 들어, 이산 푸리에 변환(DFT)을 통해 센서 신호의 주파수 특성을 분석하여 결함의 징후를 찾아낼 수 있다.

모델 기반과 데이터 기반 방법의 장점을 결합한 접근법도 활발히 연구되고 있다. 예를 들어, 칼만 필터로 시스템 상태를 추정한 뒤, 이를 적응형 신경망의 입력으로 사용하여 알려진 모델의 불확실성과 예측 불가능한 결함을 동시에 처리하는 방식이 있다.

FDD 기법	핵심 원리	장점	단점	주요 적용 분야
관측기 기반	수학적 모델과 실제 시스템 출력 비교 (잔차 생성)	이론적 기반이 명확하고, 결함 추정이 가능함.	시스템 모델의 정확도에 크게 의존함.	액추에이터, 센서 결함
칼만 필터 (KF/EKF)	노이즈 환경에서 상태 및 결함 추정	통계적으로 최적이며 노이즈에 강함.	비선형성이 강한 시스템에서는 구현이 복잡하고 계산량이 많음.	센서 및 액추에이터 결함
인공 신경망 (NN)	데이터로부터 정상/비정상 패턴 학습	복잡한 비선형 시스템에 적용 가능하며, 모델이 불필요함.	대량의 학습 데이터가 필요하고, ‘블랙박스’ 모델로 해석이 어려움.	센서, 액추에이터, 구조 결함
신호 처리	신호의 시간/주파수 영역 특성 분석	모델이 필요 없으며, 특정 결함(예: 모터 불균형)에 민감함.	다중 또는 동시 결함 감지에 한계가 있을 수 있음.	액추에이터(모터, 프로펠러) 결함
하이브리드	모델 기반과 데이터 기반 방법 결합	각 방법의 장점을 취합하여 강건성과 정확도를 높임.	시스템 설계 및 통합의 복잡성이 증가함.	복합적인 결함 시나리오

FDD 시스템 설계에 있어 중요한 고려사항은 감지 속도와 진단 정확도 사이의 균형이다. 능동형 결함 허용 제어(AFTC)는 FDD 모듈의 정보에 의존하여 제어기를 재구성하므로, 결함 감지가 늦어지면 시스템이 불안정해질 수 있다. 반면, 너무 민감한 감지 알고리즘은 외부 교란이나 센서 노이즈를 결함으로 오인하여 불필요하거나 심지어 위험한 제어기 재구성을 유발할 수 있다. 이처럼 빠른 반응속도와 높은 신뢰성 사이에는 본질적인 상충 관계가 존재한다. 이러한 문제를 해결하기 위해, 최근 연구들은 정해진 시간 내에 수렴을 보장하는 고정 시간 관측기(fixed-time observer)나 계산 부하를 줄인 온라인 학습 기계(online learning machine)와 같이, 감지 지연을 최소화하면서도 진단의 신뢰성을 높이는 방향으로 발전하고 있다. 이는 FDD 시스템이 단순히 ‘가장 정확한’ 알고리즘을 선택하는 문제가 아니라, 특정 임무와 시스템의 요구사항에 맞춰 속도와 신뢰성 간의 최적점을 찾는 복잡한 엔지니어링 문제임을 시사한다.

결함이 감지되고 진단되면, 시스템은 이를 극복하고 안정성을 유지하며 임무를 지속해야 한다. 이를 담당하는 것이 결함 허용 제어(Fault-Tolerant Control, FTC) 시스템이다. FTC는 결함 발생 시에도 사전에 정의된 수준의 성능을 유지하는 제어 전략을 포함하며, 크게 수동적(Passive) 방식과 능동적(Active) 방식으로 나뉜다.

PFTC는 별도의 결함 감지 및 진단(FDD) 모듈 없이, 사전에 예상되는 특정 범위의 결함과 불확실성에 대해 강건하도록 설계된 단일 제어기를 사용하는 방식이다. 이 접근법은 제어기 구조가 고정되어 있으며, 결함을 외부 교란(disturbance)의 일종으로 간주하고 이를 억제하는 데 초점을 맞춘다.

슬라이딩 모드 제어 (Sliding Mode Control, SMC): SMC는 모델의 불확실성과 외부 교란에 매우 강인한 특성을 지녀 PFTC에 자연스럽게 부합하는 비선형 제어 기법이다. 시스템의 상태를 ‘슬라이딩 평면’이라는 원하는 상태 공간으로 강제하고 그 위에서 유지시켜 안정성을 확보한다. 하지만 SMC의 주요 단점은 제어 입력의 불연속성으로 인한 고주파 진동, 즉 ‘채터링(chattering)’ 현상이다. 이를 완화하기 위해 Super-Twisting Algorithm (STA)과 같은 고차 SMC 기법이나, 불확실성의 상한을 미리 알 필요 없이 제어기 이득을 온라인으로 조절하는 적응형 SMC(Adaptive SMC)가 제안되었다.
L1 적응 제어 (L1 Adaptive Control, L1-AC): 이 기법은 강건성(robustness)과 적응(adaptation)을 분리하는 구조를 가지고 있어 빠른 적응 속도를 보이면서도 과도 응답 성능을 보장하는 장점이 있다. 제어 법칙에 저역 통과 필터(low-pass filter)를 도입하여 기존 적응 제어에서 높은 적응 이득으로 인해 발생할 수 있는 고주파 진동을 제거한다. L1-AC는 종종 백스테핑(backstepping)과 같은 다른 제어 기법과 결합되어 사용되기도 한다.
H-infinity (H∞) 제어: H∞ 제어는 불확실성에 대한 강건한 안정성과 성능을 보장하는 제어기 설계 기법으로, 이중 시스템(dual-system) VTOL UAV의 천이 비행 중 프로펠러 손실과 같은 결함에 대응하기 위한 PFTC 설계에 적용된 바 있다.

AFTC는 FDD 모듈을 통해 결함을 실시간으로 감지, 분리, 식별한 후, 이 정보를 바탕으로 제어 시스템을 동적으로 재구성하여 결함의 영향을 보상하는 방식이다. 이는 결함에 보다 능동적으로 대처할 수 있어 PFTC보다 더 넓은 범위의 결함을 처리하고 높은 성능을 유지할 수 있다.

제어 할당 (Control Allocation, CA): 헥사로터나 옥토로터와 같이 구동기가 중복된(over-actuated) 시스템에서 특히 중요한 AFTC 기법이다. 모터 하나가 고장 나면, CA 알고리즘은 목표하는 총 추력과 토크를 생성하기 위해 나머지 정상적인 모터들에게 제어 입력을 재분배한다. 제어 할당은 최적화 기법이나 퍼지 로직 등을 통해 구현될 수 있다.
적응 제어 (Adaptive Control): FDD 모듈로부터 얻은 결함 정보를 바탕으로 제어기의 파라미터를 실시간으로 조정한다. 적응형 SMC, 적응형 백스테핑, 그리고 시스템의 불확실성과 결함을 근사화하는 적응형 신경망 제어기 등이 이 범주에 속한다.
모델 예측 제어 (Model Predictive Control, MPC): MPC는 시스템의 미래 상태를 예측하고, 액추에이터 포화와 같은 물리적 제약 조건을 고려하여 최적의 제어 입력을 계산하는 기법이다. FTC 맥락에서 MPC는 FDD로부터 결함 정보를 받아 내부 예측 모델을 수정함으로써, 손상된 시스템에 최적화된 제어 전략을 실시간으로 수립할 수 있다.

PFTC와 AFTC의 장점을 결합하려는 시도도 활발히 이루어지고 있다.

하이브리드 FTC (HFTC): 결함 발생 직후에는 PFTC가 즉각적으로 시스템의 안정성을 유지하고, 그동안 AFTC의 FDD 모듈이 결함을 정밀하게 진단한다. 진단이 완료되면, 제어기를 재구성하여 최적의 성능을 회복하는 방식이다.
모델-프리 제어 (Model-Free Control, MFC): 정밀한 수학적 모델에 의존하지 않는 접근법으로, 지능형 PID(iPD)나 지능형 백스테핑(iBackstepping)과 같은 기법을 사용한다. 이 방법들은 결함을 시스템의 미모델링된 동역학의 일부로 간주하고 강건하게 제어한다.
강화 학습 (Reinforcement Learning, RL): 학습 과정에서 다양한 고장 시나리오를 경험하게 함으로써, 명시적인 FDD 모듈 없이도 시스템 변화에 본질적으로 적응할 수 있는 제어 정책을 학습하는 방식이다.

특성	수동적 FTC (PFTC)	능동적 FTC (AFTC)
핵심 원리	고정된 단일 제어기를 사용하여 사전 정의된 결함에 대해 강건성을 확보함.	FDD 모듈을 통해 결함을 감지하고, 제어기를 실시간으로 재구성하여 대응함.
FDD 요구사항	필요 없음.	필수적임.
응답 시간	즉각적 (별도의 감지/재구성 지연 없음).	FDD 및 재구성 시간에 따른 지연 발생.
설계 복잡성	상대적으로 단순함.	FDD 모듈과 재구성 로직으로 인해 복잡함.
계산 비용	낮음.	높음 (특히 온라인 최적화나 학습 기반 방법).
성능 (정상/고장)	정상 상태에서는 성능이 최적이 아닐 수 있음. 고장 시 성능 저하가 발생할 수 있음.	정상 상태에서 최적의 성능을 유지하며, 고장 발생 시 성능 저하를 최소화함.
결함 처리 범위	미리 예측된 범위 내의 결함만 처리 가능.	예측되지 않은 결함에도 적응할 수 있어 처리 범위가 더 넓음.
주요 기법 예시	강건 제어 (SMC, H∞), L1 적응 제어.	제어 할당, 적응 제어, 모델 예측 제어.

최근 연구 동향을 살펴보면, PFTC와 AFTC의 경계가 점차 모호해지고 있음을 알 수 있다. 예를 들어, 적응형 슬라이딩 모드 제어(Adaptive SMC)나 L1 적응 제어(L1-AC)와 같은 기법들은 본질적으로 강건한 제어 구조를 가지면서도(PFTC의 특징), 온라인으로 파라미터를 조정하여 시스템 변화에 대응한다(AFTC의 특징). 특히 L1-AC는 결함과 외부 교란을 ‘통합된 불확실성(lumped uncertainty)’으로 간주하고 이를 보상함으로써, 별도의 FDD 모듈 없이도 능동적인 대응이 가능한 구조를 제시한다. 이러한 “암묵적 능동형(implicitly active)” 또는 “적응형-강건(adaptive-robust)” 제어기들은 전통적인 AFTC의 복잡한 FDD-재구성 루프 없이도 높은 수준의 결함 허용 능력을 제공한다. 이는 UAV FTC 설계가 PFTC와 AFTC 사이의 이분법적 선택을 넘어, 성능, 복잡성, 신뢰성 간의 균형을 최적화하는 통합적인 솔루션으로 진화하고 있음을 보여준다.

안전 필수 UAV 시스템은 제어 알고리즘뿐만 아니라 시스템 아키텍처 전반에 걸쳐 결함 허용 설계가 통합되어야 한다. 이는 하드웨어, 소프트웨어, 운영체제 수준에서의 이중화 및 보호 메커니즘을 포함한다.

하드웨어 이중화는 결함 허용을 구현하는 가장 직접적이고 전통적인 방법으로, 핵심 부품을 복제하여 주 부품 고장 시 예비 부품이 즉시 임무를 인계받도록 하는 방식이다.

주요 아키텍처:
- 이중 이중화 (Dual Redundancy): 주 시스템과 예비 시스템, 두 개의 모듈로 구성된다. 한 모듈에서 고장이 감지되면 다른 모듈로 전환된다. 이 구조는 고장 감지는 가능하지만, 어느 쪽이 고장인지 판별하기 위해서는 추가적인 로직이 필요하다.
- 삼중 모듈러 이중화 (Triple Modular Redundancy, TMR): 동일한 기능을 수행하는 세 개의 독립적인 모듈을 병렬로 운영하고, 그 결과를 투표(voting) 메커니즘으로 비교한다. 다수결 원칙에 따라 하나의 모듈에서 발생한 오류는 무시(masking)되므로 시스템은 중단 없이 정상 작동을 계속할 수 있다. TMR은 유인 항공기 및 우주선과 같은 최고 수준의 안전성이 요구되는 시스템에서 표준으로 사용된다.
구현 사례: UAV에서는 핵심적인 비행 제어 컴퓨터(FCC)나 IMU, GPS 수신기, 전원 공급 장치 등에 이중화가 적용된다. 예를 들어, Embention사의 Veronte Autopilot 4x는 4개의 독립적인 오토파일럿 코어를 내장하여 높은 수준의 하드웨어 이중화를 구현했다.
장단점: 하드웨어 이중화는 높은 신뢰성과 확실한 결함 분리를 제공하지만, 부품 추가로 인한 크기, 무게, 전력 소모, 비용(SWaP-C) 증가라는 명백한 단점이 있다. 이는 특히 소형 UAV 설계에 있어 큰 제약 조건으로 작용한다.

하드웨어 결함과 달리, 소프트웨어 결함은 복제로는 해결되지 않으므로(버그까지 복제되므로), ‘설계 다양성(Design Diversity)’이라는 개념을 기반으로 한다.

설계 다양성 기법:
- N-버전 프로그래밍 (N-Version Programming, NVP): 동일한 요구사항 명세서를 바탕으로 N개의 독립적인 개발팀이 서로 다른 버전의 소프트웨어를 개발한다. 이 버전들을 동시에 실행하고, 그 결과를 투표기를 통해 비교하여 다수결로 최종 결과를 결정한다. 독립적인 개발 과정 덕분에 서로 다른 버전이 동일한 버그를 가질 확률이 매우 낮다는 가정에 기반한다.
- 복구 블록 (Recovery Blocks, RB): 주(primary) 모듈이 연산을 수행한 후, ‘수용 테스트(acceptance test)’를 통해 결과의 타당성을 검사한다. 테스트를 통과하지 못하면, 시스템 상태를 이전의 안전한 지점으로 되돌리고(rollback), 예비(alternate) 모듈을 실행하여 결과를 다시 도출한다.
소프트웨어 제어 결함 허용 (Software-Controlled Fault Tolerance, SCFT): 이 개념은 시스템의 신뢰성과 성능 요구사항이 변함에 따라 소프트웨어를 통해 결함 허용 수준을 동적으로 조절할 수 있게 한다. 예를 들어, SWIFT (Software-Implemented Fault Tolerance)는 단일 스레드 내에서 명령어를 중복 실행하고 결과를 비교하는 순수 소프트웨어 기법이며, CRAFT는 하드웨어와 소프트웨어를 결합한 하이브리드 기법이다.
파티셔닝과 격리 (Partitioning and Isolation): 하드웨어 이중화의 SWaP-C 부담을 줄이기 위한 효과적인 대안으로, 단일 고성능 컴퓨터에서 여러 운영체제나 애플리케이션을 안전하게 격리하여 실행하는 기술이다. 하이퍼바이저나 ARINC 653과 같은 파티셔닝 운영체제를 사용하면, 비행 제어와 같은 안전 필수(safety-critical) 소프트웨어와 임무 컴퓨터(mission computer)의 비필수 소프트웨어를 동일한 하드웨어에서 실행하면서도 한 파티션의 오류가 다른 파티션으로 전파되는 것을 막을 수 있다. 이는 소프트웨어적으로 결함 확산을 방지(fault confinement)하는 강력한 방법이다.

UAV의 복잡한 소프트웨어를 안정적으로 운영하기 위해서는 실시간 운영체제(RTOS)가 필수적이다. RTOS는 일반 운영체제와 달리 시간 결정성(determinism)을 보장하여 시스템의 신뢰성과 안전성을 높이는 데 핵심적인 역할을 한다.

결함 허용을 위한 RTOS의 주요 기능:
- 결정론적 스케줄링: 작업의 실행 시간을 예측 가능하게 하여, 비행 제어와 같은 핵심 기능이 정해진 마감 시간(deadline)을 반드시 준수하도록 보장한다. 이는 타이밍 결함을 방지하는 데 중요하다.
- 메모리 보호: 각 프로세스나 파티션에 독립된 메모리 공간을 할당하여, 하나의 프로세스에서 발생한 오류가 다른 프로세스의 메모리를 침범하여 시스템 전체를 손상시키는 것을 방지한다.
- 우선순위 기반 태스크 관리: 장애물 회피와 같은 긴급하고 중요한 작업에 높은 우선순위를 부여하여 시스템 자원을 우선적으로 할당받도록 함으로써, 시스템 부하가 높을 때도 안전 관련 기능이 정상적으로 수행되도록 보장한다.
UAV에서의 적용: 대표적인 오픈소스 오토파일럿인 PX4는 주로 NuttX RTOS 위에서 동작하며, ArduPilot은 ChibiOS/RT나 실시간 패치가 적용된 Linux 등 다양한 환경을 지원한다. 이들 플랫폼은 GPS 신호 손실, 통신 두절, 모터 고장 등에 대비한 다양한 페일세이프(fail-safe) 기능을 내장하고 있다. PX4는 동적 제어 할당(dynamic control allocation)을 통해 모터 고장에 대응하는 기능을 개발 중이며, ArduPilot은 멀티로터의 모터 하나가 고장 났을 때 나머지 모터들로 안정성을 유지하는 성숙한 로직을 갖추고 있다.

UAV 기술이 발전함에 따라, 특히 소형 및 상업용 드론 시장에서는 하드웨어 이중화가 주는 무게와 비용 부담을 피하려는 경향이 뚜렷하다. 이로 인해 결함 허용의 패러다임이 하드웨어 중심에서 소프트웨어 중심으로 이동하고 있다. 단일 비행 제어 컴퓨터 내에서 주 시스템과 백업 시스템을 독립된 파티션으로 나누어 실행하거나, 멀티코어 프로세서의 컴퓨팅 자원을 활용하여 가상화 기반으로 시스템 스택 전체를 복제하는 FlyOS와 같은 접근법이 그 예이다. 이러한 소프트웨어 중심의 결함 허용 방식은 물리적 제약 조건과 신뢰성 요구사항 사이에서 효과적인 균형점을 찾아가는 중요한 연구 방향으로 자리 잡고 있다.

단일 UAV를 넘어 다수의 UAV가 협력하는 군집(swarm) 시스템에서 결함 허용은 새로운 차원의 복잡성을 띤다. 개별 기체의 고장뿐만 아니라, 개체 간의 상호작용과 통신 네트워크의 문제가 전체 시스템의 성능과 생존 가능성에 직접적인 영향을 미치기 때문이다. 따라서 군집 시스템의 결함 허용은 분산 시스템의 관점에서 접근해야 한다.

UAV 군집의 가장 큰 장점 중 하나는 분산 제어(decentralized control) 구조에 있다. 중앙 집중식 제어 시스템과 달리, 분산 제어 시스템에서는 각 UAV(에이전트)가 중앙 통제소의 지시 없이 자신의 주변 환경과 이웃 에이전트로부터 얻은 지역 정보(local information)를 바탕으로 자율적으로 판단하고 행동한다.

이러한 구조는 단일 고장점(single point of failure)을 제거하여 시스템의 강건성을 크게 향상시킨다. 만약 군집의 일부 에이전트가 고장 나거나 네트워크에서 이탈하더라도, 나머지 에이전트들이 임무를 계속 수행할 수 있어 시스템 전체가 붕괴되는 것을 막고 ‘점진적 성능 저하(graceful degradation)’를 가능하게 한다. 이처럼 분산 제어는 군집 시스템에 내재된 결함 허용 능력의 근간을 이룬다.

군집 시스템의 분산 제어와 협력은 안정적인 통신에 크게 의존한다. 그러나 UAV의 높은 이동성과 동적인 환경은 통신 링크의 불안정성을 야기하므로, 이를 극복하기 위한 탄력적인 통신 아키텍처가 필수적이다.

비행 애드혹 네트워크 (FANETs): FANET은 UAV 군집을 위한 지배적인 통신 모델이다. 인프라 없이 UAV들이 서로 직접 통신망을 구성하는 방식으로, 노드의 빠른 이동, 동적인 토폴로지 변화, 간헐적인 링크 단절 등이 주요 기술적 과제이다.
네트워크 토폴로지:
- 메시 네트워킹 (Mesh Networking): 군집의 회복탄력성을 위해 가장 선호되는 토폴로지이다. 각 노드가 여러 다른 노드와 연결되어 데이터 전송 경로가 다중화되므로, 특정 노드나 링크에 장애가 발생해도 다른 경로로 우회하여 통신을 유지하는 ‘자가 치유(self-healing)’ 능력을 갖는다.
- 하이브리드 아키텍처: 다양한 임무 요구사항을 동시에 만족시키기 위해 여러 통신 프로토콜과 토폴로지를 결합하는 방식이다. 예를 들어, 장거리 제어 및 상태 정보 교환에는 LoRa와 같은 저전력 장거리 통신을 사용하고, 고화질 영상 전송에는 Wi-Fi를 사용하는 하이브리드 메시 네트워크를 구성할 수 있다.
FANET 라우팅 프로토콜: 동적인 FANET 환경에서 효율적이고 신뢰성 있는 데이터 경로를 설정하는 것이 중요하다.
- 프로액티브(Proactive) vs. 리액티브(Reactive): 프로액티브 프로토콜(예: OLSR)은 항상 최신 라우팅 정보를 유지하여 지연 시간이 짧지만 오버헤드가 크고, 리액티브 프로토콜(예: AODV)은 필요할 때만 경로를 탐색하여 오버헤드는 적지만 경로 설정 지연이 발생할 수 있다. 하이브리드 프로토콜(예: HWMP)은 이 둘의 장점을 결합한다.
- BATMAN-adv (Better Approach To Mobile Ad-hoc Networking): 메시 네트워크에서 널리 사용되는 프로액티브 라우팅 프로토콜이다. 리눅스 커널의 2계층에서 동작하여 효율적이며, 분산된 방식으로 최적의 경로를 탐색한다. 실제 UAV 환경에서의 성능 비교 연구에서는 Babel과 같은 다른 프로토콜이 특정 지표에서 더 나은 성능을 보이기도 했다.

FANET 라우팅 프로토콜	유형	핵심 메커니즘	장점	단점/과제
OLSR	프로액티브 (Proactive)	링크 상태(Link-State) 기반, MPR(Multi-Point Relay)을 통한 플러딩 최적화	경로 설정 지연이 적음, 대규모 네트워크에 적합	주기적인 토폴로지 정보 교환으로 인한 오버헤드가 큼
AODV	리액티브 (Reactive)	경로 요청/응답(RREQ/RREP) 기반의 온디맨드 경로 탐색	네트워크 오버헤드가 낮고, 자원 소모가 적음	경로 설정 시 초기 지연 발생, 높은 이동성 환경에서 성능 저하
BATMAN-adv	프로액티브 (Proactive)	각 노드가 최적의 다음 홉(next-hop) 정보만 유지, 전체 토폴로지 불필요	분산적이고 확장성이 좋으며, 리눅스 커널에 통합되어 효율적임	특정 시나리오에서 다른 프로토콜(예: Babel) 대비 성능이 낮을 수 있음
Babel	프로액티브 (Distance-Vector)	다양한 라우팅 메트릭을 사용하는 거리-벡터 방식	높은 이동성과 동적 링크 품질 변화에 강건함	BATMAN-adv, OLSR 대비 실제 UAV 환경에서 더 나은 성능을 보임

군집 시스템은 개별 에이전트의 결함 허용 능력을 넘어, 협력을 통해 시스템 전체의 신뢰성을 높일 수 있다.

분산형 FDD (Distributed FDD): 각 UAV가 자신의 상태를 진단하는 것(내인성 진단, endogenous)을 넘어, 이웃 UAV의 행동을 관찰하여 결함을 진단하는(외인성 진단, exogenous) 방식이다. 예를 들어, 두 UAV가 서로의 상대 위치를 측정하고 교환하여 그 값이 불일치할 경우, 둘 중 하나의 센서에 결함이 있음을 추론할 수 있다. 이 방식은 개별 UAV가 스스로 인지하지 못하는 치명적인 결함까지도 탐지할 수 있는 잠재력을 가진다.
합의 알고리즘 (Consensus Algorithms): 일부 노드가 고장 나거나 악의적으로 행동하더라도 분산된 시스템의 모든 정상 노드가 특정 값이나 상태에 대해 합의를 이룰 수 있도록 하는 메커니즘이다. 이는 군집의 협력적 의사결정에 필수적이다. 특히, 악의적인 노드(Byzantine node)의 방해에도 불구하고 합의를 보장하는 비잔틴 장애 허용(Byzantine Fault Tolerance, BFT) 알고리즘이 중요하다. 자원이 제한된 UAV 환경에 맞게 효율성과 보안성, 내결함성의 균형을 맞춘 하이브리드 합의 프로토콜(예: DPoS-PBFT)에 대한 연구가 진행 중이다.
군집 재구성 및 임무 재할당: 군집 내 한 에이전트가 고장 나면, 나머지 에이전트들은 이에 적응해야 한다. 이는 대형을 재구성하여 통신 링크나 감시 범위를 유지하거나, 고장 난 UAV에게 할당되었던 임무를 건강한 다른 UAV들에게 재분배하는 과정을 포함한다. 이러한 재할당은 분산 최적화 알고리즘이나 블록체인 기반의 스마트 계약을 통해 자율적으로 이루어질 수 있다.

결론적으로, UAV 군집 시스템에서 통신은 협력을 가능하게 하는 핵심 요소인 동시에, 시스템 전체를 위협할 수 있는 주요 취약점이다. 군집의 높은 이동성은 통신 링크의 단절, 네트워크 혼잡, 보안 위협과 같은 문제를 야기한다. 역설적으로, 이러한 통신 결함에 대한 해결책 역시 더욱 정교한 통신 기술에서 찾아야 한다. 자가 치유가 가능한 메시 네트워크 토폴로지, 간헐적 연결 환경에서도 동작하는 라우팅 프로토콜, 그리고 분산 합의 알고리즘 등은 모두 통신의 취약성을 극복하고 군집의 회복탄력성을 높이기 위한 노력이다. 이는 군집의 결함 허용 설계가 개별 드론의 물리적 강건성을 넘어, 전체 네트워크의 정보 무결성과 연결성을 보장하는 문제로 확장됨을 의미하며, FANET, 라우팅, 분산 합의 기술이 군집 신뢰성 연구의 핵심이 되는 이유를 설명해준다.

본 고찰은 UAV 시스템의 결함 허용 기술이 단일 부품의 신뢰성 향상을 넘어, 하드웨어, 소프트웨어, 제어, 통신 등 다계층에 걸친 통합적인 시스템 공학적 접근법으로 발전하고 있음을 보여준다. 결함 감지 및 진단(FDD) 기술은 모델 기반 접근법의 정밀성과 데이터 기반 접근법의 유연성을 결합하는 하이브리드 형태로 진화하고 있다. 결함 허용 제어(FTC) 분야에서는 전통적인 수동적(PFTC) 및 능동적(AFTC) 방식의 경계가 허물어지며, 강건성과 적응성을 동시에 갖춘 고성능 제어기들이 등장하고 있다. 특히, 다중 UAV로 구성된 군집 시스템에서는 개별 에이전트의 신뢰성뿐만 아니라, 분산 제어, 탄력적인 통신 네트워크, 협력적 결함 관리를 통해 시스템 전체의 회복탄력성(resilience)을 확보하는 것이 핵심 과제로 부상했다.

UAV 결함 허용 기술은 상당한 발전을 이루었지만, 상용화 및 광범위한 적용을 위해서는 여전히 해결해야 할 과제들이 남아있다.

실환경 검증의 부족: 다수의 정교한 FTC 및 FDD 알고리즘이 시뮬레이션 환경에서는 우수한 성능을 보이지만, 예측 불가능한 외부 교란과 노이즈가 존재하는 실제 비행 환경에서의 검증은 여전히 부족하다.1 시뮬레이션과 실제 환경 간의 격차(sim-to-real gap)를 줄이는 것이 중요한 과제이다.
계산 복잡성 및 자원 제약: 모델 예측 제어(MPC)나 심층 신경망(DNN)과 같은 첨단 기법들은 높은 성능을 제공하지만, 상당한 계산 자원을 요구한다. 이는 크기, 무게, 전력, 비용(SWaP-C) 제약이 심한 소형 UAV의 온보드 컴퓨팅 플랫폼에서는 구현이 어려울 수 있다.
다중 및 연쇄 결함 대응: 현재 연구는 대부분 단일 부품의 고장 시나리오에 집중되어 있다. 그러나 실제 환경에서는 여러 부품이 동시에 고장 나거나, 하나의 결함이 다른 결함을 유발하는 연쇄 고장(cascading failures)이 발생할 수 있다. 이러한 복합적인 결함 상황에 대한 강건한 대처 능력은 아직 충분히 연구되지 않았다.
보안과 결함의 구분: 외부의 악의적인 사이버 공격(예: GPS 스푸핑, 데이터 주입)은 시스템 내부의 센서 결함과 유사한 증상을 유발할 수 있다. 이 둘을 명확히 구분하고 적절히 대응하는 메커니즘은 시스템 안전에 매우 중요하지만, 기술적으로 매우 어려운 문제이다.
검증 및 인증 (V&V): 특히 인공지능 기반의 자율 시스템은 그 결정 과정을 완벽하게 예측하고 설명하기 어렵다. 이러한 비결정적 시스템의 안전성과 신뢰성을 보장하고 공인 기관으로부터 인증을 받기 위한 표준화된 방법론과 규제 프레임워크가 아직 미비하다.

7.3. 미래 연구 방향

이러한 과제들을 해결하고 더욱 안전하고 신뢰할 수 있는 UAV 시스템을 구현하기 위해 다음과 같은 연구 방향이 유망할 것으로 전망된다.

계층 간 신뢰성 모델 (Cross-Layer Reliability Models): 하드웨어의 물리적 고장률, 소프트웨어의 신뢰성, 제어 알고리즘의 강건성, 통신 네트워크의 안정성을 모두 통합하여 시스템 전체의 신뢰성을 종합적으로 분석하고 관리하는 프레임워크 개발이 필요하다.
디지털 트윈 (Digital Twins): 실제 UAV의 고충실도 가상 모델을 실시간으로 동기화하여 운영하는 디지털 트윈 기술은 결함의 사전 시뮬레이션, 실시간 진단, 그리고 최적의 복구 전략 검증에 획기적인 도구가 될 수 있다.
결함 예측 및 건전성 관리 (Prognostics and Health Management, PHM): 결함 발생 후 대응하는 수동적인 방식에서 벗어나, 시스템의 운용 데이터를 AI/ML 기술로 분석하여 고장을 사전에 예측하고 예방 정비를 가능하게 하는 PHM 기술로의 전환이 필요하다.
결함 허용 군집 지능 (Fault-Tolerant Swarm Intelligence): 개별 에이전트의 손실이나 통신 두절 상황에서도 군집 전체가 임무를 지속할 수 있도록 하는 분산형 임무 재할당, 대형 재구성, 협력적 의사결정 알고리즘에 대한 연구가 더욱 심화될 것이다.
안전하고 탄력적인 통신: 물리적 링크 단절과 사이버 공격에 동시에 강건한 통신 프로토콜 개발이 시급하다. 블록체인 기술을 활용하여 분산된 환경에서 데이터의 무결성을 보장하고 노드 간 신뢰를 구축하는 연구도 주목할 만한 방향이다.

이러한 연구들은 UAV가 물류, 감시, 재난 대응 등 사회의 핵심적인 역할을 안전하게 수행하는 미래를 앞당기는 데 기여할 것이다.

UAV Fault Detection Methods, State-of-the-Art - MDPI, accessed July 5, 2025, https://www.mdpi.com/2504-446X/6/11/330