9.8 이중화(Redundancy) 설계

Level 4 자율주행 시스템은 단일 구성 요소의 결함이 직접적으로 위험 사건을 야기하지 않도록 결함 허용(fault-tolerant) 아키텍처를 채택해야 한다. 이를 위한 핵심 설계 원칙이 이중화이며, 이중화는 동일 기능을 서로 독립된 자원으로 중복 구현하여 단일 점 결함(single-point failure)을 제거하고 잠재 결함의 검출 가능성을 향상시키는 기법이다. 이 절에서는 이중화의 학술적 정의, 분류, 정량적 모형, 자율주행 영역별 적용 방안, 검증 절차를 학습 순서에 따라 기술한다.

1. 이중화의 학술적 정의와 목적

이중화는 시스템이 결함 발생 시에도 안전 목표(safety goal)를 만족하는 동작을 지속하거나 안전 상태(safe state)로 천이하기 위하여, 동일하거나 동등한 기능을 둘 이상의 독립된 채널로 구현하는 설계 기법으로 정의된다. ISO 26262:2018 Part 1은 이중화를 안전 메커니즘(safety mechanism)의 한 형태로 분류하며, IEC 61508-4:2010 Functional safety of electrical/electronic/programmable electronic safety-related systems — Part 4: Definitions and abbreviations는 하드웨어 결함 허용(hardware fault tolerance, HFT)을 동일 목적의 정량적 척도로 정의한다.

이중화 설계의 학술적 목적은 다음과 같다. 첫째, 단일 점 결함을 제거함으로써 단일 점 결함 지표(SPFM)와 잠재 결함 지표(LFM)를 자동차 안전 무결성 등급(ASIL)이 요구하는 수준으로 향상시킨다. 둘째, 무작위 하드웨어 결함의 확률적 지표(PMHF)를 결합 확률 모형에 의하여 감소시킨다. 셋째, 체계적 결함을 다양성(diversity)을 통하여 완화한다. 넷째, 운전자가 폴백을 수행하지 않는 운용 환경에서 결함 운용(fail-operational) 거동을 보장한다.

2. 결함 운용과 결함 안전의 구분

전통적인 자동차 전기·전자 시스템은 결함 발생 시 신속히 동력 보조를 차단하는 결함 안전(fail-safe) 거동을 채택하여 왔다. 이 거동은 운전자가 즉시 폴백을 수행할 수 있는 낮은 자동화 수준의 시스템에서 합리적이다. 그러나 운전자가 부재한 Level 4 시스템에서는 단일 결함 발생 직후에도 차량이 동적 운전 작업을 계속 수행하면서 9.9에서 후술하는 최소 위험 상태로 천이할 수 있어야 하므로, 결함 운용(fail-operational) 거동이 요구된다.

결함 운용 거동은 일반적으로 다음과 같은 단계로 구성된다.

  1. 정상 운용(nominal operation)
  2. 결함 발생 후의 성능 저하 운용(fail-degraded 또는 limp-home)
  3. 안전 정지 또는 최소 위험 상태 천이

결함 운용 거동을 구현하기 위하여 시스템은 결함 발생 이후에도 최소한 한 번의 결함을 추가로 견딜 수 있는 능력을 가져야 하며, 이는 하드웨어 결함 허용 HFT \geq 1로 표현된다.

3. 이중화의 분류

이중화는 적용되는 차원과 형태에 따라 다음과 같이 분류된다.

  • 정적 이중화와 동적 이중화: 정적 이중화는 동일 기능을 항상 병렬로 수행하고 다수결(voting)에 의하여 출력을 결정하는 방식이며, 동적 이중화는 결함 검출 후 대기 자원으로 절체(switch-over)하는 방식이다.
  • 능동 대기와 수동 대기: 능동 대기(hot standby)는 대기 자원이 정상 자원과 동시에 동작하면서 즉각 절체가 가능한 형태이며, 수동 대기(cold standby)는 결함 검출 후 대기 자원을 기동하는 형태이다. 두 형태의 중간에 해당하는 따뜻한 대기(warm standby)도 정의된다.
  • 동질 이중화와 이질 이중화: 동질 이중화(homogeneous redundancy)는 동일한 설계와 구현을 사용하므로 무작위 하드웨어 결함에 대하여만 효과적이다. 이질 이중화(heterogeneous redundancy 또는 diverse redundancy)는 서로 다른 설계, 구현, 또는 알고리즘을 사용하므로 체계적 결함과 공통 원인 결함(Common Cause Failure, CCF)에 대하여도 효과적이다.
  • N-모듈러 이중화(N-Modular Redundancy, NMR): 동일 기능의 모듈을 N개 운용하고 다수결로 출력을 결정한다. 가장 대표적인 형태는 삼중 모듈러 이중화(Triple Modular Redundancy, TMR)이며, 항공·우주 분야의 결함 허용 컴퓨팅에서 광범위하게 채택되어 왔다.

4. 이중화의 정량적 신뢰성 모형

이중화 시스템의 신뢰도 분석은 결합 확률에 기반하여 수행된다. 두 개의 독립된 채널이 각각 신뢰도 R(t)를 가질 때, 1-out-of-2 (1oo2) 구조의 시스템 신뢰도는 다음과 같다.

R_{1oo2}(t) = 1 - (1 - R(t))^2

마찬가지로 2-out-of-3 (2oo3) 구조의 시스템 신뢰도는 다음과 같이 표현된다.

R_{2oo3}(t) = 3 R(t)^2 - 2 R(t)^3

이러한 모형은 채널이 통계적으로 독립이라는 가정 하에서 성립한다. 실제 시스템에서는 공통 원인 결함을 고려하여야 하며, IEC 61508-6:2010은 베타 계수 모형(beta-factor model)을 도입하여 공통 원인 결함률을 다음과 같이 표현한다.

\lambda_{CCF} = \beta \cdot \lambda

여기서 \lambda는 단일 채널의 위험 결함률이며, \beta는 공통 원인에 의한 결함의 비율이다. \beta 값은 채널 간의 다양성 정도, 물리적 분리, 환경 조건의 분리 등에 의하여 결정되며, 통상적으로 1%에서 10% 사이의 값으로 평가된다.

9.8.5 공통 원인 결함의 회피

이중화의 효과성은 공통 원인 결함의 회피 정도에 의하여 결정된다. 공통 원인 결함을 회피하기 위한 주요 기법은 다음과 같다.

  • 설계 다양성(design diversity): 서로 다른 알고리즘, 서로 다른 컴파일러, 서로 다른 공급 업체의 부품, 서로 다른 운영체제를 사용한다.
  • 물리적 분리(physical separation): 채널을 공간적으로 분리하여 화재, 충격, 전자기 간섭에 의한 동시 결함을 회피한다.
  • 전원 분리: 채널마다 독립된 전원 공급 장치, 별도의 접지, 독립된 배선을 사용한다.
  • 시간 분리(temporal separation): 동일 자원을 시간 분할로 공유하지 않으며, 별도의 클럭 도메인을 사용한다.
  • 데이터 분리: 채널 간의 데이터 경로를 분리하고, 절대적으로 필요한 동기화만을 안전 통신 프로토콜로 수행한다.

ISO 26262 Part 9는 이러한 분리에 대한 종속 결함 분석(Dependent Failure Analysis, DFA)을 요구하며, 이 분석은 안전 사례의 핵심적 증거로 활용된다.

9.8.6 자율주행 시스템 영역별 이중화 적용

Level 4 자율주행 시스템에서 이중화는 다음의 영역에 적용된다.

9.8.6.1 인지 센서의 이중화

단일 센서 양상으로는 모든 환경 조건에서 인지 신뢰성을 보장할 수 없으므로, 카메라, LiDAR, 레이더가 서로 다른 물리적 원리로 환경을 측정하는 이질 이중화를 형성한다. 또한 동일 양상의 센서를 시야가 중첩되도록 다중 배치하여 단일 센서의 결함 또는 폐색(occlusion)에 대비한다. 센서 이중화는 시야의 중첩(overlap)과 측정 원리의 상보성(complementarity)을 동시에 만족해야 한다.

9.8.6.2 컴퓨팅 플랫폼의 이중화

자율주행 컴퓨터는 일반적으로 두 개 이상의 독립된 컴퓨팅 도메인으로 구성된다. 한 도메인은 주 인공지능 모델을 실행하고, 다른 도메인은 안전 모니터(safety monitor) 또는 백업 경로 계획을 수행한다. 두 도메인은 서로 다른 시스템 온 칩(SoC)으로 구성되거나, 서로 다른 안전 등급의 마이크로컨트롤러를 결합하여 구성된다. NVIDIA DRIVE Hyperion은 자율주행 참조 아키텍처로서 이중화된 컴퓨팅 도메인의 사례를 제시한 바 있다.

9.8.6.3 제동 및 조향 액추에이터의 이중화

제동 시스템은 전기 유압식 주 제동기와 전기 기계식 보조 제동기, 또는 전자 주차 제동기를 결합하여 결함 운용 능력을 확보한다. 조향 시스템은 이중 권선 모터, 이중 인버터, 이중 토크 센서를 가지는 결함 운용 전동식 조향(fail-operational EPS) 구조로 구현된다. 이러한 액추에이터의 이중화는 ISO 26262 Part 5의 정량적 지표를 만족해야 한다.

9.8.6.4 전원 시스템의 이중화

Level 4 자율주행에 요구되는 안전 전원 망(safe power net)은 두 개의 독립된 전원 공급 경로와 두 개의 저장 장치(예: 배터리)를 가진다. 한 전원 경로의 결함이 발생하더라도 다른 경로가 안전 관련 부하에 전력을 공급해야 한다. ISO 21111 Road vehicles — In-vehicle power supply quality 시리즈는 전원 망 품질에 대한 요구사항을 규정한다.

9.8.6.5 통신 망의 이중화

차량 내 통신 망은 시간 결정성을 가지는 이중화 구조로 설계되어야 한다. 자동차 이더넷 기반의 IEEE 802.1CB Frame Replication and Elimination for Reliability 표준은 동일 프레임을 두 개의 경로로 복제하여 전송하고 수신 측에서 중복을 제거하는 절차를 정의하며, 이는 시간 민감 네트워킹(Time-Sensitive Networking, TSN)의 일부로 채택되어 있다. 안전 관련 메시지에는 별도의 안전 통신 계층이 추가로 적용될 수 있다.

9.8.7 다양성과 단조성의 조합

이질 이중화는 체계적 결함의 회피에 효과적이지만, 두 채널의 결과가 서로 다를 때의 중재(arbitration)가 필요하다. 이 문제를 완화하기 위하여 학술적으로 모니터-액터(monitor-actor) 또는 단순 감시자(simplex with safety monitor) 구조가 제안되어 왔다. 이 구조에서 한 채널은 주 기능을 수행하고, 다른 채널은 주 채널의 출력이 사전에 정의된 안전 포락선(safety envelope) 내부에 있는지를 검사한다. 안전 포락선은 안전 책임 모형(예: Responsibility-Sensitive Safety, RSS) 또는 형식적 검증이 가능한 단순한 규칙으로 정의되며, 인공 신경망 기반의 주 채널의 검증 부담을 감소시킨다.

9.8.8 이중화 설계의 검증

이중화 설계는 다음의 분석과 검증을 통하여 그 효과가 입증되어야 한다.

  • FMEDA(Failure Modes, Effects and Diagnostic Analysis): 각 부품의 결함 모드, 결함률, 안전 메커니즘에 의한 진단 커버리지를 정량적으로 산출한다.
  • FTA(Fault Tree Analysis): 최상위 위험 사건으로부터 하위 결함 조합을 연역적으로 분석하여 단일 점 결함의 부재를 검증한다.
  • DFA(Dependent Failure Analysis): 공통 원인 결함과 종속 결함의 가능성을 분석한다.
  • 결함 주입 시험(fault injection test): 하드웨어 또는 소프트웨어에 인위적으로 결함을 주입하고, 결함 운용 거동이 명세된 결함 허용 시간 간격(FTTI) 이내에 활성화되는지를 시험한다.

9.8.9 출처 및 버전 정보

  • ISO 26262:2018, Road vehicles — Functional safety, Parts 1, 5, 9, International Organization for Standardization
  • ISO 21448:2022, Road vehicles — Safety of the intended functionality, International Organization for Standardization
  • ISO 21111 시리즈, Road vehicles — In-vehicle power supply quality, International Organization for Standardization
  • IEC 61508:2010, Functional safety of electrical/electronic/programmable electronic safety-related systems, Parts 1–7, International Electrotechnical Commission
  • IEEE Std 802.1CB-2017, Frame Replication and Elimination for Reliability, Institute of Electrical and Electronics Engineers
  • ANSI/UL 4600:2023, Standard for Safety for the Evaluation of Autonomous Products, Underwriters Laboratories
  • Avizienis, A., Laprie, J.-C., Randell, B., Landwehr, C., Basic Concepts and Taxonomy of Dependable and Secure Computing, IEEE Transactions on Dependable and Secure Computing, 2004