11.6.3.1 WAN MTU 최적화를 위한 런타임 패킷 조각화(Fragmentation) 한계 설정 컨트롤

11.6.3.1 WAN MTU 최적화를 위한 런타임 패킷 조각화(Fragmentation) 한계 설정 컨트롤

로컬 이더넷망에서 유려하게 흐르던 ROS2 센서 데이터가 스타링크(Starlink)나 5G 셀룰러 망과 같은 거친 광역 통신망(WAN) 인프라로 사출될 때, 시스템 엔지니어들이 가장 빈번히 겪는 절망은 잦은 패킷 유실과 지독한 레이턴시 지터(Jitter)다.

이 네트워크 붕괴의 이면에는 통신망의 물리적 목구멍 크기, 즉 MTU(Maximum Transmission Unit) 사양과 이를 무시한 거대 패킷의 강제 조각화(IP Fragmentation)라는 기저 병목이 숨어 있다. 이더넷의 기본 MTU는 1500바이트지만, IPSec(VPN)이나 각종 모바일 코어망을 거치는 프레임은 오버헤드로 인해 실질 가용 MTU가 1300~1400바이트 단위로 급감한다. 본 절에서는 파편화 오버헤드를 타파하기 위해 Zenoh 라우터 단에서 패킷 청크(Chunk) 단위를 능동적으로 자르고 통제하는 런북을 거행한다.

1. 운영체제 레벨 IP 파편화(IP Fragmentation)의 치명성

브릿지에서 5MB 크기의 고해상도 영상을 단 하나의 통 소켓 명령으로 write 발포했다고 가정하자. 어플리케이션은 편하지만 밑단에 있는 TCP/IP 스택은 비상이 걸린다.

리눅스 커널은 ഈ 5MB 데이터를 네트워크 카드가 수용할 수 있는 MTU(예: 1500바이트) 크기에 맞춰 무려 3,400개의 작은 IP 조각(Fragment)으로 강제 절단한다. 이 행위 자체만으로도 막대한 CPU 인터럽트 오버헤드가 발생한다. 더 끔찍한 것은, 이 3,400개의 조각 중 WAN 고속도로를 달리다 단 하나의 조각(Fragment)이라도 대기 중에 증발해버릴 경우다.
TCP 혹은 Zenoh 엔진은 “어? 중간 1502번 파편 조각이 없네?“라고 인지하며, 조립을 포기하고 그 5MB짜리 원장 데이터 전체를 쓰레기통에 폐기해 버린다. 즉 MTU 경계를 초과한 거대한 단일 IP 프래그멘테이션 의존은 무선망 환경에서 기하급수적으로 패킷 드롭률을 끌어올리는 자살 행위다.

2. Zenoh 런타임 자체 분절(Chunking) 아키텍처 발동

OS 커널의 멍청한 강제 파편화에 기대는 대신, 어플리케이션 계층인 Zenoh 프로토콜이 직접 칼을 들고 데이터를 WAN망 규격에 맞춰 정갈하게 도킹(Chunking)시켜야 한다.

Zenoh 라우터나 브릿지를 구동할 때, 로컬과 WAN을 잇는 링크 설정(Link Configuration) 상에 전방향 페이로드 크기 한계 파라미터를 명시하여 커널이 개입하기 전에 Zenoh가 자체 시퀀스를 달아 패킷을 나누도록 강제로 조율하라.

/* [WAN 파이프라인 대응] zenohd 설정 파일의 MTU/Chunk 튜닝 런북 */
{
  "transport": {
    "link": {
      "tx": {
         // WAN 망의 VPN 가상 인터페이스 허용치를 감안하여 
         // MTU 보다 조금 작게(예: 1350 bytes) 페이로드 한계치 선언
         "max_packet_space": 1350 
      }
    }
  }
}

이 통제권 패치가 주입되면, 거대한 텔레메트리 덩어리를 받은 Zenoh 코어는 자체적으로 1350바이트 크기의 Opaque 청크로 데이터를 분리하고 다중화(Multiplexing) 시퀀스 번호를 매긴 뒤에야 소켓 버퍼로 넘긴다. 커널은 이미 잘게 썰린 IP-Safe 패킷을 받으므로 무식한 강제 파편화를 가동하지 않는다.

3. 스마트 재조립(Re-assembly) 및 개별 재전송 보장

Zenoh 레벨 분절(Chunking)의 압도적 우위는 에러 복구(Error Recovery) 메커니즘에 있다.
커널 IP 프래그멘테이션은 조각 하나를 잃어버리면 메시지 전체를 박살 내지만, Zenoh 와이어 프로토콜이 분절한 청크 스트림은 수신측(zenohd)과 송신측이 자체적인 신뢰 보장 세션(Reliable Session)을 통해 그 1350바이트짜리 유실 청크 “단 하나“만을 다시 요구(Fast Retransmit)하여 가져온다.

이를 통해 무선망(4G/5G) 환경의 심한 변동성 속에서도 대용량 ROS2 데이터의 전체 손상(Total Loss) 리스크를 국소적 청크 손상(Partial Loss)으로 격하시킨다. 이는 엣지부터 클라우드까지 뻗은 배관의 물리적 직경(MTU)을 아키텍트가 완전히 장악하고 연산함으로써 파생되는 극강의 네트워크 주권 확립이다.