6.5.3 실시간 처리의 도전 과제: 대형 모델의 추론 속도 문제와 엣지 컴퓨팅 최적화.

로봇 공학의 최전선에서 벌어지고 있는 가장 치열한 기술적 전장은 물리적 제어 루프의 엄격한 시간 제약(Time Constraints)과 거대 인공지능 모델(Large Models)이 요구하는 방대한 연산 비용 사이의 충돌을 해결하는 지점에 있다. 과거의 로봇 제어 시스템이 수식 기반의 모델 예측 제어(MPC)나 PID 제어기와 같은 저차원 연산에 의존했던 반면, 현대의 로봇은 시각적 문맥을 이해하고 자연어 명령을 해석하며 복잡한 다단계 추론을 수행해야 한다. 이러한 기능을 수행하는 비전-언어 모델(VLM)이나 거대 언어 모델(LLM)은 수십억(Billion) 단위의 파라미터를 보유하며, 이는 본질적으로 높은 추론 지연(Inference Latency)과 메모리 대역폭 병목(Memory Bandwidth Bottleneck)을 수반한다.

본 절에서는 로봇 시스템에 대형 모델을 탑재할 때 발생하는 실시간 처리의 근본적인 문제점들을 분석하고, 이를 극복하기 위해 학계와 산업계에서 제안된 모델 경량화 아키텍처, 하드웨어 가속 기술, 그리고 엣지-클라우드 협업 컴퓨팅 전략을 포괄적으로 기술한다. 특히, 단순히 모델의 크기를 줄이는 것을 넘어, 로봇의 인지-판단-제어 루프(Perception-Reasoning-Control Loop)가 요구하는 결정론적 지연 시간(Deterministic Latency)을 확보하기 위한 시스템 레벨의 최적화 방법론을 심층적으로 논의한다.

1. 인지-제어 루프의 시간적 불일치와 안정성 위협

로봇은 물리적 세계와 실시간으로 상호작용하는 사이버-물리 시스템(CPS)이다. 로봇의 제어 시스템은 통상적으로 500Hz에서 1kHz 이상의 주파수로 동작하며, 이는 센서 입력부터 액추에이터 명령 생성까지의 과정이 1ms에서 2ms 이내에 완료되어야 함을 의미한다. 반면, 수십억 파라미터를 가진 Transformer 기반의 VLM이나 LLM은 단일 토큰을 생성하는 데에도 고성능 GPU 상에서 수십 밀리초(ms)가 소요되며, 전체 문장이나 복잡한 추론 결과를 생성하는 데는 수백 밀리초에서 수 초가 걸리는 경우가 빈번하다.

1.1 감각 운동 지연과 제어 불안정성

이러한 시간적 불일치(Temporal Mismatch)는 로봇 제어 시스템의 안정성을 위협하는 주된 요인이 된다. 제어 이론적 관점에서 시스템의 전체 지연 시간(Total Latency)이 증가하면 위상 여유(Phase Margin)가 감소하여 오버슈트(Overshoot)나 진동(Oscillation)을 유발하고, 심할 경우 시스템의 발산(Instability)으로 이어진다.

특히 시각 정보를 처리하여 로봇의 동작을 생성하는 시각-운동 정책(Visuomotor Policy)의 경우, 이미지 캡처부터 추론 완료 시점까지의 지연인 ’End-to-End Latency’가 임계치를 초과하면 로봇은 과거의 상태 정보를 기반으로 현재의 행동을 결정하게 된다. 연구에 따르면, 80ms 이상의 지연은 원격 조작이나 정밀 제어 작업에서 성능을 급격히 저하시키며 , 고속으로 움직이는 드론이나 사족 보행 로봇의 경우 30~50ms의 지연만으로도 동적 균형을 잃을 수 있다.

생물학적 시스템인 동물의 경우, 신경계의 전도 속도 제한으로 인해 수십 ms의 감각 운동 지연을 가지지만, 소뇌(Cerebellum)의 예측 제어 기전 등을 통해 이를 효과적으로 보상한다. 그러나 현재의 대형 모델 기반 로봇 시스템은 이러한 생물학적 보상 기전이 부재한 상태에서 순수 연산 속도에 의존하고 있어, 추론 속도의 최적화가 로봇의 생존과 직결된다.

1.2 대형 모델의 연산 병목: 메모리 장벽

대형 모델 추론 속도의 근본적인 병목은 연산량(FLOPs)보다는 메모리 대역폭(Memory Bandwidth)에 기인하는 경우가 많다. Transformer 모델의 디코딩 과정은 자기 회귀적(Autoregressive) 특성을 가지며, 매 토큰 생성 시마다 거대한 모델 가중치(Weight)와 KV 캐시(Key-Value Cache)를 메모리에서 로드해야 한다. 엣지 디바이스인 로봇의 임베디드 컴퓨터(예: NVIDIA Jetson 시리즈)는 데이터센터 급 GPU에 비해 현저히 낮은 메모리 대역폭을 가지므로, 모델이 아무리 많은 연산 코어(CUDA Core)를 가지고 있어도 메모리에서 데이터를 가져오는 속도가 이를 따라가지 못해 지연이 발생한다. 이를 ’메모리 장벽(Memory Wall)’이라 칭하며, 엣지 컴퓨팅 최적화의 핵심은 이 메모리 접근 비용을 최소화하는 데 집중된다.

2. 엣지 네이티브(Edge-Native) 경량 모델 아키텍처

실시간성 확보를 위한 가장 직접적인 접근법은 모델 아키텍처 자체를 엣지 환경에 맞게 재설계하는 것이다. 최근 연구들은 범용성을 가진 대형 모델(Foundation Models)의 지식을 유지하면서도 연산 복잡도와 파라미터 수를 획기적으로 줄인 ‘소형 거대 모델(Small Large Models)’ 개발에 집중하고 있다.

2.1 세그먼트 애니씽 모델(SAM)의 경량화 혁명

Meta가 공개한 **Segment Anything Model (SAM)**은 이미지 내의 모든 객체를 제로샷(Zero-shot)으로 분할할 수 있는 강력한 능력을 보여주었으나, 거대한 이미지 인코더(ViT-H)로 인해 엣지 디바이스에서의 실시간 구동이 불가능했다. 이를 해결하기 위해 다양한 경량화 변형 모델들이 제안되었으며, 이들은 로봇의 시각적 인지 속도를 비약적으로 향상시켰다.

MobileSAM은 지식 증류(Knowledge Distillation) 기법을 활용하여 원본 SAM의 무거운 이미지 인코더를 경량 ViT(TinyViT)로 대체하였다. 핵심은 이미지 인코더와 마스크 디코더의 최적화를 분리(Decoupled Optimization)하여 학습시키는 것으로, 이를 통해 원본 대비 60배 작은 크기로 유사한 성능을 달성하였다. MobileSAM은 단일 GPU로 하루 만에 학습이 가능하며, 추론 속도는 이미지당 약 10ms 수준으로 단축되어 모바일 및 로봇 애플리케이션에 적합하다.

FastSAM은 구조적 접근 방식을 달리하여, Transformer 대신 고도로 최적화된 CNN(Convolutional Neural Network) 기반의 YOLOv8 아키텍처를 활용하였다. 이는 ‘Segment Anything’ 문제를 실시간 객체 탐지 문제로 재정의(Reformulation)함으로써, 기존의 성숙한 CNN 추론 엔진을 활용하여 복잡성을 줄이고 처리 속도를 높였다.

EfficientViT-SAM은 하드웨어 효율성을 극대화하기 위해 Attention 메커니즘을 수정하였다. 기존의 Softmax 기반 Attention은 하드웨어적으로 비효율적인 연산을 포함하고 있어, 이를 ReLU 기반의 선형 Attention(Linear Attention)으로 대체하였다. 이는 전역적 수용 영역(Global Receptive Field)을 유지하면서도 메모리 접근 비용을 줄여, Jetson Orin과 같은 엣지 GPU에서 30배 이상의 가속을 달성하였다.

NanoSAM은 NVIDIA가 제안한 모델로, MobileSAM보다 5배 더 빠른 속도를 기록하였다. NanoSAM은 엣지 디바이스의 TensorRT 최적화와 결합된 경량 CNN 백본(ResNet-18 등)을 사용하여, 정확도 손실을 최소화하면서도 1~2ms 수준의 초저지연 추론을 가능하게 한다. 이는 로봇이 고속 이동 중에도 실시간으로 장애물과 객체를 분할하고 인식할 수 있는 기반을 제공한다.

아래 표 6.5.3-1은 주요 SAM 변형 모델들의 엣지 디바이스 상에서의 성능을 비교한 것이다.

| :— | :— | :— | :— | :— |

표 6.5.3-1: 엣지 디바이스에서의 SAM 변형 모델별 아키텍처 및 성능 비교

2.2 엣지 특화형 소형 비전-언어 모델 (Nano-VLM & SmolVLM)

로봇이 자연어 명령을 이해하고 시각적 상황을 설명하기 위해서는 VLM이 필수적이다. 최근에는 100억 개(10B) 이하, 특히 10억~30억 개(1B~3B) 파라미터 규모의 소형 VLM이 ’엣지 AI’의 핵심으로 부상하고 있다.

Nemotron-Nano VLM은 NVIDIA가 공개한 엣지 특화 모델로, 제한된 메모리와 연산 자원 내에서도 복잡한 시각적 추론과 자연어 이해가 가능하도록 설계되었다. 이 모델은 특히 NVFP4와 같은 저정밀도 양자화 형식을 기본적으로 지원하여, 메모리 대역폭 소모를 줄이면서도 정확도를 유지한다. 벤치마크 결과에 따르면, Nemotron-Nano는 양자화 인식 학습(QAD)을 통해 FP16 대비 1% 미만의 정확도 손실만으로 4배 이상의 추론 효율을 달성한다.

Moondream은 1.8B 파라미터 크기의 초경량 VLM으로, Phi-1.5와 같은 소형 언어 모델(SLM)과 SigLIP 비전 인코더를 결합하였다. Moondream은 라즈베리 파이(Raspberry Pi)나 Jetson Nano와 같은 엔트리급 엣지 보드에서도 구동 가능하며, 로봇이 “내 앞에 있는 물체가 위험한가?“와 같은 질문에 대해 클라우드 연결 없이 즉각적으로 답변할 수 있게 한다.

SmolVLM은 HuggingFace 생태계를 기반으로 한 3B 이하급 모델로, 최신 연구에서 Jetson Orin Nano(8GB) 상에서 12.9 tokens/sec의 생성 속도를 기록하였다. 이는 로봇이 사용자와 실시간으로 대화하며 작업을 수행할 수 있는 수준의 응답성을 제공한다. SmolVLM-256M이나 500M과 같은 극소형 변형 모델들은 엣지 디바이스에서 수백 토큰/초의 속도를 달성하며 단순한 시각적 질의응답을 넘어 고빈도 제어 루프에 통합될 가능성을 보여준다.

NanoOWL은 Google의 개방형 어휘 객체 탐지 모델인 OWL-ViT를 엣지용으로 최적화한 사례이다. 기존 OWL-ViT는 이미지와 텍스트 임베딩 간의 상호작용 비용이 높아 실시간 처리가 어려웠으나, NanoOWL은 이를 TensorRT 엔진으로 변환하고 비전 인코더의 출력을 효율적으로 캐싱함으로써 Jetson AGX Orin에서 실시간 성능을 확보하였다. 이를 통해 로봇은 사전에 학습되지 않은 임의의 물체를 텍스트 프롬프트만으로 즉시 인식하고 조작할 수 있게 된다.

3. 하드웨어 가속 및 런타임 최적화 기술

모델 아키텍처의 경량화만으로는 물리적 한계를 극복하기 어렵다. 로봇용 임베디드 하드웨어의 특성을 고려한 저수준(Low-level) 최적화와 전용 런타임의 활용이 필수적이다. NVIDIA의 Jetson 플랫폼과 TensorRT 프레임워크는 현재 이 분야의 표준으로 자리 잡고 있다.

3.1 TensorRT Edge-LLM과 추론 가속

TensorRT Edge-LLM은 데이터센터가 아닌 엣지 디바이스 환경에 특화된 추론 라이브러리이다. 클라우드 환경이 높은 처리량(Throughput)과 대규모 동시 접속 처리에 최적화된 반면, 로봇 환경은 단일 사용자(로봇 자신)의 요청을 최소한의 지연 시간(Latency)으로 처리하는 것이 목표이다. TensorRT Edge-LLM은 이러한 요구사항을 충족하기 위해 다음과 같은 핵심 기술을 도입하였다.

청크 프리필 (Chunked Prefill): 긴 문맥(Context)이나 고해상도 이미지를 처리할 때, 한 번에 모든 연산을 수행하면 GPU가 장시간 점유되어 다른 긴급한 제어 태스크가 차단(Stall)될 수 있다. 청크 프리필은 입력을 작은 단위로 나누어 처리함으로써, GPU 자원의 점유 시간을 분산시키고 시스템 전체의 응답성을 유지한다.
추측성 디코딩 (Speculative Decoding) - EAGLE-3: 대형 모델의 추론 속도는 메모리 대역폭에 의해 제한된다. 추측성 디코딩은 작고 빠른 ’드래프트 모델(Draft Model)’이 미래의 토큰들을 미리 예측(Speculate)하고, 대형 ’타겟 모델(Target Model)’이 이를 검증(Verify)하는 방식이다. 타겟 모델은 한 번의 메모리 접근으로 여러 개의 토큰을 동시에 검증할 수 있으므로, 메모리 병목을 우회하여 전체 추론 속도를 최대 3배까지 향상시킨다.
양자화 (Quantization)와 NVFP4: 모델의 가중치와 연산 정밀도를 줄이는 양자화는 엣지 최적화의 핵심이다. 최신 Jetson Thor 플랫폼의 Blackwell 아키텍처는 NVFP4 포맷을 하드웨어적으로 지원한다. 이는 기존 FP16 대비 메모리 사용량을 1/4로 줄이고 대역폭 효율을 4배 높이면서도, 2차 미분 정보를 활용한 정교한 양자화 기법을 통해 정확도 저하를 최소화한다.

3.2 제로 카피(Zero-Copy)와 통합 메모리 아키텍처

전통적인 PC 구조에서는 CPU 메모리에 있는 센서 데이터를 GPU 메모리로 복사하는 과정(PCIe 대역폭 소모)에서 상당한 지연이 발생한다. Jetson Orin과 같은 로봇 전용 SoC(System-on-Chip)는 CPU와 GPU가 물리적 메모리를 공유하는 **통합 메모리 아키텍처(Unified Memory Architecture)**를 채택한다. 이를 통해 데이터 복사 없이(Zero-copy) 포인터 전달만으로 대용량 이미지나 포인트 클라우드 데이터를 GPU가 즉시 처리할 수 있게 되어, 전체 파이프라인의 지연 시간을 수 밀리초(ms) 단위로 단축시킨다.

4. 엣지-클라우드 분할 컴퓨팅 (Split Computing)과 포그 로보틱스

단일 엣지 디바이스의 성능 향상에도 불구하고, 수천억 파라미터 급의 초거대 모델이 제공하는 고도의 추론 능력은 여전히 엣지에서 구현하기 어렵다. 이에 대한 대안으로 로봇(엣지)과 외부 서버(포그/클라우드)가 연산을 분담하는 분할 컴퓨팅(Split Computing) 및 포그 로보틱스(Fog Robotics) 전략이 주목받고 있다.

4.1 분할 컴퓨팅의 딜레마: 통신 지연과 지터

분할 컴퓨팅은 DNN의 초기 레이어(Feature Extraction)는 로봇에서 수행하고, 중간 표현(Intermediate Representation)을 압축하여 서버로 전송한 뒤, 나머지 무거운 연산은 서버에서 처리하는 방식이다. 그러나 무선 네트워크(Wi-Fi, 5G)는 본질적으로 불안정하며, 통신 지연과 **지터(Jitter)**를 유발한다.

실험적 연구에 따르면, 클라우드와의 통신은 평균 30ms 이상의 지연과 예측 불가능한 패킷 손실을 동반할 수 있으며, 이는 정밀한 힘 제어(Force Control)나 고속 회피 기동에서 치명적인 제어 루프 불안정을 초래한다. 특히 20ms 이상의 지터는 제어기의 예측 모델을 벗어나는 외란으로 작용하여 로봇의 떨림(Chattering) 현상을 유발할 수 있다.

4.2 AVERY: 이중 스트림 적응형 분할 프레임워크

이러한 문제를 해결하기 위해, 단순한 레이어 단위 분할을 넘어 기능적(Functional) 분할을 수행하는 AVERY (Adaptive Split Computing for VLM) 프레임워크가 제안되었다. AVERY는 인간의 인지 처리 과정(Fast System 1 vs. Slow System 2)을 모방하여 두 개의 병렬 스트림을 운용한다.

컨텍스트 스트림 (Context Stream): 로봇 내부(On-board)에서 저해상도 입력과 경량 모델(예: NanoSAM, TinyViT)을 사용하여 고빈도(High-frequency)로 실행된다. 이는 장애물 회피, 자세 안정화 등 즉각적인 반응이 필요한 ’생존’과 관련된 기능을 담당한다.
인사이트 스트림 (Insight Stream): 외부 서버(Off-board)에서 고해상도 입력과 대형 VLM(예: GPT-4V, LLaVA-Next)을 사용하여 저빈도(Low-frequency)로 실행된다. 이는 복잡한 장면 이해, 장기 계획 수립 등 깊은 사고가 필요한 ‘지능’ 기능을 담당한다.

AVERY 프레임워크에는 네트워크 상태와 로봇의 작업 중요도를 모니터링하는 **자기 인식 컨트롤러(Self-aware Controller)**가 포함되어 있어, 네트워크가 단절되거나 지연이 심해지면 자동으로 인사이트 스트림의 의존도를 낮추고 컨텍스트 스트림 중심으로 동작 모드를 전환한다. 이를 통해 로봇은 가변적인 통신 환경에서도 최소한의 안전성과 작업 지속성을 보장받을 수 있다.

아래 표 6.5.3-2는 AVERY 프레임워크의 이중 스트림 구조와 역할 분담을 요약한다.

| :— | :— | :— | :— | :— | :— |

표 6.5.3-2: AVERY 프레임워크의 이중 스트림 적응형 분할 컴퓨팅 구조

5. 시간 제약형 추론 (Time-Budgeted Inference)과 애니타임 알고리즘

실시간 로봇 시스템에서 가장 중요한 가치는 ’빠른 속도’보다 ’예측 가능한 응답(Deterministic Latency)’이다. 제어 주기가 50ms로 설정된 로봇에게 40ms의 응답은 유효하지만, 60ms의 응답은(비록 더 정확하더라도) 제어 루프를 깨뜨리는 실패한 응답이 된다.

5.1 TimeBill: 동적 시간 예산 관리

TimeBill은 LLM 추론 시간을 예산(Budget)으로 관리하는 새로운 패러다임이다. TimeBill은 추론 요청이 들어올 때마다 다음의 과정을 수행하여 엄격한 시간 제한을 준수한다.

응답 길이 예측 (Response Length Predictor, RLP): 입력 프롬프트를 분석하여 모델이 생성할 토큰의 수를 미리 예측한다. 이는 생성될 토큰 수에 따라 소요 시간이 선형적으로 증가하기 때문이다.
실행 시간 추정 (Execution Time Estimator, ETE): 현재 GPU의 부하 상태, KV 캐시 점유율 등을 고려하여 예상 실행 시간을 계산한다.
동적 KV 캐시 축출 (Adaptive KV Cache Eviction): 예측된 실행 시간이 주어진 시간 예산(Deadline)을 초과할 것으로 예상되면, KV 캐시 축출 비율을 동적으로 조정한다. 즉, 덜 중요한 과거의 문맥 정보를 과감히 삭제하여 연산량을 줄임으로써, 정확도를 다소 희생하더라도 반드시 시간 내에 추론을 완료하도록 강제한다.

5.2 애니타임 알고리즘 (Anytime Algorithms)

이러한 접근은 컴퓨터 과학의 애니타임 알고리즘(Anytime Algorithms) 철학과 맞닿아 있다. 애니타임 알고리즘은 언제 중단되더라도 그 시점까지 계산된 유효한 해(Valid Solution)를 반환할 수 있는 알고리즘이다. 로봇 경로 계획(Path Planning)에서 사용되는 RRT* 알고리즘이 대표적인 예로, 시간이 주어질수록 경로의 최적성이 향상된다.

대형 모델 추론에서도 이러한 개념이 도입되어, 시간 여유가 있을 때는 깊은 레이어까지 모두 연산하여 고품질의 답을 내고, 시간이 부족할 때는 조기 종료(Early Exit)하거나 경량화된 경로를 통해 근사해를 빠르게 도출하는 적응형 깊이(Adaptive Depth) 기술이 연구되고 있다. 이는 급박한 상황(예: 충돌 직전)에서 로봇이 정교한 언어 생성보다는 즉각적인 “정지” 신호를 우선적으로 처리할 수 있게 한다.

6. 결론 및 향후 전망: 대형 모델과 실시간 제어의 공존

대형 모델의 도입은 로봇에게 전례 없는 인지 능력과 범용성을 부여했으나, 동시에 실시간 처리라는 거대한 장벽을 세웠다. 본 절에서 살펴본 바와 같이, 이 문제는 단일 기술만으로는 해결할 수 없으며, 모델 아키텍처, 하드웨어 가속, 시스템 아키텍처 전반에 걸친 통합적인 최적화를 요구한다.

NanoSAM과 Nano-VLM으로 대표되는 엣지 네이티브 모델들은 성능과 효율성의 균형을 맞추며 온디바이스 AI의 가능성을 증명했다. TensorRT Edge-LLM과 NVFP4 기술은 엣지 하드웨어의 잠재력을 극한까지 끌어올려 물리적 제약을 완화하고 있다. 더 나아가 AVERY와 같은 하이브리드 컴퓨팅 구조와 TimeBill과 같은 시간 제약형 추론 기법은 불확실한 통신 환경과 연산 부하 속에서도 로봇 제어 시스템의 강건성(Robustness)을 보장하는 안전장치 역할을 수행한다.

향후 로봇 공학은 온디바이스 지속 학습(On-device Continual Learning) 과, 로봇 제어에 특화된 NPU가 내장된 차세대 SoC의 발전으로 나아갈 것이다. 또한, 대형 모델 자체가 로봇의 물리적 제약과 시간적 한계를 이해하고 스스로 추론 전략을 조절하는 메타 인지(Meta-Cognition) 능력을 갖추는 방향으로 진화할 것으로 전망된다. 로봇 엔지니어들은 이러한 최적화 기술들을 단순한 성능 개선 도구가 아닌, 로봇 시스템의 안전과 생존을 위한 필수적인 설계 요소로 인식하고 통합해야 할 것이다.

7. 참고 자료

Choosing AI Accelerators for Robots: What to Know | by Anton Maltsev | Medium, https://medium.com/@zlodeibaal/choosing-ai-accelerators-for-robots-what-to-know-1fa10f930482
Hybrid Parallel Compliance Allows Robots to Operate With Sensorimotor Delays and Low Control Frequencies - Frontiers, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2021.645748/full
Leave No Observation Behind: Real-time Correction for VLA Action Chunks - arXiv, https://arxiv.org/html/2509.23224v1
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution - NIPS papers, https://proceedings.neurips.cc/paper_files/paper/2024/file/67b0e7c7c2a5780aeefe3b79caac106e-Paper-Conference.pdf
compliant robot control using cerebellar - DIGIBUG Principal, https://digibug.ugr.es/bitstream/handle/10481/77687/95393%281%29.pdf?sequence=4&isAllowed=y
Built for Your Application: Customizable Magnetic Encoder Options - Broadcom Inc., https://docs.broadcom.com/docs/magnetic-encoder-custom-config-wp
Closing the Loop - 3D Object Tracking for Advanced Robotic Manipulation - electronic library -, https://elib.dlr.de/203345/1/1696259.pdf
Sensorimotor delays constrain robust locomotion in a 3D kinematic model of fly walking, https://elifesciences.org/articles/99005
TimeBill: Time-Budgeted Inference for Large Language Models - YouTube, https://www.youtube.com/watch?v=bLKWld98q7c
TimeBill: Time-Budgeted Inference for Large Language Models - arXiv, https://arxiv.org/html/2512.21859v1
On Efficient Variants of Segment Anything Model: A Survey - arXiv, https://arxiv.org/html/2410.04960v2
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications, https://www.researchgate.net/publication/371851844_Faster_Segment_Anything_Towards_Lightweight_SAM_for_Mobile_Applications
(PDF) Real-time open-vocabulary perception for mobile robots on edge devices: a systematic analysis of the accuracy-latency trade-off - ResearchGate, https://www.researchgate.net/publication/396759860_Real-time_open-vocabulary_perception_for_mobile_robots_on_edge_devices_a_systematic_analysis_of_the_accuracy-latency_trade-off
Real-time open-vocabulary perception for mobile robots on edge devices: a systematic analysis of the accuracy-latency trade-off - PMC - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC12583037/
On Efficient Variants of Segment Anything Model: A Survey - arXiv, https://arxiv.org/html/2410.04960v4
Latest NVIDIA NIM™ on the Microsoft Foundry Model Catalog, https://ignite.microsoft.com/en-US/sessions/LABSP600
How Quantization Aware Training Enables Low-Precision Accuracy Recovery, https://developer.nvidia.com/blog/how-quantization-aware-training-enables-low-precision-accuracy-recovery/
GetStream/Vision-Agents: Open Vision Agents by Stream. Build Vision Agents quickly with any model or video provider. Uses Stream’s edge network for ultra-low latency. - GitHub, https://github.com/GetStream/Vision-Agents
Distributed VLMs: Efficient Vision-Language Processing through Cloud-Edge Collaboration - Wireless & Mobile Networking (WiMNet) Lab, https://wimnet.ee.columbia.edu/wp-content/uploads/2025/04/DistributedVLMs_Efficient_Vision-Language_Processing_through_Cloud-Edge_Collaboration.pdf
Moondream, https://moondream.ai/
NVIDIA JetPack 6.2 Brings Super Mode to NVIDIA Jetson Orin Nano and Jetson Orin NX Modules | NVIDIA Technical Blog - NVIDIA Developer, https://developer.nvidia.com/blog/nvidia-jetpack-6-2-brings-super-mode-to-nvidia-jetson-orin-nano-and-jetson-orin-nx-modules/
NVIDIA Jetson Orin Nano Developer Kit Gets a “Super” Boost, https://developer.nvidia.com/blog/nvidia-jetson-orin-nano-developer-kit-gets-a-super-boost/
A Survey on Efficient Vision-Language Models - arXiv, https://arxiv.org/html/2504.09724v3
Low Performance - Jetson Orin Nano Super - TensorRT - NVIDIA Developer Forums, https://forums.developer.nvidia.com/t/low-performance-jetson-orin-nano-super/318862
Accelerating LLM and VLM Inference for Automotive and Robotics with NVIDIA TensorRT Edge-LLM | NVIDIA Technical Blog, https://developer.nvidia.com/blog/accelerating-llm-and-vlm-inference-for-automotive-and-robotics-with-nvidia-tensorrt-edge-llm/
Overview — TensorRT Edge-LLM - GitHub Pages, https://nvidia.github.io/TensorRT-Edge-LLM/0.4.0/developer_guide/01.1_Overview.html
TensorRT-LLM Speculative Decoding Boosts Inference Throughput by up to 3.6x, https://developer.nvidia.com/blog/tensorrt-llm-speculative-decoding-boosts-inference-throughput-by-up-to-3-6x/
NVIDIA Jetson AGX Orin Series, https://www.nvidia.com/content/dam/en-zz/Solutions/gtcf21/jetson-orin/nvidia-jetson-agx-orin-technical-brief.pdf
Getting Started with Edge AI on NVIDIA Jetson: LLMs, VLMs, and Foundation Models for Robotics, https://developer.nvidia.com/blog/getting-started-with-edge-ai-on-nvidia-jetson-llms-vlms-and-foundation-models-for-robotics/
BlazeAIoT: A Modular Multi-Layer Platform for Real-Time Distributed Robotics Across Edge, Fog, and Cloud Infrastructures - arXiv, https://arxiv.org/html/2601.06344v1
Cloud-Native Fog Robotics: Model-Based Deployment and Evaluation of Real-Time Applications - IEEE Xplore, https://ieeexplore.ieee.org/iel8/7083369/10768868/10759800.pdf
HiveMind: Towards Cellular Native Machine Learning Model Splitting - ResearchGate, https://www.researchgate.net/publication/355116222_HiveMind_Towards_Cellular_Native_Machine_Learning_Model_Splitting
Dynamic Split Computing for Efficient Deep EDGE Intelligence | Request PDF, https://www.researchgate.net/publication/371288124_Dynamic_Split_Computing_for_Efficient_Deep_EDGE_Intelligence
Assessing Quality of Control in Tactile Cyber–Physical Systems, https://cni.iisc.ac.in/assets/pdf/papers/Assessing_Quality_of_Control_in_Tactile_CyberPhysical_Systems.pdf
AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems - arXiv, https://arxiv.org/html/2511.18151v1
TimeBill: Time-Budgeted Inference for Large Language Models - Hugging Face, https://huggingface.co/papers/2512.21859
Anytime Algorithm - Lark, https://www.larksuite.com/en_us/topics/ai-glossary/anytime-algorithm
Optimizing Edge AI for Effective Real-time Decision Making in Robotics, https://www.edge-ai-vision.com/2025/03/optimizing-edge-ai-for-effective-real-time-decision-making-in-robotics/
SRMP: Search-Based Robot Motion Planning Library - arXiv, https://arxiv.org/html/2509.25352v1
J. D. Gammell: Informed Anytime Search for Continuous Planning Problems - Autonomous Space Robotics Lab, http://asrl.utias.utoronto.ca/~tdb/bib/gammell_phd17.pdf
NaviSplit: Dynamic Multi-Branch Split DNNs for Efficient Distributed Autonomous Navigation, https://arxiv.org/html/2406.13086v1