퀄컴 AI 스택 아키텍처

2025-10-09, G25DR

1. 서론: 온디바이스 AI 시대를 여는 통합 소프트웨어 스택

퀄컴 AI 스택(Qualcomm AI Stack)은 모바일, 자동차, 확장현실(XR), 사물인터넷(IoT), 클라우드 등 퀄컴의 광범위한 하드웨어 포트폴리오 전반에 걸쳐 인공지능(AI) 애플리케이션을 용이하게 개발, 최적화, 배포할 수 있도록 설계된 통합 소프트웨어 솔루션이다.1 이 스택의 핵심 철학은 “한 번 작성하여 어디서든 실행한다(Write once, run anywhere)“는 개념으로 요약할 수 있다. 이는 개발자가 특정 하드웨어 플랫폼의 세부 사항에 종속되지 않고, 다양한 퀄컴 제품군에 AI 기능을 원활하게 이식하고 확장할 수 있도록 지원하는 것을 궁극적인 목표로 삼는다.1

AI 처리의 중심이 중앙 집중식 클라우드에서 개별 디바이스, 즉 엣지(Edge)로 이동하는 ‘하이브리드 AI’ 패러다임의 확산 속에서 퀄컴 AI 스택은 핵심적인 역할을 수행한다.5 온디바이스 AI(On-device AI)는 낮은 지연 시간(low latency), 강화된 개인정보 보호(privacy), 높은 신뢰성(reliability), 그리고 통신 비용 및 에너지 효율성 측면에서 명백한 이점을 제공한다.7 퀄컴 AI 스택은 이러한 온디바이스 AI의 잠재력을 최대한 발현시키기 위해 하드웨어와 소프트웨어 간의 유기적인 상호작용을 조율하는 정교한 가교 역할을 담당한다.9

퀄컴 AI 스택이 추구하는 ’통합’과 ’추상화’는 단순한 개발자 편의성 제공을 넘어, 퀄컴의 사업 확장 전략에 따른 필연적 귀결이라 할 수 있다. 퀄컴은 주력 사업인 모바일 프로세서를 기반으로 자동차(Snapdragon Ride), XR(Snapdragon Spaces), PC(Snapdragon X Elite), IoT(QCS 시리즈) 등 다양한 영역으로 사업을 다각화해왔다.1 이 과정에서 생성된 하드웨어 플랫폼의 극심한 파편화는 각 플랫폼을 위한 개별적인 소프트웨어 스택을 유지하는 것을 비효율적으로 만들었다. 각기 다른 시스템 온 칩(SoC), 운영체제(Android, Windows, Linux, QNX), 그리고 상이한 성능 및 전력 요구사항을 갖는 이질적인 환경에서 개발자가 매번 AI 모델을 재개발하고 최적화해야 한다면, 개발 비용과 시간은 기하급수적으로 증가할 것이다.2 이는 퀄컴 플랫폼 채택에 심각한 장벽으로 작용할 수 있다. 따라서 AI 스택은 이러한 내부적인 하드웨어 복잡성을 단일화된 프로그래밍 인터페이스 뒤로 추상화함으로써, 개발자 생태계를 유지하고 확장하기 위한 필수적인 전략적 도구로 기능한다.

나아가, 퀄컴 AI 스택은 단순한 기술 집합체를 넘어, Apple의 Core ML/ANE, MediaTek의 NeuroPilot, 삼성의 EDEN SDK 등 경쟁사와 벌이는 개발자 생태계 선점 경쟁의 핵심 무기이다. AI 시대의 플랫폼 경쟁력은 하드웨어의 절대적인 성능뿐만 아니라, 그 위에서 구동되는 애플리케이션의 수와 질에 의해 결정되기 때문이다. 풍부한 애플리케이션 생태계를 구축하기 위해서는 개발자들이 쉽고 효율적으로 개발할 수 있는 강력한 도구와 프레임워크가 필수적이다.1 퀄컴 AI 스택은 TensorFlow, PyTorch, ONNX와 같은 표준 프레임워크를 폭넓게 지원하고 1, 퀄컴 AI 허브(Qualcomm AI Hub)를 통해 사전 최적화된 모델을 제공하며 15, 퀄컴 AI 엔진 다이렉트(QNN) SDK로 하드웨어 성능을 극한까지 활용할 수 있는 경로를 제공하는 등 다층적인 개발자 지원 체계를 구축했다.17 최근 단행된 아두이노(Arduino) 인수는 이러한 생태계 확장 전략의 명백한 증거이다.18 3,300만 명 이상의 방대한 아두이노 개발자 커뮤니티를 퀄컴 생태계로 유입시킴으로써, 전문 개발자뿐만 아니라 메이커와 교육 시장까지 포괄하여 초기 단계부터 미래의 AI 개발자들이 퀄컴 기술에 익숙해지도록 만들려는 장기적인 포석인 것이다.18

본 보고서는 퀄컴 AI 스택의 아키텍처를 하드웨어 기반부터 최상위 애플리케이션 계층까지 심층적으로 분석한다. 각 구성 요소의 기술적 세부 사항과 역할을 명확히 하고, AI 모델 개발 및 배포 워크플로우를 단계별로 추적하며, 그 안에 담긴 최적화 기법의 원리를 탐구할 것이다. 이를 통해 퀄컴이 어떻게 이기종 컴퓨팅 환경의 복잡성을 해결하고 온디바이스 AI 시대를 선도하려 하는지에 대한 포괄적인 이해를 제공하고자 한다.

2. 이기종 컴퓨팅 아키텍처: 하드웨어 기반

퀄컴 AI 전략의 근간은 이기종 컴퓨팅(Heterogeneous Computing)이라는 하드웨어 설계 철학에 있다. 이는 단일 종류의 고성능 코어에 의존하는 대신, 각기 다른 특성과 강점을 가진 여러 종류의 프로세서 코어(CPU, GPU, NPU)를 하나의 SoC에 통합하고, 처리할 작업(workload)의 특성에 따라 가장 적합한 코어에 동적으로 할당하는 방식이다. 이를 통해 시스템 전체의 성능과 전력 효율성을 동시에 극대화할 수 있다.

2.1 퀄컴 AI 엔진의 물리적 구성 요소: CPU, GPU, NPU

퀄컴 AI 엔진은 특정 칩이 아닌, SoC 내의 여러 프로세싱 유닛을 포괄하는 논리적 개념이다.9 이 엔진을 구성하는 핵심적인 물리적 요소는 다음과 같다.

Qualcomm Oryon™ CPU: 퀄컴이 자체 설계한 고성능 Arm 아키텍처 기반 중앙 처리 장치(CPU)이다. 순차적인 제어 흐름을 처리하고, 운영체제의 스케줄링을 담당하며, 낮은 지연 시간이 요구되는 작업에 탁월한 성능을 보인다.9 AI 워크로드에서는 모델의 전처리 및 후처리 단계나, NPU에서 지원하지 않는 일부 연산을 수행하는 역할을 맡는다.
Qualcomm Adreno™ GPU: 본래 그래픽 렌더링을 위해 설계되었으나, 수천 개의 코어를 통한 대규모 병렬 데이터 처리에 특화되어 있어 AI 연산에도 활용된다. 특히 32비트 또는 16비트 부동소수점(FP32/FP16)과 같은 고정밀도 연산이 필요하거나, 컴퓨터 비전 관련 알고리즘 가속에 강점을 보인다.9
Qualcomm Hexagon™ NPU (HTP): 퀄컴 AI 엔진의 심장부라 할 수 있는 신경망 처리 장치(Neural Processing Unit)이다. 다른 이름으로는 Hexagon Tensor Processor (HTP)라고도 불린다. 이 프로세서는 AI 추론 연산을 위해 처음부터 특수하게 설계되었으며, 특히 낮은 전력 소모로 지속적인 고성능 추론을 제공하는 데 초점을 맞추고 있다. 딥러닝의 핵심 연산인 행렬 곱셈과 컨볼루션을 하드웨어 수준에서 가속하며, 주로 저정밀도 정수(Integer) 연산에 최적화되어 있다.9

표 1: 퀄컴 AI 엔진의 이기종 프로세서 특성 비교

특성	Qualcomm Oryon CPU	Qualcomm Adreno GPU	Qualcomm Hexagon NPU (HTP)
주요 역할	순차적 작업, 제어 흐름, 저지연성 요구 작업	대규모 병렬 처리, 그래픽 렌더링, 고정밀 연산	저전력, 고효율 AI 추론 가속
최적 워크로드	OS 스케줄링, 간단한 AI 모델, 모델 전/후처리	컴퓨터 비전, FP16/FP32 기반 모델 추론	양자화된(INT8/INT4) 딥러닝 모델의 대규모 행렬/벡터 연산
핵심 아키텍처	맞춤형 Arm v8/v9, 슈퍼스칼라, 비순차 실행	통합 셰이더 아키텍처, 타일 기반 렌더링	VLIW, 하드웨어 멀티스레딩, 스칼라/벡터/텐서 유닛
주요 가속 유닛	NEON (SIMD)	OpenCL 커널	HVX (Vector), HMX (Matrix)
전력 효율성	중간	낮음 (고성능 시)	매우 높음

2.2 Hexagon 프로세서 심층 분석: NPU의 심장부

Hexagon 프로세서는 퀄컴 AI 엔진의 핵심 가속기로서, 그 아키텍처는 AI 시대의 요구에 맞춰 지속적으로 진화해왔다. 본래 Hexagon은 통신 모뎀과 오디오 신호 처리를 위한 고성능 DSP(Digital Signal Processor)로 출발했다.27 그러나 딥러닝 모델의 연산 구조가 DSP가 잘 처리하는 벡터 및 행렬 연산과 유사하다는 점에 착안하여, 퀄컴은 Hexagon 아키텍처에 AI 가속 기능을 점진적으로 통합하며 이를 강력한 NPU로 발전시켰다.9

Hexagon의 핵심 설계 철학은 두 가지로 요약된다. 첫째는 VLIW(Very Long Instruction Word) 이다. 이는 컴파일러가 여러 개의 독립적인 명령어를 하나의 긴 명령어 패킷으로 묶어 하드웨어에 전달하면, 하드웨어는 이를 동시에 병렬로 처리하는 방식이다. 복잡한 동적 스케줄링 하드웨어를 제거함으로써 칩의 면적과 전력 소모를 줄일 수 있다.28 둘째는 하드웨어 멀티스레딩(Hardware Multithreading) 이다. 이는 하나의 물리적 코어가 여러 개의 논리적 스레드를 동시에 실행하는 기술로, 한 스레드가 메모리 접근 등으로 인해 대기 상태(stall)에 빠졌을 때 다른 스레드를 즉시 실행하여 코어의 연산 유닛 활용도를 극대화한다.27 이 두 가지 철학의 결합은 Hexagon이 상대적으로 낮은 클럭 속도로 동작하면서도 높은 연산 처리량과 뛰어난 전력 효율을 달성할 수 있게 하는 원동력이다.

최신 Hexagon 아키텍처는 AI 연산을 효율적으로 처리하기 위해 스칼라(Scalar), 벡터(Vector), 텐서(Tensor) 연산을 위한 별도의 컴퓨팅 유닛을 내장하고 있다.9 스칼라 유닛은 일반적인 제어 흐름을, 벡터 유닛과 텐서 유닛은 딥러닝의 핵심인 대규모 병렬 연산을 담당한다.

2.3 AI 워크로드 가속을 위한 하드웨어 확장: HVX와 HMX

Hexagon 프로세서가 NPU로서 높은 성능을 발휘할 수 있는 비결은 HVX와 HMX라는 두 가지 핵심적인 하드웨어 확장 유닛에 있다.

Hexagon Vector eXtensions (HVX): HVX는 SIMD(Single Instruction, Multiple Data) 연산을 위한 강력한 벡터 처리 엔진이다.32 1024비트(128바이트) 또는 그 이상의 넓은 벡터 레지스터를 탑재하여, 한 번의 명령으로 수십 개의 데이터(예: 8비트 정수 128개)에 대해 동일한 연산을 병렬로 수행할 수 있다.32 이는 컨볼루션, 풀링, 활성화 함수 적용 등 딥러닝 모델의 기본적인 연산들을 극적으로 가속한다. 특히 HVX는 8비트 및 16비트 정수 데이터 타입 처리에 고도로 최적화되어 있어, 양자화된 AI 모델의 성능을 극대화하는 데 결정적인 역할을 수행한다.32
Hexagon Matrix eXtensions (HMX): HMX는 최신 Hexagon 프로세서에 통합된 행렬 연산 전용 하드웨어 가속기이다.35 이름에서 알 수 있듯이, 딥러닝 연산의 약 80% 이상을 차지하는 행렬 곱셈(Matrix Multiplication)을 하드웨어 수준에서 직접 처리한다. HMX는 두 개의 거대한 행렬을 입력받아 단 몇 사이클 만에 곱셈 결과를 출력할 수 있어, SoC의 전체 AI 연산 성능(TOPS, Tera Operations Per Second)을 비약적으로 향상시키는 핵심 요소이다.38 HMX의 존재는 Hexagon이 단순한 벡터 DSP를 넘어, Google의 TPU나 Apple의 ANE와 경쟁하는 진정한 의미의 텐서 프로세서(NPU)임을 명확히 보여준다.

이러한 하드웨어 아키텍처의 특성은 퀄컴 AI 스택의 소프트웨어 최적화 방향을 근본적으로 결정한다. Hexagon NPU의 HVX와 HMX가 저정밀도 정수 연산에 고도로 최적화되어 있기 때문에, 소프트웨어 스택은 32비트 부동소수점(FP32)으로 훈련된 모델을 8비트 정수(INT8) 등으로 변환하는 ’양자화(Quantization)’를 개발 워크플로우의 핵심이자 필수적인 단계로 강조하게 된다. 양자화는 단순히 모델을 압축하는 기술을 넘어, Hexagon 하드웨어의 최대 성능과 최고 전력 효율을 이끌어내는 열쇠와 같은 역할을 하는 것이다.

2.4 메모리 계층 구조와 시스템 레벨 캐시의 역할

AI 모델, 특히 Transformer 아키텍처 기반의 대규모 언어 모델(LLM)은 방대한 양의 가중치(weights)와 추론 과정에서 생성되는 중간 활성화(activations) 데이터를 필요로 한다. 이 데이터들을 주 메모리인 DRAM에서 각 프로세싱 유닛(CPU, GPU, NPU)으로 끊임없이 전송하는 과정은 시스템 전체 성능의 병목 지점이자 전력 소모의 주된 원인이 된다.22 아무리 연산 유닛의 속도가 빨라도 데이터가 제때 공급되지 않으면 유휴 상태(stall)에 빠지게 되기 때문이다.

이 문제를 완화하기 위해 퀄컴은 최신 SoC 아키텍처에 시스템 레벨 캐시(System Level Cache, SLC) 라는 대용량 공유 캐시를 도입했다.23 SLC는 기존의 각 코어에 종속된 L1, L2 캐시와 주 메모리인 DRAM 사이에 위치하며, CPU, GPU, NPU 등 SoC 내의 모든 프로세서가 공유하는 캐시 메모리이다. SLC의 주된 역할은 다음과 같다.

데이터 재사용성 극대화: 여러 프로세서가 공통으로 사용하는 데이터(예: 모델 가중치)나 한 프로세서가 반복적으로 접근하는 데이터(예: LLM의 Key-Value 캐시)를 SLC에 저장함으로써, 느린 DRAM까지 접근하는 횟수를 획기적으로 줄인다.
프로세서 간 데이터 공유 효율화: 한 프로세서(예: GPU)가 생성한 결과를 다른 프로세서(예: NPU)가 사용할 때, 데이터를 DRAM에 썼다가 다시 읽는 대신 SLC를 통해 직접 전달함으로써 데이터 공유에 따르는 지연 시간과 전력 소모를 감소시킨다.
실질적인 메모리 대역폭 증가: DRAM 접근 빈도를 줄임으로써, 제한된 DRAM 대역폭을 보다 효율적으로 사용할 수 있게 하여 시스템 전체의 처리량을 향상시킨다.22

Snapdragon X Elite와 같은 최신 아키텍처에서 여러 CPU 코어가 대용량 L2 캐시를 공유하고, 여기에 더해 거대한 SLC를 탑재하는 설계 경향은 23 AI 워크로드의 특성을 깊이 반영한 결과이다. 이는 개별 코어의 순수 연산 속도를 높이는 것만큼이나, 데이터 이동의 병목을 해결하고 ’연산 유닛을 쉬지 않고 일하게 만드는 것’이 AI 시대의 성능 향상에 더 중요하다는 아키텍처적 통찰을 보여준다.

3. 퀄컴 AI 스택의 소프트웨어 아키텍처

퀄컴 AI 스택은 앞서 설명한 복잡하고 이질적인 하드웨어의 잠재력을 개발자가 쉽고 효율적으로 활용할 수 있도록 설계된 다층적인 소프트웨어 구조체이다. 각 계층은 특정 수준의 추상화를 제공하며, 개발자는 자신의 요구사항과 전문성에 따라 적절한 계층에서 스택과 상호작용할 수 있다.

3.1 계층적 구조 개요: 하드웨어부터 애플리케이션까지

퀄컴 AI 스택은 물리적 하드웨어 위에서부터 애플리케이션에 이르기까지 여러 개의 논리적 계층으로 구성된다.1 각 계층은 하위 계층의 복잡성을 감추고 상위 계층에 표준화된 인터페이스를 제공하는 역할을 한다.

최상위 계층 (Applications & Frameworks): 개발자가 AI 모델을 개발하고 훈련하는 영역이다. 퀄컴은 특정 프레임워크를 강요하는 대신, PyTorch, TensorFlow, ONNX, Keras 등 업계에서 널리 사용되는 대부분의 주요 AI 프레임워크를 지원한다.14 이는 개발자가 기존의 지식과 코드를 그대로 활용하여 퀄컴 플랫폼용 AI 애플리케이션을 개발할 수 있도록 진입 장벽을 낮추는 역할을 한다.
프레임워크 변환기 계층 (Framework Converters): 이 계층은 각 프레임워크 형식으로 저장된 모델을 퀄컴 AI 스택의 내부 표현(Intermediate Representation, IR)으로 변환하는 도구들로 구성된다. qnn-pytorch-converter, qnn-onnx-converter 등이 여기에 해당한다.41
AI 런타임 계층 (AI Runtimes): 변환된 모델을 실제로 실행하는 소프트웨어이다. 개발자는 두 가지 주요 경로 중 하나를 선택할 수 있다. 하나는 ONNX Runtime(ORT)이나 TensorFlow Lite(TFLite)와 같은 업계 표준 런타임을 사용하는 것이고, 다른 하나는 퀄컴의 저수준 네이티브 런타임인 퀄컴 AI 엔진 다이렉트(QNN)를 직접 사용하는 것이다.11
핵심 실행 계층 (Qualcomm AI Engine Direct - QNN): 퀄컴 AI 스택의 심장부로서, 상위 런타임과 하위 하드웨어 사이를 중재하는 핵심 추상화 계층이다. QNN은 통합된 API를 통해 이기종 하드웨어 가속기(CPU, GPU, HTP)에 대한 일관된 접근 방법을 제공한다.1
백엔드 라이브러리 계층 (Backend Libraries): QNN 아래에는 각 하드웨어 가속기별로 최적화된 라이브러리들이 존재한다. 예를 들어, libQnnHtp.so는 Hexagon NPU를, libQnnGpu.so는 Adreno GPU를, libQnnCpu.so는 Oryon CPU를 제어하는 역할을 한다.44
최하위 계층 (System Software & Hardware): 실제 연산을 수행하는 물리적 하드웨어인 퀄컴 AI 엔진(CPU, GPU, NPU)과 이를 직접 제어하는 운영체제 커널 및 디바이스 드라이버로 구성된다.24

표 2: 퀄컴 AI 스택의 계층별 구성 요소 및 역할

계층 (Layer)	주요 구성 요소	역할 및 기능	관련 자료
애플리케이션 및 프레임워크	PyTorch, TensorFlow, ONNX, Keras 등	AI 모델 개발 및 훈련. 개발자가 가장 익숙한 환경.	1
프레임워크 변환기	`qnn-*-converter` (e.g., `qnn-pytorch-converter`)	훈련된 모델을 QNN이 이해할 수 있는 중간 표현(IR)으로 변환.	41
AI 런타임 (선택적)	ONNX Runtime (ORT), TensorFlow Lite (TFLite)	표준화된 API를 통해 모델 실행. QNN을 백엔드로 활용 (위임).	11
핵심 실행 계층	Qualcomm AI Engine Direct (QNN)	이기종 하드웨어(CPU, GPU, NPU)에 대한 통합 API 제공. 하드웨어 추상화.	1
백엔드 라이브러리	`libQnnCpu.so`, `libQnnGpu.so`, `libQnnHtp.so`	각 하드웨어 가속기에 최적화된 연산 커널 포함. QNN의 지시에 따라 실제 연산 수행.	44
시스템 소프트웨어 및 하드웨어	드라이버, OS, Qualcomm AI Engine (CPU, GPU, NPU)	물리적 연산 수행 및 시스템 리소스 관리.	24

3.2 핵심 실행 계층: 퀄컴 AI 엔진 다이렉트(QNN)

QNN은 퀄컴 AI 스택의 기술적 토대를 이루는 핵심 구성 요소이다. 그 주된 역할은 개발자 또는 상위 런타임으로부터 AI 모델 실행 요청을 받아, 이를 SoC 내의 다양한 하드웨어 가속기들에게 효율적으로 분배하고 실행을 제어하는 것이다. 즉, 이기종 하드웨어의 복잡성을 추상화하여 단일하고 일관된 프로그래밍 인터페이스를 제공하는 것이 QNN의 목표이다.1

QNN의 가장 큰 아키텍처적 특징은 모듈식 백엔드(Modular Backend) 구조이다. QNN은 특정 하드웨어에 종속되지 않는 공통의 프론트엔드 API를 가지며, 실제 연산은 각 하드웨어에 특화된 ‘백엔드’ 라이브러리를 통해 수행된다.44 예를 들어, Hexagon NPU에서 모델을 실행하고자 할 경우, QNN은 libQnnHtp.so 백엔드 라이브러리를 로드하여 작업을 위임한다. 만약 GPU에서 실행하려면 libQnnGpu.so를 사용한다. 이러한 구조 덕분에 새로운 하드웨어 가속기가 추가되더라도, 해당 가속기를 위한 새로운 백엔드 라이브러리만 추가하면 기존의 QNN 프레임워크와 애플리케이션 코드를 변경 없이 그대로 사용할 수 있어 확장성이 매우 뛰어나다.

QNN 프레임워크는 몇 가지 핵심적인 추상화 개념을 통해 동작한다.41

Device/Backend: 연산을 실행할 물리적 또는 논리적 단위를 나타낸다. 개발자는 이 Device를 생성함으로써 특정 가속기(예: HTP)와의 통신 채널을 확보한다.
Context: 특정 백엔드와의 세션을 의미하며, 모델 로딩, 그래프 생성, 실행에 필요한 모든 상태 정보를 관리하는 컨테이너 역할을 한다.
Graph: AI 모델의 연산 그래프(노드와 엣지의 집합)를 QNN이 이해할 수 있는 내부적인 자료구조로 표현한 것이다. 모델 변환기를 통해 생성된다.

3.3 상위 계층과의 연동: AI 프레임워크 및 런타임 지원

퀄컴 AI 스택은 개발자가 QNN API를 직접 사용하지 않고도, 널리 사용되는 표준 AI 런타임을 통해 퀄컴 하드웨어 가속을 활용할 수 있도록 위임(Delegation) 모델을 지원한다. 이는 QNN이 상위 런타임의 플러그인 또는 ’실행 프로바이더(Execution Provider)’로 동작하는 방식이다.

ONNX Runtime (ORT) + QNN Execution Provider (EP): 개발자가 ONNX 형식의 모델과 ORT API를 사용하여 애플리케이션을 개발할 때, 세션 생성 시 QNN EP를 등록하기만 하면 된다. 그러면 ORT는 모델 그래프를 분석하여 QNN 백엔드(예: HTP)가 지원하는 연산자들의 그룹을 찾아내고, 이 부분 그래프(sub-graph)의 실행을 QNN으로 위임한다. 이를 통해 기존 ORT 기반 애플리케이션의 코드 변경을 최소화하면서 퀄컴 하드웨어 가속의 이점을 누릴 수 있다.40
TensorFlow Lite (TFLite) + QNN Delegate: 안드로이드 환경에서 널리 사용되는 TFLite 런타임 역시 유사한 위임 메커니즘을 제공한다. TFLite 인터프리터(Interpreter)에 QNN Delegate를 적용하면, TFLite 런타임은 모델 그래프의 일부 또는 전체를 QNN으로 넘겨 실행을 요청한다.25
PyTorch Executorch + QNN Backend: PyTorch 생태계에서는 모바일 및 엣지 배포를 위한 Executorch 프레임워크를 통해 QNN을 지원한다. PyTorch 모델을 Executorch 형식으로 변환(lowering)할 때 QNN 백엔드를 타겟으로 지정하면, 모델의 연산 그래프가 QNN에서 실행 가능한 형태로 컴파일된다.50

이러한 다중 진입점(multiple entry points) 제공은 퀄컴의 전략적 유연성을 보여준다. 하드웨어 성능을 극한까지 제어하고자 하는 임베디드 개발자는 QNN C++ API를 직접 사용할 수 있고 17, 여러 플랫폼 간 이식성을 중시하는 개발자는 ONNX Runtime을 48, 안드로이드 생태계에 익숙한 개발자는 TFLite를 49, PyTorch 중심의 워크플로우를 가진 개발자는 Executorch를 선택할 수 있다. 이는 특정 프레임워크나 개발 스타일에 종속되지 않고 최대한 넓은 개발자 풀을 퀄컴 AI 생태계로 포용하려는 전략이다.

물론 이러한 추상화에는 미세한 비용이 따른다. 상위 런타임에서 QNN으로 그래프를 변환하고 API를 호출하는 과정은 직접 QNN API를 호출하는 것에 비해 약간의 오버헤드를 추가할 수 있다. 대부분의 애플리케이션에서는 이 오버헤드가 무시할 수 있는 수준이지만, 수 밀리초(ms) 단위의 초저지연성이 요구되는 실시간 애플리케이션의 경우, 개발자가 성능을 한계까지 끌어올리기 위해 QNN 직접 접근 경로를 선택하도록 유도하는 요인이 될 수 있다. 이처럼 퀄컴 AI 스택은 성능과 편의성 사이에서 개발자가 직접 트레이드오프를 결정할 수 있는 선택지를 제공하는 유연한 구조를 가지고 있다.

4. AI 모델 개발 및 배포 워크플로우

퀄컴 AI 스택을 사용하여 AI 모델을 훈련하고 최종적으로 엣지 디바이스에 배포하는 과정은 크게 세 단계로 구성된다: 모델 변환, 모델 최적화(양자화), 그리고 모델 준비 및 실행. 이 워크플로우는 퀄컴 AI 엔진 다이렉트(QNN) SDK에서 제공하는 다양한 커맨드 라인 도구들을 통해 체계적으로 수행된다.

4.1 1단계: 모델 변환 (Framework-to-QNN)

개발 워크플로우의 첫 단계는 PyTorch, TensorFlow, ONNX 등 다양한 프레임워크를 통해 훈련된 모델을 QNN이 인식하고 처리할 수 있는 내부 형식으로 변환하는 것이다.43 이 과정을 위해 QNN SDK는 각 프레임워크에 특화된 변환기 도구들을 제공한다.41

qnn-tensorflow-converter
qnn-tflite-converter
qnn-pytorch-converter
qnn-onnx-converter
qairt-converter (통합 변환기)

이 변환기들은 원본 모델의 그래프 구조와 가중치를 읽어들여, QNN의 연산자(Operator) 집합으로 매핑된 중간 표현(Intermediate Representation, IR)을 생성한다. 이 과정에서 불필요한 연산을 제거하거나 여러 연산을 하나의 연산으로 융합(fusion)하는 등의 그래프 수준 최적화가 수행된다. 만약 모델에 QNN이 기본적으로 지원하지 않는 커스텀 연산(Custom Operator)이 포함된 경우, 개발자는 qnn-op-package-generator와 같은 도구를 사용하여 해당 연산을 CPU에서 실행하거나 직접 하드웨어 가속 커널을 구현하여 Op Package 형태로 QNN 프레임워크에 통합할 수 있다.42

표 3: 주요 QNN SDK 도구 및 기능 요약

도구 분류	도구 이름	주요 기능
모델 변환	`qnn-tensorflow-converter`, `qnn-pytorch-converter`, `qnn-onnx-converter`, `qairt-converter`	다양한 프레임워크의 모델을 QNN 그래프로 변환
모델 양자화	`qairt-quantizer`	FP32 모델에 대해 Post-Training Quantization (PTQ) 수행, 양자화 파라미터(스케일, 제로포인트) 생성
모델 준비	`qnn-model-lib-generator`	QNN 그래프를 타겟 아키텍처용 공유 라이브러리(`.so`, `.dll`)로 컴파일
	`qnn-context-binary-generator`	QNN 그래프를 특정 SoC에 최적화된 사전 컴파일된 컨텍스트 바이너리(`.bin`)로 생성
	`qnn-op-package-generator`	사용자가 정의한 커스텀 연산을 위한 Op Package 템플릿 및 코드 생성
실행 및 프로파일링	`qnn-net-run`	변환된 모델을 지정된 백엔드(CPU, GPU, HTP)에서 실행하고 결과 검증
	`qnn-throughput-net-run`	여러 스레드를 사용하여 모델의 최대 처리량(throughput) 측정
분석 및 디버깅	`qnn-profile-viewer`	실행 중 수집된 프로파일링 데이터를 시각화하여 병목 구간 분석
	`qnn-accuracy-debugger`	양자화 전후의 레이어별 출력 값을 비교하여 정확도 저하 원인 분석
	`qnn-netron`	QNN 모델 그래프를 시각적으로 탐색하고, 두 모델 간의 구조 및 파라미터 차이 비교

4.2 2단계: 모델 최적화 - 양자화(Quantization) 심층 탐구

변환된 모델은 일반적으로 32비트 부동소수점(FP32) 정밀도를 가진다. 이를 Hexagon NPU와 같은 저전력 고효율 가속기에서 실행하기 위해서는, 더 적은 비트를 사용하는 정수(주로 8비트 정수, INT8) 데이터 타입으로 변환하는 양자화 과정이 거의 필수적이다.48 양자화는 모델의 크기를 약 4분의 1로 줄이고, 메모리 대역폭 사용량을 감소시키며, 정수 연산에 특화된 하드웨어 가속을 통해 추론 속도를 크게 향상시키는 효과를 가져온다.

4.2.1 양자화의 수학적 원리: 아핀 및 대칭 양자화

선형 양자화(Linear Quantization)는 부동소수점 값의 범위를 정수 값의 범위로 선형적으로 매핑하는 가장 기본적인 방식이며, 아핀(affine) 방식과 대칭(symmetric) 방식으로 나뉜다.

아핀(Affine) 또는 비대칭(Asymmetric) 양자화: 이 방식은 부동소수점 값 r을 정수 q로 매핑하기 위해 스케일(scale) S와 제로포인트(zero-point) Z라는 두 개의 파라미터를 사용한다. 제로포인트는 부동소수점 값 0.0이 어떤 정수 값에 매핑되는지를 나타낸다. 이 방식은 ReLU 활성화 함수를 거친 출력처럼 값의 범위가 0을 중심으로 대칭이 아닌 경우(예: [0, max])에 효과적으로 양자화 범위를 설정할 수 있다.56
양자화 (Quantization):

$q = \text{clip}\left(\text{round}\left(\frac{r}{S} + Z\right), q_{\min}, q_{\max}\right)$
역양자화 (Dequantization):
$r = S \times (q - Z)$

여기서 S는 양의 부동소수점 값, Z는 정수 값이며, round()는 반올림, clip()은 결괏값이 양자화 데이터 타입의 표현 범위([qmin,qmax])를 벗어나지 않도록 제한하는 함수이다.57

대칭(Symmetric) 양자화: 이 방식은 제로포인트 Z를 0으로 고정하여, 부동소수점 값의 매핑 범위를 항상 0에 대해 대칭([-a, a])으로 만든다. 이는 모델의 가중치(weights) 텐서와 같이 데이터 분포가 0을 중심으로 대칭적인 경향이 있을 때 주로 사용된다. 제로포인트 연산이 생략되므로 아핀 방식에 비해 추론 시 계산 오버헤드가 약간 더 적다는 장점이 있다.61
양자화 (Quantization):

$q = \text{clip}\left(\text{round}\left(\frac{r}{S}\right), -q_{\text{abs\_max}}, q_{\text{abs\_max}}\right)$
역양자화 (Dequantization):
$r = S \times q$

여기서 $q_{\text{abs\_max}}$ 는 양자화된 정수 범위의 절댓값 최댓값이다(예: INT8의 경우 127).56

4.2.2 고급 양자화: AI 모델 효율성 툴킷(AIMET)과 AdaRound

단순한 훈련 후 양자화(Post-Training Quantization, PTQ)는 정확도 손실을 유발할 수 있다. 퀄컴은 이러한 문제를 해결하고 최적의 양자화 모델을 생성하기 위해 AI 모델 효율성 툴킷(AI Model Efficiency Toolkit, AIMET) 이라는 강력한 오픈소스 라이브러리를 제공한다.1

AIMET은 qairt-quantizer와 같은 기본 PTQ 도구를 넘어 다음과 같은 정교한 최적화 기법들을 포함한다.

Cross-Layer Equalization (CLE): 인접한 레이어들의 가중치 텐서 간의 동적 범위를 균등하게 조정하는 기법이다. 특정 레이어에만 값의 범위가 집중되어 양자화 오차가 커지는 현상을 방지하여 전체 모델의 정확도를 향상시킨다.66
Adaptive Rounding (AdaRound): 양자화의 핵심 과정인 반올림에서 발생하는 오차를 최소화하는 기법이다. 기존의 ‘가장 가까운 정수로 반올림(round-to-nearest)’ 방식 대신, 소량의 보정 데이터를 사용하여 해당 레이어의 출력 오차를 최소화하는 방향으로 각 가중치 값을 올림(up)할지 내림(down)할지를 학습적으로 결정한다. 이는 양자화가 단순한 데이터 타입 변환이 아니라, 모델의 수학적 구조와 하드웨어의 연산 방식을 모두 고려하는 정교한 최적화 문제임을 보여준다. AdaRound는 가중치 자체의 오차가 아닌, 해당 가중치가 최종 출력에 미치는 영향을 최소화하는 방향으로 반올림을 ’학습’하는 것이다.66
Quantization-Aware Training (QAT): 가장 높은 정확도를 보장하는 기법 중 하나로, 모델의 미세 조정(fine-tuning) 단계에서 양자화 및 역양자화 연산을 시뮬레이션하는 노드를 그래프에 삽입한다. 이를 통해 모델은 훈련 과정에서부터 양자화로 인해 발생할 오차에 미리 적응하고, 가중치를 그에 맞게 조정하게 된다. 이는 더 많은 시간과 계산 자원을 필요로 하지만, PTQ만으로는 복구하기 어려운 정확도 손실을 최소화할 수 있다.70

이 외에도 AIMET은 모델의 중요도가 낮은 가중치나 채널을 제거하여 연산량을 줄이는 희소성(Sparsity) 기법, 예를 들어 채널 프루닝(Channel Pruning)이나 Spatial SVD와 같은 기술도 지원하여 모델을 더욱 경량화하고 가속한다.72

4.3 3단계: 모델 준비 및 실행

최적화된 모델은 최종적으로 타겟 디바이스에서 실행 가능한 바이너리 형태로 패키징된다. QNN SDK는 주로 두 가지 배포 형식을 제공하며, 각각의 장단점이 있다.

모델 라이브러리 생성 (qnn-model-lib-generator): 이 도구는 QNN 그래프를 타겟 아키텍처(예: aarch64-linux, hexagon-v73)에 맞는 공유 라이브러리(.so) 또는 동적 연결 라이브러리(.dll) 형태로 컴파일한다. 이 방식은 생성된 라이브러리를 여러 애플리케이션에서 재사용할 수 있어 유연성이 높다.41
컨텍스트 바이너리 생성 (qnn-context-binary-generator): 이 도구는 특정 SoC 아키텍처에 대해 모델 그래프와 가중치를 완전히 사전 컴파일하고 메모리 레이아웃까지 최적화한 바이너리 파일(.bin)을 생성한다. 이 바이너리는 로딩 시 별도의 그래프 초기화나 최적화 과정이 필요 없으므로, 모델 로딩 시간을 최소화하고 추론 시작 시간을 단축하는 데 매우 효과적이다. 하지만 특정 하드웨어에 고도로 종속적이므로 이식성은 낮다.41

생성된 모델 라이브러리나 컨텍스트 바이너리는 qnn-net-run 또는 qnn-throughput-net-run과 같은 실행 도구를 통해 디바이스에서 구동된다. 개발자는 이 도구들을 사용하여 모델의 추론 결과를 검증하고, 레이턴시와 처리량 같은 성능 지표를 측정할 수 있다.41

이처럼 변환-양자화-컴파일-실행으로 이어지는 다단계 워크플로우는 매우 강력하지만, 각 단계에서 사용되는 도구와 옵션이 많아 초심자에게는 복잡하게 느껴질 수 있다.76 이러한 복잡성은 퀄컴이 ’퀄컴 AI 허브’와 같은 고수준의 자동화된 서비스를 출시하게 된 중요한 배경이 되었다. AI 허브는 이 복잡한 과정을 클라우드 기반의 간단한 UI 또는 API 호출로 추상화하여, 개발자가 모델 파일과 타겟 디바이스만 선택하면 변환, 양자화, 컴파일, 그리고 실제 디바이스에서의 프로파일링까지 자동으로 수행해준다.15 이는 QNN SDK의 복잡성을 감추고 접근성을 높여, 더 넓은 개발자층이 퀄컴의 하드웨어 가속을 쉽게 활용할 수 있도록 하는 핵심 전략이다.

5. 고급 주제 및 개발자 생태계

퀄컴 AI 스택의 아키텍처는 단순히 모델을 실행하는 것을 넘어, 이기종 하드웨어 자원을 효율적으로 관리하고, 온디바이스 AI의 핵심 가치인 보안을 보장하며, 개발자들이 지속적으로 성장하고 기여할 수 있는 강력한 생태계를 구축하는 것까지 포함한다.

5.1 이기종 컴퓨팅 스케줄링 및 메모리 관리 전략

이기종 컴퓨팅 환경에서 최적의 성능을 내기 위해서는 각기 다른 특성을 가진 프로세서들에게 작업을 효율적으로 분배하는 스케줄링과 프로세서 간의 데이터 이동을 최소화하는 메모리 관리가 매우 중요하다.

워크로드 스케줄링: 퀄컴 AI 스택은 개발자가 명시적으로 스케줄링 코드를 작성하기보다는, 백엔드 선택을 통해 암시적으로 스케줄링을 제어하는 방식을 주로 사용한다. QNN 프레임워크는 모델 그래프를 분석하여 각 연산을 어느 프로세서(CPU, GPU, NPU)에서 실행할지 결정한다. 일반적으로 전체 그래프를 단일 가속기(예: HTP)에 오프로드하여 데이터 이동을 최소화하는 것이 가장 효율적이다. 그러나 HTP가 지원하지 않는 특정 연산이 있을 경우, QNN은 해당 연산만 CPU에서 실행하도록 자동으로 폴백(fallback)시킨다.78 더 저수준에서는, 리눅스 커널의 EAS(Energy Aware Scheduling)와 같은 기술이 CPU의 고성능 코어(P-core)와 고효율 코어(E-core) 간의 태스크 배치를 전력 효율적으로 관리한다.80
메모리 관리: 온디바이스 AI의 성능과 전력 효율은 메모리 접근 패턴에 크게 좌우된다. 퀄컴 AI 스택은 하드웨어와 긴밀하게 연동하여 메모리 병목을 완화하는 여러 전략을 사용한다.
VTCM (Vector Tightly Coupled Memory): Hexagon 프로세서 내부에 직접 연결된 초고속 스크래치패드 메모리이다. DRAM에 비해 접근 지연 시간이 수십 배 짧기 때문에, 컨볼루션 연산의 중간 결과나 자주 사용되는 작은 가중치 등을 VTCM에 상주시켜 DRAM 접근을 최소화한다. 여러 스레드나 그래프가 VTCM 공간을 효율적으로 공유하는 기술(VTCM Sharing)은 제한된 메모리 자원의 활용도를 극대화한다.30
공유 버퍼 (Shared Buffer / Zero Copy): 안드로이드의 ION 메모리 할당자와 같은 메커니즘을 활용하여, CPU와 NPU/GPU가 물리적으로 동일한 메모리 영역에 접근할 수 있도록 한다. 이를 통해 애플리케이션이 입력 데이터를 준비하고 NPU가 이를 읽어갈 때, 또는 NPU가 출력 결과를 생성하고 CPU가 이를 후처리할 때 불필요한 메모리 복사(memory copy)를 제거할 수 있다. 이 ‘제로 카피(Zero Copy)’ 방식은 데이터 전송으로 인한 오버헤드와 지연 시간을 크게 줄여준다.53
DLBC (Deep Learning Bandwidth Compression): 모델의 가중치와 활성화 데이터를 하드웨어 수준에서 실시간으로 압축하고 해제하는 기술이다. 이를 통해 메모리 시스템에 가해지는 대역폭 부담을 줄여, 동일한 대역폭으로 더 많은 데이터를 전송하는 효과를 내며, 이는 전력 소모 감소로 이어진다.44

5.2 보안 아키텍처: 퀄컴 신뢰 관리 엔진과 AI 모델 보호

온디바이스 AI의 가장 큰 장점 중 하나는 사용자 데이터가 디바이스 외부로 나가지 않아 개인정보 보호에 유리하다는 점이다.10 퀄컴은 하드웨어에 내장된 다층적인 보안 기능을 통해 이러한 장점을 더욱 강화하고, AI 모델 자체의 지적 재산권을 보호한다.

Qualcomm Secure Processing Unit (SPU): 디바이스의 보안을 전담하는 독립적인 하드웨어 유닛이다. SPU는 보안 부팅(Secure Boot) 과정을 통해 운영체제와 애플리케이션이 변조되지 않았음을 검증하고, 암호화 키와 같은 민감한 정보를 안전하게 저장 및 처리하는 신뢰 실행 환경(Trusted Execution Environment, TEE)의 물리적 기반을 제공한다.83
Qualcomm Trust Management Engine: 칩의 하드웨어 신뢰점(Root of Trust, RoT) 역할을 수행하는 핵심 구성 요소이다. 시스템의 보안 상태를 보증하고, NIST 인증을 받은 암호화 알고리즘을 하드웨어로 가속하여 안전하고 빠른 암호화 연산을 제공한다.84
AI 모델 및 데이터 보호: 이러한 하드웨어 보안 기능들은 AI 모델과 데이터를 보호하는 데 다각적으로 활용된다. AI 모델의 가중치 파일은 암호화되어 저장될 수 있으며, 추론 시에만 TEE 내에서 복호화되어 사용됨으로써 모델의 불법적인 복제나 유출을 방지할 수 있다. 또한, 사용자의 얼굴이나 지문과 같은 생체 정보나 개인적인 데이터를 처리하는 AI 워크로드는 SPU와 TEE에 의해 외부로부터 격리된 환경에서 실행되어 데이터 유출의 위험을 원천적으로 차단한다.83

퀄컴의 AI 보안 접근 방식은 단순한 데이터 보호를 넘어, AI가 생성한 콘텐츠의 신뢰성을 증명하는 방향으로 진화하고 있다. 생성형 AI의 확산으로 인해 AI가 만든 이미지나 텍스트가 진짜인지 가짜인지 구별하는 것이 중요한 사회적 문제로 대두되었다. 이에 대응하여 퀄컴은 C2PA(Coalition for Content Provenance and Authenticity) 표준을 지원하고 Truepic과 같은 기업과 협력하여, 카메라로 촬영된 사진이 AI에 의해 생성되거나 변조되지 않았음을 하드웨어 수준에서 인증하고 암호학적 ’봉인(seal)’을 추가하는 기능을 제공한다.85 이는 AI 보안의 패러다임이 수동적인 ’보호’에서 능동적인 ’신뢰 증명(provenance)’으로 전환되고 있음을 보여준다.

5.3 개발자 생태계: 퀄컴 AI 허브와 지원 도구

강력한 하드웨어와 정교한 소프트웨어 스택도 그것을 활용할 개발자가 없다면 무용지물이다. 퀄컴은 개발자들이 AI 스택을 쉽고 효과적으로 사용할 수 있도록 포괄적인 개발자 생태계를 구축하는 데 많은 노력을 기울이고 있다.

Qualcomm AI Hub: 이 생태계의 중심에는 퀄컴 AI 허브가 있다.15 AI 허브는 퀄컴 플랫폼용 AI 모델을 위한 중앙 집중식 리소스 저장소이자 자동화된 최적화 서비스이다.
사전 최적화된 모델 라이브러리: 개발자들은 이미지 분류, 객체 탐지, 자연어 처리, 그리고 Mistral, Llama와 같은 최신 생성형 AI 모델에 이르기까지 150개 이상의 다양한 모델들을 즉시 다운로드하여 사용할 수 있다. 이 모델들은 이미 퀄컴 하드웨어에 맞게 양자화 및 최적화가 완료된 상태이다.16
클라우드 기반 최적화 및 프로파일링: AI 허브의 가장 강력한 기능 중 하나는 개발자가 자신의 커스텀 모델을 웹에 업로드하기만 하면, 클라우드에 호스팅된 실제 퀄컴 디바이스(예: Snapdragon 8 Elite, Snapdragon X Elite)에서 자동으로 컴파일하고 성능을 측정해주는 서비스이다. 이를 통해 개발자는 고가의 테스트 장비를 모두 구비하지 않고도 자신의 모델이 다양한 타겟 디바이스에서 어떻게 동작할지 미리 확인할 수 있다.15
샘플 애플리케이션 및 SDK: 퀄컴은 QNN SDK와 함께 이미지 분류, 객체 탐지, 자세 추정 등 다양한 AI 작업을 시연하는 GStreamer 기반의 샘플 애플리케이션들을 제공한다.90 또한, 안드로이드와 윈도우 환경에서 네이티브 앱에 AI 모델을 통합하는 방법을 보여주는 다양한 예제 코드와 튜토리얼을 GitHub 등을 통해 공개하고 있다.91

이러한 개발자 지원은 ’쉬운 시작(Easy Button)’과 ’깊이 있는 탐구(Deep Dive)’라는 이중 전략으로 요약할 수 있다. 대다수의 애플리케이션 개발자들은 AI 허브라는 ’Easy Button’을 통해 하드웨어의 복잡한 세부 사항을 몰라도 빠르고 쉽게 AI 기능을 자신의 앱에 통합할 수 있다. 이는 개발자 진입 장벽을 낮추고 생태계 참여를 극대화하는 ’규모의 전략’이다. 반면, 최첨단 성능을 추구하거나 커스텀 연산을 구현해야 하는 소수의 전문가 그룹을 위해, 퀄컴은 QNN SDK라는 ‘Deep Dive’ 경로를 열어두고 있다. 저수준 API, 커스텀 Op Package 기능, 상세한 프로파일링 도구들은 이들 전문가를 위한 것이다.41 이 두 전략은 상호 보완적으로 작용하며, 초심자부터 전문가까지 모든 스펙트럼의 개발자를 퀄컴 생태계 안에 머무르게 하는 효과적인 락인(lock-in) 전략으로 기능한다.

6. 결론: 퀄컴 AI 스택의 아키텍처적 의의와 미래 전망

퀄컴 AI 스택은 온디바이스 AI 시대라는 거대한 기술적 전환점에서 퀄컴이 제시하는 포괄적인 청사진이다. 그 아키텍처적 의의는 **이기종 하드웨어의 성능을 극대화하기 위한 수직적 통합(Vertical Integration)**과 **다양한 개발자 요구를 수용하기 위한 수평적 개방성(Horizontal Openness)**의 정교한 결합에서 찾을 수 있다.

수직적으로, 이 스택은 Hexagon NPU라는 고도로 특화된 실리콘 설계에서부터 시작하여, HVX/HMX와 같은 하드웨어 가속 유닛, QNN이라는 하드웨어 추상화 계층, 그리고 AIMET과 같은 모델 최적화 도구에 이르기까지 모든 요소가 ’저전력 고성능 온디바이스 추론’이라는 단일 목표를 위해 유기적으로 맞물려 설계되었다. 하드웨어의 정수 연산 특성이 소프트웨어의 양자화 최적화를 이끌고, 메모리 계층 구조가 QNN의 스케줄링 전략에 영향을 미치는 등, 하드웨어와 소프트웨어는 서로를 규정하며 긴밀하게 통합되어 있다.

수평적으로, 퀄컴 AI 스택은 독자적인 생태계를 강요하는 대신 TensorFlow, PyTorch, ONNX 등 업계 표준 프레임워크와 런타임을 적극적으로 수용하는 개방적인 자세를 취한다. 이는 개발자들이 기존의 지식과 자산을 최대한 활용하면서 퀄컴의 하드웨어 가속 생태계에 진입할 수 있도록 장벽을 낮추는 역할을 한다. QNN EP, TFLite Delegate, AI 허브 등은 이러한 개방성을 실현하는 구체적인 기술적 장치들이다.

앞으로 퀄컴 AI 스택은 몇 가지 중요한 방향으로 진화할 것으로 전망된다.

첫째, 생성형 AI와 멀티모달리티(Multi-modality)의 심화이다. Llama, Stable Diffusion과 같은 대규모 생성형 AI 모델을 스마트폰이나 PC에서 원활하게 실행하기 위한 최적화가 가속화될 것이다.16 이는 NPU의 연산 성능(TOPS)을 더욱 높이고, LPDDR5X와 같은 고대역폭 메모리의 채택을 촉진하며, INT4와 같은 초저정밀도 양자화 기술과 희소성(sparsity) 기법의 중요성을 더욱 부각시킬 것이다.94

둘째, 에이전트 AI(Agentic AI)의 부상이다. AI가 단순히 사용자의 명령에 수동적으로 반응하는 것을 넘어, 사용자의 컨텍스트(문맥)를 지속적으로 학습하고 이해하여 능동적으로 작업을 예측하고 수행하는 ‘개인 비서’ 또는 ’에이전트’로 진화함에 따라, 퀄컴 AI 스택은 이러한 상시 동작(always-on) AI를 극도의 저전력으로 구동하는 데 초점을 맞출 것이다.95 이를 위해 퀄컴 센싱 허브(Sensing Hub)와 같은 저전력 AI 프로세서의 역할이 더욱 중요해지고, 여러 애플리케이션에 걸쳐 사용자의 개인 데이터를 안전하게 처리하고 작업을 조율하는 기능이 강화될 것이다.

마지막으로, 개발자 생태계의 심화 및 확장이다. 퀄컴 AI 스택은 단순히 모델을 ’실행’하는 단계를 넘어, 데이터 수집 및 정제(Dataloop 협력), 클라우드 기반 미세 조정(Amazon SageMaker 협력), 그리고 최종 애플리케이션 배포 및 관리에 이르는 AI 개발의 전체 라이프사이클을 포괄하는 엔드-투-엔드 플랫폼으로 진화할 것이다.16 최근의 아두이노 인수는 이러한 생태계가 전문 개발자 커뮤니티를 넘어, 취미 개발자, 학생, 교육자 등 훨씬 더 넓은 저변으로 확장될 것임을 명확히 시사한다.

결론적으로, 퀄컴 AI 스택은 하드웨어와 소프트웨어, 그리고 개발자 생태계를 아우르는 총체적인 접근 방식을 통해, AI가 클라우드의 전유물이 아닌 모든 사람의 일상적인 디바이스에 내재된 보편적인 지능이 되는 미래를 기술적으로 구현해 나가고 있다. 그 아키텍처의 지속적인 진화는 향후 커넥티드 인텔리전트 엣지(Connected Intelligent Edge)의 기술 지형을 결정하는 중요한 변수가 될 것이다.

7. 참고 자료

QUALCOMM LAUNCHES NEW AI STACK - Cambrian AI Research, https://cambrian-ai.com/wp-content/uploads/edd/2022/06/Qualcomm-AI-Stack-Final.pdf
Qualcomm Wants to Put AI Everywhere with New Software Stack - Electronic Design, https://www.electronicdesign.com/technologies/embedded/article/21245209/electronic-design-qualcomm-wants-to-put-ai-everwhere-with-new-software-stack
엣지 인공지능의 새로운 통합…‘퀄컴 AI 스택’ 포트폴리오 발표, https://www.aitimes.kr/news/articleView.html?idxno=25390
Presentation: What is Qualcomm AI Stack? - ON24, https://gateway.on24.com/wcc/eh/1987199/lp/3983439/presentation-what-is-qualcomm-ai-stack
Qualcomm Is Right About AI: It Requires Strong Edge Computing - Moor Insights & Strategy, https://moorinsightsstrategy.com/research-notes/qualcomm-is-right-about-ai-it-requires-strong-edge-computing/
Introducing the Qualcomm AI Stack: A unified AI software solution - YouTube, https://www.youtube.com/watch?v=zlKbhDS6PTM
Qualcomm vision presentation about how we are making AI ubiquitous, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/presentation_-qualcomm_ai_vision-_web_0.pdf
The future of AI is hybrid - Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Whitepaper-The-future-of-AI-is-hybrid-Part-1-Unlocking-the-generative-AI-future-with-on-device-and-hybrid-AI.pdf
Unlocking on-device generative AI with an NPU and heterogeneous computing | Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Unlocking-on-device-generative-AI-with-an-NPU-and-heterogeneous-computing.pdf
On-device AI: 5 Proven Ways Google & Qualcomm Are Revolutionizing Your Phone, https://go.sanepo.com/84/what-is-on-device-ai/
Windows on Snapdragon Brings Hybrid AI to Apps at the Edge - KDnuggets, https://www.kdnuggets.com/qualcomm-windows-on-snapdragon-brings-hybrid-ai-to-apps-at-the-edge
Qualcomm® Application Processors Selector Guide, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/application-processors-selection-guide.pdf
AI Stack Developers | Developer-Centric Platform - Qualcomm, https://www.qualcomm.com/developer/artificial-intelligence
Qualcomm Launches Unified AI Stack For Cloud To Edge Intelligence, https://cambrian-ai.com/qualcomm-launches-unified-ai-stack-for-cloud-to-edge-intelligence/
Qualcomm® AI Hub 는 비전, 오디오 및 음성 사용 사례에 대한 온디바이스 러닝 모델을 최적화, 검증 및 배포하는 데 도움이 됩니다., https://app.aihub.qualcomm.com/docs/ko/
Snapdragon Summit’s AI Highlights: A Look at the Future of On-device AI, https://www.edge-ai-vision.com/2024/11/snapdragon-summits-ai-highlights-a-look-at-the-future-of-on-device-ai/
Qualcomm AI Engine Direct SDK, https://www.qualcomm.com/developer/software/qualcomm-ai-engine-direct-sdk
퀄컴, 아두이노 품었다…풀스택 엣지 생태계 확장 - Daum, https://v.daum.net/v/20251009100714685
Qualcomm Buys Arduino, Will Bring AI Tools to Your DIY Tech Projects | PCMag, https://www.pcmag.com/news/qualcomm-buys-arduino-will-bring-ai-tools-to-your-diy-tech-projects
Arduino Announces Agreement to Join Qualcomm Technologies, Unveils UNO Q Platform, https://mlq.ai/news/arduino-announces-agreement-to-join-qualcomm-technologies-unveils-uno-q-platform/
Qualcomm Expands Edge Computing Portfolio With Arduino Acquisition | Built In, https://builtin.com/articles/qualcomm-arduino-acquisition-20251008
The future of AI is hybrid - Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Whitepaper-The-future-of-AI-is-hybrid-Part-2-Qualcomm-is-uniquely-positioned-to-scale-hybrid-AI.pdf
Qualcomm self-developed chip architecture revealed in depth, Apple M series welcomes the strongest competitor - Longbridge, https://longbridge.com/en/news/206287992
Qualcomm ® AI Stack - Windows on Snapdragon, https://docs.qualcomm.com/bundle/publicresource/topics/80-62010-1/ai-overview.html
AI 개발자 워크플로우, https://docs.qualcomm.com/bundle/publicresource/topics/80-70018-15BK/ai-ml-developer-workflow.html
Qualcomm Revs Up AI Capabilities for Snapdragon Laptops and Tablets - PCMag Australia, https://au.pcmag.com/components/100124/qualcomm-revs-up-ai-capabilities-for-snapdragon-laptops-and-tablets
Qualcomm Hexagon - Wikipedia, https://en.wikipedia.org/wiki/Qualcomm_Hexagon
HEXAGON DSP: AN ARCHITECTURE OPTIMIZED FOR MOBILE MULTIMEDIA AND COMMUNICATIONS - cs.wisc.edu, https://pages.cs.wisc.edu/~danav/pubs/qcom/hexagon_micro2014_v6.pdf
AI Dominates Qualcomm Snapdragon Summit With New Snapdragon Products, https://moorinsightsstrategy.com/research-notes/ai-dominates-qualcomm-snapdragon-summit-with-new-snapdragon-products/
Qualcomm Hexagon Architecture | PDF | Digital Signal Processor | Cpu Cache - Scribd, https://www.scribd.com/document/302692330/Qualcomm-Hexagon-Architecture
Architecture - Qualcomm® Cloud AI SDK User Guide, https://quic.github.io/cloud-ai-sdk-pages/latest/Getting-Started/Architecture/
Hexagon V79 HVX Programmer Reference Manual, https://docs.qualcomm.com/bundle/publicresource/topics/80-N2040-61
Performance optimization, https://docs.qualcomm.com/bundle/publicresource/topics/80-78185-2/performance_optimization.html
Enabling HVX SIMD in Hexagon DSP by using instruction intrinsics - Stack Overflow, https://stackoverflow.com/questions/45088650/enabling-hvx-simd-in-hexagon-dsp-by-using-instruction-intrinsics
QCS8275 Data Sheet, https://docs.qualcomm.com/bundle/publicresource/topics/80-73475-1/device-description.html
SA8255P and SA8775P Ride SX 4.0 Automotive Development Platform New - Lantronix, https://www.lantronix.com/products/ride-sx-4-0-automotive-development-platform/
SA8255P and SA8775P Ride SX 4.0 Automotive Development Platform - Thundercomm, https://www.thundercomm.com/product/sa8255p-sa8775p-automotive-development-platform/
Qualcomm releases official Snapdragon X Plus and Snapdragon X Elite benchmarks for 45 TOPS Hexagon NPU : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1d3hlhr/qualcomm_releases_official_snapdragon_x_plus_and/
Apple’s A19 and upcoming M5 chips - Jon Peddie Research, https://www.jonpeddie.com/news/apples-a19-and-upcoming-m5-chips/
Qualcomm ® AI Stack, https://docs.qualcomm.com/bundle/publicresource/topics/80-62010-1/ai-overview.html?product=1601111740057789
Overview - Qualcomm AI Engine Direct SDK, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/overview.html
AI Engine Direct SDK user guide - Qualcomm® Linux Documentation, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/api_overview.html?vproduct=1601111740013072&version=1.5&facet=Qualcomm%20AI%20Engine%20Direct%20SDK
Overview - AI Developer Workflow for Ubuntu, https://docs.qualcomm.com/bundle/publicresource/topics/80-90441-15/ai-ml-developer-workflow.html
Enum QnnHtpDevice_Arch_t - Qualcomm AI Engine Direct SDK, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/enum_QnnHtpDevice_8h_1a0ed976142af98a86143459dfd326f717.html
AI Engine Direct SDK user guide - Qualcomm® Linux Documentation, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/overview.html?vproduct=1601111740013072&version=1.2&facet=Qualcomm%20AI%20Engine%20Direct%20SDK
Deploy model - AI Developer Workflow, https://docs.qualcomm.com/bundle/publicresource/topics/80-70015-15B/qnn-run-model.html
Qualcomm AI Engine Direct SDK, https://docs.qualcomm.com/bundle/publicresource/topics/80-70015-15B/qnn.html
QNN Execution Provider - Qualcomm - ONNX Runtime, https://onnxruntime.ai/docs/execution-providers/QNN-ExecutionProvider.html
Accelerating TensorFlow Lite on Qualcomm Hexagon DSPs, https://blog.tensorflow.org/2019/12/accelerating-tensorflow-lite-on-qualcomm.html
Qualcomm AI Engine Backend — ExecuTorch 1.0 documentation, https://docs.pytorch.org/executorch/1.0/backends-qualcomm.html
AI Developer Workflow, https://docs.qualcomm.com/bundle/publicresource/topics/80-70020-15B/ai-ml-developer-workflow.html
AI developer workflow documentation, https://docs.qualcomm.com/bundle/publicresource/topics/80-70018-15B
AI Engine Direct SDK user guide - Qualcomm® Linux Documentation, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/define_QnnOpDef_8h_1a36e1623e488d91fb53d9ed703b281f6b.html?vproduct=1601111740013072&version=1.3&facet=Qualcomm%20AI%20Engine%20Direct%20SDK
AI disruption is driving innovation in on-device inference | Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/ai-disruption-driving-innovation-on-device-inference.pdf
Accelerating Newer ML Models Using Qualcomm® AI Stack, https://www.edge-ai-vision.com/wp-content/uploads/2023/06/E1T07_Sukumar_Qualcomm_2023.pdf
Practical Quantization in PyTorch, https://pytorch.org/blog/quantization-in-practice/
Affine Quantization - OpenGenus IQ, https://iq.opengenus.org/affine-quantization/
Quantization - Hugging Face, https://huggingface.co/docs/optimum/concept_guides/quantization
Quantization Overview — Guide to Core ML Tools - Apple, https://apple.github.io/coremltools/docs-guides/source/opt-quantization-overview.html
Quantization and Training of Neural Networks for Efficient Integer …, https://arxiv.org/pdf/1712.05877
Quantization - Neural Network Distiller - Intel Labs, https://intellabs.github.io/distiller/algo_quantization.html
Model Quantization in Deep Learning - AI Bites, https://www.ai-bites.net/model-quantization-in-deep-learning/
Accelerating Neural Networks: The Power of Quantization - Hackernoon, https://hackernoon.com/accelerating-neural-networks-the-power-of-quantization
Linear Quantization : Symmetric and Asymmetric mode | by Malpureomkar | Medium, https://medium.com/@malpureomkar5/linear-quantization-symmetric-and-asymmetric-mode-d130fc26145c
AI Model Efficiency Toolkit (AIMET) | Qualcomm Developer, https://www.qualcomm.com/developer/software/ai-model-efficiency-toolkit
AIMET is a library that provides advanced quantization and compression techniques for trained neural network models. - GitHub, https://github.com/quic/aimet
Model-Preserving Adaptive Rounding - arXiv, https://arxiv.org/pdf/2505.22988
Tutorial: AdaRound and AdaQuant — Quark 0.2.0 documentation, https://quark.docs.amd.com/release-0.2.0/onnx/tutorial_adaround_adaquant.html
Up or Down? Adaptive Rounding for Post-Training Quantization - Semantic Scholar, https://www.semanticscholar.org/paper/Up-or-Down-Adaptive-Rounding-for-Post-Training-Nagel-Amjad/0c0dfe47afcec2e229015f3c8f213d4c88e86b28
AI Model Efficiency Toolkit User Guide - Qualcomm Innovation Center, https://quic.github.io/aimet-pages/releases/1.18.0/user_guide/index.html
Neural Network Quantization with AI Model Efficiency Toolkit (AIMET) - ResearchGate, https://www.researchgate.net/publication/358149005_Neural_Network_Quantization_with_AI_Model_Efficiency_Toolkit_AIMET
Model Pruning: Keeping the Essentials - Unify AI, https://unify.ai/blog/compression-pruning
AIMET Spatial SVD — AI Model Efficiency Toolkit Documentation - Qualcomm Innovation Center, https://quic.github.io/aimet-pages/releases/1.31.0/user_guide/spatial_svd.html
AIMET Features Guidebook — AI Model Efficiency Toolkit Documentation - Qualcomm Innovation Center, https://quic.github.io/aimet-pages/releases/1.17.0/user_guide/feature_guidebook.html
Compiling Models — Qualcomm® AI Hub documentation, https://app.aihub.qualcomm.com/docs/hub/compile_examples.html
Streamlining Qualcomm AI SDK documentation - DevDocs, https://devdocs.work/case-studies/devdocs-qualcomm-partnership-transforming-ai-engine-direct-sdk-documentation
quic/ai-hub-models - GitHub, https://github.com/quic/ai-hub-models
Puzzle: Scheduling Multiple Deep Learning Models on Mobile Device with Heterogeneous Processors - arXiv, https://arxiv.org/html/2508.17764v1
NNAPI : Low-level API for using NPU on Android | by David Cochard | ailia-ai | Medium, https://medium.com/axinc-ai/nnapi-low-level-api-for-using-npu-on-android-616e51f7b474
Configure the scheduler - Qualcomm Linux Kernel Guide, https://docs.qualcomm.com/bundle/publicresource/topics/80-70020-3/scheduler.html
Hexagon DSP — CPU offload - Milind Deore - Medium, https://mdeore.medium.com/hexagon-dsp-cpu-offload-4fb8e4077fe8
Mobile AI Solutions | On-Device AI Benefits - Qualcomm, https://www.qualcomm.com/products/mobile/snapdragon/smartphones/mobile-ai
SECURING THE ENTERPRISE WORKFORCE - TD Synnex, https://www.tdsynnex.com/na/us/qualcomm/wp-content/uploads/sites/107/2024/06/Snapdragon-Compute-Security-Two-Page-Overview.pdf
Qualcomm(R) Trusted Management Engine (Sequencer) - Cryptographic Algorithm Validation Program | CSRC - National Institute of Standards and Technology, https://csrc.nist.gov/projects/cryptographic-algorithm-validation-program/details?product=15349
PERFORMANCE, TRANSFORMED - Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Snapdragon-8-Elite-SM8750-3-AB-Product-Brief.pdf
Qualcomm(R) Trust Management Engine (PRNG) - Cryptographic Algorithm Validation Program | CSRC - National Institute of Standards and Technology, https://csrc.nist.gov/projects/cryptographic-algorithm-validation-program/details?product=14744
Security for AI: The New Wave of Startups Racing to Secure the AI Stack | Menlo Ventures, https://menlovc.com/perspective/security-for-ai-genai-risks-and-the-emerging-startup-landscape/
Computer Vision Meetup: Deploying ML models on Edge Devices using Qualcomm AI Hub, https://www.youtube.com/watch?v=ZQIbXCfGKzo
Deep Dive: Accelerating Model Deployment with Qualcomm AI Hub - 2026 Embedded Vision Summit, https://embeddedvisionsummit.com/deep-dive-days/
Sample applications - Qualcomm Intelligent Multimedia SDK (IM SDK) Reference, https://docs.qualcomm.com/bundle/publicresource/topics/80-70020-50/example-applications.html
quic/ai-hub-apps - GitHub, https://github.com/quic/ai-hub-apps
quic/qidk - GitHub, https://github.com/quic/qidk
[FEATURE] Add Qualcomm Hexagon NPU delegation for hardware acceleration · Issue #110 · google-ai-edge/gallery - GitHub, https://github.com/google-ai-edge/gallery/issues/110
Snapdragon® 8 Gen 2 Mobile Platform - Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/images/company/news-media/media-center/press-kits/summit-2022/day-1/documents/Snapdragon_8_Gen_2_Product_Brief.pdf
Snapdragon 8 Elite Gen 5 AI features ‘will be an extension of you,’ Qualcomm exec says, https://www.tomsguide.com/phones/android-phones/snapdragon-8-elite-gen-5-ai-features-will-be-an-extension-of-you-qualcomm-exec-says
The Future of AI is On-Device | Meet Context, Powered by Snapdragon X Series - YouTube, https://www.youtube.com/watch?v=CxzWtADSvrk