Booil Jung

NVIDIA DGX 플랫폼

NVIDIA DGX 플랫폼은 단순한 서버 제품군을 넘어, AI 개발 및 배포를 산업화하기 위해 설계된 턴키(turnkey) 방식의 풀스택 솔루션, 즉 ‘AI 팩토리’의 가장 성공적인 청사진으로 자리매김했다. 본 보고서는 DGX 플랫폼이 특정 목적을 위한 슈퍼컴퓨터에서 출발하여 오늘날 엔터프라이즈 및 국가 주권 AI(Sovereign AI)의 핵심 인프라로 진화하기까지의 과정을 심층적으로 분석한다. DGX의 핵심 가치는 기술적 복잡성과 인사이트 도출 시간을 획기적으로 단축시켜, 기업의 경제적 계산법을 단순한 컴퓨팅 비용에서 AI 이니셔티브의 투자 수익률(ROI)로 전환시킨 데 있다.1

DGX 하드웨어의 각 세대는 AI 워크플로우에서 발생하는 새로운 병목 현상에 대한 직접적인 해결책을 제시하며 발전해왔다. DGX-2의 NVSwitch는 GPU 간 통신 병목을, DGX A100의 PCIe 4.0 지원은 CPU와 GPU 간 데이터 파이프라인 문제를, 그리고 DGX GB200은 조 단위 파라미터 모델이 요구하는 막대한 메모리 용량 문제를 해결하기 위해 설계되었다. 이와 더불어, 긴밀하게 통합된 소프트웨어 스택(NVIDIA Base Command, NVIDIA AI Enterprise)과 전문 지원(DGXperts)은 하드웨어 판매를 생태계 투자로 전환시키며 강력한 경쟁 우위를 구축했다.1

경제성 분석 결과, 지속적이고 높은 가동률을 보이는 워크로드의 경우 온프레미스(on-premise) DGX 배포가 클라우드 대안보다 명백한 총소유비용(TCO) 이점을 제공하는 것으로 나타났다. 동시에, NVIDIA DGX Cloud는 관리형 고성능 AI 서비스 시장의 수요에 전략적으로 대응하며 포트폴리오를 완성한다.5 결론적으로, DGX 플랫폼은 하드웨어, 소프트웨어, 서비스를 아우르는 통합적 접근 방식을 통해 AI 인프라 시장의 표준을 정립했으며, 미래의 AI 시대를 선도하는 핵심 동력으로 기능하고 있다.


2016년 이전, 기업과 연구 기관이 고성능 AI 인프라를 구축하려는 시도는 상당한 도전에 직면했다. 당시의 접근 방식은 주로 상용 부품을 조합하여 자체적으로 GPU 클러스터를 구축하는 ‘Do-It-Yourself(DIY)’ 방식이었으나, 이는 막대한 숨겨진 비용과 복잡성을 내포하고 있었다. 조직들은 하드웨어 구매 비용 외에도 소프트웨어 엔지니어링, 구성 요소 통합, 시스템 설정 및 문제 해결에 상상 이상의 시간과 자원을 투입해야 했다.8

이러한 ‘숨겨진 비용’은 프로젝트를 수개월 지연시키는 주된 원인이었다. 복잡한 오픈 소스 소프트웨어 스택을 통합하고 안정화시키는 과정은 그 자체로 거대한 엔지니어링 프로젝트였다.2 프레임워크, 라이브러리, 드라이버 등 수많은 구성 요소 간의 호환성을 맞추고 최적의 성능을 내도록 튜닝하는 작업은 지속적인 유지보수 부담으로 작용했다. 이는 AI 연구 개발이라는 본질적인 목표에 집중해야 할 데이터 과학자와 엔지니어들의 생산성을 심각하게 저해했다. 당시 시장이 직면한 문제는 개별 GPU의 성능 부족이 아니라, 이를 효과적으로 엮어내고 최적화할 수 있는 시스템 통합 및 소프트웨어 전문성의 부재였다.8

NVIDIA는 이러한 시장의 고충을 해결하는 것에서 새로운 전략적 기회를 포착했다. DGX 라인의 출시는 단순히 더 많은 GPU를 판매하기 위한 전술이 아니라, ‘목적 기반 AI 시스템’이라는 새로운 시장 카테고리를 창출하려는 전략적 움직임이었다. DGX의 핵심 가치 제안은 “AI 이니셔티브를 가장 빠른 길로 안내한다(fast-tracks your AI initiative)”는 것이었다.8 이는 AI 인프라의 배포 및 설정 시간을 기존의 수개월에서 단 하루 수준으로 단축시키는 것을 목표로 했다.8 “플러그를 꽂고, 전원을 켜고, 바로 작업에 착수하라(plug in, power up, and get to work)”는 슬로건은 DGX가 제공하고자 하는 가치를 명확히 보여주었다.8

이러한 접근은 AI 인프라에 대한 논의의 초점을 ‘인프라 구축’에서 ‘결과 달성’으로 근본적으로 전환시켰다.1 DGX라는 명칭 자체가 ‘Deep GPU Xceleration’의 약자로 4, 딥러닝이라는 특정 고부가가치 워크로드에 대한 명확한 집중을 시사했다. NVIDIA는 하드웨어 성능 경쟁을 넘어, 고객이 AI를 통해 비즈니스 가치를 창출하는 데 걸리는 시간을 단축시키는 것을 최우선 과제로 삼았고, 이는 DGX 플랫폼의 성공을 이끈 핵심 철학이 되었다.

DGX는 처음부터 단순한 하드웨어 제품이 아닌, “완전한 하드웨어 및 소프트웨어 플랫폼” 1이자 “올인원 솔루션” 4으로 설계되었다. 이는 하드웨어, 최적화된 소프트웨어 스택, 전문가 지원이라는 세 가지 핵심 요소를 긴밀하게 통합하는 것을 기본 철학으로 삼았다. 이 세 가지 기둥은 이후 모든 DGX 세대에 걸쳐 계승 및 발전하며 플랫폼의 정체성을 확립했다.

첫째, 목적 기반 하드웨어(Purpose-Built Hardware)는 GPU부터 인터커넥트, 스토리지, 네트워킹에 이르기까지 모든 구성 요소가 AI 처리량을 극대화하기 위해 신중하게 선택되고 통합되었다.1 이는 상용 부품의 단순한 조합을 넘어, AI 워크로드의 특성을 고려한 시스템 수준의 최적화를 의미했다.

둘째, 통합 소프트웨어(Integrated Software)는 DGX 소프트웨어 스택(이후 NVIDIA Base Command 및 AI Enterprise로 브랜드화)을 통해 턴키 방식의 최적화된 환경을 제공했다. 이를 통해 기업은 수십만 달러에 달하는 소프트웨어 엔지니어링 비용을 절감하고, 즉시 AI 개발에 착수할 수 있었다.8

셋째, 내재된 전문성(Embedded Expertise)은 DGX 구매 고객에게 NVIDIA의 AI 전문가 팀인 ‘DGXperts’에 직접 접근할 수 있는 권한을 부여했다. 이들은 규범적 가이던스와 설계 전문 지식을 제공하여 최첨단 기술 도입에 따르는 리스크를 줄이고, 고객의 AI 혁신을 가속화하는 파트너 역할을 수행했다.1

이러한 풀스택 접근 방식은 DGX를 단순한 서버가 아닌, AI 개발의 전 과정을 지원하는 포괄적인 솔루션으로 자리매김하게 했으며, 경쟁사들이 쉽게 모방할 수 없는 강력한 차별점을 구축했다.


본 장에서는 각 DGX 세대의 연대기적 분석을 통해 핵심 기술의 도약과 각 모델 이면에 있는 전략적 배경을 상세히 탐구한다.

파스칼(Pascal) 아키텍처 기반 DGX-1은 2016년 4월에 발표된 최초의 “박스형 슈퍼컴퓨터(supercomputer in a box)”였다.11 8개의 Tesla P100 GPU를 탑재하여 16비트 부동소수점(FP16) 연산에서 170 테라플롭스(teraFLOPS)의 성능을 제공했다.11 이 시스템의 가장 중요한 혁신 중 하나는 NVLink 기술의 도입이었다. NVLink는 기존의 PCIe 버스가 가진 대역폭 한계를 극복하기 위해 설계된 고속 GPU-to-GPU 인터커넥트로, 다중 GPU 환경에서의 통신 병목 현상을 획기적으로 개선했다.11

볼타(Volta) 아키텍처 기반 DGX-1은 중요한 중간 단계 업그레이드였다. 이 시스템은 혼합 정밀도 AI 워크로드를 위해 설계된 혁신적인 아키텍처인 텐서 코어(Tensor Core)를 도입함으로써 FP16 성능을 1 페타플롭스(petaFLOPS)까지 끌어올렸다.8 8개의 Tesla V100 GPU, 5,120개의 텐서 코어, 총 128GB의 HBM2 메모리를 탑재하여 딥러닝 훈련 속도를 비약적으로 향상시켰다.8

두 버전 모두 듀얼 소켓 Intel Xeon E5 CPU, 4개의 1.92TB SSD를 RAID 0으로 구성한 스토리지, 그리고 쿼드 EDR InfiniBand 네트워킹을 공통된 시스템 아키텍처로 채택했다.8

이와 함께 DGX Station이 출시되어 “책상 위 AI 슈퍼컴퓨터”라는 새로운 개념을 제시했다. 수랭식 냉각 시스템을 채택하여 약 35dB의 저소음으로 작동하는 이 타워형 워크스테이션은, 데이터센터와 같은 특수 인프라 없이도 개별 팀이 데이터센터급 성능을 활용할 수 있게 만들었다.12

DGX-2는 AI 모델의 규모와 복잡성이 급격히 증가함에 따라 발생한 새로운 병목 현상, 즉 8개 이상의 GPU로 확장할 때의 통신 문제를 해결하기 위해 등장했다. 이 시스템의 핵심적인 아키텍처 도약은 NVSwitch 기술의 최초 도입이었다.12 NVSwitch는 16개의 Tesla V100 32GB GPU 전체가 서로 막힘 없이(non-blocking) 완전 연결(all-to-all)되는 NVLink 패브릭을 구현했다. 이를 통해 시스템은 512GB의 공유 HBM2 메모리를 갖춘 단일 거대 GPU처럼 작동하며 2 페타플롭스의 성능을 달성했다.12

이러한 구조는 이전에는 불가능했던 새로운 차원의 모델 병렬 처리를 가능하게 했고, 초대규모 데이터셋을 다루는 데 필수적인 기반을 제공했다.12 DGX-2는 최대 10kW의 전력을 소비하는 거대한 10U 섀시에 1.5TB의 시스템 RAM, 30.72TB의 NVMe SSD 스토리지, 8개의 100Gb/s InfiniBand 카드를 탑재했으며, 초기 출시 가격은 399,000달러였다.12 DGX-2는 NVSwitch를 통해 AI 인프라의 확장성에 대한 기준을 한 단계 끌어올린 기념비적인 시스템이었다.

3세대 DGX 시스템인 DGX A100은 8개의 NVIDIA A100 텐서 코어 GPU를 기반으로 구축되었으며, “모든 AI 워크로드를 위한 범용 시스템”으로 포지셔닝되었다.12 이 시스템은 더욱 작아진 6U 섀시에서 5 페타플롭스의 AI 성능을 제공했다.12

DGX A100의 핵심 혁신은 TF32 정밀도Multi-Instance GPU(MIG) 기능이었다. TF32는 코드 변경 없이도 FP32와 유사하게 작동하면서 20배 높은 AI 연산 성능을 제공하여 즉각적인 속도 향상을 가능하게 했다.18 MIG는 단일 A100 GPU를 최대 7개의 더 작고 격리된 GPU 인스턴스로 분할하여, 다양한 규모의 워크로드를 동시에 처리함으로써 인프라 활용률을 극대화하는 획기적인 기능이었다.18

가장 주목할 만한 변화는 CPU의 전략적 전환이었다. DGX A100은 최초로 AMD CPU, 구체적으로 듀얼 64코어 AMD EPYC 7742 프로세서를 채택했다.12 이 결정의 핵심 동인은 AMD가 더 빠른

PCIe 4.0 표준을 지원했기 때문이다. 강력한 A100 GPU에 고속 네트워킹 및 스토리지로부터 데이터를 원활하게 공급하기 위해서는 두 배 넓은 대역폭을 제공하는 PCIe 4.0이 필수적이었다.21 이는 NVIDIA가 특정 CPU 벤더에 종속되지 않고, 오직 시스템 전체의 성능을 극대화하는 방향으로 기술을 선택한다는 것을 보여주는 중요한 사례였다.

시스템은 1TB의 시스템 RAM, 15TB의 Gen4 NVMe SSD, 9개의 Mellanox 200Gb/s 네트워크 인터페이스를 탑재했으며, 초기 가격은 199,000달러였다.12

DGX Station A100 역시 4개의 A100 GPU와 단일 AMD EPYC CPU, 그리고 새로운 냉매 기반 냉각 시스템을 채택하여 책상 위 슈퍼컴퓨터의 계보를 이어갔다.12

4세대 DGX H100은 거대 언어 모델(LLM)과 생성형 AI 시대의 폭발적인 컴퓨팅 수요에 대응하기 위해 특별히 설계되었다.1 8개의 NVIDIA H100 텐서 코어 GPU를 통합하여 8비트 부동소수점(FP8) 정밀도에서 32 페타플롭스라는 경이로운 AI 성능을 제공한다.26

DGX H100의 핵심은 호퍼(Hopper) 아키텍처에 내장된 트랜스포머 엔진(Transformer Engine)이다. 이 엔진은 최신 LLM의 근간이 되는 트랜스포머 모델의 훈련 및 추론을 가속화하기 위해 FP8 정밀도와 동적 스케일링 기술을 사용한다.29 이를 통해 이전 세대 대비 성능을 극적으로 향상시키면서도 정확도 손실은 최소화했다.

시스템 사양 측면에서는 듀얼 Intel Xeon Platinum 8480C 프로세서(총 112코어)로 다시 인텔 CPU로 회귀했으며, 이는 PCIe 5.0 지원을 통한 I/O 대역폭 극대화를 위한 선택이었다.26 또한 2TB의 시스템 메모리, 30TB의 NVMe SSD 스토리지, 그리고 10개의 NVIDIA ConnectX-7 400Gb/s 네트워크 인터페이스를 탑재하여 시스템 전반의 데이터 처리 능력을 강화했다.26 최대 전력 소비는 10.2kW로 증가하여, 고밀도 AI 인프라의 전력 및 냉각 요구사항이 더욱 높아졌음을 시사했다.26

블랙웰(Blackwell) 아키텍처는 성능 면에서 혁명적인 도약을 이루었다. DGX B200 시스템은 8개의 NVIDIA Blackwell B200 GPU를 탑재하여 FP8 훈련에서 최대 72 페타플롭스, 4비트 부동소수점(FP4) 추론에서 최대 144 페타플롭스의 성능을 발휘한다.3

더 나아가 DGX GB200 시스템은 랙 스케일 아키텍처로의 근본적인 전환을 의미한다. 이 시스템은 GB200 Grace Blackwell 슈퍼칩을 기반으로 구축되는데, 이 슈퍼칩은 900 GB/s의 초고속 NVLink-C2C 인터커넥트를 통해 2개의 Blackwell GPU와 1개의 Grace CPU를 하나의 패키지로 통합한 것이다.35

궁극적인 형태인 DGX GB200 NVL72는 단일 액체 냉각 랙에 36개의 GB200 슈퍼칩(36개의 Grace CPU와 72개의 Blackwell GPU)을 집적한 시스템이다. 이 72개의 GPU는 5세대 NVLink 패브릭을 통해 연결되어 마치 하나의 거대한 GPU처럼 작동하며, 조 단위 파라미터 모델의 훈련과 실시간 추론을 위해 특별히 설계되었다.35 이는 개별 서버의 집합을 넘어, 랙 자체가 하나의 통합된 컴퓨팅 단위가 되는 미래 AI 인프라의 청사진을 제시한다.

모델 출시 연도 GPU 아키텍처 GPU 수 GPU 모델 AI 성능 (FP16/FP8) 총 GPU 메모리 CPU 시스템 메모리 네트워킹 최대 전력 폼팩터
DGX-1 (Pascal) 2016 Pascal 8 Tesla P100 170 TFLOPS (FP16) 128 GB HBM2 2x Intel Xeon E5-2698 v4 512 GB DDR4 4x EDR InfiniBand 3.2 kW 3U
DGX-1 (Volta) 2017 Volta 8 Tesla V100 1 PFLOPS (FP16) 128 GB HBM2 2x Intel Xeon E5-2698 v4 512 GB DDR4 4x EDR InfiniBand 3.5 kW 3U
DGX-2 2018 Volta 16 Tesla V100 2 PFLOPS (FP16) 512 GB HBM2 2x Intel Xeon Platinum 1.5 TB DDR4 8x 100GbE/EDR IB 10 kW 10U
DGX A100 2020 Ampere 8 A100 40/80GB 5 PFLOPS (FP16) 320/640 GB HBM2e 2x AMD EPYC 7742 1/2 TB DDR4 8x 200Gb/s HDR IB 6.5 kW 6U
DGX H100 2022 Hopper 8 H100 80GB 32 PFLOPS (FP8) 640 GB HBM3 2x Intel Xeon Platinum 8480C 2 TB DDR5 8x 400Gb/s NDR IB 10.2 kW 8U
DGX B200 2024 Blackwell 8 B200 72 PFLOPS (FP8) 1.4 TB HBM3e 2x Intel Xeon Platinum 8570 4 TB DDR5 8x 400Gb/s NDR IB 14.3 kW 8U

본 장에서는 DGX 플랫폼을 정의하는 핵심 기술들을 주제별로 심층 분석하여, 연대기적 관점을 넘어 아키텍처의 본질을 탐구한다.

DGX 플랫폼의 심장은 AI 워크로드에 직접적인 영향을 미치는 혁신을 거듭해 온 NVIDIA GPU 아키텍처다. 각 세대의 발전은 당대 AI 모델이 요구하는 연산 능력과 효율성을 충족시키기 위한 정밀한 공학적 해답이었다.

NVIDIA의 인터커넥트 전략은 DGX 플랫폼의 성능과 확장성을 정의하는 핵심 요소다. AI 워크로드가 단일 GPU의 한계를 넘어 확장됨에 따라, GPU 간의 데이터 통신 속도가 전체 시스템 성능을 좌우하는 결정적인 변수가 되었기 때문이다.

NVLink vs. PCIe: 전통적인 PCIe 버스는 다중 GPU 환경에서 심각한 통신 병목을 유발했다. NVLink는 이를 해결하기 위해 개발된 고대역폭, 저지연 포인트-투-포인트(point-to-point) 연결 기술이다.44 CPU를 거치지 않고 GPU 간 직접 데이터 교환을 가능하게 함으로써, PCIe 대비 월등한 성능을 제공한다.47

NVSwitch: 단순한 NVLink 브릿지에서 한 단계 더 나아가, NVSwitch 칩은 완전한 논블로킹(non-blocking) 패브릭을 구성한다. 이를 통해 시스템 내 모든 GPU가 다른 어떤 GPU와도 최대 속도로 통신할 수 있게 된다. 이는 DGX-2와 그 이후 세대에서 대규모 모델 병렬 처리를 실현하는 핵심 기술로 자리 잡았다.12

세대별 대역폭 확장: NVLink의 대역폭은 세대를 거듭하며 기하급수적으로 증가했다. DGX-1의 NVLink 1.0이 GPU당 160 GB/s를 제공한 것을 시작으로, H100의 NVLink 4.0은 900 GB/s, Blackwell의 NVLink 5.0은 1.8 TB/s에 달하는 양방향 대역폭을 구현했다.45

NVLink-C2C: 최신 진화 형태인 NVLink-C2C는 인터커넥트를 칩 패키지 레벨로 끌어올려 Grace Blackwell(GB200)과 같은 ‘슈퍼칩’을 탄생시켰다. 이는 CPU와 GPU 간에 일관성 있는 통합 메모리 공간을 제공하여, 가장 중요한 데이터 경로에서 PCIe 버스를 완전히 배제하고 성능을 극대화한다.36

이러한 통신 패브릭의 발전은 DGX 플랫폼이 단순한 GPU 서버의 집합이 아니라, 모든 GPU가 하나의 거대한 컴퓨팅 자원으로 유기적으로 동작하는 통합 시스템임을 보여준다. DGX 플랫폼의 아키텍처 진화는 시스템 전체의 성능 병목을 체계적으로 제거해 나가는 과정으로 이해할 수 있다. 초기에는 PCIe 버스가 병목이었고, 이를 해결하기 위해 NVLink가 도입되었다. 모델이 8개 이상의 GPU를 요구하자 NVLink 토폴로지가 새로운 병목이 되었고, 이를 해결하기 위해 NVSwitch 패브릭이 등장했다. GPU 간 통신이 원활해지자 이제는 스토리지와 네트워크로부터 데이터를 공급하는 I/O가 병목이 되었고, DGX A100에서 PCIe 4.0을 지원하는 AMD EPYC CPU를 채택하여 이 문제를 해결했다. 마지막으로, 조 단위 파라미터 모델이 등장하며 CPU와 GPU 간의 메모리 트래픽 자체가 한계에 부딪히자, Grace Blackwell 슈퍼칩에서 NVLink-C2C를 통해 PCIe를 완전히 배제하는 혁신을 이루었다. 이처럼 NVIDIA는 전체 스택에 대한 통제력을 바탕으로 시스템 수준에서 병목을 예측하고 선제적으로 해결해 나감으로써 DGX 플랫폼의 지속적인 성능 리더십을 유지하고 있다.

DGX 플랫폼의 성능은 단순히 GPU에만 의존하지 않는다. 시스템의 다른 모든 구성 요소들이 GPU의 잠재력을 최대한 발휘할 수 있도록 긴밀하게 통합되고 최적화되어 있다.

CPU 전략: DGX 시스템에서 CPU는 주 연산 장치가 아닌, 고속 I/O 및 오케스트레이션 엔진으로서의 역할을 수행한다. NVIDIA는 특정 벤더에 얽매이지 않고 오직 성능을 기준으로 CPU를 선택해왔다. DGX A100에서 PCIe 4.0 지원을 위해 AMD EPYC를 채택하고 21, DGX H100에서 PCIe 5.0을 위해 다시 Intel Xeon으로 전환한 것 33은 이러한 성능 우선주의 철학을 명확히 보여준다.

네트워킹: 다중 노드 확장을 위해 고속 네트워킹은 시스템의 핵심 구성 요소로 통합되었다. DGX-1의 100Gb/s EDR InfiniBand에서 시작하여 DGX A100의 200Gb/s HDR InfiniBand, 그리고 DGX H100의 400Gb/s NDR InfiniBand로 발전하며, 노드 간 통신 대역폭을 지속적으로 확장해왔다.8 이는 대규모 분산 훈련에서 노드 수가 증가해도 성능 저하를 최소화하는 데 결정적인 역할을 한다.

스토리지 생태계: AI 워크로드는 방대한 양의 데이터를 처리하므로, I/O 병목 현상을 방지하기 위해서는 고속, 저지연 스토리지가 필수적이다. NVIDIA는 이 문제를 해결하기 위해 DGX SuperPOD 인증 스토리지 파트너 프로그램을 운영한다. DDN, Dell, IBM, NetApp, Pure Storage 등 검증된 스토리지 벤더들이 DGX SuperPOD 환경에 최적화된 고성능 솔루션을 제공하여, 고객들이 안정적으로 대규모 데이터 파이프라인을 구축할 수 있도록 지원한다.51

NVIDIA는 AI 여정의 모든 단계에 맞는 솔루션을 제공하기 위해 DGX 포트폴리오를 체계적으로 구성했다. 이는 단일 시스템에서 시작하여 데이터센터 규모까지 원활하게 확장할 수 있는 경로를 제시한다.


DGX 플랫폼의 진정한 가치는 하드웨어의 잠재력을 최대한 끌어내고 턴키 솔루션의 약속을 실현하는 강력한 소프트웨어 스택에 있다.

NVIDIA Base Command는 모든 DGX 시스템을 구동하는 소프트웨어 엔진으로, AI 데이터센터의 운영체제(OS) 역할을 수행한다.1 이는 엔터프라이즈급 오케스트레이션, 클러스터 관리, 그리고 최적화된 운영체제를 포괄하는 통합 플랫폼이다.

주요 기능으로는 워크로드 관리, 자원 공유, 그리고 Slurm이나 Kubernetes와 같은 업계 표준 스케줄러와의 통합을 통한 효율적인 작업 스케줄링이 있다.1 또한 통합된 모니터링 및 보고 대시보드를 통해 관리자는 클러스터의 상태와 성능을 한눈에 파악하고 자원 활용을 최적화할 수 있다.

특히 Base Command는 MLOps(Machine Learning Operations) 파이프라인과의 통합을 위한 API를 제공한다. 예를 들어, Weights & Biases와 같은 선도적인 MLOps 플랫폼과 연동하여 실험 추적, 모델 버전 관리, 하이퍼파라미터 최적화 등 AI 개발의 전 과정을 체계적으로 관리하고 자동화할 수 있다.58 이를 통해 DGX는 단순한 컴퓨팅 인프라를 넘어, AI 모델의 전체 생명주기를 관리하는 중앙 허브로 기능한다.

NVIDIA AI Enterprise(NVAIE)는 프로덕션 AI 배포를 위해 성능, 보안, 안정성을 보장하도록 설계된 클라우드 네이티브 AI 소프트웨어 및 도구 모음이다.61 이는 기업이 AI 프로젝트를 프로토타입에서 실제 운영 환경으로 원활하게 전환할 수 있도록 지원하는 핵심적인 소프트웨어 계층이다.

NVAIE는 cuDNN, NCCL과 같은 최적화된 핵심 라이브러리, TensorFlow, PyTorch 등 널리 사용되는 프레임워크의 최적화 버전, 그리고 데이터 과학(RAPIDS), 추론(TensorRT), 대화형 AI(NeMo) 등을 위한 다양한 SDK를 포함한다.4 또한, NVIDIA NGC 카탈로그를 통해 사전 훈련된 모델과 간소화된 추론 배포를 위한 NVIDIA NIM 마이크로서비스를 제공하여 개발 생산성을 크게 향상시킨다.61

NVAIE의 가장 중요한 가치 제안은 오픈 소스 소프트웨어 사용에 따르는 리스크를 줄여준다는 점이다. NVIDIA는 NVAIE를 통해 안정적이고 보안이 검증된 버전을 제공하며, 장기 지원(LTS) 및 엔터프라이즈급 기술 지원을 통해 미션 크리티컬 AI 애플리케이션의 비즈니스 연속성을 보장한다.61

DGX 소프트웨어 스택은 단순한 편의 기능의 집합이 아니라, DGX와 경쟁 하드웨어 간의 격차를 벌리는 핵심적인 성능 증폭기(performance multiplier) 역할을 한다. NVIDIA는 실리콘부터 드라이버(CUDA), 라이브러리(cuDNN), 프레임워크, 관리 계층(Base Command)까지 전체 스택을 통제함으로써 전례 없는 수준의 공동 최적화를 이뤄낸다. 예를 들어, 호퍼 아키텍처의 트랜스포머 엔진과 같은 새로운 하드웨어 기능은 즉시 이를 지원하는 소프트웨어 라이브러리와 프레임워크에 통합되어 사용자에게 제공된다.29 이러한 지속적인 풀스택 최적화는 DGX 시스템의 성능이 시간이 지남에 따라 향상된다는 것을 의미하며, 초기 투자에 대한 지속적인 수익을 창출한다. Forrester 연구에 따르면 DGX-1 시스템은 소프트웨어 최적화만으로 수명 기간 동안 최대 2배의 성능 향상을 보였다.64 이는 경쟁사가 이론적으로 더 빠른 GPU를 출시하더라도, 전체 소프트웨어 생태계가 이를 따라잡기 전까지는 실제 애플리케이션 성능에서 뒤처질 수밖에 없음을 시사한다. 이처럼 강력한 소프트웨어 생태계는 NVIDIA의 지속적인 시장 지배력을 뒷받침하는 깊고 넓은 해자(moat) 역할을 한다.

DGX 플랫폼의 소유는 하드웨어와 소프트웨어를 넘어, NVIDIA의 AI 전문성에 직접 접근할 수 있는 권한을 의미한다. ‘DGXperts’로 불리는 이 글로벌 전문가 팀은 고객에게 규범적 가이던스, 설계 전문 지식, 그리고 신속한 문제 해결 지원을 제공한다.1

이 지원 모델의 경제적 영향은 상당하다. 시스템 다운타임을 극적으로 줄이고 문제 해결을 가속화함으로써 AI 이니셔티브의 ROI에 직접적으로 기여한다.1 이는 단순히 문제가 발생했을 때 해결해주는 수동적인 지원을 넘어, 고객이 DGX 인프라를 최대한 활용하여 비즈니스 목표를 더 빨리 달성할 수 있도록 돕는 능동적인 파트너십에 가깝다. 모든 DGX 시스템에는 하드웨어 및 Base Command 소프트웨어에 대한 엔터프라이즈 지원이 기본으로 포함되며, 더 복잡한 배포를 위한 연장 보증 및 전문 서비스 옵션도 제공된다.65


본 장에서는 아키텍처 논의를 넘어, 표준화된 벤치마크와 실제 고객 성공 사례를 통해 DGX 플랫폼이 제공하는 구체적인 성과를 조명한다.

MLPerf는 AI 시스템의 실제 성능을 객관적으로 측정하기 위한 업계 표준 동료 심사 벤치마크이다.68 NVIDIA는 상용 시스템 부문에서 DGX 플랫폼을 주력으로 제출하며 MLPerf 훈련 벤치마크에서 지속적으로 최고의 성능을 기록해왔다.64

MLPerf Training v5.0 결과에서 NVIDIA의 최신 블랙웰 아키텍처는 가장 까다로운 Llama 3.1 405B 사전 훈련 벤치마크에서 이전 세대 아키텍처 대비 동일 규모에서 2.2배 더 높은 성능을 보였다. 또한 8개의 블랙웰 GPU를 탑재한 DGX GB200 NVL72 시스템은 Llama 2 70B LoRA 미세 조정 벤치마크에서 8개의 H100 GPU를 탑재한 DGX H100 시스템 대비 2.5배 더 높은 성능을 기록했다.69 이러한 결과는 DGX 플랫폼의 세대 간 성능 도약이 실제 AI 워크로드에서 어떻게 구체화되는지를 명확히 보여준다. AWS(P5 인스턴스) 및 Azure(NDv5 인스턴스)와 같은 주요 클라우드 제공업체들도 NVIDIA 하드웨어를 사용하여 MLPerf 결과를 제출하고 있으며, 이는 6장에서 다룰 TCO 비교의 기반이 된다.70

글로벌 제약사 Bristol Myers Squibb(BMS)는 분산된 컴퓨팅 환경, 상승하는 클라우드 비용, GPU 부족 문제로 인해 신약 개발 연구에 어려움을 겪고 있었다.72 이 문제를 해결하기 위해 BMS는 Equinix가 관리하는 중앙 집중식 NVIDIA DGX SuperPOD를 도입하여 강력한 사내 AI 플랫폼을 구축했다.

BMS는 이 플랫폼을 활용하여 기초 종양학 모델 개발, LLM을 이용한 환자 예후 예측, 신약 타겟 발굴 등 다양한 연구를 수행하고 있다. 특히 의료 영상 AI를 위한 오픈 소스 프레임워크인 MONAI와 NVIDIA 가속 인프라를 결합하여, 기존의 분할 모델부터 확산 모델에 이르기까지 다양한 모델을 개발하고 있다.72

이러한 전환을 통해 BMS는 이전 모델 대비 전체 비용을 55% 절감했으며, 특정 기간 동안 최대 90%의 높은 가동률을 달성했다. 더 나아가, 개발된 모델은 거의 실시간으로 인간의 능력을 뛰어넘는 분할 정확도를 보여주며 신약 개발 파이프라인을 획기적으로 가속화하고 있다.72

자동차 부품 공급업체인 Continental은 첨단 운전자 보조 시스템(ADAS)을 위한 AI를 개발하고 검증하는 과정에서 엄청난 양의 센서 데이터를 처리해야 하는 과제에 직면했다. 비, 눈, 햇빛 등 수백만 가지의 환경 조건 변화 속에서 초당 수십만 개의 이미지를 분석해야 했다.74

Continental은 이 문제를 해결하기 위해 고성능 데이터 파이프라인을 갖춘 IBM 스토리지와 통합된 NVIDIA DGX 시스템 클러스터를 배포했다. 그 결과, DGX 클러스터는 Continental이 한 달에 최소 14배 더 많은 딥러닝 실험을 수행할 수 있게 하여, AI 개발 및 검증 주기를 극적으로 단축시켰다.74

규제 산업을 위한 최첨단 기반 모델을 개발하는 Domyn과 같은 스타트업은 짧은 시간 안에 수천 개의 GPU로 구성된 대규모 클러스터에 접근해야 하는 과제를 안고 있었다. 이는 자체적으로 구축하기에는 비현실적인 규모였다.75

Domyn은 NVIDIA DGX Cloud를 솔루션으로 선택하여, 일주일 이내에 고성능 스토리지 및 네트워킹을 갖춘 3,000개 이상의 GPU로 구성된 AI 최적화 전용 클러스터에 접근할 수 있었다.75 이를 활용하여 3550억 파라미터 규모의 Colosseum LLM에 대한 지속적인 사전 훈련(continued pretraining)을 수행했으며, NVIDIA NeMo 프레임워크를 사용하여 FP8 정밀도로 훈련을 달성했다.

그 결과, 전체 사전 훈련 주기를 단 2개월 만에 완료할 수 있었다. 특히, 2,000개에서 10,000개 규모의 GPU 훈련 과정에서 DGX Cloud의 풀스택 복원력 덕분에 하드웨어로 인한 다운타임이 1% 미만으로 유지되어, 작업 손실을 최소화하고 프로젝트 일정을 크게 단축시킬 수 있었다.75


본 장에서는 DGX 시스템 도입 결정을 내리는 데 영향을 미치는 경제적, 운영적 요인들을 엄격하게 분석한다.

자체적으로 구축하는 DIY 서버는 초기 하드웨어 구매 비용이 낮을 수 있지만, 통합, 소프트웨어 최적화, 지속적인 유지보수, 그리고 낮은 직원 생산성과 같은 숨겨진 비용으로 인해 총소유비용(TCO)은 훨씬 높아지는 경우가 많다.

DGX 플랫폼의 가치는 이러한 숨겨진 비용을 제거하는 데 있다. Forrester가 DGX-1에 대해 수행한 연구에 따르면, 3년간 495만 달러의 이익이 발생했으며, 이는 기존 하드웨어 비용 110만 달러 회피, 더 빠른 훈련으로 인한 데이터 과학자 시간 43만 6천 달러 절약, 그리고 개발 가속화를 통한 240만 달러의 추가 수익 창출을 포함한다.2

정성적 측면에서도 DGX는 안정성, 신뢰성, 그리고 단일화된 지원 창구를 제공하는 반면, DIY 빌드는 부품 호환성 문제, 불확실한 보증 범위, 소프트웨어 업데이트 리스크에 노출되기 쉽다.10 또한 DGX의 턴키 방식은 인프라 구성이 아닌 과학 연구에 집중하고자 하는 최고의 AI 인재들을 유치하고 유지하는 데 긍정적인 영향을 미친다.2

AI 인프라 구축 시 온프레미스 DGX 시스템 구매와 주요 클라우드 제공업체(CSP)의 동급 GPU 인스턴스 임대 사이에서의 재무적 절충점을 분석하는 것은 매우 중요하다. 핵심 고려사항은 자본 지출(CapEx) 대 운영 지출(OpEx), 가동률, 그리고 통제권이다.

온프레미스 TCO: 장기적이고 높은 가동률을 보이는 워크로드의 경우, 온프레미스 DGX가 훨씬 비용 효율적이다. 분석에 따르면, 온프레미스 A100 서버는 3년 TCO 기준으로 가장 저렴한 AWS 예약 인스턴스에 비해 40-50% 저렴할 수 있으며, 손익분기점이 되는 가동률은 15-20%에 불과할 수 있다.5 이는 지속적으로 AI 모델을 훈련하거나 서비스를 운영하는 기업에게 상당한 비용 절감 효과를 의미한다.

클라우드 TCO: AWS(H100 기반 P5 인스턴스)나 Azure(H100 기반 NDv5 인스턴스)와 같은 CSP는 유연성, 확장성, 그리고 초기 자본 지출이 없다는 장점을 제공한다.70 이는 단기 프로젝트, 실험, 또는 변동성이 큰 워크로드에 이상적이다. 그러나 24/7 운영 시 시간당 비용 프리미엄은 상당하여, 장기적으로는 온프레미스보다 비싸질 수 있다.

NVIDIA DGX Cloud: NVIDIA는 이러한 이분법에 대한 전략적 해답으로 DGX Cloud를 제공한다. 이는 주요 CSP 데이터센터 내에서 NVIDIA가 직접 관리하고 DGX 수준의 성능을 보장하는 완전 관리형 서비스다.6 이는 온프레미스 하드웨어 관리 부담 없이 최고의 성능을 원하는 기업을 대상으로 하는 프리미엄 OpEx 모델이다.

비용 항목 온프레미스 DGX H100 AWS p5.48xlarge (On-Demand) AWS p5.48xlarge (3년 예약)
자본 지출 (CapEx)      
DGX H100 서버 비용 (추정) $400,000 - -
운영 지출 (OpEx)      
전력 및 냉각 ($200/kW/월) $73,440 포함 포함
데이터센터 공간/코로케이션 $54,000 포함 포함
지원 계약 (3년) $90,000 포함 포함
관리 인력 (0.25 FTE) $150,000 포함 포함
총 비용 (3년) $767,440 $2,414,448 $1,498,176
  (100% 가동률 기준) (시간당 $91.88 기준) (시간당 $56.91 기준)
손익분기점 가동률 31.8% (vs. On-Demand) - -
  51.2% (vs. 3년 예약) - -

참고: 위 표의 비용은 업계 평균 및 공개된 정보를 바탕으로 한 추정치이며, 실제 비용은 구매 조건, 지역, 전력 요금 등에 따라 달라질 수 있습니다. AWS 가격은 US-East (N. Virginia) 지역 기준입니다.77 온프레미스 운영 비용은 데이터센터 PUE 1.5, 전력 비용 $0.15/kWh를 가정하여 계산되었습니다.81

DGX 시스템, 특히 SuperPOD 규모로 배포하고 운영하는 과정에는 현실적인 과제들이 따른다. 데이터센터는 높은 전력 밀도, 효율적인 냉각, 그리고 상당한 상면 하중을 감당할 수 있어야 한다.13 복잡한 네트워크 구성, 스토리지 통합, 소프트웨어 호환성 문제 등도 발생할 수 있다.84

성공적인 배포를 위해서는 DGX SuperPOD 레퍼런스 아키텍처와 인증된 스토리지 파트너를 활용하는 것이 매우 중요하다.51 철저한 사전 부지 준비, NVIDIA 및 스토리지 벤더, 고객 간의 긴밀한 협력이 필수적이며 89, Base Command와 같은 관리 도구를 효과적으로 사용하는 것이 운영 효율성을 높이는 열쇠다. NVIDIA가 공식적으로 문서화한 펌웨어 충돌, 드라이버 패키지 불일치, Redfish 인터페이스 구성 오류와 같은 알려진 문제들을 인지하고 대비하는 것 또한 안정적인 운영을 위해 필요하다.91


마지막 장에서는 DGX 플랫폼을 더 넓은 시장의 맥락에 위치시키고 미래를 전망한다.

NVIDIA는 데이터센터 AI 가속기 시장에서 약 80-90%의 압도적인 점유율을 차지하고 있으며, 이로 인해 DGX 플랫폼은 사실상의 업계 표준으로 자리 잡았다.92

플랫폼 가속기 최대 FP8/INT8 성능 HBM 용량 HBM 대역폭 인터커넥트 기술/대역폭 소프트웨어 생태계
NVIDIA DGX B200 NVIDIA B200 144 PFLOPS (FP4) 192 GB 8 TB/s NVLink 5.0 (1.8 TB/s) CUDA (매우 성숙)
AMD 기반 플랫폼 AMD Instinct MI300X 1.3 PFLOPS (FP8) 192 GB 5.3 TB/s Infinity Fabric (896 GB/s) ROCm (성장 중)
Intel 기반 플랫폼 Intel Gaudi 3 1.8 PFLOPS (FP8) 128 GB 3.7 TB/s 24x 200GbE RoCE SynapseAI (성장 중)

미-중 기술 경쟁이 심화되면서 AI 인프라는 지정학적 변수의 중심에 서게 되었다. 미국 정부는 H100, H20과 같은 고성능 DGX 시스템 및 GPU의 중국 수출을 엄격히 통제하고 있다.96 이는 NVIDIA에 직접적인 재정적 손실을 안겨주었으며, 중국이 자체적인 AI 반도체 및 시스템 개발에 박차를 가하는 계기가 되었다.96

이러한 지정학적 긴장은 전 세계적으로 주권 AI(Sovereign AI)라는 새로운 트렌드를 촉발시켰다. 각국 정부는 자국의 데이터와 기술 주권을 보호하기 위해 자체적인 AI 인프라 구축의 중요성을 인식하게 되었다.100 NVIDIA는 이러한 흐름을 간파하고, DGX SuperPOD를 국가급 AI 인프라 구축을 위한 턴키 솔루션으로 전략적으로 포지셔닝하고 있다. 유럽, 일본 등 여러 국가에서 대규모 DGX 기반 주권 AI 프로젝트가 추진되고 있으며, 이는 상업적 수요를 넘어 국가 전략적 이해관계에 의해 주도되는 새로운 시장을 창출하고 있다.100

NVIDIA는 AI 시장의 빠른 변화에 대응하고 기술 리더십을 유지하기 위해 기존의 2년 주기에서 매년 새로운 아키텍처를 출시하는 가속화된 로드맵을 발표했다.105


NVIDIA DGX 플랫폼의 성공은 하드웨어, 소프트웨어, 배포 전반에 걸쳐 체계적으로 병목 현상을 제거하는 총체적이고 풀스택적인 설계 철학에 깊이 뿌리내리고 있다. 이 플랫폼은 엔터프라이즈 AI 인프라 시장을 정의했으며, 이제는 국가 수준의 전략적 이니셔티브를 위한 청사진으로 자리 잡고 있다. 미래의 AI 인프라는 랙 스케일, 액체 냉각, 그리고 깊이 통합된 광학 인터커넥트를 특징으로 할 것이며, ‘서버’와 ‘데이터센터’의 경계는 계속해서 모호해질 것이다. NVIDIA의 가속화된 로드맵과 풀스택 통제력은 이러한 전환을 주도할 강력한 입지를 제공한다.

의사결정자를 위한 실행 가능한 제언:

  1. AI 여정을 시작하는 조직: DGX Station 또는 DGX BasePOD를 낮은 리스크와 높은 생산성을 제공하는 진입점으로 고려해야 한다. 이는 DIY 인프라 구축의 복잡성을 우회하고 즉시 가치를 창출할 수 있는 가장 빠른 경로다.
  2. AI를 확장하는 조직: 예상 워크로드 가동률에 기반한 엄격한 TCO 분석을 수행하여 온프레미스 DGX SuperPOD와 클라우드/DGX Cloud 배포 모델 사이에서 최적의 결정을 내려야 한다. 지속적이고 미션 크리티컬한 워크로드의 경우, 온프레미스는 장기적으로 우수한 경제성을 제공한다.
  3. 모든 이해관계자: DGX에 대한 투자는 단순한 하드웨어 구매가 아닌, 생태계에 대한 투자임을 인식해야 한다. 통합 소프트웨어와 전문 지원이 제공하는 가치는 모든 경쟁 평가에서 핵심적인 요소로 고려되어야 한다. 특히, 소프트웨어 업데이트를 통한 지속적인 성능 향상은 ROI 계산 시 반드시 포함되어야 할 중요한 변수다.

  4. NVIDIA DGX SYSTEMS SOLUTION BRIEF, accessed July 19, 2025, https://images.nvidia.com/aem-dam/Solutions/Data-Center/dgx-systems/dgx-systems-solution-brief.pdf
  5. The Total Economic Impact™ Of NVIDIA DGX-1, accessed July 19, 2025, https://www.vion.com/wp-content/uploads/2019/04/The-Total-Economic-Impact-of-NVIDIA-DGX1-March-2018-FINAL.pdf
  6. NVIDIA DGX Platform Solution Overview - CDW, accessed July 19, 2025, https://webobjects2.cdw.com/is/content/CDW/cdw/on-domain-cdw/brands/nvidia/nvidia-dgx-platform-solution-overview-web-us.pdf
  7. NVIDIA DGX Components, Pricing, and other FAQs TRG Datacenters, accessed July 19, 2025, https://www.trgdatacenters.com/resource/nvidia-dgx-buyers-guide-everything-you-need-to-know/
  8. CLOUD VS. ON-PREMISE - Total Cost of Ownership Analysis - aime.info, accessed July 19, 2025, https://www.aime.info/blog/en/cloud-vs-on-premise-total-cost-of-ownership-analysis/
  9. The Ultimate AI Experience in the Cloud NVIDIA DGX Cloud, accessed July 19, 2025, https://www.nvidia.com/en-us/data-center/dgx-cloud/
  10. Tesla A100 Server Total Cost of Ownership Analysis - Lambda, accessed July 19, 2025, https://lambda.ai/blog/tesla-a100-server-total-cost-of-ownership
  11. The NVIDIA DGX-1 Deep Learning System, accessed July 19, 2025, https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/dgx-1/NVIDIA-DGX-1-Volta-AI-Supercomputer-Datasheet.pdf
  12. DGX Station vs. DIY - YouTube, accessed July 19, 2025, https://www.youtube.com/watch?v=YxVkcibIxsA
  13. Why Custom-Built Servers Aren’t Always Better - BCD Video, accessed July 19, 2025, https://www.bcdvideo.com/blog/custom-built-servers-arent-better/
  14. The NVIDIA DGX-1 Deep Learning System - AV-iQ, accessed July 19, 2025, https://cdn-docs.av-iq.com/dataSheet/DGX-1_Datasheet.pdf
  15. Nvidia DGX - Wikipedia, accessed July 19, 2025, https://en.wikipedia.org/wiki/Nvidia_DGX
  16. AI/ML Glossary: DGX System - GMI Cloud, accessed July 19, 2025, https://www.gmicloud.ai/glossary/dgx-system
  17. The NVIDIA DGX-1 Deep Learning System, accessed July 19, 2025, https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/dgx-1/dgx-1-rhel-datasheet-nvidia-us-808336-r3-web.pdf
  18. The NVIDIA DGX-1 Deep Learning System, accessed July 19, 2025, https://images.nvidia.com/content/technologies/deep-learning/pdf/167106-DGX-1-DataSheet-Siggraph-July16-R6.pdf
  19. NVIDIA DGX-1 Deep Learning Computing System with 8x Tesla P100 16 GB - 920-22787-2500-000 - Exxact Corporation, accessed July 19, 2025, https://www.exxactcorp.com/NVIDIA-920-22787-2500-000-E314907
  20. Discover the Power of DGX: NVIDIA’s AI Supercomputing Revolution - North Penn Now, accessed July 19, 2025, https://northpennnow.com/news/2025/mar/24/discover-the-power-of-dgx-nvidias-ai-supercomputing-revolution/
  21. nvidia-dgx-a100-datasheet.pdf, accessed July 19, 2025, https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-dgx-a100-datasheet.pdf
  22. NVIDIA DGX STATION A100 - PNY Technologies, accessed July 19, 2025, https://www.pny.com/en-eu/File%20Library/Professional/DATASHEET/DGX/DGX_Station_A100_Datasheet_PNY-WEB.pdf
  23. NVIDIA DGX A100 - Symmatrix, accessed July 19, 2025, https://www.symmatrix.com/product/nvidia-dgx-a100/
  24. Why Nvidia Chose AMD EPYC For Its New DGX A100 AI System - CRN, accessed July 19, 2025, https://www.crn.com/why-nvidia-chose-amd-epyc-for-its-new-dgx-a100-ai-system
  25. NVIDIA DGX-A100 Systems Feature AMD EPYC “Rome” Processors TechPowerUp, accessed July 19, 2025, https://www.techpowerup.com/267109/nvidia-dgx-a100-systems-feature-amd-epyc-rome-processors
  26. AMD Epyc Rome Picked for New Nvidia DGX, but HGX Preserves Intel Option - HPCwire, accessed July 19, 2025, https://www.hpcwire.com/2020/05/19/amd-epyc-wins-dgx-but-hgx-preserves-intel-option/
  27. DGX Station A100 Hardware Specifications - NVIDIA Docs, accessed July 19, 2025, https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/hardware-specifications-station-a100.html
  28. NVIDIA DGX H100 Datasheet, accessed July 19, 2025, https://resources.nvidia.com/en-us-dgx-systems/ai-enterprise-dgx
  29. NVIDIA DGX H100 - Configure Online - Broadberry Data Systems, accessed July 19, 2025, https://www.broadberry.com/xeon-scalable-processor-gen4-rackmount-servers/nvidia-dgx-h100
  30. NVIDIA DGX H100 - PNY Technologies, accessed July 19, 2025, https://www.pny.com/en-eu/nvidia/dgx/h100
  31. NVIDIA DGX H100 Datasheet - Dell, accessed July 19, 2025, https://i.dell.com/sites/csdocuments/App-Merchandizing_Documents/en/us/nvidia-dgx-h100-datasheet.pdf?ref=cpcl_nvidia-dgx-webpart91-module1_cta_itemlink_dgxh100datasheet
  32. Overview - Transformer Engine - NVIDIA Docs Hub, accessed July 19, 2025, https://docs.nvidia.com/deeplearning/transformer-engine/index.html
  33. NVIDIA/TransformerEngine: A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper, Ada and Blackwell GPUs, to provide better performance with lower memory utilization in both training and inference. - GitHub, accessed July 19, 2025, https://github.com/NVIDIA/TransformerEngine
  34. Hopper (microarchitecture) - Wikipedia, accessed July 19, 2025, https://en.wikipedia.org/wiki/Hopper_(microarchitecture)
  35. Exploring the Evolution of GPUs: NVIDIA Hopper vs. Ampere Architectures, accessed July 19, 2025, https://blog.paperspace.com/a100-v-h100/
  36. Introduction to NVIDIA DGX H100/H200 Systems, accessed July 19, 2025, https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html
  37. NVIDIA DGX-1 - Symmatrix, accessed July 19, 2025, https://www.symmatrix.com/product/nvidia-dgx-1/
  38. Introduction to NVIDIA GB200 Superchip and Liquid-Cooled Servers and Cabinets, accessed July 19, 2025, https://www.fibermall.com/blog/nvidia-gb200-superchip.htm
  39. The NVIDIA Grace Blackwell Superchip - NVIDIA GB200 NVL Multi-Node Tuning Guide, accessed July 19, 2025, https://docs.nvidia.com/multi-node-nvlink-systems/multi-node-tuning-guide/overview.html
  40. NVIDIA DGX GB200 - Configure Online - Broadberry Data Systems, accessed July 19, 2025, https://www.broadberry.com/xeon-scalable-processor-gen4-rackmount-servers/nvidia-dgx-gb200
  41. NVIDIA DGX™ GB200 - Open Compute Project, accessed July 19, 2025, https://www.opencompute.org/ai-marketplace/products/597/nvidia-dgx-gb200
  42. NVIDIA DGX SuperPOD with DGX GB200 Systems - Boston Server & Storage Solutions GmbH, accessed July 19, 2025, https://www.boston-it.com/wp-content/uploads/dgx-superpod-with-gb200-datasheet-nvidia-us-3184929-r5-web.pdf
  43. NVIDIA’s GB200s for up to 27 Trillion Parameter Models: Scaling Next-Gen AI Superclusters, accessed July 19, 2025, https://io-fund.com/artificial-intelligence/semiconductors/nvidia-gb200-27-trillion-parameter-ai-superclusters
  44. NVIDIA DGX A100 The Universal System for AI Infrastructure, accessed July 19, 2025, https://images.nvidia.com/aem-dam/Solutions/Data-Center/nvidia-dgx-a100-datasheet.pdf
  45. NVIDIA Blackwell Architecture Technical Overview, accessed July 19, 2025, https://resources.nvidia.com/en-us-blackwell-architecture
  46. NVIDIA GB200 NVL72 Delivers Trillion- Parameter LLM Training and Real-Time Inference - blog.biocomm.ai, accessed July 19, 2025, https://blog.biocomm.ai/wp-content/uploads/2024/03/NVIDIA-GB200-NVL72-Delivers-Trillion-Parameter-LLM-Training-and-Real-Time-Inference-NVIDIA-Technic.pdf
  47. An Overview of NVIDIA NVLink - FS.com, accessed July 19, 2025, https://www.fs.com/blog/fs-an-overview-of-nvidia-nvlink-2899.html
  48. NVLink - Wikipedia, accessed July 19, 2025, https://en.wikipedia.org/wiki/NVLink
  49. Understanding NVIDIA’s NVLink technology in one article - EEWorld, accessed July 19, 2025, https://en.eeworld.com.cn/mp/xzclasscom/a399274.jspx
  50. Do You Really Need NVLink for Multi-GPU Setups? SabrePC Blog, accessed July 19, 2025, https://www.sabrepc.com/blog/computer-hardware/nvlink-vs-pcie-do-you-need-nvlink-for-multi-gpu
  51. How NVLink Will Enable Faster, Easier Multi-GPU Computing NVIDIA Technical Blog, accessed July 19, 2025, https://developer.nvidia.com/blog/how-nvlink-will-enable-faster-easier-multi-gpu-computing/
  52. What Is NVLink? - NVIDIA Blog, accessed July 19, 2025, https://blogs.nvidia.com/blog/what-is-nvidia-nvlink/
  53. Scaling for the Future of Compute: Data Interconnects in the AI Era …, accessed July 19, 2025, https://medium.com/@HitachiVentures/scaling-for-the-future-of-compute-data-interconnects-in-the-ai-era-1dd60476d07a
  54. NVIDIA DGX SuperPOD FAQ - Frequently Asked Questions, accessed July 19, 2025, https://docs.nvidia.com/dgx-superpod/faq/latest/dgx-superpod.html
  55. NVIDIA Technology Partnership Pure Storage, accessed July 19, 2025, https://www.purestorage.com/partners/technology-alliance-partners/nvidia.html
  56. NetApp Storage Now Validated for NVIDIA DGX SuperPOD, NVIDIA Cloud Partners, and NVIDIA-Certified Systems - Investor Relations, accessed July 19, 2025, https://investors.netapp.com/news-releases/news-release-details/netapp-storage-now-validated-nvidia-dgx-superpod-nvidia-cloud
  57. NetApp storage validated for NVIDIA DGX SuperPOD, cloud partners, and certified systems, accessed July 19, 2025, https://www.techedt.com/netapp-storage-validated-for-nvidia-dgx-superpod-cloud-partners-and-certified-systems
  58. NVIDIA Success Story - DDN, accessed July 19, 2025, https://www.ddn.com/resources/success-stories/nvidia-success-story/
  59. Cluster Management - NVIDIA Developer, accessed July 19, 2025, https://developer.nvidia.com/cluster-management
  60. NVIDIA Base Command Continuum Labs, accessed July 19, 2025, https://training.continuumlabs.ai/infrastructure/libraries-and-complements/nvidia-base-command
  61. What is Nvidia DGX platform? - XDA Developers, accessed July 19, 2025, https://www.xda-developers.com/what-is-nvidia-dgx/
  62. Weights & Biases Teams with NVIDIA to Accelerate ML at Scale - AI-Tech Park, accessed July 19, 2025, https://ai-techpark.com/weights-biases-teams-with-nvidia-to-accelerate-ml-at-scale/
  63. Base Command Platform - YouTube, accessed July 19, 2025, https://www.youtube.com/watch?v=prsrply1GUA
  64. Platform Overview - NVIDIA AI Enterprise: Platform Overview, accessed July 19, 2025, https://docs.nvidia.com/ai-enterprise/overview/latest/platform-overview.html
  65. NVIDIA AI Enterprise, accessed July 19, 2025, https://docs.nvidia.com/ai-enterprise/index.html
  66. Exploring NVIDIA AI Enterprise Software - Choice Solutions, accessed July 19, 2025, https://choicesolutions.com/news/exploring-nvidia-ai-enterprise-software/
  67. NVIDIA Breaks 16 AI Performance Records in Latest MLPerf Benchmarks, accessed July 19, 2025, https://blogs.nvidia.com/blog/mlperf-training-benchmark-records/
  68. NVIDIA DGX Systems Enterprise Support, accessed July 19, 2025, https://www.nvidia.com/en-us/data-center/dgx-systems/support/
  69. NVIDIA DGX A100 3 Yr Warranty and Support Services (EDU) - 718-A10000+P2EDI36, accessed July 19, 2025, https://www.exxactcorp.com/NVIDIA-718-A10000-P2EDI36-E103783555
  70. NVIDIA DGX System Services & Support, accessed July 19, 2025, https://www.nvidia.com/en-sg/data-center/dgx-support-services/
  71. Benchmark MLPerf Training MLCommons Version 2.0 Results, accessed July 19, 2025, https://mlcommons.org/benchmarks/training/
  72. NVIDIA Blackwell Delivers Breakthrough Performance in Latest MLPerf Training Results, accessed July 19, 2025, https://blogs.nvidia.com/blog/blackwell-performance-mlperf-training/
  73. DGX Cloud Benchmarking on Azure Microsoft Community Hub, accessed July 19, 2025, https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/dgx-cloud-benchmarking-on-azure/4410826
  74. Cloud AI Platforms Comparison: AWS Trainium vs Google TPU v5e vs Azure ND H100, accessed July 19, 2025, https://www.cloudexpat.com/blog/comparison-aws-trainium-google-tpu-v5e-azure-nd-h100-nvidia/
  75. AI Accelerates Research Innovation at BMS NVIDIA, accessed July 19, 2025, https://www.nvidia.com/en-us/customer-stories/computational-science-accelerates-research-innovation-at-bristol-myers-squibb/
  76. Scaling Deep Learning for Drug Development with an AI Factory …, accessed July 19, 2025, https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s51261/
  77. Continental Automotive AG - IBM, accessed July 19, 2025, https://www.ibm.com/case-studies/continental-automotive
  78. Continued Pretraining of State-of-the-Art LLMs for Sovereign AI and Regulated Industries with Domyn and NVIDIA DGX Cloud, accessed July 19, 2025, https://developer.nvidia.com/blog/continued-pretraining-of-state-of-the-art-llms-for-sovereign-ai-and-regulated-industries-with-domyn-and-nvidia-dgx-cloud/
  79. Ensuring Reliable Model Training on NVIDIA DGX Cloud, accessed July 19, 2025, https://developer.nvidia.com/blog/ensuring-reliable-model-training-on-nvidia-dgx-cloud/
  80. AWS Announces Significant Price Reductions for NVIDIA GPU EC2 Instances, accessed July 19, 2025, https://www.cloudoptimo.com/blog/aws-announces-significant-price-reductions-for-nvidia-gpu-ec2-instances/
  81. AWS and NVIDIA Collaborate on Next-Generation Infrastructure for Training Large Machine Learning Models and Building Generative AI Applications NVIDIA Newsroom, accessed July 19, 2025, https://nvidianews.nvidia.com/news/aws-and-nvidia-collaborate-on-next-generation-infrastructure-for-training-large-machine-learning-models-and-building-generative-ai-applications
  82. A Complete Guide to Azure NV Series GPU Instances - CloudOptimo, accessed July 19, 2025, https://www.cloudoptimo.com/blog/a-complete-guide-to-azure-nv-series-gpu-instances/
  83. NVIDIA DGX Cloud - Microsoft Azure Marketplace, accessed July 19, 2025, https://azuremarketplace.microsoft.com/en-us/marketplace/apps/nvidia.dgx-cloud?tab=overview
  84. Global Data Center Trends 2025 CBRE, accessed July 19, 2025, https://www.cbre.com/insights/reports/global-data-center-trends-2025
  85. Data centers, costly grid upgrades lead to high electricity bills in 2025 - Straight Arrow News, accessed July 19, 2025, https://san.com/cc/data-centers-costly-grid-upgrades-lead-to-high-electricity-bills-in-2025/
  86. 215 Data Center Stats (June-2025) - Brightlio, accessed July 19, 2025, https://brightlio.com/data-center-stats/
  87. Latest DGX User Forum topics - NVIDIA Developer Forums, accessed July 19, 2025, https://forums.developer.nvidia.com/c/accelerated-computing/dgx-users/10
  88. Unable to power up NVIDIA DGX A100, accessed July 19, 2025, https://forums.developer.nvidia.com/t/unable-to-power-up-nvidia-dgx-a100/226142
  89. DGX-1 Multi gpu problem - NVIDIA Developer Forums, accessed July 19, 2025, https://forums.developer.nvidia.com/t/dgx-1-multi-gpu-problem/270764
  90. NVIDIA DGX A100 Problems, accessed July 19, 2025, https://forums.developer.nvidia.com/t/nvidia-dgx-a100-problems/190240
  91. [Ask] Fresh Installation - DGX User Forum, accessed July 19, 2025, https://forums.developer.nvidia.com/t/ask-fresh-installation/200274
  92. Pure Storage FlashBlade NVIDIA DGX SuperPOD Deployment Guide, accessed July 19, 2025, https://support.purestorage.com/bundle/m_nvidia/page/Solutions/NVIDIA/topics/concept/c_pure_storage_flashblade_nvidia_dgx_superpod_deployment_guide.html
  93. NVIDIA DGX SuperPOD with NetApp - Design Guide, accessed July 19, 2025, https://docs.netapp.com/us-en/netapp-solutions/ai/ai-dgx-superpod.html
  94. Known Issues - NVIDIA DGX OS 7 User Guide, accessed July 19, 2025, https://docs.nvidia.com/dgx/dgx-os-7-user-guide/known_issues.html
  95. Prediction: Nvidia Will Be a Top Stock to Own for the Back Half of 2025 - Nasdaq, accessed July 19, 2025, https://www.nasdaq.com/articles/prediction-nvidia-will-be-top-stock-own-back-half-2025
  96. The AI Chip Market Explosion: Key Stats on Nvidia, AMD, and Intel’s AI Dominance, accessed July 19, 2025, https://patentpc.com/blog/the-ai-chip-market-explosion-key-stats-on-nvidia-amd-and-intels-ai-dominance
  97. Intel Gaudi 3 Expands Availability to Drive AI Innovation at Scale - HPCwire, accessed July 19, 2025, https://www.hpcwire.com/off-the-wire/intel-gaudi-3-expands-availability-to-drive-ai-innovation-at-scale/
  98. The Global Market for High Performance Computing (HPC) and AI Accelerators 2025-2035, accessed July 19, 2025, https://www.futuremarketsinc.com/the-global-market-for-high-performance-computing-hpc-and-ai-accelerators-2025-2035/
  99. NVIDIA’s Balancing Act: Riding China’s AI Wave While Navigating U.S. Export Controls, accessed July 19, 2025, https://www.ainvest.com/news/nvidia-balancing-act-riding-china-ai-wave-navigating-export-controls-2507/
  100. NVIDIA vs Microsoft in AI Race to $5 Trillion Valuation - Electropages, accessed July 19, 2025, https://www.electropages.com/blog/2025/07/nvidia-hits-4t-milestone-microsoft-nears-375t-ai-market-surge
  101. NVIDIA’s Crossroads in China: Can Export Controls Halt Its AI Dominance? - AInvest, accessed July 19, 2025, https://www.ainvest.com/news/nvidia-crossroads-china-export-controls-halt-ai-dominance-2507/
  102. The Impact Of US Export Regulations On Nvidia AI Chips To China - TecEx, accessed July 19, 2025, https://tecex.com/ai-chips-trade-wars-sanctions/
  103. What Is Sovereign AI? - NVIDIA Blog, accessed July 19, 2025, https://blogs.nvidia.com/blog/what-is-sovereign-ai/
  104. NVIDIA’s European AI Infrastructure: The Blueprint for Sovereign Innovation and Industrial Dominance - AInvest, accessed July 19, 2025, https://www.ainvest.com/news/nvidia-european-ai-infrastructure-blueprint-sovereign-innovation-industrial-dominance-2507/
  105. Nvidia boosts European sovereignty with AI infra push - RCR Wireless News, accessed July 19, 2025, https://www.rcrwireless.com/20250612/ai-ml/nvidia-ai-infra
  106. Europe Builds AI Infrastructure With NVIDIA to Fuel Region’s Next Industrial Transformation, accessed July 19, 2025, https://nvidianews.nvidia.com/news/europe-ai-infrastructure
  107. Telcos Across Five Continents Are Building NVIDIA-Powered Sovereign AI Infrastructure, accessed July 19, 2025, https://developer.nvidia.com/blog/telcos-across-five-continents-are-building-nvidia-powered-sovereign-ai-infrastructure/
  108. Nvidia Reveals Next-Gen AI Chips, Roadmap Through 2028 - Slashdot, accessed July 19, 2025, https://tech.slashdot.org/story/25/03/18/201213/nvidia-reveals-next-gen-ai-chips-roadmap-through-2028
  109. Nvidia outlines roadmap including Rubin GPU platform, new Arm-based CPU Vera, accessed July 19, 2025, https://www.constellationr.com/blog-news/insights/nvidia-outlines-roadmap-including-rubin-gpu-platform-new-arm-based-cpu-vera
  110. Nvidia Draws GPU System Roadmap Out To 2028 - The Next Platform, accessed July 19, 2025, https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/
  111. While we despair of RTX 50-series supplies and wait on next-gen Rubin, Nvidia reveals its next-next GPU architecture will be known as Feynman and is due in 2028 PC Gamer, accessed July 19, 2025, https://www.pcgamer.com/hardware/processors/while-we-despair-of-rtx-50-series-supplies-and-wait-on-next-gen-rubin-nvidia-reveals-its-next-next-gpu-architecture-will-be-known-as-feynman-and-is-due-out-in-2028/
  112. NVIDIA Unveils NVLink Fusion for Industry to Build Semi-Custom AI Infrastructure With NVIDIA Partner Ecosystem, accessed July 19, 2025, https://nvidianews.nvidia.com/news/nvidia-nvlink-fusion-semi-custom-ai-infrastructure-partner-ecosystem
  113. The AI Systems Game: Are Chip-to-Chip Interconnects the Future of Inference? by Adi Fuchs May, 2025 Medium, accessed July 19, 2025, https://medium.com/@adi.fu7/the-ai-systems-game-are-chip-to-chip-interconnects-the-future-of-inference-ec3bbda53eb3