고성능 컴퓨팅 플랫폼 환경
고성능 컴퓨팅(High-Performance Computing, HPC)은 더 이상 소수의 정부 연구소나 학계의 전유물이 아니다. 오늘날 HPC는 인공지능(AI), 과학 연구, 기업 분석 등 다양한 분야에서 혁신을 주도하는 핵심 동력으로 자리 잡았다. HPC는 근본적으로 여러 컴퓨터 서버의 자원을 집계하여, 단일 컴퓨터로는 처리하기 너무 크거나 오래 걸리는 복잡한 문제를 해결하는 컴퓨팅 방식을 의미한다.1 이는 ‘클러스터’라고 불리는 서버 그룹에서 수많은 계산을 병렬로 고속 처리함으로써 달성된다.1
현대 비즈니스와 연구 환경은 사물인터넷(IoT), AI, 머신러닝(ML)과 같은 기술의 확산으로 인해 폭발적으로 증가하는 데이터에 직면해 있다.1 이러한 방대한 데이터를 실시간으로, 그리고 비용 효율적으로 처리하여 의미 있는 통찰력을 얻는 능력은 조직의 경쟁력을 좌우하는 결정적 요소가 되었다. HPC는 바로 이 지점에서 금융 기관이 수백만 건의 신용카드 거래에서 사기를 탐지하고, 자동차 제조사가 충돌 안전성을 시뮬레이션하며, 제약회사가 신약 후보 물질을 모델링하는 등 사회의 근간을 이루는 혁신을 가능하게 한다.2
이 보고서는 현대 HPC 환경을 구성하는 두 가지 핵심 배포 모델, 즉 최고의 성능과 통제력을 목표로 자체 구축하는 ‘온프레미스(On-premise)’ 시스템과 탄력성 및 접근성을 무기로 하는 ‘클라우드(Cloud)’ 플랫폼을 심층적으로 비교 분석한다.3 각 플랫폼의 기술적 구성, 주요 벤더 솔루션, 경제성 모델, 그리고 특정 워크로드에 대한 적합성을 다각도로 평가함으로써, 조직의 고유한 요구사항에 가장 부합하는 HPC 전략을 수립하는 데 필요한 데이터 기반의 통찰력을 제공하는 것을 목표로 한다.
모든 HPC 솔루션은 그 형태와 규모에 관계없이 세 가지 핵심 기둥 위에 구축된다: 컴퓨팅, 네트워크, 그리고 스토리지다. 이 구성 요소들의 상호작용과 균형이 전체 시스템의 성능을 결정한다.1
컴퓨팅(Compute)
HPC의 엔진 역할을 하는 처리 장치다. HPC 클러스터는 네트워크로 연결된 수백 또는 수천 개의 컴퓨팅 서버로 구성되며, 각 서버는 ‘노드(Node)’라고 불린다.1 각 노드는 하나 이상의 중앙처리장치(CPU)를 포함하며, 이 CPU들은 다시 여러 개의 ‘코어(Core)’로 구성되어 병렬 계산을 수행한다.4 최근에는 AI 및 그래픽 집약적인 작업의 부상으로 인해 CPU 외에도 그래픽 처리 장치(GPU)나 기타 특정 목적의 가속기(Accelerator)를 탑재하여 특정 연산 능력을 극대화하는 것이 보편화되었다.3
네트워크(Network)
HPC 시스템의 혈관과도 같은 존재로, 수많은 노드들을 하나로 묶어 단일 시스템처럼 작동하게 만든다. 일반적인 기업용 이더넷 네트워크와는 근본적으로 다르다. HPC 네트워크는 노드 간의 대용량 데이터 전송을 위해 막대한 대역폭(Bandwidth)과 극도로 낮은 지연 시간(Latency)을 제공해야 한다.4 이는 특히 노드 간의 빈번한 통신이 필수적인 워크로드에서 병목 현상을 방지하는 데 결정적이다. 이를 위해 원격 직접 메모리 접근(Remote Direct Memory Access, RDMA)과 같은 기술이 사용된다. RDMA는 한 노드의 메모리에서 다른 노드의 메모리로 CPU의 개입 없이 직접 데이터를 전송하여 통신 오버헤드를 최소화하고 성능을 극대화하는 핵심 기술이다.5
스토리지(Storage)
수천 개의 컴퓨팅 코어에 데이터를 지연 없이 공급하는 역할을 담당한다. 단일 스토리지 장치로는 이러한 I/O(Input/Output) 요구사항을 감당할 수 없으므로, 여러 스토리지 서버와 디스크에 데이터를 분산 저장하고 병렬로 접근하는 ‘병렬 파일 시스템(Parallel File System)’이 필수적이다.1 Lustre, BeeGFS 등이 대표적인 예이며, 이는 컴퓨팅 노드들이 동시에 동일한 파일 시스템에 고속으로 접근할 수 있도록 지원한다.
관리 및 오케스트레이션(Management & Orchestration)
이러한 하드웨어 구성 요소들을 효율적으로 운영하기 위한 소프트웨어 계층이다. 운영체제(OS)는 하드웨어와 소프트웨어 간의 인터페이스 역할을 하며, TOP500 슈퍼컴퓨터 목록에 등재된 모든 시스템이 Linux를 사용할 정도로 Linux가 사실상의 표준이다.1 그 위에는 ‘클러스터 관리자’ 또는 ‘스케줄러(Scheduler)’가 위치한다. 스케줄러는 사용자의 작업(Job) 요청을 받아 클러스터 내 가용한 컴퓨팅 리소스(CPU, GPU 등)에 효율적으로 할당하고 실행 순서를 관리하는 핵심 두뇌 역할을 수행한다.1
HPC 플랫폼을 선택하기 위해서는 먼저 실행하고자 하는 워크로드의 특성을 정확히 이해해야 한다. 워크로드의 유형에 따라 최적의 하드웨어 및 소프트웨어 구성이 달라지기 때문이다. HPC 워크로드는 크게 네 가지 유형으로 분류할 수 있다.
밀결합 워크로드(Tightly-Coupled Workloads)
이 워크로드는 다수의 프로세스가 메시지 전달 인터페이스(Message Passing Interface, MPI)와 같은 프로토콜을 사용하여 빈번하게 데이터를 교환하며 단일 문제를 해결하는 형태다. 계산 과정이 서로 긴밀하게 연결되어 있어, 노드 간 통신 성능, 특히 네트워크 지연 시간에 매우 민감하다.5 대표적인 예로 전산 유체 역학(CFD), 기상 예측 모델링, 구조 해석을 위한 유한 요소 분석(FEA) 등이 있다.3 이러한 워크로드는 InfiniBand와 같은 초저지연, 고대역폭 인터커넥트를 필수적으로 요구한다.
무결합 병렬 워크로드(Embarrassingly Parallel / High-Throughput Workloads)
수천, 수만 개의 독립적인 계산 작업을 동시에 실행하는 형태다. 각 작업은 다른 작업과 거의 또는 전혀 통신할 필요가 없다.5 따라서 노드 간 네트워크 성능보다는 개별 노드의 처리 능력과 전체 시스템의 처리량(Throughput)이 더 중요하다. 금융 분야의 몬테카를로 시뮬레이션, 생명 과학 분야의 유전체 서열 분석, 미디어 산업의 대규모 3D 렌더링 등이 여기에 해당한다.5 클라우드의 스팟 인스턴스나 버스팅 기능을 활용하기에 가장 이상적인 워크로드 유형이다.
AI/ML 워크로드(AI/ML Workloads)
최근 HPC의 가장 중요한 성장 동력이다. 크게 모델 ‘학습(Training)’과 ‘추론(Inference)’으로 나뉜다. 딥러닝 모델 학습, 특히 거대 언어 모델(LLM)과 같은 대규모 모델 학습은 수많은 GPU 간의 고속 데이터 교환이 필수적인 밀결합 워크로드의 특성을 띤다.3 반면, 학습된 모델을 사용하여 새로운 데이터에 대한 예측을 수행하는 추론은 종종 다수의 독립적인 요청을 처리하는 무결합 병렬 워크로드의 형태를 취한다. 이처럼 AI 워크로드의 등장은 전통적인 HPC와 빅데이터 분석을 융합한 고성능 데이터 분석(High-Performance Data Analytics, HPDA)이라는 새로운 분야를 탄생시켰다.1
데이터 집약적 워크로드(Data-Intensive Workloads)
방대한 데이터 세트에 대해 복잡한 쿼리를 실행하는 것이 특징이다. 빅데이터 분석, 실시간 사기 탐지, 금융 리스크 분석 등이 포함된다.3 이러한 워크로드는 컴퓨팅 성능뿐만 아니라 스토리지의 I/O 성능과 메모리 대역폭에 대한 요구사항이 매우 높다.
이러한 워크로드의 특성 차이는 하드웨어 아키텍처의 진화를 직접적으로 견인했다. 전통적인 밀결합 워크로드가 CPU 성능과 MPI 통신에 최적화된 시스템 설계를 요구했다면, AI 모델 학습이라는 새로운 지배적 워크로드의 등장은 완전히 다른 형태의 아키텍처를 필요로 했다. 딥러닝 학습은 GPU에서 압도적인 성능을 발휘하며, 모델의 규모가 커짐에 따라 단일 GPU를 넘어 여러 GPU에 작업을 분산시켜야만 했다.3 이 과정에서 GPU 간의 데이터 전송이 새로운 병목으로 떠올랐고, 기존의 CPU를 경유하는 PCIe 버스로는 한계에 부딪혔다. 이러한 기술적 요구가 바로 NVIDIA의 NVLink 및 NVSwitch와 같은 GPU 간 직접 통신 기술의 등장을 촉발했다.9 결과적으로, Dell의 PowerEdge XE 시리즈나 NVIDIA의 DGX 시스템과 같이 8개의 GPU를 고속 패브릭으로 직접 연결하는 ‘AI 서버’라는 새로운 카테고리가 탄생한 것은, AI 학습이라는 워크로드의 고유한 요구사항에 대한 하드웨어 시장의 직접적인 응답인 셈이다. 이는 단순히 기존 서버에 GPU를 추가하는 것을 넘어, 워크로드의 특성이 하드웨어 플랫폼의 근본적인 설계를 어떻게 바꾸는지를 보여주는 명백한 증거다.
온프레미스 HPC 플랫폼은 조직이 데이터센터 내에 자체적으로 하드웨어와 소프트웨어를 구축하고 운영하는 전통적인 모델이다. 이 모델의 가장 큰 장점은 특정 워크로드에 맞춰 시스템을 최적화하여 최고의 성능을 끌어낼 수 있다는 점과 데이터 주권 및 보안에 대한 완전한 통제권을 확보할 수 있다는 점이다. 최근 온프레미스 시장은 단순히 개별 서버를 조립하는 것을 넘어, 하드웨어와 소프트웨어가 긴밀하게 통합된 ‘어플라이언스’ 또는 ‘통합 솔루션’ 형태로 진화하고 있다.
HPE Cray EX 시리즈는 세계 최고 수준의 슈퍼컴퓨터를 구축하기 위해 설계된 플래그십 솔루션으로, ‘엑사스케일급 슈퍼컴퓨터’를 지향하는 아키텍처 철학을 담고 있다. 이는 대규모 과학 기술 연산 및 시뮬레이션 워크로드에 최적화되어 있다.
- 아키텍처: 고밀도 블레이드 기반의 클러스터 시스템이다.11 기본 구성 단위는 캐비닛으로, 하나의 캐비닛은 8개의 컴퓨팅 섀시를 수용하며, 각 섀시에는 최대 8개의 컴퓨팅 블레이드를 장착할 수 있다. 이를 통해 캐비닛당 최대 64개의 쿼드 블레이드 컴퓨팅 블레이드, 즉 수백 개의 프로세서를 집적하는 초고밀도 구성이 가능하다.11
- 프로세서 및 가속기 지원: 유연성을 강점으로 내세우며, 다양한 프로세서 아키텍처를 지원한다. 특히 2세대 및 3세대 AMD EPYC™ 프로세서를 주력으로 지원하며 11, NVIDIA A100 또는 AMD Instinct™와 같은 최신 GPU 가속기를 통합하여 AI 및 모델링 워크로드를 가속할 수 있다.11
- 냉각 방식: 가장 큰 기술적 특징 중 하나는 직접 액체 냉각(Direct Liquid Cooling, DLC) 방식이다. 캐비닛 전체가 밀폐된 구조이며, 별도의 냉각 팬 없이 냉각 분배 장치(Cooling Distribution Unit, CDU)를 통해 순환되는 냉각수가 프로세서, GPU, 스위치 등 고전력 부품에 직접 연결된 콜드 플레이트를 통해 열을 효율적으로 제거한다.11 이 방식은 데이터센터에 뜨거운 공기를 배출하지 않아(room neutral) 전력 효율이 매우 높고, 최대 500W에 달하는 고전력 프로세서도 안정적으로 냉각할 수 있다.11
- 인터커넥트: HPE Slingshot이라는 고성능 이더넷 패브릭을 사용한다. 이는 전통적인 팻 트리(Fat Tree) 토폴로지 대신 드래곤플라이(Dragonfly) 토폴로지를 채택하여, 고가의 광케이블 사용을 최대 50%까지 줄이면서도 확장성을 확보한 것이 특징이다.12 각 포트는 200 Gb/s의 성능을 제공하며, 대규모 시스템에서도 노드 간 홉(hop) 수를 최대 3개 이내로 유지하여 일관된 저지연 성능을 보장한다.12
- 소프트웨어: 하드웨어와 소프트웨어가 긴밀하게 통합된 완전한 솔루션 형태로 제공된다.11 여기에는 SLES(SUSE Linux Enterprise Server) 기반의 HPE Cray OS, 대규모 시스템 관리를 위한 HPE Cray System Management, 그리고 가장 핵심적인 HPE Cray Programming Environment (CPE)가 포함된다.12 CPE는 Fortran, C, C++ 컴파일러, 과학 계산 및 통신 라이브러리, 성능 분석 및 디버깅 도구를 포함하는 포괄적인 개발 제품군이다. 기존 애플리케이션 코드를 최소한의 수정만으로 새로운 하드웨어에서 최고의 성능을 발휘하도록 최적화하는 것을 목표로 한다.11
Dell Technologies는 기업의 AI 도입과 디지털 제조 혁신에 초점을 맞춘, 보다 다용도의 HPC 솔루션을 제공한다. 이는 특정 목적에 맞게 최적화된 PowerEdge 서버를 빌딩 블록처럼 조합하여 클러스터를 구성하는 접근 방식을 취한다.
- GPU 가속 서버: Dell HPC 포트폴리오의 핵심은 AI 및 HPC 워크로드를 위해 특별히 설계된 PowerEdge XE 시리즈다.
- PowerEdge XE9680: Dell의 플래그십 8x GPU 서버로, 6U 랙마운트 폼팩터에 공랭식 설계를 채택했다. 2개의 4세대 또는 5세대 Intel Xeon 스케일러블 프로세서와 함께, NVIDIA NVLink 기술로 완전히 상호 연결된 8개의 NVIDIA H100 또는 H200 SXM GPU를 탑재한다.15 이 서버는 거대 언어 모델(LLM) 학습, 분자 동역학, 유전체 시퀀싱과 같이 극도의 연산 성능을 요구하는 워크로드에 최적화되어 있다.16
- PowerEdge XE9640: 2U 폼팩터에 4개의 GPU를 집적한 고밀도 수랭식 서버다. 2개의 4세대 Intel Xeon 프로세서와 4개의 NVIDIA H100 SXM GPU 또는 4개의 Intel Data Center Max 시리즈 GPU를 탑재할 수 있다.15 수랭식 설계를 통해 에너지 비용을 절감하고 랙 밀도를 높이는 데 중점을 둔다.15
- PowerEdge XE8640: 4U 공랭식 4x GPU 서버로, 4개의 NVIDIA H100 GPU와 2개의 4세대 Intel Xeon 프로세서를 탑재한다.15
- 워크로드 중심: Dell은 자사의 솔루션이 특정 산업 분야의 문제를 해결하는 데 어떻게 사용될 수 있는지를 명확히 제시한다. 주요 타겟 분야는 전산 유체 역학(CFD) 및 구조 해석을 포함하는 디지털 제조, 유전체학 및 저온전자현미경(cryo-EM) 분석을 위한 생명 과학, 그리고 몬테카를로 시뮬레이션을 활용한 리스크 평가를 위한 금융 서비스다.15 Dell은 MLPerf와 같은 산업 표준 벤치마크 결과를 적극적으로 공개하며 AI 성능에 대한 강점을 강조한다.21
- 관리 소프트웨어: Dell은 자체 개발한 오픈소스 도구와 업계 최고의 상용 소프트웨어를 함께 제공하는 유연한 관리 전략을 취한다.
- Omnia: Dell이 주도하는 오픈소스 프로젝트로, Ansible 플레이북을 기반으로 HPC, AI, 데이터 분석 클러스터를 신속하게 배포하고 관리하는 도구다.20 Slurm이나 Kubernetes와 같은 워크로드 관리자를 자동으로 설치하고 구성하여, 이기종 워크로드를 단일 융합 인프라에서 실행할 수 있도록 지원한다.23
- Bright Cluster Manager: Dell이 OEM 파트너로서 제공하는 업계 최고의 상용 클러스터 관리 소프트웨어다.15 하드웨어, 운영체제, HPC 소프트웨어, 사용자에 이르기까지 클러스터의 모든 측면을 포괄적으로 프로비저닝, 모니터링, 관리하는 강력한 그래픽 인터페이스와 자동화 기능을 제공한다.27
NVIDIA의 DGX 시스템은 범용 HPC 서버라기보다는, AI 연구 및 개발을 위해 처음부터 끝까지 설계된 ‘상자 안의 AI 슈퍼컴퓨터(AI supercomputer in a box)’ 개념의 통합 플랫폼이다. 이는 AI 모델 개발의 복잡성을 최소화하고 가장 빠른 결과 도출을 목표로 한다.
- 아키텍처 (DGX H100/H200): 8U 랙마운트 폼팩터에 AI 워크로드를 위한 모든 구성요소가 집약되어 있다.10
- GPU: 시스템의 심장부로, 8개의 NVIDIA H100 (총 640GB GPU 메모리) 또는 H200 (총 1.1TB GPU 메모리) 텐서 코어 GPU가 탑재된다.9
- GPU 인터커넥트: 핵심 기술은 4세대 NVSwitch 패브릭이다. 이는 8개의 GPU를 완전히 상호 연결하여 총 900 GB/s에 달하는 초고대역폭의 GPU 간 직접 통신을 가능하게 한다. 이는 거대 모델 학습 시 발생하는 막대한 데이터 교환을 처리하는 데 필수적이다.10
- CPU, 메모리, 스토리지: 시스템 관리 및 비GPU 작업을 위해 2개의 고성능 CPU(Intel Xeon 또는 AMD EPYC)가 탑재되며, 2TB에 달하는 방대한 시스템 메모리(RAM)와 데이터 캐시 역할을 하는 8개의 3.84TB NVMe SSD(RAID 0 구성)가 장착되어 데이터 병목을 최소화한다.9
- 네트워킹: 클러스터 확장을 위해 8개의 400Gbps NVIDIA ConnectX-7 네트워크 카드를 기본으로 제공하여 InfiniBand 또는 이더넷 기반의 고속 클러스터링을 지원한다.10
- 소프트웨어 스택: DGX 시스템의 가장 큰 장점 중 하나는 턴키(turnkey) 방식의 소프트웨어 환경이다. 시스템에는 Ubuntu 기반의 DGX OS와 NVIDIA AI Enterprise 소프트웨어 제품군이 사전 설치되어 제공된다.9 여기에는 최적화된 드라이버, Docker, NVIDIA 컨테이너 툴킷, 주요 딥러닝 프레임워크가 모두 포함되어 있어, 사용자는 복잡한 설치 및 구성 과정 없이 즉시 AI 모델 개발에 착수할 수 있다.
- 확장성 (SuperPOD): DGX H100 시스템은 그 자체로 강력하지만, 더 큰 규모의 AI 슈퍼컴퓨터를 구축하기 위한 기본 빌딩 블록으로 설계되었다. DGX SuperPOD는 수십 또는 수백 개의 DGX 시스템을 고속 네트워킹으로 연결하고, NVIDIA Base Command 소프트웨어를 통해 중앙에서 관리 및 오케스트레이션하는 레퍼런스 아키텍처다.9
온프레미스 시장의 주요 플레이어들을 살펴보면, 단순히 기술 사양의 차이를 넘어 각기 다른 전략적 철학이 드러난다. HPE Cray EX는 엑사스케일 시대를 겨냥한 전통적 슈퍼컴퓨팅의 정점에 서 있다. 맞춤형 액체 냉각, 독자적인 고성능 인터커넥트, 그리고 포괄적인 프로그래밍 환경은 국립 연구소나 거대 과학 프로젝트처럼 복잡하고 다양한 과학 시뮬레이션을 극한의 규모로 확장하는 데 초점을 맞추고 있음을 보여준다.11
반면, Dell PowerEdge XE와 NVIDIA DGX는 ‘엔터프라이즈 AI 어플라이언스’라는 새로운 시장을 개척하고 있다. 이들 시스템의 아키텍처는 NVLink/NVSwitch로 긴밀하게 연결된 8개의 강력한 GPU를 중심으로 구성되어 있으며, 마케팅과 기술 자료 모두 AI, ML, 생성형 AI 워크로드에 대한 최적화를 강조한다.9 이들은 사전 검증되고 배포가 용이한 통합 솔루션 형태로 제공되어, 기업이 AI 개발 인프라를 신속하게 도입할 수 있도록 돕는다.
이러한 분화는 고객의 선택이 단순한 하드웨어 사양 비교를 넘어, 조직의 핵심 워크로드와 벤더의 철학을 일치시키는 전략적 결정임을 시사한다. 예를 들어, 기상 예측이나 항공기 설계와 같이 다양한 물리 현상을 모델링하는 조직은 HPE Cray의 생태계에서 더 큰 가치를 발견할 수 있다. 반면, 자체 거대 언어 모델(LLM)을 개발하거나 컴퓨터 비전 기술을 고도화하려는 기업은 DGX나 PowerEdge XE의 GPU 중심적이고 AI에 최적화된 아키텍처가 훨씬 더 효율적인 경로를 제공할 것이다. 어떤 하드웨어를 선택하는가는 미래의 소프트웨어 개발과 워크로드 배포에 있어 ‘가장 저항이 적은 길’을 미리 결정하는 것과 같다.
표 2.4: 주요 온프레미스 HPC 시스템 비교
| 구분 |
HPE Cray EX 시리즈 |
Dell PowerEdge XE9680 |
Dell PowerEdge XE9640 |
NVIDIA DGX H100 |
| 폼팩터 |
블레이드 기반 캐비닛 |
6U 랙 서버 |
2U 랙 서버 |
8U 랙 시스템 |
| 냉각 방식 |
직접 액체 냉각(DLC) |
공랭식 |
직접 액체 냉각(DLC) |
공랭식 또는 수랭식 옵션 |
| CPU 옵션 |
2/3세대 AMD EPYC |
4/5세대 Intel Xeon |
4세대 Intel Xeon |
2x Intel Xeon 8480C 또는 AMD EPYC 9004 |
| 최대 GPU 수 및 종류 |
블레이드당 4x NVIDIA A100 또는 4x AMD Instinct |
8x NVIDIA H100/H200 SXM |
4x NVIDIA H100 SXM 또는 4x Intel Max Series |
8x NVIDIA H100/H200 (NVSwitch 연결) |
| GPU 인터커넥트 |
PCIe |
NVIDIA NVLink |
NVIDIA NVLink / Intel Xe Link |
NVIDIA NVSwitch |
| 시스템 인터커넥트 |
HPE Slingshot (200 Gb/s 이더넷, Dragonfly) |
이더넷/InfiniBand (PCIe 카드) |
이더넷/InfiniBand (PCIe 카드) |
8x 400Gb/s ConnectX-7 (InfiniBand/이더넷) |
| 관리 소프트웨어 |
HPE Cray System Management |
Dell OpenManage, Omnia, Bright Cluster Manager |
Dell OpenManage, Omnia, Bright Cluster Manager |
NVIDIA Base Command, DGX OS |
| 주요 특징 |
엑사스케일급 성능, 고밀도, 에너지 효율 |
8-GPU 공랭식, AI 학습 최적화 |
4-GPU 고밀도 수랭식 |
AI 연구/개발용 턴키 솔루션 |
| 참조 |
11 |
15 |
15 |
9 |
클라우드 HPC 플랫폼은 온프레미스 시스템의 대안으로 급부상하며 시장을 재편하고 있다. 클라우드의 가장 큰 매력은 막대한 초기 자본 투자 없이도 필요에 따라 거의 무한한 컴퓨팅 자원을 즉시 활용할 수 있는 ‘탄력성(Elasticity)’과 사용한 만큼만 비용을 지불하는 ‘경제성(Cost-effectiveness)’이다.2 클라우드 HPC는 단일 제품이 아닌, 컴퓨팅, 네트워킹, 스토리지, 관리 도구 등 다양한 서비스를 조합하여 사용하는 ‘조합형 서비스(Composable Services)’ 모델을 따른다.
AWS는 가장 먼저 클라우드 시장을 개척한 만큼, HPC 분야에서도 가장 폭넓고 성숙한 서비스 포트폴리오를 자랑한다. AWS는 다양한 워크로드에 최적화된 구성 요소를 제공하여 사용자가 유연하게 HPC 환경을 구축할 수 있도록 지원한다.
- 컴퓨팅: AWS는 특정 HPC 워크로드를 위해 설계된 다양한 EC2(Elastic Compute Cloud) 인스턴스 유형을 제공한다.
- Hpc7g / Hpc6a: 각각 AWS가 자체 설계한 ARM 기반 Graviton 프로세서와 AMD EPYC 프로세서로 구동된다. 이 인스턴스들은 CFD, 기상 예측과 같은 컴퓨팅 집약적 워크로드에서 최고의 가격 대비 성능을 제공하도록 최적화되어 있다.31 특히 Hpc7g 인스턴스는 동일한 물리 노드에서 활성화된 코어 수를 다르게 선택할 수 있는 옵션을 제공하는데, 이는 코어당 라이선스 비용이 부과되는 상용 소프트웨어의 비용을 최적화하는 데 매우 유용하다.31
- Hpc6id: 3세대 Intel Xeon 프로세서 기반으로, 대용량의 초고속 로컬 NVMe 스토리지를 탑재하고 있어 지진파 분석과 같이 데이터 입출력이 잦은 워크로드에 특화되어 있다.33
- 네트워킹 (Elastic Fabric Adapter - EFA): AWS HPC의 핵심 기술 중 하나다. EFA는 EC2 인스턴스를 위한 고성능 네트워크 인터페이스로, 운영체제(OS)를 우회하여 통신하는 OS-Bypass 기능을 제공한다.34 이는 AWS가 자체 개발한 SRD(Scalable Reliable Datagram) 프로토콜을 기반으로 하며, InfiniBand의 RDMA와 유사한 초저지연, 저지터(low-jitter) 통신을 구현한다.36 EFA 덕분에 MPI나 NCCL(NVIDIA Collective Communications Library)을 사용하는 밀결합 애플리케이션을 수천 개의 코어 규모로 확장하는 것이 가능해졌다.34 단, EFA 트래픽은 동일 서브넷 내에서만 통신이 가능하다는 제약이 있다.35
- 스토리지 (Amazon FSx for Lustre): 완전 관리형 서비스로, 세계에서 가장 널리 사용되는 병렬 파일 시스템 중 하나인 Lustre를 손쉽게 배포하고 운영할 수 있게 해준다.30 사용자는 워크로드의 특성에 맞춰 SSD, HDD, 그리고 자주 사용하는 데이터를 자동으로 SSD 캐시에 배치하는 인텔리전트 티어링(Intelligent-Tiering) 스토리지 클래스를 선택할 수 있으며, 단기 데이터 처리를 위한 스크래치(Scratch) 파일 시스템과 장기 보존을 위한 영구(Persistent) 파일 시스템 중 배포 유형을 선택할 수 있다.39 가장 강력한 기능은 Amazon S3와의 네이티브 통합으로, S3 버킷에 저장된 방대한 객체 데이터를 별도의 복사 과정 없이 파일 시스템처럼 투명하게 접근하여 처리할 수 있다.40
- 오케스트레이션 (AWS ParallelCluster): AWS가 지원하는 오픈소스 클러스터 관리 도구로, AWS 상에서 HPC 클러스터의 배포와 관리를 대폭 간소화한다.38 사용자는 간단한 텍스트 기반 설정 파일이나 그래픽 사용자 인터페이스(GUI)를 통해 컴퓨팅 인스턴스, 스토리지(FSx for Lustre 등), 네트워크(EFA), 그리고 Slurm과 같은 작업 스케줄러를 포함한 전체 클러스터 환경을 자동화된 방식으로 안전하게 프로비저닝할 수 있다.43
Microsoft Azure는 강력한 엔터프라이즈 통합 역량과 ‘클라우드 속 슈퍼컴퓨팅 파워’를 전면에 내세우며 HPC 시장에서 강력한 입지를 구축하고 있다. 특히 온프레미스 HPC 환경에 익숙한 사용자들이 쉽게 마이그레이션할 수 있는 경로를 제공하는 데 강점이 있다.
- 컴퓨팅: Azure HPC의 가장 큰 차별점은 클라우드에서 유일하게 실제 InfiniBand 네트워킹을 지원하는 RDMA 지원 가상 머신(VM)을 제공한다는 점이다.
- HBv3 시리즈: 유체 역학, 충돌 시뮬레이션, 기상 모델링과 같은 CPU 집약적인 전통적 HPC 애플리케이션에 최적화되어 있다.8 이 VM은 대용량 L3 캐시를 탑재한 AMD EPYC “Milan-X” 프로세서를 사용하여 메모리 대역폭에 민감한 워크로드에서 뛰어난 성능을 발휘한다.8
- InfiniBand: HBv3 시리즈 VM은 NVIDIA 네트워킹의 200 Gb/s HDR InfiniBand를 특징으로 하며, 모든 VM은 논블로킹 팻 트리(non-blocking fat tree) 토폴로지로 연결되어 최적화되고 일관된 RDMA 성능을 보장한다.8 이는 온프레미스에서 InfiniBand 클러스터를 운영하던 사용자들이 애플리케이션 수정 없이 클라우드로 원활하게 이전할 수 있게 하는 결정적인 요소다.
- 스토리지: Azure는 워크로드 요구사항에 맞춰 선택할 수 있는 다양한 고성능 스토리지 솔루션을 제공한다. 여기에는 Azure Managed Lustre, 고성능 파일 공유를 위한 Azure NetApp Files, 그리고 대규모 비정형 데이터 저장을 위한 Azure Blob Storage 등이 포함된다.48
- 오케스트레이션: Azure는 워크로드 실행과 클러스터 관리를 위한 두 가지 주요 서비스를 제공한다.
- Azure Batch: 대규모 병렬 및 HPC 애플리케이션을 효율적으로 실행하기 위한 플랫폼 서비스다.49 사용자는 작업을 제출하기만 하면, Batch가 컴퓨팅 노드 풀(Pool)을 프로비저닝하고, 태스크(Task)를 노드에 할당하며, 전체 실행 과정을 관리한다. 워크로드 수요에 따라 노드 수를 자동으로 확장하거나 축소하는 자동 스케일링(Autoscaling) 기능이 핵심이다.50
- Azure CycleCloud: Azure에서 HPC 클러스터를 생성, 관리, 최적화하기 위한 엔터프라이즈급 도구다.53 Slurm, PBS Professional, LSF, Grid Engine 등 업계에서 널리 사용되는 다양한 스케줄러를 지원하며, 복잡한 클러스터 환경의 프로비저닝, 구성, 비용 관리, 자동 스케일링 정책 등을 정교하게 제어할 수 있는 강력한 자동화 기능을 제공한다.
Google Cloud Platform(GCP)은 자사의 압도적인 AI/ML 기술력과 데이터 분석 역량을 바탕으로 HPC 시장에 접근하고 있다. 특히, 전통적인 방식보다는 컨테이너 기술을 활용한 현대적이고 클라우드 네이티브한 HPC 환경을 구축하는 데 강점을 보인다.
- 컴퓨팅: GCP는 HPC 워크로드에 최적화된 다양한 VM 옵션을 제공한다.
- HPC VM 이미지: CPU 및 네트워크 성능을 최적화하기 위해 사전 구성 및 튜닝된 VM 이미지를 제공하여 사용자가 신속하게 HPC 환경을 시작할 수 있도록 돕는다.55
- H4D VM: 5세대 AMD EPYC 프로세서 기반의 최신 HPC용 VM이다. 주목할 점은 Google이 자체 개발한 Titanium 오프로드 프로세서를 사용하여 RDMA와 유사한 저지연 네트워킹(Cloud RDMA)을 구현했다는 것이다.56
- 오케스트레이션: GCP의 접근 방식은 세계 최고 수준의 컨테이너 오케스트레이션 플랫폼인 Kubernetes를 HPC에 적극적으로 활용한다는 점에서 독특하다.
- Google Kubernetes Engine (GKE): GCP는 GKE를 사용하여 대규모 HPC 워크로드를 관리하는 것을 적극 권장한다. GKE는 배치 정책, GPU 공유, 작업 큐잉 시스템인 Kueue 등 HPC에 필수적인 기능들을 지원하여, 전통적인 HPC 워크로드를 클라우드 네이티브한 컨테이너 환경으로 전환할 수 있는 경로를 제시한다.55
- Batch 서비스: 일괄 처리 및 HPC 스타일의 워크로드를 위한 완전 관리형 클라우드 네이티브 스케줄링 서비스다. 사용자는 인프라 관리 없이 작업을 제출하고 실행할 수 있다.55
- 스토리지: GCP는 DDN의 EXAScaler 기술을 기반으로 하는 Google Cloud Managed Lustre를 제공하여 까다로운 AI/ML 학습 및 HPC 워크로드에 최적화된 고성능 스토리지를 지원한다.55
- AI/ML 통합: GCP의 가장 큰 강점은 HPC 인프라와 Vertex AI와 같은 자사의 선도적인 AI/ML 서비스 및 TPU(Tensor Processing Unit)와 같은 전용 하드웨어와의 완벽한 통합이다.56 생명 과학 분야의 단백질 구조 예측을 위한 AlphaFold 솔루션을 클라우드에서 손쉽게 활용할 수 있도록 제공하는 것이 대표적인 예다.55
주요 클라우드 3사의 HPC 전략을 분석해 보면, 이들이 단순히 동일한 서비스를 제공하는 경쟁자가 아니라 각자의 핵심 역량을 기반으로 뚜렷하게 차별화된 경로를 추구하고 있음을 알 수 있다.
AWS는 시장 선도자로서 ‘규모와 폭(Scale & Breadth)’을 앞세운다. 가장 방대하고 성숙한 서비스 포트폴리오를 보유하고 있으며, 자체 설계한 Graviton 칩과 같은 다양한 인스턴스 옵션을 제공한다.32 AWS의 전략은 가능한 모든 워크로드에 대한 도구를 제공하여, 그들의 압도적인 시장 점유율과 규모의 경제를 활용하는 것이다.
반면, Azure는 ‘엔터프라이즈 및 하이브리드 HPC(Enterprise & Hybrid HPC)’에 집중한다. 온프레미스 HPC의 사실상 표준인 InfiniBand를 클라우드에서 유일하게 제공함으로써, 기존 HPC 인프라를 보유한 기업들이 가장 원활하게 클라우드로 확장하거나 이전할 수 있는 ‘최소 저항 경로’를 제시한다.8 Microsoft 365, Active Directory 등 기존 엔터프라이즈 소프트웨어와의 깊은 연계성은 이 전략을 더욱 강화한다.51
GCP는 가장 ‘AI 네이티브 및 컨테이너화(AI-Native & Containerization)’된 접근 방식을 취한다. 전통적인 스케줄러 대신 Kubernetes(GKE)를 HPC 오케스트레이션의 중심으로 내세우는 것은 매우 현대적인 시도다.55 Vertex AI, BigQuery, TPU 등 AI와 데이터 분석 분야에서의 독보적인 경쟁력은 GCP가 클라우드에서 태어난 차세대 HPC 워크로드를 공략하고 있음을 명확히 보여준다.56
결론적으로, HPC를 위한 클라우드 제공업체 선택은 단순한 기능 비교를 넘어, 조직의 현재 상황과 미래 전략에 부합하는 기술 철학과 생태계를 선택하는 장기적인 결정이다. 기존에 대규모 Slurm/InfiniBand 클러스터를 운영 중인 조직은 Azure에서 가장 편안함을 느낄 것이다. 새로운 생성형 AI 서비스를 처음부터 구축하는 스타트업은 GCP의 통합된 AI/GKE 생태계가 더 강력하고 효율적이라고 판단할 수 있다. 다양한 요구사항을 가지며 최대한의 유연성과 서비스 선택권을 원하는 조직은 AWS로 향할 가능성이 높다. ‘최고의’ 클라우드는 없으며, 오직 조직의 출발점과 전략적 목표에 ‘가장 적합한’ 클라우드만 있을 뿐이다.
표 3.4: AWS, Azure, GCP 플래그십 HPC 서비스 비교
| 구분 |
Amazon Web Services (AWS) |
Microsoft Azure |
Google Cloud Platform (GCP) |
| 주요 HPC 컴퓨팅 인스턴스 |
Hpc7g (Graviton3E), Hpc6a (AMD EPYC), Hpc6id (Intel Xeon) |
HBv3-series (AMD EPYC w/ 3D V-Cache), ND/NC-series (GPU) |
H4D-series (AMD EPYC), C3/C3D-series (Intel Sapphire Rapids), A3 (NVIDIA H100) |
| 고성능 인터커넥트 |
Elastic Fabric Adapter (EFA) (200 Gb/s, OS-Bypass, SRD 프로토콜) |
NVIDIA HDR InfiniBand (200 Gb/s, RDMA) |
Cloud RDMA over Titanium, gVNIC |
| 병렬 파일 시스템 서비스 |
Amazon FSx for Lustre (완전 관리형, S3 통합) |
Azure Managed Lustre, Azure NetApp Files |
Google Cloud Managed Lustre (DDN 기반) |
| 클러스터 관리/오케스트레이션 |
AWS ParallelCluster (오픈소스, Slurm/AWS Batch 지원) |
Azure CycleCloud (엔터프라이즈급, 다중 스케줄러 지원), Azure Batch (플랫폼 서비스) |
Google Kubernetes Engine (GKE) (컨테이너 기반), Batch 서비스 |
| 핵심 차별점 |
가장 폭넓고 성숙한 서비스 포트폴리오, 자체 개발 칩(Graviton) |
실제 InfiniBand 제공, 온프레미스와의 하이브리드 용이성 |
AI/ML 및 데이터 분석과의 강력한 통합, 컨테이너 네이티브 접근 |
| 참조 |
32 |
8 |
55 |
지금까지 살펴본 온프레미스 및 클라우드 플랫폼들은 각기 다른 기술적 접근 방식과 강점을 가지고 있다. 따라서 조직의 특정 요구사항에 가장 적합한 플랫폼을 선택하기 위해서는 핵심 기술 요소들을 동일한 척도로 비교하고 평가하는 체계적인 프레임워크가 필요하다. 이 장에서는 인터커넥트, 스토리지, 관리 생태계, 그리고 워크로드 적합성을 기준으로 플랫폼들을 심층 비교한다.
밀결합 워크로드의 성능은 사실상 인터커넥트 기술에 의해 결정된다. 노드 간의 통신 속도와 지연 시간은 전체 계산 시간을 좌우하는 가장 중요한 변수다.
- InfiniBand (Azure): 온프레미스 HPC 환경의 사실상 표준 기술로, 수십 년간 검증된 성능과 안정성을 자랑한다. Azure는 HBv3와 같은 VM에서 200 Gb/s HDR InfiniBand를 제공하며, 이는 하드웨어 수준에서 RDMA를 완벽하게 지원한다.8 이는 기존 MPI 코드를 거의 수정 없이 클라우드에서 실행하고자 하는 사용자에게 가장 큰 매력 포인트다. 논블로킹 팻 트리 토폴로지 구성은 대규모 클러스터에서도 일관된 성능을 보장한다.8
- Elastic Fabric Adapter (EFA) (AWS): AWS가 클라우드 환경에 맞게 자체 개발한 기술이다. InfiniBand와 마찬가지로 OS-Bypass를 통해 저지연 통신을 구현하지만, SRD(Scalable Reliable Datagram)라는 독자적인 프로토콜을 사용한다.34 EFA는 AWS의 대규모 데이터센터 네트워크에 최적화되어 있으며, ECMP(Equal-Cost Multi-Path) 라우팅을 통해 트래픽을 분산시켜 핫스팟 발생을 방지하고 네트워크 장애 시 빠른 복구를 지원한다.37 Libfabric API를 표준 인터페이스로 사용하므로 대부분의 최신 MPI 및 NCCL 라이브러리와 호환된다.34
- HPE Slingshot (HPE Cray): 엑사스케일급 시스템을 위해 설계된 차세대 이더넷 패브릭이다. 표준 이더넷 기술을 기반으로 하면서도 HPC에 필요한 저지연, 고대역폭, 정교한 혼잡 제어(congestion control) 기능을 구현했다. 드래곤플라이 토폴로지를 채택하여 대규모 시스템 구축 시 비용 효율성을 높인 것이 특징이다.12
분석: Azure의 InfiniBand는 ‘성능과 호환성’ 면에서 가장 검증된 옵션이다. AWS의 EFA는 ‘클라우드 규모의 탄력성과 안정성’에 초점을 맞춘 설계이며, HPE Slingshot은 ‘엑사스케일 시스템의 비용 효율성과 확장성’을 목표로 한다. 밀결합 워크로드의 성능을 극대화해야 한다면 Azure의 InfiniBand가 가장 확실한 선택일 수 있으나, AWS와 HPE 역시 각자의 환경에 최적화된 강력한 대안을 제시하고 있다.
HPC 스토리지의 핵심은 수천 개의 코어가 동시에 데이터를 요청할 때 병목 현상 없이 데이터를 공급하는 능력이다.
- 온프레미스 병렬 파일 시스템: DDN, VAST Data, Panasas 등 전문 벤더의 어플라이언스를 구축하거나, Lustre, BeeGFS와 같은 오픈소스 파일 시스템을 직접 구성하는 방식이다. 하드웨어와 네트워크를 워크로드에 맞게 직접 튜닝하여 최고의 I/O 성능을 끌어낼 수 있다는 장점이 있다. 하지만 초기 구축 비용이 높고, 용량 증설 및 유지보수에 전문 인력이 필요하다.
- 클라우드 관리형 병렬 파일 시스템: AWS FSx for Lustre, Azure Managed Lustre, Google Cloud Managed Lustre는 모두 클라우드에서 Lustre 파일 시스템을 손쉽게 생성하고 관리할 수 있는 서비스다.39 이 서비스들의 가장 큰 장점은 S3나 Blob Storage와 같은 저렴한 객체 스토리지와의 네이티브 통합이다.40 사용자는 방대한 원시 데이터를 객체 스토리지에 보관하고, 계산이 필요할 때만 고성능 병렬 파일 시스템을 생성하여 데이터를 ‘투명하게’ 불러와 처리한 후 결과를 다시 객체 스토리지에 저장할 수 있다. 이는 스토리지 비용을 획기적으로 절감하는 클라우드 HPC의 핵심적인 경제성 모델이다. 또한, 필요에 따라 용량과 성능을 동적으로 확장할 수 있는 탄력성도 큰 장점이다.39
분석: 성능의 절대적인 최대치를 추구하고 I/O 패턴이 예측 가능한 경우, 잘 튜닝된 온프레미스 스토리지가 우위를 점할 수 있다. 그러나 데이터의 양이 가변적이고, 비용 효율성과 운영 편의성을 중시한다면 클라우드 관리형 서비스가 훨씬 매력적이다. 특히 객체 스토리지와의 연동 기능은 데이터 저장 비용과 관리 부담을 극적으로 줄여준다.
복잡한 HPC 클러스터를 효율적으로 운영하기 위해서는 강력한 관리 및 오케스트레이션 도구가 필수적이다.
- 온프레미스 솔루션: Bright Cluster Manager와 같은 상용 소프트웨어는 GUI 기반의 포괄적인 관리 환경을 제공하여 클러스터의 모든 측면을 중앙에서 제어할 수 있게 해준다.26 Dell의 Omnia는 Ansible 기반의 오픈소스 접근 방식으로, 코드형 인프라(Infrastructure as Code, IaC) 개념을 도입하여 HPC와 AI 클러스터 배포를 자동화한다.23
- 클라우드 솔루션: 각 클라우드 제공업체는 자사 환경에 최적화된 오케스트레이션 도구를 제공한다. AWS ParallelCluster, Azure CycleCloud, Google Cluster Toolkit은 모두 클러스터의 생성, 구성, 자동 스케일링, 소멸에 이르는 전체 생명주기를 자동화하는 데 중점을 둔다.43 이들은 Slurm과 같은 전통적인 스케줄러를 지원하면서도 클라우드의 동적인 자원 할당 능력을 최대한 활용하도록 설계되었다. 특히 GCP가 GKE를 HPC 오케스트레이션에 활용하는 것은 컨테이너 기술을 통해 이식성과 재현성을 높이려는 현대적인 시도다.55
분석: 온프레미스 관리 도구는 안정적이고 기능이 풍부하지만, 정적인 환경을 관리하는 데 더 초점이 맞춰져 있다. 반면, 클라우드 오케스트레이션 도구는 자원의 동적인 생성과 소멸, 즉 ‘탄력성’을 관리하는 데 특화되어 있다. 어떤 도구가 더 우수하다기보다는, 관리하고자 하는 인프라의 특성에 따라 적합한 도구가 달라진다. 하이브리드 환경을 고려한다면, 온프레미스와 클라우드 양쪽을 모두 지원하거나 연동할 수 있는 도구(예: Azure Arc와 연동된 CycleCloud)의 중요성이 커진다.
궁극적으로 최적의 플랫폼은 조직의 핵심 워크로드에 따라 결정된다.
-
대규모 과학 시뮬레이션 (CFD, 기상 예측 등): 극도의 밀결합 워크로드로, 최저 지연 시간의 인터커넥트가 성능을 좌우한다. HPE Cray EX의 특화된 아키텍처나 Azure의 InfiniBand VM이 가장 자연스러운 선택지다. 이들은 전통적인 슈퍼컴퓨팅 워크로드를 위해 설계되었다.
-
생성형 AI 및 대규모 모델 학습: 수백, 수천 개의 GPU 간의 고속 통신이 필수적이다. NVIDIA DGX SuperPOD나 Dell PowerEdge XE9680 클러스터와 같이 NVLink/NVSwitch로 긴밀하게 연결된 8-GPU 서버 기반의 온프레미스 시스템이 최고의 성능을 제공한다. 클라우드에서는 AWS의 P5 인스턴스 클러스터, Azure의 NDv5 VM, GCP의 A3 VM과 같이 각 사의 플래그십 GPU 인스턴스와 고속 네트워킹을 조합한 환경이 적합하다.
-
유전체 분석 및 몬테카를로 시뮬레이션: 수많은 독립적인 작업을 병렬로 처리하는 무결합 워크로드다. 이 경우, 클라우드의 장점이 극대화된다. AWS, Azure, GCP 모두에서 제공하는 스팟 인스턴스를 활용하여 막대한 양의 컴퓨팅 자원을 매우 저렴한 비용으로 사용할 수 있다. AWS Batch나 Azure Batch와 같은 서비스는 이러한 워크로드를 관리하는 데 이상적이다.
-
디지털 제조 및 엔지니어링 (CAE): Ansys, Siemens 등 특정 상용 소프트웨어의 라이선스 정책과 성능 특성을 고려해야 한다. 코어당 라이선스 비용이 비싼 경우, AWS Hpc7g나 Azure HBv3의 코어 수 제한 VM처럼 코어당 메모리 대역폭이 높은 인스턴스를 사용하는 것이 총비용을 절감하는 데 유리할 수 있다.31
Dell의 Validated Designs for HPC는 특정 애플리케이션에 맞춰 사전 검증된 구성을 제공하여 도입의 복잡성을 줄여준다.15
HPC 플랫폼 도입은 막대한 투자를 수반하는 중요한 의사결정이다. 따라서 단순히 하드웨어 구매 가격이나 클라우드 시간당 요금을 비교하는 것을 넘어, 장기적인 관점에서 총 소유 비용(Total Cost of Ownership, TCO)과 투자 수익(ROI)을 종합적으로 분석해야 한다. 온프레미스와 클라우드는 근본적으로 다른 경제 모델을 따르며, 각각의 장단점을 명확히 이해하는 것이 필수적이다.
온프레미스 HPC 시스템의 TCO는 눈에 보이는 초기 구매 비용 외에 다양한 숨겨진 비용을 포함한다.62
- 자본 지출 (Capital Expenditures, CapEx): 시스템 도입 시 발생하는 일회성 비용으로, TCO의 가장 큰 부분을 차지한다. 여기에는 서버, GPU, 스토리지, 네트워킹 스위치 등 하드웨어 구매 비용뿐만 아니라, 이를 수용할 데이터센터 공간, 전력 공급 설비, 냉각 시스템 구축 비용이 포함된다.65
- 운영 지출 (Operational Expenditures, OpEx): 시스템을 운영하는 동안 지속적으로 발생하는 비용이다.
- 전력 및 냉각 비용: HPC 시스템은 막대한 전력을 소비하며, 이는 상당한 운영 비용으로 이어진다. 예를 들어, NVIDIA DGX H100 시스템 한 대의 최대 전력 소비량은 10.2 kW에 달한다.9
- 소프트웨어 라이선스 및 유지보수: 운영체제, 클러스터 관리 소프트웨어, 애플리케이션 소프트웨어에 대한 연간 라이선스 및 유지보수 비용이 발생한다.63
- 관리 인력 비용: 시스템을 설치, 운영, 관리, 문제 해결하기 위한 전문 IT 인력의 인건비도 중요한 부분을 차지한다.64
- 숨겨진 비용 및 간접 비용: 단순한 TCO 분석에서 종종 간과되는 비용들이다.
- 기술 교체 주기 (Refresh Cycle): HPC 하드웨어의 기술 발전 속도는 매우 빠르다. 경쟁력을 유지하기 위해 통상 3~5년 주기로 시스템 전체 또는 일부를 교체해야 하며, 이때마다 막대한 CapEx가 다시 발생한다.65
- 생산성 손실: 온프레미스 시스템은 용량이 고정되어 있다. 시스템이 100% 가동 중일 때, 연구원이나 엔지니어들은 자신의 작업을 실행하기 위해 대기열(Queue)에서 하염없이 기다려야 한다.69 이러한 대기 시간은 혁신을 지연시키고 기회비용을 발생시키는 명백한 손실이다.68
클라우드 HPC는 초기 CapEx가 거의 없는 대신, 사용량에 따라 OpEx가 발생하는 모델이다.66 이 모델은 유연성을 제공하지만, 비용 구조가 복잡하여 신중한 관리가 필요하다.
- 사용량 기반 과금 (Pay-as-you-go): 클라우드의 가장 기본적인 가격 모델로, 컴퓨팅 인스턴스, 스토리지, 네트워크를 사용한 시간이나 양에 따라 비용을 지불한다.30 이는 수요가 불규칙하거나 단기 프로젝트에 이상적이지만, 지속적으로 사용할 경우 비용이 예측 불가능하게 증가할 수 있다.72
- 할인 모델: 클라우드 제공업체들은 장기 사용자를 위해 다양한 할인 옵션을 제공한다.
- 예약 인스턴스 (Reserved Instances) / 약정 사용 할인 (Committed Use Discounts): 1년 또는 3년 동안 특정 용량의 컴퓨팅 자원을 사용하기로 약정하는 대신, 사용량 기반 요금 대비 최대 70%까지 대폭 할인받는 모델이다.71 비용 예측 가능성을 높이지만, 유연성은 감소한다.
- 스팟 인스턴스 (Spot Instances): 클라우드 제공업체의 유휴 컴퓨팅 자원을 경매 방식으로 매우 저렴하게(최대 90% 할인) 사용하는 모델이다.30 단, 클라우드 제공업체가 해당 자원을 필요로 할 경우 언제든지 회수될 수 있다는 단점이 있다. 따라서 실행이 중단되어도 무방한 무결합 병렬 워크로드나 내결함성(fault-tolerant) 작업에 적합하다.
- 숨겨진 비용 및 간접 비용: 클라우드 비용에서 가장 주의해야 할 부분이다.
- 데이터 이그레스(Egress) 비용: 클라우드 외부로 데이터를 전송할 때 발생하는 비용이다. HPC 워크로드는 종종 수 테라바이트(TB)의 결과 데이터를 생성하므로, 이를 온프레미스나 다른 곳으로 옮길 때 예상치 못한 막대한 비용이 발생할 수 있다.73
- 스토리지 트랜잭션 비용: 스토리지에 데이터를 읽고 쓰는 I/O 작업 자체에 대해 비용이 부과될 수 있다.
- 기타 서비스 비용: API 호출, 모니터링 서비스, 관리 도구 사용료 등 부가적인 비용이 발생할 수 있다.
온프레미스와 클라우드 중 어느 쪽이 더 경제적인지에 대한 질문은 “워크로드의 활용률(Utilization Rate)이 얼마나 되는가?”라는 질문으로 귀결된다. 온프레미스는 초기 투자 비용이 높지만 시간당 운영 비용은 낮은 고정 비용 구조를 가지는 반면, 클라우드는 초기 비용이 없지만 사용량에 비례하여 비용이 증가하는 변동 비용 구조를 가진다.65
따라서 두 모델의 누적 비용이 같아지는 손익분기점(Break-even Point)이 존재한다. 이 손익분기점은 활용률에 따라 결정된다. 예를 들어, 특정 HPC 작업을 위한 8-GPU 서버를 온프레미스로 구축하는 데 5년간 총 10억 원이 든다고 가정하고, 동일한 사양의 클라우드 인스턴스를 100% 활용률로 5년간 사용하는 데 총 30억 원이 든다고 가정해 보자. 이 경우, 온프레미스 시스템의 활용률이 지속적으로 높게 유지된다면(예: 24시간 내내 가동), 특정 시점(예: 12~18개월) 이후부터는 온프레미스가 클라우드보다 총비용 면에서 더 저렴해진다.73 반대로, 만약 해당 작업이 하루 평균 6시간만 필요하다면(활용률 25%), 클라우드를 사용하는 것이 5년 내내 훨씬 더 경제적일 것이다. 78의 분석에 따르면, 특정 조건에서 온프레미스 인프라를 매일 9시간 이상 활용할 경우 클라우드보다 비용 효율적일 수 있다.
이러한 경제 모델의 차이는 단순히 비용 문제를 넘어, HPC를 바라보는 조직의 전략적 관점을 반영한다. 온프레미스 투자는 HPC를 안정적인 생산을 위한 ‘자산(Asset)’으로 간주하고, 예측 가능한 핵심 워크로드를 최저 비용으로 처리하는 것을 목표로 한다. 반면, 클라우드 활용은 HPC를 민첩한 실험과 가변적인 수요 대응을 위한 ‘서비스(Service)’로 간주하고, 유연성과 시장 출시 속도를 최적화하는 것을 목표로 한다.
이러한 배경에서 대부분의 성숙한 조직에게 가장 합리적인 장기 전략으로 ‘하이브리드 HPC 모델’이 부상하고 있다. 즉, 활용률이 높고 예측 가능한 핵심 ‘프로덕션’ 워크로드는 TCO가 낮은 온프레미스 시스템에서 처리하고, 갑작스러운 수요 급증에 대응하기 위한 ‘버스트(Bursting)’ 용량이나 새로운 기술을 시험하기 위한 R&D 환경은 초기 투자 없이 접근 가능한 클라우드를 활용하는 것이다. 결국 ‘온프레미스냐 클라우드냐’의 이분법적 논쟁은 ‘온프레미스와 클라우드를 어떻게 조화롭게 통합하고 관리할 것인가’의 문제로 진화하고 있다. 이는 Azure Arc나 Kubernetes와 같이 하이브리드 환경을 단일 창에서 관리할 수 있는 도구의 전략적 중요성이 점점 더 커지는 이유이기도 하다.59
표 5.1: 온프레미스 vs. 클라우드 5년 TCO 및 손익분기점 분석 예시
| 비용 항목 |
온프레미스 (5년 총계) |
클라우드 (5년 총계 - 90% 활용률) |
클라우드 (5년 총계 - 30% 활용률) |
| 자본 지출 (CapEx) |
|
|
|
| 하드웨어 (서버, 스토리지, 네트워크) |
$800,000 |
$0 |
$0 |
| 시설 (랙, 전력, 냉각) |
$50,000 |
$0 |
$0 |
| 운영 지출 (OpEx) |
|
|
|
| 전력 및 냉각 |
$150,000 |
포함 |
포함 |
| 소프트웨어 및 유지보수 |
$100,000 |
포함 |
포함 |
| 관리 인력 |
$400,000 |
(절감) |
(절감) |
| 클라우드 컴퓨팅 비용 |
$0 |
$4,000,000 |
$1,333,333 |
| 데이터 이그레스 비용 |
$0 |
$200,000 |
$66,667 |
| 5년 총 소유 비용 (TCO) |
$1,500,000 |
$4,200,000 |
$1,400,000 |
| 손익분기점 활용률 (추정) |
- |
- |
약 32% |
| 분석 |
높은 초기 투자, 예측 가능한 운영 비용. 높은 활용률에서 비용 효율적. |
초기 투자 없음, 사용량에 비례한 높은 운영 비용. |
초기 투자 없음, 낮은 활용률에서 가장 경제적인 선택. |
| 참조 |
63 |
76 |
76 |
주: 위 표의 수치는 설명을 위한 가상 시나리오이며, 실제 비용은 하드웨어 구성, 클라우드 제공업체, 지역, 할인율에 따라 크게 달라질 수 있습니다.
HPC 플랫폼 환경은 기술적으로 복잡하고 빠르게 변화하며, 경제적 함의 또한 중대하다. 따라서 성공적인 플랫폼 도입을 위해서는 체계적인 평가 프레임워크와 명확한 전략적 방향 설정이 요구된다. 이 장에서는 플랫폼 선택을 위한 실질적인 도구를 제시하고, 성공적인 검증 절차를 안내하며, 미래 HPC 환경의 핵심 동향을 조망한다.
아래의 매트릭스는 조직의 핵심 우선순위에 따라 각 플랫폼 유형의 강점과 약점을 직관적으로 평가할 수 있도록 설계된 의사결정 지원 도구다. 각 항목은 ‘높음’, ‘중간’, ‘낮음’으로 평가되며, 이는 앞선 분석에 기반한다.
| 평가 기준 |
온프레미스 (HPE, Dell, NVIDIA) |
AWS |
Azure |
GCP |
| 최고 성능 (밀결합 워크로드) |
높음 |
중간 |
높음 |
중간 |
| 가격 대비 성능 (무결합 워크로드) |
낮음 |
높음 |
높음 |
높음 |
| 확장성 및 탄력성 |
낮음 |
높음 |
높음 |
높음 |
| 데이터 주권 및 보안 통제 |
높음 |
중간 |
중간 |
중간 |
| 소프트웨어/애플리케이션 생태계 |
중간 |
높음 |
높음 |
중간 |
| 관리 복잡성 |
높음 |
중간 |
중간 |
중간 |
| 초기 도입 비용 (CapEx) |
높음 |
낮음 |
낮음 |
낮음 |
| 장기 운영 비용 (OpEx) |
활용률에 따라 가변적 |
활용률에 따라 가변적 |
활용률에 따라 가변적 |
활용률에 따라 가변적 |
- 최고 성능: 온프레미스 시스템과 Azure의 InfiniBand는 하드웨어 수준의 최적화를 통해 최고의 밀결합 성능을 제공할 수 있다.
- 가격 대비 성능: 클라우드의 스팟 인스턴스를 활용한 무결합 워크로드 처리는 온프레미스로는 따라잡기 힘든 가격 경쟁력을 가진다.
- 데이터 주권: 물리적 통제권을 갖는 온프레미스가 가장 높은 수준의 통제력을 제공한다.
- 생태계: AWS와 Azure는 가장 폭넓은 ISV(독립 소프트웨어 벤더) 파트너십과 서비스 포트폴리오를 자랑한다.
- 관리 복잡성: 온프레미스는 하드웨어부터 소프트웨어까지 모든 계층을 직접 관리해야 하므로 복잡성이 가장 높다.
플랫폼 선택 매트릭스를 통해 후보군을 좁혔다면, 실제 워크로드를 통해 성능과 비용을 검증하는 개념 증명(Proof-of-Concept, PoC) 단계는 필수적이다. 이는 수백만 달러 규모의 투자가 실패로 돌아가는 것을 막는 가장 효과적인 방법이다.79 성공적인 PoC는 다음 3단계로 진행된다.
- 1단계: 타당성 검토 및 계획 (1~2개월 소요)
- 협의회 구성: IT 기획/전산 담당자와 실제 HPC를 사용할 현업 사용자(연구원, 엔지니어)가 함께 참여하는 내부 추진 협의회를 구성하는 것이 가장 중요하다. 두 그룹의 시각과 요구사항은 다를 수 있기 때문이다.79
- 대상 선정 및 기준선 설정: PoC를 진행할 대상 부서와 핵심 애플리케이션, 그리고 대표 데이터셋을 선정한다. 현재 사용 중인 환경에서 벤치마크 테스트(BMT)를 수행하여 성능, 처리 시간 등 명확한 기준선을 설정해야 객관적인 비교가 가능하다.79
- 성공 기준 정의: “현재보다 2배 빠른 결과 도출”, “작업당 비용 30% 절감” 등 측정 가능한 성공 기준(Success Criteria)을 명확히 정의한다.
- 2단계: 시범 도입 및 테스트 (3~6개월 소요)
- 파일럿 환경 구축: 선정한 후보 플랫폼(온프레미스 테스트 장비 또는 클라우드 환경)에 소규모 파일럿 클러스터를 구축한다.
- 실제 워크로드 실행: 계획 단계에서 선정한 애플리케이션과 데이터셋을 사용하여 실제와 동일한 조건에서 작업을 실행하고 성능을 측정한다.79 이 과정에서 플랫폼의 사용 편의성, 관리 도구의 효율성, 기술 지원 수준 등 정성적인 요소도 함께 평가한다.
- 사용자 교육 및 기술 지원: PoC 기간 동안 사용자 및 관리자에게 새로운 플랫폼에 대한 교육을 제공하고, 문제 발생 시 벤더나 HPC 전문 엔지니어의 지원을 받아 해결하는 과정을 경험하는 것이 중요하다.79
- 3단계: 분석 및 최종 의사결정
- 결과 분석: PoC 기간 동안 수집된 정량적 데이터(성능, 비용)와 정성적 데이터(사용자 만족도, 안정성)를 종합적으로 분석한다. 이를 통해 초기 TCO 및 ROI 모델을 실제 데이터로 검증하고 보정한다.
- 최종 결정: 분석 결과를 바탕으로 협의회는 조직의 장기적인 전략에 가장 부합하는 플랫폼을 최종 선택하고, 전사적인 확대 도입 계획을 수립한다. 성공적인 PoC는 도입 효과와 효율성을 판단할 수 있는 가장 확실한 근거를 마련해 준다.79
HPC 환경은 앞으로도 계속해서 진화할 것이며, 몇 가지 핵심적인 동향이 미래의 기술 지형을 결정할 것이다.
- HPC와 AI의 완전한 융합: HPC와 AI는 더 이상 별개의 분야가 아니다. AI 모델링은 HPC 인프라를 필요로 하고, 전통적인 HPC 시뮬레이션은 AI를 통해 결과를 분석하고 가속화한다.1 미래의 HPC 플랫폼은 이러한 융합 워크로드를 얼마나 효율적으로 처리할 수 있는지에 따라 그 가치가 평가될 것이다.
- 하이브리드 및 멀티클라우드 HPC의 보편화: ‘온프레미스냐 클라우드냐’의 선택을 넘어, 두 환경의 장점을 모두 활용하는 하이브리드 모델이 표준으로 자리 잡을 것이다. 더 나아가, 특정 워크로드나 비용 모델에 따라 여러 클라우드를 동시에 활용하는 멀티클라우드 전략도 부상할 것이다. 이에 따라 서로 다른 환경의 자원을 단일 인터페이스에서 원활하게 관리하고 워크로드를 이동시키는 기술(예: 컨테이너, Kubernetes, 클라우드 중립적 관리 플랫폼)의 중요성이 극대화될 것이다.81
- HPC의 민주화: 클라우드는 과거 수백억 원의 투자가 필요했던 슈퍼컴퓨팅 파워를 시간당 수십 달러의 비용으로 사용할 수 있게 만들었다.2 이러한 접근성의 향상은 스타트업, 중소기업, 그리고 새로운 산업 분야에서 HPC를 활용한 혁신을 촉진하는 기폭제가 될 것이다.
- 지속가능성 및 에너지 효율: 대규모 HPC 시스템의 막대한 에너지 소비는 심각한 환경 문제이자 운영 비용의 주요 요인이다.2 따라서 HPE Cray EX의 직접 액체 냉각 기술이나 12 AWS Graviton과 같은 저전력 ARM 기반 프로세서처럼 31 에너지 효율을 높이는 기술이 미래 플랫폼의 핵심 경쟁력 중 하나가 될 것이다.
결론적으로, 미래의 HPC 환경은 단일 플랫폼에 종속되기보다는, 조직의 다양한 워크로드 포트폴리오에 맞춰 온프레미스, 프라이빗 클라우드, 퍼블릭 클라우드의 자원들을 유연하게 조합하고 지능적으로 오케스트레이션하는 방향으로 발전할 것이다. 성공적인 HPC 전략은 최고의 하드웨어를 구매하거나 가장 저렴한 클라우드를 선택하는 것이 아니라, 이러한 복잡하고 이기종적인 환경을 비즈니스 목표에 맞춰 얼마나 효과적으로 통합하고 관리할 수 있는지에 달려 있다.
- 고성능 컴퓨팅(HPC)이란? - Red Hat, accessed July 13, 2025, https://www.redhat.com/ko/topics/high-performance-computing/what-is-high-performance-computing
-
| What is high performance computing (HPC) |
Google Cloud, accessed July 13, 2025, https://cloud.google.com/discover/what-is-high-performance-computing |
- HPC(High Performance Computing)란 무엇입니까? - 인텔, accessed July 13, 2025, https://www.intel.co.kr/content/www/kr/ko/learn/what-is-hpc.html
-
| 고성능 컴퓨팅이란? |
퓨어스토리지, accessed July 13, 2025, https://www.purestorage.com/kr/knowledge/what-is-high-performance-computing.html |
- 고성능 컴퓨팅(HPC)이란? - 클라우드 - Oracle, accessed July 13, 2025, https://www.oracle.com/kr/cloud/hpc/what-is-hpc/
-
| HPC 클라우드란? |
용어 해설 |
HPE 대한민국, accessed July 13, 2025, https://www.hpe.com/kr/ko/what-is/hpc-cloud.html |
- 워크로드란 무엇인가요? - IBM, accessed July 13, 2025, https://www.ibm.com/kr-ko/think/topics/workload
-
| HBv3 size series - Azure Virtual Machines |
Microsoft Learn, accessed July 13, 2025, https://learn.microsoft.com/en-us/azure/virtual-machines/sizes/high-performance-compute/hbv3-series |
- What is NVIDIA DGX H100? - WEKA, accessed July 13, 2025, https://www.weka.io/learn/glossary/gpu/nvidia-dgx-h100/
- Introduction to NVIDIA DGX H100/H200 Systems - NVIDIA Docs, accessed July 13, 2025, https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html
-
| HPE Cray EX Supercomputer |
ServerComputeWorks.com, accessed July 13, 2025, https://www.servercomputeworks.com/Cray-EX-Supercomputer.asp |
- HPE Cray EX Supercomputer - Log in to CSCS, accessed July 13, 2025, https://confluence.cscs.ch/download/attachments/284426490/HPE_Cray_EX-quick_specs.pdf?version=1&modificationDate=1607707124000&api=v2
- HPE Cray EX Supercomputer - ResearchGate, accessed July 13, 2025, https://www.researchgate.net/profile/Carlos-Aranda-9/publication/364152366_QuickSpecs_HPE_Cray_EX_Supercomputer_Overview_HPE_Cray_EX_Supercomputer/data/633c659676e39959d69b75cc/HPE-Cray-EX-Supercomputer-a00094635enw.pdf?origin=publication_list
-
| HPE Cray Programming Environment |
HPE Developer Portal, accessed July 13, 2025, https://developer.hpe.com/platform/hpe-cray-programming-environment/home/ |
- Dell Technologies Advances High Performance Computing and AI with Dell PowerEdge Servers - Matterhorn Communications, accessed July 13, 2025, https://www.matterhorncommunications.com/dell-technologies-advances-high-performance-computing-ai-dell-poweredge-servers/
- PowerEdge XE9680 Specification Sheet - Dell, accessed July 13, 2025, https://www.delltechnologies.com/asset/en-in/products/servers/technical-support/poweredge-xe9680-spec-sheet.pdf
-
| Dell PowerEdge XE9680 |
SANStorageWorks, accessed July 13, 2025, https://www.sanstorageworks.com/PowerEdge-XE9680.asp |
- Dell PowerEdge XE9640 Rack Server - AI/ML/HPC Server - Newegg Business, accessed July 13, 2025, https://www.neweggbusiness.com/product/product.aspx?item=9b-59-155-928
-
| PowerEdge XE9640 Rack Server |
Dell USA, accessed July 13, 2025, https://www.dell.com/en-us/shop/ipovw/poweredge-xe9640 |
-
| High Performance Computing |
Dell Canada, accessed July 13, 2025, https://www.dell.com/en-ca/dt/solutions/high-performance-computing/index.htm |
-
| High-Performance Computing |
Dell US, accessed July 13, 2025, https://www.dell.com/support/kbdoc/en-us/000178012/high-performance-computing |
- Omnia: Overview - Dell/Omnia - Read the Docs, accessed July 13, 2025, https://omnia-doc.readthedocs.io/en/latest/Overview/index.html
- Omnia open-source software Table of Contents - Dell, accessed July 13, 2025, https://www.delltechnologies.com/asset/en-za/products/ready-solutions/technical-support/omnia-solution-overview.pdf
- RONCC/Dell-Omnia-Clusters-HPC-AI @ 797af8ff1959e06facd7fea9bbc120c9fc94bed5 - ICI Gogs, accessed July 13, 2025, http://gogs.ici.ro:3000/RONCC/Dell-Omnia-Clusters-HPC-AI/src/797af8ff1959e06facd7fea9bbc120c9fc94bed5/docs/README.md?lang=fi-FI
- Dell: Omnia Copes with Configuring HPC-AI Environments - insideHPC, accessed July 13, 2025, https://insidehpc.com/2024/02/dell-omnia-copes-with-the-complexity-of-configuring-hpc-ai-environments/
- Bright Computing - Wikipedia, accessed July 13, 2025, https://en.wikipedia.org/wiki/Bright_Computing
-
| What is Bright Cluster Manager? Competitors, Complementary Techs & Usage |
Sumble, accessed July 13, 2025, https://sumble.com/tech/bright-cluster-manager |
- Administrator Manual - NVIDIA Base Command Manager Support, accessed July 13, 2025, https://support.brightcomputing.com/manuals/8.1/admin-manual.pdf
- NVIDIA DGX H100 - Symmatrix, accessed July 13, 2025, https://www.symmatrix.com/product/nvidia-dgx-h100/
- High-Performance Computing on AWS - CloudThat, accessed July 13, 2025, https://www.cloudthat.com/resources/blog/high-performance-computing-on-aws
-
| Application deep-dive into the AWS Graviton3E-based Amazon EC2 Hpc7g instance |
AWS HPC Blog, accessed July 13, 2025, https://aws.amazon.com/blogs/hpc/application-deep-dive-into-the-graviton3e-based-amazon-ec2-hpc7g-instance/ |
- Amazon EC2 Hpc7g Instances, accessed July 13, 2025, https://aws.amazon.com/ec2/instance-types/hpc7g/
- Optimizing HPC workloads with Amazon EC2 instances - awsstatic.com, accessed July 13, 2025, https://d1.awsstatic.com/products/ec2/hpc/Optimizing%20HPC%20workloads%20with%20Amazon%20EC2%20instances%201-Nov-2023.pdf
- Elastic Fabric Adapter (EFA) - AWS, accessed July 13, 2025, https://aws.amazon.com/hpc/efa/
- Elastic Fabric Adapter (EFA) Cheat Sheet - Tutorials Dojo, accessed July 13, 2025, https://tutorialsdojo.com/elastic-fabric-adapter-efa/
- Understanding AWS Networking Interfaces: EFA, ENA, and ENI - A Guide to Making the Right Choice - CloudPunk, accessed July 13, 2025, https://www.cloudpunk.blog/post/efa-ena-eni
- AMAZON ELASTIC FABRIC ADAPTER: ANATOMY, CAPABILITIES, AND THE ROAD AHEAD - OpenFabrics Alliance, accessed July 13, 2025, https://www.openfabrics.org/wp-content/uploads/2019-workshop-presentations/205_RRaja.pdf
- High Performance Computing (HPC) - AWS, accessed July 13, 2025, https://aws.amazon.com/hpc/
- Amazon FSx for Lustre Features Page - AWS, accessed July 13, 2025, https://aws.amazon.com/fsx/lustre/features/
- What is Amazon FSx for Lustre? - AWS Documentation, accessed July 13, 2025, https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html
- Deployment and storage class options for FSx for Lustre file systems - AWS Documentation, accessed July 13, 2025, https://docs.aws.amazon.com/fsx/latest/LustreGuide/using-fsx-lustre.html
- Amazon FSx for Lustre Features Page, accessed July 13, 2025, https://www.amazonaws.cn/en/fsx/lustre/features/
- AWS ParallelCluster - Amazon Web Services, accessed July 13, 2025, https://aws.amazon.com/hpc/parallelcluster/
- aws/aws-parallelcluster: AWS ParallelCluster is an AWS supported Open Source cluster management tool to deploy and manage HPC clusters in the AWS cloud. - GitHub, accessed July 13, 2025, https://github.com/aws/aws-parallelcluster
- Set up AWS ParallelCluster - GCHP 14.6.2 documentation, accessed July 13, 2025, https://gchp.readthedocs.io/en/14.6.2/supplement/setting-up-aws-parallelcluster.html
- HB family VM size series - Azure Virtual Machines, accessed July 13, 2025, https://docs.azure.cn/en-us/virtual-machines/sizes/high-performance-compute/hb-family
- HBv3-series virtual machine (VM) overview, architecture, topology - Learn Microsoft, accessed July 13, 2025, https://learn.microsoft.com/en-us/azure/virtual-machines/hbv3-series-overview
-
| Azure의 HPC(고성능 컴퓨팅) - Azure Architecture Center |
Microsoft Learn, accessed July 13, 2025, https://learn.microsoft.com/ko-kr/azure/architecture/topics/high-performance-computing |
- Introduction to Azure High-Performance Computing - CloudThat Resources, accessed July 13, 2025, https://www.cloudthat.com/resources/blog/introduction-to-azure-high-performance-computing
-
| Azure HPC documentation |
Microsoft Learn, accessed July 13, 2025, https://learn.microsoft.com/en-us/azure/high-performance-computing/ |
-
| High Performance Computing – HPC |
Microsoft Azure, accessed July 13, 2025, https://azure.microsoft.com/en-us/solutions/high-performance-computing |
-
| Azure Batch documentation - Azure Batch |
Microsoft Learn, accessed July 13, 2025, https://learn.microsoft.com/en-us/azure/batch/ |
- How To Use Azure Virtual Machines For High-Performance Computing ? - GeeksforGeeks, accessed July 13, 2025, https://www.geeksforgeeks.org/devops/how-to-use-azure-virtual-machines-for-high-performance-computing/
- Azure CycleCloud Documentation - Learn Microsoft, accessed July 13, 2025, https://learn.microsoft.com/en-us/azure/cyclecloud/
-
| HPC solution |
Google Cloud, accessed July 13, 2025, https://cloud.google.com/solutions/hpc |
-
| HPC 솔루션 |
Google Cloud, accessed July 13, 2025, https://cloud.google.com/solutions/hpc?hl=ko |
- Google Cloud HPC: Enhancing AI & ML Workload Optimization - Niveus Solutions, accessed July 13, 2025, https://niveussolutions.com/google-cloud-hpc-enhancing-ai-ml-workload-optimization/
- Cloud Computing Services - Amazon Web Services (AWS), accessed July 13, 2025, https://aws.amazon.com/
- Comparing Top Cloud Providers: AWS, Azure, and Google Cloud Features - HAKIA.com, accessed July 13, 2025, https://www.hakia.com/posts/comparing-top-cloud-providers-aws-azure-and-google-cloud-features
- AWS vs. Azure vs. Google Cloud: A Complete Comparison - DataCamp, accessed July 13, 2025, https://www.datacamp.com/blog/aws-vs-azure-vs-gcp
- Omnia: Everything at once! - Dell/Omnia - Read the Docs, accessed July 13, 2025, https://omnia-doc.readthedocs.io/
- 생산 라인 장비에 대한 총 소유 비용의 계산, accessed July 13, 2025, https://www.mt.com/kr/ko/home/library/white-papers/product-inspection/pi-total-cost-of-ownership.html
-
| 총소유비용(TCO)이란? |
퓨어스토리지 - Pure Storage, accessed July 13, 2025, https://www.purestorage.com/kr/knowledge/what-is-total-cost-of-ownership.html |
- The Ugly, Hidden and Underestimated Costs of Building an On-Premise HPC System, accessed July 13, 2025, https://rescale.com/blog/the-ugly-hidden-and-underestimated-costs-of-building-an-on-premise-hpc-system/
- On-Premise vs Cloud: Generative AI Total Cost of Ownership - Lenovo Press, accessed July 13, 2025, https://lenovopress.lenovo.com/lp2225.pdf
- Cloud AI vs. on-premises AI: Where should my organization run workloads? - Pluralsight, accessed July 13, 2025, https://www.pluralsight.com/resources/blog/ai-and-data/ai-on-premises-vs-in-cloud
- [조직 내 HPC구축 시 알아야 할 것 (2)] 조직 내 수요 조사 방법 - 클루닉스, accessed July 13, 2025, https://www.clunix.com/insight/it_trends.php?boardid=ittrend&mode=view&idx=729
- What a TCO analysis won’t tell you - awsstatic.com, accessed July 13, 2025, https://d1.awsstatic.com/HPC2019/The%20Economics%20of%20HPC%20White%20Paper%20Jun2019.pdf
- 서비스 소개 - ucloud HPC - 아롬정보기술, accessed July 13, 2025, https://www.aromit.com/portal/ktcloudportal.epc.productintro.hpc.info.html
-
| Google Cloud Platform (GCP) |
University Information Services, accessed July 13, 2025, https://uis.georgetown.edu/storage/google-cloud-platform/ |
- What is Better: AWS, Azure or Google Cloud? 2024 Comparison - UUUSoftware, accessed July 13, 2025, https://uuusoftware.com/blog/what-is-better-aws-azure-or-google-cloud-2024-comparison
- Cloud vs On-Prem LLMs: Long-Term Cost Analysis - Ghost, accessed July 13, 2025, https://latitude-blog.ghost.io/blog/cloud-vs-on-prem-llms-long-term-cost-analysis/
- On-Premise AI vs. Cloud AI: Making the Right Infrastructure Choice - InfraCloud, accessed July 13, 2025, https://www.infracloud.io/blogs/on-premise-ai-vs-cloud-ai/
- AWS vs. Google Cloud vs. Azure: A Detailed Breakdown - ProsperOps, accessed July 13, 2025, https://www.prosperops.com/blog/google-cloud-vs-aws-vs-azure/
- HPC Storage Costs On-Premises Vs Cloud - Red Oak Consulting, accessed July 13, 2025, https://www.redoakconsulting.co.uk/blog/hpc-storage-costs-on-premises-vs-cloud/
- HPC Workload Service – AWS Parallel Computing Service Pricing, accessed July 13, 2025, https://aws.amazon.com/pcs/pricing/
- AI AND HPC: CLOUD OR ON-PREMISES HOSTING - Moor Insights & Strategy, accessed July 13, 2025, https://www.moorinsightsstrategy.com/wp-content/uploads/2019/02/AI-And-HPC-Cloud-Or-On-Premises-Hosting-By-Moor-Insights-And-Strategy.pdf
- On-Premise vs Cloud: Generative AI Total Cost of Ownership - Lenovo Press, accessed July 13, 2025, https://lenovopress.lenovo.com/lp2225-on-premise-vs-cloud-generative-ai-total-cost-of-ownership
- [조직 내 HPC구축 시 알아야 할 것 ①] HPC 도입 방법 3단계 - 클루닉스, accessed July 13, 2025, https://www.clunix.com/insight/it_trends.php?boardid=ittrend&mode=view&idx=723
- 클라우드 HPC 플랫폼을 활용한 시뮬레이션 가속화 - Rescale, accessed July 13, 2025, https://www.rescale.com/is/blog/%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C-hpc-%ED%94%8C%EB%9E%AB%ED%8F%BC%EC%9D%84-%ED%99%9C%EC%9A%A9%ED%95%9C-%EC%8B%9C%EB%AE%AC%EB%A0%88%EC%9D%B4%EC%85%98-%EA%B0%80%EC%86%8D%ED%99%94/
-
| 워크로드란? |
용어 해설 |
HPE 대한민국, accessed July 13, 2025, https://www.hpe.com/kr/ko/what-is/workload.html |