구글 TPU Ironwood 기술 및 전략 심층 분석 보고서

구글 TPU Ironwood 기술 및 전략 심층 분석 보고서

2025-11-11, G25DR

서문: 본 보고서의 목적과 범위

본 보고서는 Google이 2025년 11월 공식 출시를 발표한 7세대 텐서 처리 장치(Tensor Processing Unit, TPU) ’아이언우드(Ironwood)’에 대한 기술적, 전략적 심층 분석을 제공한다. 아이언우드는 단순한 반도체 칩의 세대 교체를 넘어, AI 산업의 패러다임이 ’훈련(Training)’에서 ’추론(Inference)’으로 이동하는 변곡점을 겨냥한 Google의 전략적 산물이다.

분석의 범위는 아이언우드 칩 자체의 아키텍처(Architecture)와 핵심 성능 지표(Specification)를 시작으로, 수천 개의 칩이 결합된 ‘슈퍼포드(Superpod)’ 단위의 시스템 레벨 통합, 그리고 이러한 하드웨어의 성능을 극대화하는 ‘하드웨어-소프트웨어 공동 설계(Co-design)’ 스택에 이르기까지 전 영역을 포괄한다.

또한, 본 보고서는 아이언우드를 TPU v5p, TPU v6e(Trillium) 등 이전 세대 TPU는 물론, 엔비디아(Nvidia) Blackwell B200, AMD MI300X 등 동시대 경쟁사 플래그십 가속기와의 정량적, 정성적 비교를 통해 AI 가속기 시장 내에서의 경쟁 포지셔닝을 분석한다. 앤트로픽(Anthropic)을 비롯한 주요 고객 도입 사례와 Google 내부 활용 전략을 통해 아이언우드가 AI 시장에 미칠 영향을 전망한다.

보고서의 모든 분석은 2025년 11월 10일 시점까지 공개된 기술 자료, 공식 발표, 업계 분석 데이터를 기반으로 하며 1, 모든 기술 용어와 서술은 객관적 사실과 분석적 통찰을 명확하게 전달하는 것을 원칙으로 한다.

1. 서론: ’추론의 시대’와 7세대 TPU 아이언우드의 등장

1.1 7세대 TPU 아이언우드 공식화

Google은 2025년 4월 ‘Google Cloud Next 2025’ 행사를 통해 7세대 TPU인 ’아이언우드(Ironwood)’의 존재를 처음 공개했다.3 이는 2018년 TPU v3, 2021년 v4, 2023년 v5(v5e/v5p), 2024년 v6(Trillium)의 계보를 잇는 Google의 7번째 맞춤형 실리콘(ASIC, 주문형 반도체)이다.2

최초 공개 이후 약 7개월이 지난 2025년 11월 6일, Google Cloud는 아이언우드 TPU의 정식 출시(General Availability, GA)가 임박했음을 공식적으로 발표했다.1 이 발표는 아이언우드가 Google의 연구 단계를 넘어, 클라우드 고객을 대상으로 한 상용 서비스를 수 주 내로 개시함을 의미한다.3

아이언우드는 Google의 TPU 로드맵에서 단순한 성능 향상을 넘어선 전략적 변곡점에 위치한다. 이전 세대가 주로 ’대규모 훈련(Training)’에 초점을 맞췄다면, 아이언우드는 ’추론(Inference)’이라는 새로운 전장을 명확히 겨냥하고 있다.

1.2 시대적 배경: ’추론의 시대(Age of Inference)’의 도래

Google은 아이언우드를 발표하며 현 AI 산업의 패러다임을 ’추론의 시대(Age of Inference)’로 정의했다.1 이는 AI 모델을 개발하고 학습시키는 ‘훈련’ 단계의 중요성에서 벗어나, 이미 훈련된 거대 모델을 활용하여 실시간으로 서비스를 제공하고 상호작용하는 ‘추론’ 단계가 시장의 중심이 되었음을 선언한 것이다.1

과거의 AI 모델은 데이터를 기반으로 정보를 제공하고, 최종 해석과 판단은 인간이 수행하는 ’응답형 AI(responsive AI)’에 머물렀다.11 하지만 Gemini, Claude와 같은 프론티어 모델의 등장은 AI가 능동적으로 데이터를 생성하고, 복잡한 추론을 수행하며, 인간과 협업하여 통찰을 전달하는 ‘사고형(thinking)’, ’추론형(inferential) AI’로의 진화를 촉발시켰다.11

이러한 ’추론형 AI’와 AI 에이전트(AI agents)는 훈련과 달리, 대규모 사용자 기반의 실시간 요청에 대해 극도로 낮은 지연 시간(low-latency)과 높은 처리량(high-throughput)을 동시에 요구한다.1 아이언우드는 이러한 ’추론의 시대’가 요구하는 막대한 연산 수요를 감당하기 위해 *특정 목적에 맞게 설계(purpose-built)*된 최초의 TPU 세대로 규정된다.1

이러한 시대적 배경의 선언은 단순한 마케팅적 수사가 아닌, AI 서비스의 경제성(Economics)에 대한 근본적인 문제 제기이다. AI 모델의 ’훈련’은 막대한 일회성 자본 지출(CapEx)을 요구하지만, ’추론’은 서비스가 지속되는 한 끊임없이 발생하는 운영 비용(OpEx)이다.12 즉, AI 서비스의 상용화가 보편화될수록, 기업의 수익성은 훈련 비용이 아닌 ’추론 비용’에 의해 결정된다.

Google이 ’추론의 시대’를 선포한 것은, AI 서비스의 총소유비용(TCO, Total Cost of Ownership)을 낮추는 것이 시장의 핵심 경쟁력이 되었음을 의미한다. 아이언우드는 이 ’TCO 전쟁’에서 엔비디아의 고비용 GPU 플랫폼을 상대로 승리하기 위해 설계된 Google의 전략적 무기이다. Google Cloud가 GKE Inference Gateway를 통해 달성했다고 주장하는 ‘Time-to-First-Token(TTFT) 지연 시간 96% 감소’ 및 ‘서빙 비용 30% 절감’ 1 등의 구체적인 수치는, 아이언우드가 추론 TCO 절감이라는 명확한 목표를 가지고 설계되었음을 입증한다.

1.3 아이언우드의 전략적 위치: AI 하이퍼컴퓨터(AI Hypercomputer)

아이언우드는 개별 반도체 칩으로서만 존재하지 않는다. 이는 Google이 설계한 통합 AI 슈퍼컴퓨팅 시스템인 ’AI 하이퍼컴퓨터(AI Hypercomputer)’의 핵심 연산 유닛(compute component)이다.9

AI 하이퍼컴퓨터는 AI 워크로드를 처리하기 위해 하드웨어와 소프트웨어를 수직적으로 통합한 Google의 시스템 아키텍처다.11 이는 개별 구성 요소를 조립하는 방식이 아니라, 컴퓨팅(TPU, CPU), 네트워킹(ICI, OCS), 스토리지, 그리고 소프트웨어 스택(XLA, JAX, GKE 등)이 처음부터 하나의 시스템으로 공동 설계되어 시스템 전반의 성능과 효율을 극대화하는 것을 목표로 한다.9

특히 주목할 점은 아이언우드 TPU가 Arm 아키텍처 기반의 맞춤형 CPU ’액시온(Axion)’과 동시에 발표되었다는 사실이다.1 전통적인 AI 서버는 인텔(Intel)이나 AMD의 x86 CPU가 호스트(Host) 역할을 하고, 엔비디아 GPU가 가속기(Accelerator) 역할을 하는 ‘호스트-가속기’ 모델을 따른다. 하지만 ’AI 에이전트 워크플로우(agentic workflows)’와 같은 복잡한 추론 작업은, 범용 연산을 처리하는 CPU와 머신러닝 연산을 처리하는 TPU(가속기) 간의 이전보다 훨씬 긴밀한 조율과 데이터 교환을 요구한다.1

Google이 자체 개발한 Axion CPU와 Ironwood TPU를 ’AI 하이퍼컴퓨터’라는 단일 아키텍처로 통합한 것은, 기존 x86 CPU 호스트에 대한 의존성을 완전히 탈피하겠다는 선언이다. 이는 인텔과 엔비디아의 실리콘으로부터 독립된, 오직 ‘Google Silicon’ (Axion CPU + Ironwood TPU)으로만 구성된 완전한 수직 통합형 데이터센터 스택을 구축함을 의미한다. 따라서 ’AI 하이퍼컴퓨터’는 단순한 TPU 클러스터를 지칭하는 마케팅 용어가 아니라, Google의 데이터센터 하드웨어 주권을 상징하는 핵심 전략이다.

2. 아이언우드(TPU v7) 칩 레벨 아키텍처 심층 분석

아이언우드의 시스템 레벨 확장성을 이해하기에 앞서, 모든 연산의 기초가 되는 칩 단위의 아키텍처를 분석하는 것이 필수적이다. 아이언우드는 칩 레벨에서부터 이전 세대와는 구별되는, 명확한 설계 사상을 보여준다.

2.1 핵심 연산 유닛 및 아키텍처

Google TPU의 근본적인 아키텍처는 ’시스톨릭 어레이(Systolic Array)’에 기반한다.4 이는 GPU와 같은 범용 병렬 프로세서와 TPU(ASIC)를 구분 짓는 핵심적인 차이다. 전통적인 폰 노이만 아키텍처(CPU, GPU)가 연산 시마다 메모리에서 데이터를 가져오고 다시 저장하는 과정을 반복하며 ’폰 노이만 병목 현상’을 겪는 것과 달리 4, 시스톨릭 어레이는 데이터가 칩 내의 연산 유닛(Processing Element) 배열을 ‘심장의 박동처럼(systolic)’ 물결처럼 흐르며 순차적으로 통과하는 구조다.4

이 구조 하에서 데이터는 한 번의 메모리 로드(load) 이후 여러 연산 유닛에 재사용되며, 중간 결괏값을 메인 메모리에 다시 저장하지 않고 인접 유닛으로 즉시 전달한다.4 이는 AI 딥러닝의 핵심 연산인 ’행렬 곱셈(Matrix Multiplication, MatMul)’에서 극단적인 전력 효율과 연산 처리량을 달성하게 한다.

아이언우드(TPU v7) 칩은 이러한 시스톨릭 어레이의 효율을 극대화하기 위해 고도로 전문화된 하드웨어 유닛들로 구성된다.15

  • MXU (Matrix Multiply Unit): 시스톨릭 어레이의 핵심부로, 대규모 행렬 연산을 수행한다.
  • VPU (Vector Processing Unit): 활성화 함수(Activation functions), 정규화(Normalization) 등 행렬 연산 외의 요소별(element-wise) 연산을 처리하는 강력한 벡터 프로세서다.
  • SparseCores: 거대 언어 모델(LLM)이나 추천 모델(DLRM)에서 흔히 발견되는 희소(sparse) 데이터, 특히 임베딩 룩업(embedding lookups)을 효율적으로 처리하기 위한 전용 유닛이다.

이러한 전문화된 유닛들의 조합은 아이언우드가 범용성이 아닌, 오직 AI 워크로드(특히 트랜스포머 기반 LLM)를 처리하는 데 모든 리소스를 집중하도록 설계되었음을 보여준다.

2.2 연산 성능: 4.6 PFLOPS (FP8)

아이언우드 TPU 칩 1개는 4,614 TFLOPS(테라플롭스), 즉 4.6 PFLOPS(페타플롭스)의 연산 성능을 제공한다.2

여기서 주목해야 할 단위는 **FP8 (8비트 부동소수점)**이다. FP8은 32비트(FP32)나 16비트(BF16/FP16)보다 더 낮은 정밀도를 사용하지만, 거의 동일한 모델 정확도를 유지하면서도 연산 처리량을 2배 이상(BF16 대비) 늘리고 메모리 요구량을 절반으로 줄일 수 있다.21 이는 모델 훈련 후반부와 특히 ‘추론’ 워크로드에서 막대한 속도 향상과 비용 절감을 가능하게 한다. 아이언우드가 4.6 PFLOPS라는 압도적인 연산력을 FP8 기준으로 발표한 것은, 이 칩이 ’추론의 시대’에 최적화된 저-정밀도 고-처리량 연산을 핵심 목표로 삼았음을 명확히 한다.

2.3 메모리 아키텍처: ‘메모리 중심’ 설계

아이언우드 아키텍처의 가장 중대한 변화는 ’메모리’에 있다. 8는 아이언우드를 “메모리 중심의 미래(Memory-Centric Future)“라고 명명하며, AI 하드웨어의 발전 방향이 연산(Compute) 중심에서 메모리 중심으로 이동하고 있음을 시사했다. 이는 AI 모델의 파라미터 크기가 칩의 연산 능력보다 훨씬 빠르게 증가하여, 데이터를 연산 유닛에 공급하는 ’메모리 대역폭’과 모델 전체를 칩에 올리는 ’메모리 용량’이 AI 성능의 실질적인 병목이 되었기 때문이다.8

아이언우드는 이 ’메모리 장벽(Memory Wall)’을 해결하기 위해 현존하는 최상위 규격의 메모리를 채택했다.

  • 메모리 용량: 칩당 192GB의 HBM3E (High Bandwidth Memory 3E)를 탑재한다.2
  • 메모리 대역폭: 칩당 최대 7.37 TB/s 2 또는 7.4 TB/s 5에 달하는 초고대역폭을 제공한다..19

이 수치는 6세대 트릴리움(TPU v6e) 대비 메모리 용량은 6배, 메모리 대역폭은 4.5배 증가한 것이다.4 이는 아이언우드의 설계 철학이 단순한 FLOPS(연산 횟수)의 증가가 아니라, 연산 유닛(MXU)을 ’유휴 상태(idling)’로 두지 않고 끊임없이 데이터를 공급하여 칩의 실질적인 활용률을 극대화하는 데 있음을 보여준다.

2.4 전력 효율성 (Performance-per-Watt)

AI 모델의 연산량이 기하급수적으로 증가함에 따라, 이를 구동하는 데이터센터의 전력 소비와 환경적 영향은 심각한 문제로 대두되었다.8 훈련 비용이 수백만 달러에 달하는 상황에서, 절대적인 성능만큼이나 ’전력 효율성(와트당 성능)’은 AI 가속기의 핵심 경쟁력이 되었다.8

아이언우드는 이 측면에서 괄목할 만한 성과를 달성했다.

  • 6세대 트릴리움(TPU v6e) 대비 와트당 성능(전력 효율)이 2배 향상되었다.20
  • Google이 2018년 공개한 1세대 TPU 대비 30배 높은 에너지 효율을 달성했다.23

이는 TPU가 범용 GPU 대비 AI라는 특정 작업(ASIC)에 최적화되어 본질적으로 더 높은 전력 효율을 가짐을 25 다시 한번 증명하며, AI 서비스의 운영 비용(OpEx)과 TCO 절감에 직접적으로 기여하는 핵심 요소다.

2.5 [표 1] 아이언우드(TPU v7) 칩 레벨 핵심 기술 명

아이언우드 칩의 개별 성능을 정량화하고 경쟁 칩과 비교하기 위한 기준 데이터는 다음 표와 같다.

특성 (Feature)아이언우드 (TPU v7) 상세 명세출처 (Snippets)
세대 (Generation)7세대 (7th Generation)2
연산 성능 (Peak Performance)4,614 TFLOPS (FP8)2
메모리 용량 (Memory Capacity)192 GB HBM3E2
메모리 대역폭 (Memory Bandwidth)7.37 TB/s (또는 7.4 TB/s)2
칩 간 상호연결 (Inter-Chip Interconnect)9.6 Tbps (ICI)2
전력 효율 (vs. Trillium)2배 향상 (Perf/Watt)20
전력 효율 (vs. 1세대)30배 향상 (Perf/Watt)23

2.6 칩 레벨 아키텍처의 전략적 함의

아이언우드의 칩 레벨 아키텍처는 두 가지 중대한 전략적 변곡점을 시사한다.

첫째, Google TPU의 ‘FLOPS 적자’ 시대가 종식되었다. 5의 지적처럼, “역사적으로 Google의 TPU는 원시 FLOPS, 메모리 용량, 대역폭 측면에서 엔비디아 GPU와 비교할 때 창백했다”. Google의 경쟁력은 개별 칩 성능이 아닌, 수천 개를 묶는 ’시스템 확장성’에 있었다. 그러나 5의 데이터는 아이언우드가 이 구도를 완전히 뒤집었음을 보여준다. 아이언우드(4.6 PFLOPS, 192GB, 7.4 TB/s) 2는 동시대의 플래그십 경쟁자인 엔비디아 B200(4.5 PFLOPS, 192GB, 8 TB/s) 5과 비교할 때, 모든 핵심 사양에서 ‘동일한 수준(in the same ballpark)’ 5 또는 대등한 수준에 도달했다. 이는 Google이 더 이상 시스템 확장성에만 의존하지 않고, AI 가속기의 가장 기본적인 단위인 칩 단일 성능(raw spec) 경쟁에서도 엔비디아와 정면으로 맞설 수 있게 되었음을 의미하는 중대한 전략적 전환이다.

둘째, 192GB HBM은 추론 지연 시간(Latency)을 낮추기 위한 ’물리적 방어벽’이다. 8가 아이언우드를 ‘메모리 중심’ 설계로 규정한 이유가 여기에 있다. LLM 추론 워크로드는 메모리 대역폭 집약적인 ‘디코드(decode)’ 단계를 포함한다.15 ’Time-to-First-Token(TTFT)’으로 대표되는 추론의 응답 속도(latency)를 극단적으로 낮추기 위해서는, 모델 전체 파라미터와 사용자의 요청을 처리하기 위한 KV 캐시가 반드시 가속기 메모리(HBM)에 상주해야 한다. 만약 모델이 칩의 메모리 용량(예: 엔비디아 H100의 80GB 12)보다 크면, 모델을 여러 칩에 분산시켜야(모델 병렬화) 한다. 이 경우, 추론 요청 1개를 처리하기 위해 여러 칩 간의 통신(NVLink 등)이 발생하며, 이는 응답 속도에 치명적인 병목(bottleneck)을 유발한다.

아이언우드의 192GB HBM 2은 현존하는 대부분의 거대 LLM(예: 70B~100B+ 파라미터 모델)을 단일 칩에 로드할 수 있는 용량이다. 이는 다중 칩 통신 병목을 원천적으로 제거하여, ’단일 칩 서빙(single-chip serving)’을 가능하게 한다. 따라서 아이언우드의 192GB HBM은 ’더 많은 용량’이라는 단순한 스펙 향상이 아니라, 추론 TCO 경쟁에서 승리하기 위한 ‘초저지연(ultra-low latency)’ 달성이라는 핵심 전략을 물리적으로 구현한 ’방어벽’으로 해석해야 한다. Google이 주장하는 96%의 TTFT 지연 시간 감소 1는 이러한 아키텍처 설계에 기반한다.

3. 시스템 레벨 아키텍처: 9,216칩 슈퍼포드(Superpod)

Google TPU 전략의 핵심은 개별 칩 성능이 아닌, 수천 개의 칩을 마치 하나의 거대한 컴퓨터처럼 작동하게 하는 ’시스템 레벨 확장성(System-Level Scalability)’에 있다. 아이언우드는 이 철학을 극단까지 밀어붙인 결과물이다.

3.1 시스템 확장성 (Scalability): 9,216-Chip Superpod

아이언우드 TPU는 개별 판매가 아닌, Google Cloud 내에서 ‘포드(Pod)’ 아키텍처를 통해 대규모 클러스터로 제공된다.7 아이언우드는 단일 ‘슈퍼포드(Superpod)’ 단위로 최대 9,216개의 칩을 통합할 수 있다.2

이처럼 9,000개가 넘는 고성능 가속기를 단일 시스템으로 묶는 것은 막대한 발열과 데이터 통신을 수반한다. 따라서 아이언우드 슈퍼포드는 고밀도 집적을 위해 Google이 맞춤 설계한 액체 냉각 시스템(liquid-cooled system)을 기반으로 작동한다.11

3.2 슈퍼포드 시스템 총 성능

9,216개의 칩이 하나의 시스템으로 통합될 때의 총 성능은 다음과 같다.

  • 총 연산 성능: 9,216개의 칩(칩당 4.6 PFLOPS FP8)을 통합하여, 단일 슈퍼포드는 총 **42.5 ExaFLOPS (FP8)**라는 경이적인 연산력을 제공한다.2 (참고: 9,216 \times 4.614 \approx 42,534 PFLOPS = 42.5 EF)
  • 총 HBM 용량: 시스템 전체의 총 HBM(High Bandwidth Memory) 용량은 **1.77 Petabytes (PB)**에 달한다.27 (참고: 9,216 \text{ 칩} \times 192 \text{ GB/칩} \approx 1.77 \text{ PB}). 이는 1.77PB의 메모리를 가진 ’단일 컴퓨터’처럼 작동하도록 설계되었음을 시사한다.

3.3 상호연결(Interconnect) 기술 분석

9,216개의 칩이 42.5 ExaFLOPS의 성능을 내기 위해서는, 칩 간의 데이터 교환이 병목이 되지 않도록 하는 상호연결(Interconnect) 기술이 칩 자체의 성능보다 더 중요하다. 아이언우드 슈퍼포드는 이를 위해 다계층의 독점 네트워킹 기술을 사용한다.

  1. ICI (Inter-Chip Interconnect): 칩-투-칩 연결

ICI는 칩과 칩을 직접 연결하는 Google의 독점 고속 상호연결 기술이다.2 아이언우드 칩은 칩당 9.6 Tbps(테라비트)의 집계 양방향 대역폭을 제공하는 ICI 링크를 갖추고 있다.2 이 초고속 링크는 슈퍼포드 내 수천 개 칩 간의 고속 데이터 교환을 보장하며, 훈련 및 추론 시 발생하는 데이터 병목 현상을 제거하는 것을 목표로 한다.3

  1. 큐브(Cube)와 3D Torus: 랙 스케일 연결

아이언우드 슈퍼포드의 기본 빌딩 블록은 4개의 TPU 칩을 탑재한 물리적 호스트(host)로 시작한다.15 이러한 호스트들이 모여, 단일 랙(rack)은 64개의 아이언우드 칩으로 구성된 ’큐브(Cube)’를 형성한다.15

이 64개 칩의 ‘큐브’ 내부에서, 칩들은 ICI 링크를 통해 매우 조밀하고 직접적인 ‘3D Torus’ 토폴로지(Topology, 연결망 구조)로 연결된다.15 3D Torus는 각 칩이 3차원 격자상에서 6개의 인접 칩(x, y, z의 양방향)과 직접 통신하는 구조로, 큐브 내에서 분산 작업을 수행할 때 극도로 낮은 지연 시간(low latency)과 대규모 대역폭을 보장한다.

  1. OCS (Optical Circuit Switching): 포드 스케일 연결

9,216개의 칩(즉, 144개의 큐브: 9216 \div 64 = 144)을 연결하기 위해, 아이언우드는 ’큐브’와 ‘큐브’ 사이를 연결하는 기술로 **OCS (Optical Circuit Switching)**를 사용한다.15 OCS는 전통적인 이더넷 스위치나 인피니밴드 스위치와 근본적으로 다르다.

OCS는 데이터를 패킷(packet)으로 쪼개 스위치가 경로를 찾는 방식(packet switching)이 아니라, 물리적인 광학 회로(optical circuit)를 동적으로, 그리고 직접적으로 연결하는 ‘회선 교환(circuit switching)’ 방식의 광학 네트워크다.1527에 따르면, OCS는 네트워크 장애 발생 시에도 실시간 복구를 지원한다.

3.4 [표 2] 아이언우드 슈퍼포드 시스템 아키텍처

아이언우드 슈퍼포드의 시스템 수준 아키텍처를 요약하면 다음 표와 같다.

특성 (Feature)아이언우드 슈퍼포드 (9,216 칩 기준)출처 (Snippets)
최대 칩 수 (Max Chips)9,2162
총 연산 성능 (Total Compute)42.5 ExaFLOPS (FP8)2
총 HBM 용량 (Total HBM)1.77 Petabytes (PB)2
칩 간 연결 (Chip-to-Chip)9.6 Tbps ICI (칩당)2
시스템 빌딩 블록 (Building Block)64-칩 ‘큐브’ (Cube)15
큐브 내 토폴로지 (Intra-Cube)3D Torus (via ICI)15
큐브 간 토폴로지 (Inter-Cube)OCS (Optical Circuit Switching)15
냉각 방식 (Cooling)액체 냉각 (Liquid Cooling)11

3.5 시스템 레벨 아키텍처의 전략적 함의

아이언우드의 시스템 아키텍처는 Google의 하이퍼스케일(Hyperscale) 엔지니어링 역량이 집약된 결과이며, 두 가지 핵심적인 전략적 우위를 제공한다.

첫째, OCS의 채택은 ’성능’이 아닌 ’안정성’과 ’활용률’을 위한 핵심 설계다. 9,216개의 칩으로 구성된 거대한 시스템에서 훈련 작업을 수행할 때, 단 하나의 칩이나 링크가 실패(fail)하더라도 수일간의 훈련 작업 전체가 중단될 수 있다. 즉, 시스템이 커질수록 결함 허용(fault tolerance)은 성능보다 더 치명적인 문제가 된다. Google이 OCS를 채택한 이유는 최대 속도(bandwidth)가 아니라, 시스템의 ’안정성’과 ’활용률(utilization)’을 극대화하기 위함이다. 27과 15가 명시하듯, OCS는 ‘장애 시 실시간 복구’ 및 ’실패한 유닛을 광학적으로 우회(optically bypass)’하는 기능을 제공한다.

이는 Google Cloud가 9,216개의 칩 중 일부에 장애가 발생하더라도, OCS가 실시간으로 해당 유닛을 피해 ‘가장 건강한(healthy)’ 칩들로만 구성된 새로운 광학 회로 토폴로지를 동적으로 재구성(reconfigure)할 수 있음을 의미한다.15 이 능력은 비싼 가속기(TPU)가 장애로 인해 유휴 상태(idle time)에 빠지는 것을 최소화하고, 클라우드 고객에게 중단 없는 서비스 수준 협약(SLA)을 보장하는, Google Cloud의 핵심적인 운영 경쟁력이다.

둘째, ’1.77 PB 공유 HBM’은 Google의 ‘Pathways’ 아키텍처가 물리적으로 구현된 것이다. 28와 41은 슈퍼포드의 1.77PB 메모리를 ’공유(shared) HBM’이라고 명명한다. 하지만 2에서 보았듯이, 이 메모리는 물리적으로 9,216개의 칩에 ’분산(distributed)’되어 있다. 분산된 메모리가 마치 ‘공유된’ 것처럼 작동하려면, 칩 간 상호연결(ICI)이 극도로 빨라서 다른 칩의 메모리(remote memory)에 접근하는 것이 마치 내 칩의 메모리(local memory)에 접근하는 것처럼 지연 시간이 짧아야 한다. 아이언우드의 9.6 Tbps ICI와 3D Torus 큐브가 바로 이 물리적 기반을 제공한다.

11는 아이언우드에서 Google의 ’Pathways 소프트웨어 스택’을 활용한다고 언급한다. ’Pathways’는 거대 모델(특히 MoE 모델 17)을 효율적으로 처리하기 위해 Google이 제안한 소프트웨어 아키텍처로, 모델의 다른 부분(예: MoE의 각기 다른 전문가)이 서로 다른 가속기에서 독립적으로 실행되면서도 필요할 때 효율적으로 통신하는 것을 목표로 한다. 즉, 아이언우드 슈퍼포드(9,216개 칩, 1.77PB HBM)는 ’Pathways’라는 소프트웨어 스택을 통해, 마치 하나의 거대한 메모리 풀과 수천 개의 코어를 가진 단일 컴퓨터처럼 작동하도록 설계된 것이다. 이는 수백, 수천 개의 개별 컴퓨터를 인피니밴드 네트워크로 묶는(scale-out) 엔비디아의 DGX 클러스터 접근 방식과는 근본적으로 다른, ‘초거대 단일 시스템(scale-up)’ 접근 방식이며, Google의 아키텍처가 갖는 본질적인 차별점이다.

4. 성능 벤치마크 및 경쟁 환경 분석

아이언우드의 아키텍처는 이전 세대 및 경쟁사와 비교할 때 명확한 성능적 도약을 보여준다.

4.1 세대 간 성능 비교 (Generational Leap)

아이언우드는 Google TPU 역사상 가장 극적인 성능 향상을 기록했다.

  • vs. TPU v5p: 5세대 고성능 모델인 TPU v5p 대비 *최대 10배(10X)*의 피크 성능 향상을 제공한다.1
  • vs. TPU v6e (Trillium): 6세대 TPU인 트릴리움(v6e) 대비 칩당 4배(4X) 향상된 성능을 제공한다.1
  • 효율성: 트릴리움(v6e) 대비 *2배(2X)*의 와트당 성능(전력 효율)을 달성했다.20

이러한 10배, 4배의 비약적인 ‘성능’ 향상은, 섹션 II에서 분석했듯이 순수한 연산 유닛(FLOPS)의 증가만으로는 설명되지 않는다. 4과 22는 6세대 트릴리움 대비 메모리 용량이 6배, 메모리 대역폭이 4.5배 증가했음을 동시에 언급한다. 이는 이전 세대인 v5p와 v6e가 연산 유닛은 충분했음에도 불구하고, HBM 용량과 대역폭이 부족하여 연산 유닛을 100% 활용하지 못하는 메모리 병목에 시달렸음을 강력하게 시사한다.

따라서 아이언우드의 10배/4배 ‘성능’ 향상은, 연산 유닛(MXU)을 10배/4배 늘린 결과가 아니라, HBM(192GB, 7.4TB/s)을 6배/4.5배 늘려 데이터 공급 파이프라인을 확보함으로써, 기존에 유휴 상태(idling)였던 TPU의 연산 유닛을 100%에 가깝게 ’포화(saturate)’시킬 수 있게 된 시스템 효율화의 결과로 해석하는 것이 타당하다.

4.2 경쟁사 플래그십 칩과의 비교

아이언우드는 Google Cloud 내부용을 넘어, 엔비디아와 AMD의 최신 플래그십 가속기들과 직접 경쟁한다.

  • vs. 엔비디아(Nvidia) B200 (Blackwell):
  • 아이언우드는 엔비디아의 차세대 플래그십 B200과 칩 레벨에서 사실상 대등한(on-par) 사양을 갖춘다.5
  • 연산력: Ironwood (4.6 PFLOPS FP8) 20 vs. B200 (4.5 PFLOPS FP8).5
  • 메모리: Ironwood (192GB HBM3E, ~7.4 TB/s) 2 vs. B200 (192GB HBM, ~8.0 TB/s).5
  • 상호연결: Ironwood (9.6 Tbps ICI) 2 vs. B200 (14.4 Tbps NVLink).5 칩 간 대역폭은 B200이 소폭 우세하나, 이는 칩 2개를 단일 유닛으로 묶는 엔비디아의 설계에 기인하며, 9,216개를 묶는 Google의 ICI와는 시스템 구성 철학이 달라 직접 비교가 어렵다.
  • vs. 엔비디아(Nvidia) H100 (Hopper):
  • 아이언우드는 현 시장의 지배자인 H100을 모든 핵심 지표에서 압도한다.12
  • 메모리: Ironwood (192GB) vs. H100 (80GB).12
  • 대역폭: Ironwood (~7.2 TB/s) vs. H100 (~3.35 TB/s).12
  • 이는 H100 기반 시스템 대비 압도적인 추론 성능과 TCO 우위를 점하려는 Google의 명확한 목표를 보여준다.34
  • vs. AMD Instinct MI300X:
  • AMD의 플래그십 MI300 시리즈와 비교해도 아이언우드는 강력한 우위를 점한다.36
  • 연산력: Ironwood (4.6 PFLOPS FP8)는 MI300A (1.96 PFLOPS FP8) 대비 2배 이상의 연산력을 제공한다.19
  • 메모리: Ironwood (192GB)는 MI300X (192GB)와 동일한 수준의 용량을 제공하며, MI300A (128GB)보다는 우위에 있다.19

4.3 시스템 레벨(Pod) 경쟁력

칩 레벨에서의 경쟁이 대등해짐에 따라, Google은 경쟁의 장을 ’시스템 레벨’로 옮기고 있다.

Google은 9,216개 칩으로 구성된 아이언우드 슈퍼포드(42.5 EF FP8)가 엔비디아의 GB300 NVL72 시스템(72개 칩으로 구성된 랙 스케일 솔루션, 0.36 EF FP8)의 FP8 성능을 “훨씬 능가한다(vastly surpass)“고 주장한다.2

또한, 아이언우드 포드(42.5 EF)가 현재 세계에서 가장 빠른 슈퍼컴퓨터인 ‘El Capitan’(AMD MI300A 기반, 1.7 EF FP64)의 24배에 달하는 연산력을 제공한다고 비교한다.22

이러한 비교는 Google의 의도적인 ‘프레이밍(Framing)’ 전략을 보여준다. 36의 지적처럼, NVL72와의 비교는 9,216칩 ’클러스터’와 72칩 ’랙’의 비교이며, El Capitan과의 비교는 AI용 저정밀도(FP8)와 과학 계산용 고정밀도(FP64)의 비교다. 둘 다 기술적으로 ’사과와 오렌지’를 비교하는 것과 같다.

Google이 이처럼 ‘불공정한’ 비교를 하는 이유는 명확하다. 섹션 IV-B에서 확인했듯이, 칩-대-칩(vs B200) 경쟁은 대등해졌다. 따라서 Google은 경쟁의 장을 자신들의 압도적 우위 영역인 ’시스템 확장성’으로 옮기려 하는 것이다. Google의 메시지는 “우리 칩 성능은 엔비디아와 동등해졌다. 이제 수천, 수만 개의 칩을 하나의 시스템으로 묶는 기술로 경쟁하자“이며, 이는 엔비디아가 쉽게 따라올 수 없는 Google의 하이퍼스케일 홈그라운드다. 아이언우드의 진정한 경쟁력은 4.6 PFLOPS 칩이 아니라, 42.5 ExaFLOPS 시스템이다.

4.4 [표 3] Google TPU 세대별 성능 비교 (v5p, v6e, v7)

아이언우드(TPU v7)의 기술적 도약 수준을 이전 세대와 정량적으로 비교하면 다음과 같다.

비교 대상아이언우드 (TPU v7) 대비 성능주요 개선 항목출처
TPU v5pv7이 10배 피크 성능 우위피크 연산력 (Peak Perf)1
TPU v6e (Trillium)v7이 4배 칩당 성능 우위칩당 연산력 (Perf/Chip)1
TPU v6e (Trillium)v7이 2배 전력 효율 우위와트당 성능 (Perf/Watt)20
TPU v6e (Trillium)v7이 6배 메모리 용량 우위칩당 HBM (GB)4
TPU v6e (Trillium)v7이 4.5배 대역폭 우위메모리 대역폭 (TB/s)4

4.5 [표 4] 주요 AI 가속기 플래그십 비교 (2025년 기준)

2025년 AI 하드웨어 시장의 최상위 경쟁 구도를 칩 레벨에서 비교하면 다음과 같다.

항목Google Ironwood (TPU v7)Nvidia B200 (Blackwell)AMD MI300XNvidia H100 (Hopper)
아키텍처ASIC (Systolic Array)GPU (CUDA Core)GPU (CDNA 3)GPU (CUDA Core)
연산력 (FP8)4.6 PFLOPS4.5 PFLOPS~1.9 PFLOPS (MI300A)~1.9 PFLOPS (Sparsity)
메모리 용량192 GB HBM3E192 GB HBM3E192 GB HBM380 GB HBM3
메모리 대역폭~7.4 TB/s~8.0 TB/s5.3 TB/s3.35 TB/s
칩 간 연결9.6 Tbps (ICI)14.4 Tbps (NVLink 5)(Infinity Fabric)7.2 Tbps (NVLink 4)
시스템 확장성9,216 칩 (Superpod)72 칩 (NVL72)(Multi-GPU)(DGX Cluster)
출처251912

5. 하드웨어-소프트웨어 공동 설계(Co-Design) 스택

아이언우드의 42.5 ExaFLOPS 하드웨어 성능은 그 자체로 의미가 있으나, 이 잠재력을 100% 이끌어내는 것은 소프트웨어 스택의 역할이다. Google TPU의 핵심 경쟁력은 ‘하드웨어-소프트웨어 공동 설계(Co-design)’ 철학에 있다.15

5.1 공동 설계 철학: XLA 컴파일러

아이언우드 성능의 핵심에는 XLA (Accelerated Linear Algebra) 컴파일러가 있다.15 엔비디아 GPU가 개발자가 저수준(low-level) 언어인 ’CUDA’를 통해 직접 하드웨어를 제어하는 ‘개발자 중심’ 모델이라면, TPU는 ‘컴파일러 중심’ 모델을 따른다.

개발자가 JAX, PyTorch, TensorFlow와 같은 고수준(high-level) 프레임워크로 AI 모델을 작성하면, XLA 컴파일러가 이 코드를 분석하여 아이언우드 하드웨어(MXU, VPU)에 가장 최적화된 머신 코드로 컴파일한다.15 XLA는 여러 연산을 하나로 ’융합(fusing)’하고, 메모리 접근을 최적화하며, 시스톨릭 어레이의 데이터 흐름을 자동으로 관리한다.15

이 접근 방식은 개발자가 하드웨어의 복잡성을 직접 다루지 않고도(CUDA 프로그래밍 없이) 최적의 성능을 얻을 수 있게 한다.37

5.2 JAX 생태계: 고성능 훈련 및 커스터마이징

JAX는 TPU 아키텍처와 처음부터 공동 설계된, Google의 네이티브(native) 고성능 컴퓨팅 라이브러리다.15 JAX는 jit (Just-in-Time 컴파일), grad (자동 미분), shard_map (병렬 처리)과 같은 강력한 기능을 통해 TPU 슈퍼포드 전체에 걸쳐 모델을 효율적으로 분산시키고 훈련시킨다.15

  • MaxText: JAX를 기반으로 하는 고성능 오픈소스 LLM 훈련 프레임워크다.15 Google은 MaxText를 통해 SFT(Supervised Fine-Tuning), GRPO(Group Relative Policy Optimization)와 같은 최신 훈련 기법을 아이언우드에서 손쉽게 구현할 수 있도록 지원한다.15
  • Pallas: Google의 소프트웨어 스택 중 가장 주목해야 할 기술이다. Pallas는 Python에 내장된 JAX 네이티브 ’커널 프로그래밍 언어’다.15

엔비디아 생태계에서 ’새로운 어텐션 메커니즘’과 같은 혁신을 구현하려면, 전문 엔지니어가 C++ 기반의 CUDA를 사용해 저수준 하드웨어 커널을 직접 작성해야 한다. 이는 극도의 성능을 보장하지만 개발이 어렵고 특정 GPU 아키텍처(예: Hopper)에 종속된다.

Pallas는 이에 대한 Google의 답변이다. Pallas를 사용하면 개발자가 복잡한 CUDA C++ 대신, 익숙한 Python/JAX 수준에서 알고리즘의 로직(예: ’새로운 어텐션’의 데이터 흐름)을 정의할 수 있다.15 그러면 ’Mosaic’라는 컴파일러 백엔드가 이 Pallas 정의를 받아, 아이언우드 하드웨어에 맞춰 최적의 타일링(tiling), 메모리 파이프라이닝, 연산자 융합을 자동으로 수행하는 머신 코드를 생성한다.15

이는 개발자가 저수준 하드웨어에 대한 지식 없이도, 고수준 언어로 ‘맞춤형 CUDA 커널’ 수준의 성능을 달성할 수 있음을 의미한다. 이는 CUDA 대비 압도적으로 높은 개발자 생산성을 제공하며, 하드웨어가 (예: Ironwood에서 TPU v8로) 바뀌더라도 코드를 재작성할 필요 없이 컴파일러(Mosaic)만 업데이트하면 되는 이식성(portability)까지 보장한다. Pallas는 ‘컴파일러가 전문 CUDA 엔지니어의 역할을 대신하는’ Google 공동 설계 철학의 정점이다.

5.3 PyTorch 및 vLLM 지원: 추론 생태계 확장

과거 TPU의 가장 큰 약점은 JAX에 편중된, 폐쇄적인 소프트웨어 생태계였다. 40이 지적하듯, 대부분의 AI 개발자는 엔비디아의 CUDA와 PyTorch에 익숙하며, JAX를 새로 배우는 것은 막대한 ’전환 비용(switching cost)’이자 ’벤더 종속(vendor lock-in)’에 대한 두려움을 유발했다.

Google은 아이언우드 출시와 함께 이 장벽을 허물기 위한 ‘트로이 목마(Trojan Horse)’ 전략을 구사한다. Google은 JAX 생태계를 강요하는 대신, 엔비디아의 생태계를 그대로 수용하는 전략을 선택했다.

  • PyTorch 네이티브 지원: ’네이티브 이커 모드(native eager mode)’와 torch.compile을 지원하여 PyTorch 사용자가 최소한의 코드 변경으로 아이언우드의 성능을 활용할 수 있도록 지원한다.15
  • vLLM 공식 지원: AI 추론 엔진의 사실상 표준(de facto standard)인 vLLM을 TPU에서 공식 지원한다.1

1는 GPU와 TPU 간의 전환에 “사소한 설정 변경(only a few minor configuration changes)“만 필요하다고 강조한다. 이는 개발자가 익숙한 PyTorch와 vLLM이라는 ’도구’를 그대로 사용하면서, 그 밑단의 하드웨어만 엔비디아 GPU에서 Google TPU로 바꿀 수 있음을 의미한다. 이 전략은 개발자의 ’전환 비용’을 0에 가깝게 낮춰, 엔비디아의 가장 강력한 무기인 ’CUDA 소프트웨어 해자(moat)’를 내부에서부터 무력화시키는 것을 목표로 한다.

5.4 GKE 통합 및 추론 게이트웨이

이 모든 소프트웨어 스택은 Google의 컨테이너 오케스트레이션 플랫폼인 GKE(Google Kubernetes Engine)를 통해 서비스로 제공된다.

  • GKE 클러스터 디렉터(Cluster Director): TPU 플릿(fleet)의 효율성, 지능형 스케줄링, 복원력(resilience)을 향상시킨다.28
  • GKE Inference Gateway: 추론 워크로드를 TPU 서버 간에 지능적으로 부하 분산(load balancing)한다.1

특히 ’추론 게이트웨이’는 아이언우드의 TCO 경쟁력을 완성하는 핵심 서비스다. Google은 이를 통해 첫 번째 토큰이 생성되기까지의 시간(TTFT)을 최대 96% 줄이고, 전체 서빙 비용을 최대 30% 절감할 수 있다고 주장한다.1

6. 주요 활용 사례(Use Cases) 및 시장 영향

아이언우드의 아키텍처는 명확한 대상 워크로드와 핵심 고객을 겨냥하고 있다.

6.1 핵심 대상 워크로드

아이언우드는 다음과 같은 고-사양 AI 워크로드 처리에 특화되어 설계되었다.

  • 대규모 모델 훈련: 거대 언어 모델(LLM), 전문가 혼합(MoE) 모델, 멀티모달(Multi-modal) 모델 등 수천 개의 가속기를 동원해야 하는 대규모 파운데이션 모델 훈련.3
  • 복잡한 강화 학습(RL): AI 에이전트 개발 등에 필요한 복잡한 강화 학습(Reinforcement Learning) 워크로드.14
  • 대용량/저지연 추론: 아이언우드의 핵심 전장이다. 수백만 명의 사용자에게 실시간 챗봇, AI 에이전트, 생성형 AI 서비스를 제공하기 위한 대용량(high-volume), 초저지연(low-latency) 추론 및 모델 서빙.1

6.2 주요 고객 도입 사례: 앤트로픽(Anthropic) 확보

아이언우드의 출시와 함께 발표된 가장 상징적인 고객은 OpenAI의 유일한 대항마로 평가받는 ‘클로드(Claude)’ 모델의 개발사, **앤트로픽(Anthropic)**이다.1

앤트로픽은 클로드 모델의 훈련 및 서빙을 위해 Google Cloud TPU를 핵심 인프라로 사용하고 있으며 9, 아이언우드의 향상된 추론 성능과 훈련 확장성에 대한 높은 기대감을 표명했다.1

특히 주목할 점은 계약의 규모다. 앤트로픽은 Google과 수년간 수십억 달러 규모의 계약을 맺었으며, 이 계약에는 최대 100만 개의 TPU 사용권이 포함되어 있다.4

이 ’100만 TPU 계약’은 단순한 클라우드 고객 유치 이상의 전략적 의미를 갖는다. 현재 AI 시장은 ’Microsoft + OpenAI(GPT 모델) + Nvidia(CUDA 인프라)’로 이어지는 강력한 제1 동맹이 주도하고 있다. Google이 앤트로픽(Claude 모델)을 TPU(비-CUDA 인프라) 생태계로 끌어들인 것은, 이 제1 동맹에 대항하는 ’Google + Anthropic + TPU’라는 강력한 ’제2 동맹’을 결성했음을 의미한다. 100만 개라는 숫자는 이 동맹의 규모와 구속력을 상징하며, AI 시장이 두 개의 거대 동맹으로 양분되는 신호탄이다.

6.3 기타 고객 및 Google 내부 활용

앤트로픽 외에도 Lightricks(멀티모달 생성 모델 LTX-2 훈련), Essential AI 등 다수의 AI 스타트업이 아이언우드를 테스트 및 도입하고 있다.1 국내에서는 LG AI연구원(엑사원 모델)과 카카오(Kanana 모델) 등이 Google Cloud의 TPU 및 GPU 인프라를 활용하여 자체 모델을 구축한 사례가 있다.4

하지만 아이언우드의 가장 중요하고 까다로운 첫 번째 고객은 Google 자신이다. Google은 자사의 프론티어 모델인 Gemini, 비디오 생성 모델 Veo, 이미지 생성 모델 Imagen 등 모든 핵심 AI 서비스의 훈련 및 서빙에 아이언우드를 전면적으로 활용한다.1

이러한 내부 활용, 즉 ’도그푸딩(Dogfooding)’은 엔비디아와 같은 외부 칩 제조사가 가질 수 없는 Google만의 비대칭적 R&D 우위를 제공한다. 엔비디아는 OpenAI나 앤트로픽의 요구사항을 ’예측’하여 다음 세대 GPU(예: B200)를 설계해야 한다. 반면 Google의 Gemini 개발팀은 차세대 모델(예: Gemini 2.5)에 필요한 하드웨어 요구사항(예: “FP8 지원이 필수적이다”, “192GB HBM이 필요하다”)을 TPU 하드웨어팀에 직접 전달한다.

이 긴밀한 ‘공동 설계(Co-design)’ 피드백 루프 15는 엔비디아가 외부 고객을 통해 얻는 피드백보다 훨씬 빠르고 정확하다. 즉, 아이언우드는 ’Gemini’를 만들기 위한 완벽한 맞춤형 하드웨어이며, 앤트로픽 1과 같은 외부 클라우드 고객은 Google 내부의 치열한 ’도그푸딩’을 통해 검증되고 완성된 최적의 하드웨어를 사용하는 혜택을 누리게 된다.

7. 종합 평가 및 결론: AI 가속기 시장의 미래

Google의 7세대 TPU 아이언우드는 AI 가속기 시장의 판도를 바꿀 잠재력을 지닌, 기술적 및 전략적 분기점이다.

7.1 엔비디아 독점에 대한 도전

아이언우드의 등장은 엔비디아가 80% 이상을 독점하고 있는 AI 칩 시장 4에 대한 역사상 가장 강력하고 직접적인 도전이다.20

ASIC(주문형 반도체)인 TPU는 범용 GPU(엔비디아) 대비 AI라는 특정 워크로드에서 더 높은 전력 효율성과 비용 효율성을 갖는다는 본질적 이점을 가진다.25 과거 TPU는 이 ’효율성’의 대가로 ’절대 성능(FLOPS, HBM)’에서 엔비디아에 뒤처졌으나, 본 보고서의 [표 4]에서 분석했듯이 아이언우드는 엔비디아 B200과 칩 레벨에서 대등한 성능을 입증했다.5

이는 Google이 엔비디아를 상대로 ’칩 성능’에서는 대등함을, ‘시스템 확장성’(9,216칩 슈퍼포드)과 ‘TCO’(전력 효율, 추론 비용 30% 절감)에서는 우위를 주장할 수 있게 되었음을 의미한다.

7.2 ‘개방형 생태계’ vs. ‘수직 통합형’ 경쟁

아이언우드는 AI 시장의 경쟁 구도를 근본적으로 재편한다.

  • 엔비디아: ’칩(Product)’을 판매한다. 엔비디아의 비즈니스 모델은 B200, GB200과 같은 하드웨어를 AWS, Google, MS, Dell 등 모든 고객에게 판매하는 것이다. 이 생태계는 ’CUDA’라는 개방형(그러나 종속적인) 소프트웨어 표준을 중심으로 움직인다.
  • Google: ’접근(Access)’을 판매한다. Google은 아이언우드 칩을 외부에 판매하지 않는다.22 대신, 오직 Google Cloud Platform(GCP)을 통해서만 아이언우드 *시스템(AI 하이퍼컴퓨터)*에 접근할 수 있도록 *임대(rent)*한다.

이는 AI 인프라 시장이 ’개방형 시장(Open Market)’과 ’폐쇄형 정원(Walled Garden)’이라는 두 개의 양립 불가능한 표준으로 분열되고 있음을 시사한다. AI 개발자와 기업들은 이제 중대한 전략적 선택에 직면한다. ‘CUDA’ 표준을 따르는, 어디서나 구매 가능하고 유연한 엔비디아의 길을 택할 것인가? 아니면 ’GCP’라는 단일 벤더의 폐쇄적인 생태계에 종속되지만, 아이언우드가 제공하는 완벽한 수직 통합과 잠재적으로 더 낮은 TCO를 택할 것인가?

7.3 AI 하드웨어의 미래: 메모리 중심, 효율성, 그리고 ASIC

아이언우드의 아키텍처는 AI 하드웨어의 미래가 ‘무조건적인 FLOPS’ 경쟁이 아닌, 두 가지 다른 방향으로 이동하고 있음을 명확히 보여준다.

  1. 메모리 중심 설계 (Memory-centric): 연산 속도보다 모델을 담는 ’용량’과 데이터를 공급하는 ’대역폭’이 더 중요해졌다.8
  2. 전력 효율성 (Performance-per-Watt): 기하급수적으로 증가하는 AI 비용(TCO)을 통제하는 것이 핵심 경쟁력이다.8

아이언우드의 성공은 범용 GPU(엔비디아)가 AI 시대의 유일한 해답이 아니며, 아이언우드(TPU)나 AWS Trainium/Inferentia와 같이 특정 목적(AI)에 고도로 최적화된 ASIC이, XLA와 같은 강력한 공동 설계 소프트웨어 스택과 결합될 때, 범용 GPU보다 훨씬 우월한 TCO를 제공할 수 있음을 증명한다.26

결론적으로, Google이 아이언우드를 개발하는 궁극적인 목표는 엔비디아처럼 칩을 팔아 수익을 내는 것이 아니다. Google에게 아이언우드는 ’제품(Product)’이 아니라 ’수단(Means to an end)’이다.

이 수단이 추구하는 목적은 두 가지다. 첫째, Gemini, 검색, YouTube 등 Google 자사 서비스를 구동하는 데 드는 막대한 인프라 TCO를 절감하는 것.1 둘째, 앤트로픽과 같은 AI 프론티어 기업들을 Google Cloud Platform 생태계로 유치하여 9, AI 시대의 ’수도, 전기’와 같은 핵심 인프라 플랫폼 사업자가 되는 것이다. 엔비디아는 ’AI 칩’을 팔지만, Google은 아이언우드를 통해 ‘AI 공장’ 그 자체를 제공하려 한다. 이 근본적인 비즈니스 모델의 차이가 두 거인의 장기 전략을 결정할 것이다.

8. 참고 자료

  1. Ironwood TPUs and new Axion-based VMs for your AI workloads …, https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads
  2. Google deploys new Axion CPUs and seventh-gen Ironwood TPU — training and inferencing pods beat Nvidia GB300 and shape ‘AI Hypercomputer’ model, https://www.tomshardware.com/tech-industry/artificial-intelligence/google-deploys-new-axion-cpus-and-seventh-gen-ironwood-tpu-training-and-inferencing-pods-beat-nvidia-gb300-and-shape-ai-hypercomputer-model
  3. Google Launches Ironwood, Its Most Powerful AI Chip Yet, https://www.thomasnet.com/insights/google-ironwood-tpu/
  4. 인공지능 전용 구글칩 TPU 뭐길래…극강 효율로 학습·추론 특화 - 뉴스1, https://www.news1.kr/it-science/general-it/5956192
  5. Google’s Ironwood TPUs represent a bigger threat than Nvidia would have you believe, https://www.theregister.com/2025/11/06/googles_ironwood_tpus_ai/
  6. Google Provides Detailed Insight on Next-Gen “Ironwood” TPU Superpod: 9216 Chips, 192GB HBM Memory & 4614 TFLOPs Compute Per Chip - Wccftech, https://wccftech.com/google-next-gen-ironwood-tpu-superpod-9216-chips-192gb-hbm-4614-tflops-per-chip/
  7. Google TPU Ironwood: Revolutionizing AI Inference at Scale - CloudOptimo, https://www.cloudoptimo.com/blog/google-tpu-ironwood-revolutionizing-ai-inference-at-scale/
  8. Google’s TPU Journey: How Custom Silicon Revolutionized AI Computing | Lanfermann.DEV, https://lanfermann.dev/blogs/google-tpu-architectural-journey
  9. Google Cloud Announces GA of Ironwood TPUs, https://insideainews.com/2025/11/07/google-cloud-announces-ga-of-ironwood-tpus/
  10. Google Cloud’s Ironwood ready for general availability, https://www.constellationr.com/blog-news/insights/google-clouds-ironwood-ready-general-availability
  11. Ironwood: The first Google TPU for the age of inference - SemiWiki, https://semiwiki.com/forum/threads/ironwood-the-first-google-tpu-for-the-age-of-inference.22529/
  12. TPU vs GPU: What’s the Difference in 2025? - CloudOptimo, https://www.cloudoptimo.com/blog/tpu-vs-gpu-what-is-the-difference-in-2025/
  13. Google advances AI hardware with seventh-generation TPUs, https://www.communicationstoday.co.in/google-advances-ai-hardware-with-seventh-generation-tpus/
  14. GCP, 7세대 TPU ‘아이언우드’ 공개…“맞춤형 칩 기술로 효율성 개선”, https://www.itbiznews.com/news/articleView.html?idxno=186422
  15. Inside the Ironwood TPU codesigned AI stack | Google Cloud Blog, https://cloud.google.com/blog/products/compute/inside-the-ironwood-tpu-codesigned-ai-stack
  16. 11월 11, 2025에 액세스, [https://zdnet.co.kr/view/?no=20251107173321#::text=%EC%95%84%EC%9D%B4%EC%96%B8%EC%9A%B0%EB%93%9C%EB%8A%94%20%EA%B5%AC%EA%B8%80%EC%9D%98,%EB%86%92%EC%9D%80%20%EC%84%B1%EB%8A%A5%EC%9D%84%20%EC%A0%9C%EA%B3%B5%ED%95%9C%EB%8B%A4.](https://zdnet.co.kr/view/?no=20251107173321#::text=아이언우드는 구글의, https://zdnet.co.kr/view/?no=20251107173321#:~:text=%EC%95%84%EC%9D%B4%EC%96%B8%EC%9A%B0%EB%93%9C%EB%8A%94%20%EA%B5%AC%EA%B8%80%EC%9D%98,%EB%86%92%EC%9D%80%20%EC%84%B1%EB%8A%A5%EC%9D%84%20%EC%A0%9C%EA%B3%B5%ED%95%9C%EB%8B%A4.
  17. Ironwood Tensor Processing Unit (TPU) - Google Cloud, https://cloud.google.com/resources/ironwood-tpu-interest
  18. TPU architecture | Google Cloud Documentation, https://docs.cloud.google.com/tpu/docs/system-architecture-tpu-vm
  19. All About Google’s Ironwood TPU: Is It Really A Step Up? - TechDogs, https://www.techdogs.com/td-articles/trending-stories/google-ironwood-tpu
  20. [빅테크칼럼] 구글, ’아이언우드’로 AI반도체 판 흔든다…고성능·고효율로 ‘엔비디아’ 정조준, https://www.newsspace.kr/news/article.html?no=10570
  21. AI Accelerators for Large Language Model Inference … - arXiv, https://arxiv.org/pdf/2506.00008
  22. Google Unveils Seventh-Generation AI Processor: Ironwood | TechPowerUp Forums, https://www.techpowerup.com/forums/threads/google-unveils-seventh-generation-ai-processor-ironwood.335253/
  23. Measuring the environmental impact of delivering AI at … - arXiv, https://arxiv.org/pdf/2508.15734
  24. Measuring the environmental impact of delivering AI at Google Scale - arXiv, https://arxiv.org/html/2508.15734v1
  25. Tensor Processing Unit - Wikipedia, https://en.wikipedia.org/wiki/Tensor_Processing_Unit
  26. Tech Giants’ AI ASICs Challenge NVIDIA, https://www.chosun.com/english/industry-en/2025/11/10/6FODY2LEPFE3XCBAKMI3RJJKSQ/
  27. “GPU에 도전장”…구글 7세대 TPU ‘아이언우드’ 정식 출시, https://v.daum.net/v/20251109113413048
  28. Google Takes the Leash Off Ironwood TPUs, https://www.extremetech.com/computing/google-takes-the-leash-off-ironwood-tpus
  29. Google launches Ironwood TPUs and Axion Arm instances to power next-gen AI and inference workloads, https://www.tech-critter.com/google-ironwood-tpus-axion-arm-ai-inference/
  30. Google Cloud releases its most powerful in-house TPU: a decade of R&D culminating in performance four times that of the previous generation., https://news.futunn.com/en/ja/post/64520826/google-cloud-releases-its-most-powerful-in-house-tpu-a
  31. Hot Take: The True AI Chip Challenge for NVIDIA Isn’t from AMD or Intel — It’s Google’s TPUs Heating Up the Race, https://wccftech.com/hot-take-the-true-ai-chip-challenge-for-nvidia-isnt-from-amd-or-intel-its-googles-tpus-heating-up-the-race/
  32. 구글 클라우드, 7세대 TPU ‘아이언우드’ 출시… “이전 세대 4배 성능” - IT조선, https://it.chosun.com/news/articleView.html?idxno=2023092150527
  33. NVIDIA Blackwell vs Google TPU Trillium: The Battle for AI Compute in 2025 - Medium, https://medium.com/@aayushbhatnagar_10462/nvidia-blackwell-vs-google-tpu-trillium-the-battle-for-ai-compute-in-2025-23de5ea41a80
  34. Google rolls out powerful AI chip in challenge to Nvidia - Tech in Asia, https://www.techinasia.com/news/google-rolls-out-powerful-ai-chip-in-challenge-to-nvidia
  35. Performance per dollar of GPUs and TPUs for AI inference | Google Cloud Blog, https://cloud.google.com/blog/products/compute/performance-per-dollar-of-gpus-and-tpus-for-ai-inference
  36. Ironwood: The first Google TPU for the age of inference (competitor to AMD) - Reddit, https://www.reddit.com/r/AMD_Stock/comments/1jv62q9/ironwood_the_first_google_tpu_for_the_age_of/
  37. TPU Deep Dive, https://henryhmko.github.io/posts/tpu/tpu.html
  38. “GPU에 도전장”…구글 7세대 TPU ‘아이언우드’ 정식 출시, https://www.news1.kr/amp/it-science/general-it/5969656
  39. 구글, 성능 10배 높인 추론형 TPU ‘아이언우드’ 공개 - 조선비즈, https://biz.chosun.com/it-science/ict/2025/04/10/LZF46W4PKVH4NOCKNTGWJMOBPQ/
  40. [D] Google just released a new generation of TPUs. Who actually uses TPUs in production?, https://www.reddit.com/r/MachineLearning/comments/1k0fg57/d_google_just_released_a_new_generation_of_tpus/
  41. Google Cloud Details Ironwood TPUs and Axion CPUs for AI Inference - Converge Digest, https://convergedigest.com/google-cloud-details-ironwood-tpus-and-axion-cpus-for-ai-inference/