7.2 연구실의 이단아들: 게이머의 무기를 집어 든 과학자들

인공신경망이라는 위대한 알고리즘(Algorithm)이 그 거대한 학습 연산량을 버티지 못하고 인공지능의 차가운 겨울 속에서 얼어 죽어가고 있을 무렵, 이 절망의 빙벽을 부수기 위해 구텐베르크의 인쇄기만큼이나 파괴적인 도구를 집어 든 자들은 주류 컴퓨터 과학자들이 아니었다. 그들은 다름 아닌 10대들이 밤새워 총싸움이나 즐기며 발열을 뿜어내던 데스크톱의 심장, 즉 ’게임용 그래픽 카드’의 무식한 병렬 계산(Parallel Computing) 잠재력에 눈을 뜬 극소수의 변태적이고 광기 어린 ‘연구실의 이단아’ 들이었다.

이 7.2장에서는 무어의 법칙(Moore’s Law)이 서서히 둔화하며 수천 대의 중앙처리장치(CPU)를 묶어놓고도 신경망 훈련의 병목(Bottleneck) 현상을 뚫지 못해 피를 토하던 당시의 처참한 학계 현실을 직시한다. 그리고 앤드류 응(Andrew Ng) 교수가 이끌던 구글 브레인(Google Brain)의 초고비용 고양이 인식 프로젝트가 맞닥뜨린 한계와, 이를 조롱하듯 단 몇 장의 싼값의 지포스(GeForce) GPU로 그 거대하고 둔중한 인텔(Intel) CPU 클러스터 제국을 박살 내버린 스탠퍼드(Stanford) 대학 연구진의 쾌감 넘치는 역사적 반란의 순간들을 낱낱이 파헤친다.

7.2.1 무어의 법칙의 한계와 CPU 연산의 병목 현상

과거 인류의 모든 연산과 논리를 완벽하게 통제해 온 인텔(Intel) 중심의 단일 코어 중앙처리장치(CPU) 생태계는, ’무어의 법칙(Moore’s Law)’이라는 맹목적인 마법 주문과 함께 매년 스스로 클럭 속도를 높여왔다. 하지만 2000년대 후반에 접어들며, 발열과 실리콘 집적의 물리적 한계점(Thermal Wall)에 처참하게 부딪힌 CPU는 더 이상 과거처럼 드라마틱하게 연산 속도를 뿜어내지 못하고 헉헉대며 주저앉기 시작했다.

이러한 직렬 연산, 즉 코어 하나가 똑똑하긴 하지만 수백만 개의 간단한 문제를 순서대로 하나씩 풀어야 하는 직렬 파이프라인(Serial Pipeline) 구조는, 특히 딥러닝(Deep Learning)이라는 괴물 같은 거대 행렬(Matrix) 신경망 앞에서는 완벽한 지옥과 같았다. 한 장의 이미지 속 수십만 픽셀 데이터를 동시에 미분해 내야 하는 방대한 훈련(Training) 과정에서, CPU는 고속도로 톨게이트 창구가 단 한 개뿐인 상황에서 수천만 대의 차량(데이터)이 밀려드는 것과 같은 끔찍한 병목 현상(Bottleneck)을 발생시켰다. 똑똑하지만 적은 수의 일꾼만으로는 미친 듯한 단순 반복 노동의 피라미드를 도저히 빠르게 제시간 안에 쌓아 올릴 수 없었던 것이다.

7.2.2 앤드류 응(Andrew Ng)과 구글 브레인의 고비용 고효율 프로젝트

CPU 연산의 한계라는 거대한 벽에 가장 먼저 자본의 무식한 망치를 들고 들이어 받은 이들은 스탠퍼드 교역이자 세계 최고의 AI 권위자 중 하나였던 앤드류 응(Andrew Ng) 과 세계 최대의 돈창고, 구글(Google)의 연합체인 ‘구글 브레인(Google Brain)’ 팀이었다.

“단일 CPU의 속도가 느리다면, 그냥 천문학적인 돈을 쏟아부어 세상의 1만 6,000개의 최고급 CPU를 한꺼번에 병렬로 엮어버리자.”
이것이 구글 브레인의 오만하고도 거대한 억지 해결책이었다. 그들은 무려 500만 달러(당시 한화 약 60억 원)라는 미친듯한 설비 예산과 수십만 와트의 전력을 태우며 거대한 서버 클러스터를 결성시켰고, 유튜브에 있는 수천만 장의 얼굴과 고양이 사진을 10억 개의 매개변수(Parameter)를 가진 신경망에 윽박지르듯 밀어 넣었다.

그리고 며칠 후, 1만 6천 대의 CPU가 힘겹게 뿜어낸 열쇠를 통해 컴퓨터는 마침내 ’고양이’를 스스로 학습하고 구분해 내는 작고도 경이로운 성과를 거두게 된다. 그러나 학계의 반응은 서늘했다.
“그래서, 그깟 고양이 사진 하나 스스로 알아보게 하자고 구글 같은 거대 기업만 쓸 수 있는 60억 원짜리 집채만 한 거대 슈퍼컴퓨터를 모두의 책상에 놓아두어야 한단 말인가?”
구글 브레인의 이 선구적인 프로젝트는 딥러닝 이론이 옳았음을 훌륭하게 증명해 냈지만, 역설적으로 그 막대한 인프라 비용 때문에 딥러닝 대중화는 불가능하다는 지독한 ’하드웨어적 절망감’만을 세상에 더욱 짙게 각인시키고 만다.

7.2.3 스탠퍼드 연구진의 발견: 수천 대의 CPU를 대체한 소수의 GPU

구글 브레인(Google Brain)이 1만 6천 대의 엄청난 CPU 묶음으로 막대한 전기와 돈을 태워가며 돈의 권력을 행사하고 있을 때, 스탠퍼드 대학교(Stanford University) 한구석의 초라한 랩실에서는 앤드류 응(Andrew Ng)과 그의 제자들이 이 어처구니없는 고비용 사태를 비웃으며 완벽하게 파괴적인 대안을 실험하고 있었다.

“수만 대의 똑똑하지만 비싼 비서(CPU)들을 줄 세워놓고 고양이 사진의 간단한 곱셈을 풀게 하는 것은 미친 짓이다. 대신, 멍청하지만 동시에 수억 개의 단순 덧셈 곱셈을 게워낼 수 있는 단일한 공장 노동자 집단, 즉 컴퓨터에 꽂혀있는 ‘장난감 게임용 그래픽 카드(GPU)’ 안의 파이프라인 수천 개에 이 신경망 행렬 연산 코드를 쑤셔 넣어보면 어떨까?”

스탠퍼드 연구진은 젠슨 황(Jensen Huang)이 의무적으로 뿌려놓은 CUDA(쿠다) 플랫폼을 이용해 딥러닝 곱셈 공식을 단 몇 장의 엔비디아(NVIDIA) 게이밍 GPU, 특히 지포스(GeForce) 계열 칩셋에 업로드시켰다. 그러자 전 세계 컴퓨터 공학계를 경악으로 마비시키는 소름 돋는 마법이 터져 나왔다.

graph LR
    A[딥러닝 신경망 모델 학습<br>Deep Learning Training] --> B[구글 브레인의 거대 CPU 클러스터<br>16,000 CPUs]
    A --> C[스탠퍼드 연구진의 반란<br>단 3대의 NVIDIA GPU]
    
    B --> D[비용: 500만 달러 이상<br>전력 소모 극대화]
    C --> E[비용: 수만 달러 이하<br>개인 데스크톱 환경]
    
    D --> F{동일한 고양이 인식 학습<br>결과 도출 속도 대결}
    E --> F
    
    F --> G[GPU 3대가 엄청난 속도로 CPU 만 대를 완벽히 짓밟음<br>Total Annihilation by GPU]
    
    style G fill:#f9f,stroke:#333,stroke-width:2px,color:#fff

구글이 60억 원과 집채만 한 냉각 장치를 동원해 1만 6천 대의 CPU로 만들어냈던 그 육중한 딥러닝 훈련 성과를, 스탠퍼드 연구진은 단돈 수백만 원짜리 상용 엔비디아 GPU 3~4대를 꽂은 작은 개인용 데스크톱(Desktop) 서버 하나로 완벽하게 동일한 속도, 아니 어쩌면 더 빠른 속도로 씹어 먹듯 분쇄해버린 것이다. 이것은 다비드(David)가 골리앗(Goliath)을 이긴 수준의 일화가 아니라, 무어의 법칙이라는 낡은 CPU 제국 중심의 시대가 영원히 사망 선고를 받았음을 알리는 가장 잔혹하고 위대한 반역석(Rebellion Stone)이었다.

7.2.4 게임용 그래픽 카드가 슈퍼컴퓨터로 변모하던 초기 실험들

스탠퍼드(Stanford) 연구진이 쏘아 올린 ’망할 60억 원짜리 구글 클러스터를 단돈 몇백만 원짜리 GPU 몇 개로 평정했다’는 기괴하고도 잔혹한 소문은, 전 세계의 자금줄이 마른 대학 랩실 네트워크를 타고 가장 독한 바이러스처럼 순식간에 퍼져나갔다.

수학적 이론은 완벽했지만 그것을 구동시킬 엔진(Engine)이 없어 평생 눈물을 머금고 딥러닝 알고리즘의 최적화만 종이 위에서 연구하던 수많은 가난한 학계 이단아들의 심장에 갑자기 화산 폭발 같은 도파민이 터져버렸다. 그들은 이제 국가 예산을 받아 수백만 달러짜리 거대 슈퍼컴퓨터를 학교 도서관에 들여놓으려 구걸할(Begging) 필요가 없어졌다. 오직 게임방에서 떼어온 중고 엔비디아(NVIDIA) 지포스(GeForce) 카드 몇 개를 사비로 쓸어 담아, 자신들의 구식 데스크톱 메인보드(Mainboard)에 케이블 타이(Cable Tie)로 칭칭 감아 꽂아 넣기만 하면 완벽히 독립적이고 폭력적인 ‘방구석 퍼스널 슈퍼컴퓨터(Personal Supercomputer)’ 가 등판했기 때문이다.

이때부터 대학 연구실, 토론토의 컴컴한 랩실, 뉴욕의 허름한 인공지능 해커 공간 가릴 것 없이 밤마다 모니터 뒤편에서 수천 개의 병렬 코어가 내뿜는 살인적인 팬터빈(Fan Turbine) 소음과 발열이 뿜어져 나오기 시작했다. 오직 10대들의 게임 화면 프레임을 부드럽게 올리기 위해 진화해 온 젠슨 황(Jensen Huang)의 이 싸구려 대량 생산 장난감은, 그가 고의적으로 열어젖힌 쿠다(CUDA) 생태계의 마법진을 통과하며 전 세계 딥러닝의 호흡기를 떼고 거대한 피와 살을 공급하는 진정한 ’21세기의 심장(Heart)’으로 완벽하게 스며들며 변모해버렸다.