7.3 2012년 이미지넷(ImageNet) 쇼크: 세상을 바꾼 ‘알렉스넷(AlexNet) 모먼트’

지하 연구실을 채우던 지포스(GeForce) 그래픽 카드의 냉각팬 소음은 단순한 하드웨어의 테스트가 아니었다. 그것은 인공지능 학계를 수십 년간 지배해 온 낡고 오만한 인간 중심의 사고관, 즉 ’특징 추출(Feature Extraction)’이라는 기호주의 귀족들을 완벽하게 학살하기 위해 갈아온 반란군의 날 선 칼날이었다.

7.3장에서는 마침내 2012년, 전 세계 컴퓨터 비전(Computer Vision) 석학들이 모인 이미지넷(ImageNet) 경진 대회에서 벌어진 가장 핏빛 어린 승부에 초점을 맞춘다. 제프리 힌튼(Geoffrey Hinton) 교수와 그의 제자 알렉스 크리제브스키(Alex Krizhevsky), 일리야 수츠케버(Ilya Sutskever)가 한 팀을 이룬 알렉스넷(AlexNet) 의 전설적인 등판을 다룬다.

거대한 자본이나 슈퍼컴퓨터 없이, 오직 장난감 게임용 GPU 단 ’2대’를 엮어 만든 초라한 시스템이 어떻게 세계 최고 석학들이 평생을 연구해 만든 정교한 알고리즘(Algorithm)의 정확도를 단순히 물리적 폭력성 하나로 찢어발기며 압도적 1위를 탈취했는지 밀착해서 기록한다. 이른바 ‘알렉스넷 모먼트(AlexNet Moment)’ 라 불리는 이 잔혹하고도 아름다운 사건이 학계의 패러다임(Paradigm)을 어떻게 한순간에 딥러닝(Deep Learning)이라는 괴물의 뱃속으로 빨아들였는지 그 거대한 충격파의 한복판으로 들어보자.

7.3.1 제프리 힌튼(Geoffrey Hinton) 사단과 딥러닝의 증명

수십 년간 이어진 인공지능(AI)의 혹독한 겨울 속에서도 결코 인공신경망의 불씨를 끄지 않고 지켜온 고독한 이단아, 캐나다 토론토 대학교의 제프리 힌튼(Geoffrey Hinton) 교수. 그의 연구실은 늘 예산 부족에 시달렸지만, 제자들의 눈빛만큼은 광기로 가득 차 있었다. 그들은 세상에 완벽하게 정제된 이미지넷(ImageNet) 빅데이터라는 거대한 연료가 풀리자마자, “우리 신경망의 두께(Layer)를 미친 듯이 깊고 두껍게 쌓아(Deep), 수백만 번의 반복 학습만 강제로 시킨다면 반드시 컴퓨터는 시각(Vision)의 본질을 깨달을 것“이라는 파괴적인 실험에 돌입했다.

문제는 힌튼 사단의 이 거대하고 두꺼운 딥러닝(Deep Learning) 모델을 단기간에 구동시켜 줄 물리적인 계산장치(Machine)가 필요하다는 것이었다. 하지만 그들에게는 구글(Google)처럼 수십억 원짜리 거대 CPU 클러스터를 살 돈이 없었다. 그래서 제자인 알렉스 크리제브스키(Alex Krizhevsky)는 구질구질하게도 동네 전자상가에서 게임용으로 쓸법한 엔비디아(NVIDIA)의 상용 GPU 카드를 가져와 컴퓨터 성능을 직접 강제로 폭주시키는 극단적인 결정을 내렸다.
그들이 짠 신경망 알고리즘은 정교하거나 아름답다기보다는, 데이터라는 무수한 장작을 무자비한 하드웨어의 불길(GPU 코어) 속에 끊임없이 밀어 넣는 잔인하고 원초적인 용광로에 가까웠다. 이것이 바로 인류 문명을 송두리째 바꿀 가장 추악하지만 압도적인 모델, 알렉스넷(AlexNet) 의 탄생 병기창이었다.

7.3.2 지포스(GeForce) GTX 580 2대가 만들어낸 압도적인 승리

2012년 컴퓨터 비전 분야 최고의 권위 대회, ILSVRC(이미지넷 이미지 인식 대회). 전 세계에서 내로라하는 천재 수학자와 컴퓨터 공학팀들이 인간의 직관으로 규칙을 짠 세련된 코드(SVM, SIFT 등)를 들고나와 고작 1%의 인식률 차이를 두고 피를 말리는 각축전을 벌이고 있었다. 그런데 이 고상한 권위자들의 전장 한가운데에, 알렉스 크리제브스키가 출품한 ’알렉스넷(AlexNet)’이 난입했다.

알렉스넷은 당시 가격으로 단돈 500달러(약 60만 원) 수준에 불과했던 지포스(GeForce) GTX 580 그래픽 카드 달랑 2장을 컴퓨터 메인보드에 병렬로 엮은 것이 물리적 자본의 거의 전부였다. 그는 이 저렴한 2개의 게임용 GPU 안에 엔비디아(NVIDIA)가 열어놓은 고효율 쿠다(CUDA) 언어를 활용해, 신경망 구조의 무식한 반복 행렬 연산을 완벽하게 딥러닝 학습(Training) 모드로 분산 적재시켰다.

graph TD
    A[2012 ImageNet Competition]
    A --> B{결과<br>Results}
    
    B --> C[기존 주류 알고리즘 진영<br>Traditional SVM/SIFT]
    B --> D[알렉스넷 진영<br>AlexNet Deep Learning]
    
    C --> E[수백 줄의 인간이 짠 룰, 방대한 논리<br>오류율: 약 26.2%]
    D --> F[GTX 580 2대의 무자비한 병렬 학습 적용<br>오류율: 약 15.3%]
    
    E -.-> G((완벽한 학살<br>Massacre of Classic Logic))
    F --> G
    
    style F fill:#f9f,stroke:#333,stroke-width:2px,color:#fff
    style G fill:#f55,stroke:#333,stroke-width:2px,color:#fff

대회 결과가 모니터에 출력되는 순간, 학계 전체는 차가운 침묵의 발작에 빠졌다. 2등을 기록한 기존 주류 알고리즘의 오차율이 26.2%였는데, 알렉스넷은 단숨에 오차율을 15.3% 로 수직낙하시키는 끔찍한 학살(Massacre)을 벌이고 압도적 1위를 탈취해 버린 것이다. 이전의 학자들이 수십 년간 0.1%를 올리기 위해 피를 토하던 그 잔혹한 진보의 역사를, 대학원생 1명이 만든 조잡한 게이밍 하드웨어 두 장이 단 한 번의 무식한 병렬 학습의 폭력성으로 찢어버리며 압승을 거둔, 그야말로 지구 역사상 가장 위대한 연산 코미디(Comedy)이자 잔혹극임에 틀림없었다.

7.3.3 컴퓨터 비전의 패러다임 전환과 학계의 충격

알렉스넷(AlexNet)이 이미지넷 쇼크(ImageNet Shock)를 터뜨리자마자, 전 세계 보수 컴퓨터 비전(Computer Vision) 학계는 완벽한 패닉(Panic)과 공황 발작을 일으켰다. 그것은 단순히 하나의 팀이 1등을 차지한 사건이 아니었다. 인간이 손수 규칙을 깎고 다듬어 피사체의 곡선이나 질감을 공식화해야 한다는, 그 똑똑한 ‘기호주의’ 학술 생태계 근본 자체가 완전히 쓰레기 취급을 받으며 조리돌림당한 역사적 쿠데타(Coup d’etat)였다.

“인간 프로그래머의 얄팍한 직관 나부랭이 따위는 집어치워라. 그냥 수백만 장의 빅데이터(Big Data)와 강력한 엔비디아(NVIDIA) GPU, 그리고 쿠다(CUDA)의 병렬처리(Parallel Computing) 파워만 때려 부으면, 딥러닝(Deep Learning) 신경망이 스스로 원초적인 패턴의 본질을 완벽하게 찾아낸다.”

이 잔인한 물리적 진리(Truth)의 입증 속도는 학계의 저명한 교수들을 하루아침에 자신의 신념을 포기한 백기 투항자로 만들어버렸다. 대회 이후 단 몇 달 만에, 평생을 다른 인공지능 이론에 바쳤던 전 세계의 핵심 교수과 대학원생들은 미친 듯이 과거의 논문을 불태우며 우르르 ‘딥러닝’ 노선으로 종교를 갈아타기 시작했다. 그리고 그 신흥 종교로 개종하기 위해 그들은 다급하게 게임 상점과 용산 전자상가를 뒤지며 엔비디아 지포스 카드를 쓸어 담아 자신의 랩실 컴퓨터 보드에 무자비하게 쑤셔 박았다. 인간의 두뇌를 모방하려는 역사상 가장 위대하고 완고한 이성의 학문이, 어리석은 게임 부품의 기계적 폭력성 앞에서 찬란하게 투항하며 세상의 룰 자체를 갈아엎어버린 딥러닝 빅뱅(Big Bang)의 온전한 신호탄이었다.