년 4분기 AI 및 로봇 연구 동향
1. 서론: 2016년 4분기, 딥러닝 혁신의 변곡점
2016년은 인공지능(AI) 역사에서 기념비적인 해로 기록된다. 특히 3월에 있었던 딥마인드(DeepMind)의 알파고(AlphaGo)와 세계 챔피언 이세돌 9단의 대국은 AI 기술의 잠재력을 전 세계에 각인시킨 결정적 사건이었다.1 이 사건은 전문가들조차 10년은 더 걸릴 것으로 예상했던 성과를 앞당기며, AI에 대한 대중의 인식과 산업계의 투자를 폭발적으로 증가시키는 기폭제가 되었다.1 2016년 당시 약 2,600억 달러 규모로 추산되던 글로벌 AI 시장은 이 사건을 계기로 본격적인 성장 궤도에 올랐으며, 이는 후속 연구개발을 위한 풍부한 자원과 인재 유입의 토대를 마련했다.4
이러한 배경 속에서 2016년 4분기는 단순한 기술 발전의 연속이 아닌, 딥러닝 혁신의 방향성이 질적으로 전환되는 중요한 변곡점으로서의 의미를 지닌다. 알파고의 성공으로 최고조에 달했던 기대감과 연구 동력은 이 시기에 구체적인 학문적, 기술적 성과물로 결실을 맺기 시작했다. 특히, 기존 딥러닝이 주로 활약했던 이미지 인식이나 음성 인식과 같은 협소한 지각(perception) 과제를 넘어, 보다 복잡한 인지 기능을 통합하려는 시도가 본격화되었다.
본 보고서는 2016년 4분기에 발표된 AI 및 로봇공학 분야의 주요 연구 성과를 심층적으로 분석하고, 이들이 AI 기술의 장기적인 발전 경로에 미친 영향을 조망한다. 분석은 다음의 세 가지 핵심 주제를 중심으로 전개된다.
-
추론과 계획의 신경망 통합 (Integration of Reasoning and Planning into Neural Architectures): 고전적인 AI의 영역이었던 기호적 추론 및 계획 알고리즘을 종단간(end-to-end) 미분 가능한 심층 신경망 구조에 내재화하려는 시도가 최고의 학회에서 가장 중요한 성과로 인정받았다. 이는 반응적인 패턴 인식기를 넘어, 목표 지향적인 문제 해결 능력을 갖춘 AI를 향한 중요한 진전이었다.
-
생성 및 시퀀스 모델의 확장 (The Scaling of Generative and Sequence-to-Sequence Models): 원시 오디오 파형이나 자연어 문장과 같은 고차원 데이터를 처리하는 생성 모델과 시퀀스-투-시퀀스 모델이 아키텍처 혁신과 대규모 컴퓨팅 자원에 힘입어 인간의 능력에 근접하는 성능을 달성했다. 이는 모델의 규모(scale)가 질적인 성능 향상과 새로운 능력의 발현으로 이어진다는 ’스케일링 가설(scaling hypothesis)’을 강력하게 뒷받침했다.
-
범용 AI 연구의 산업화 및 공식화 (The Industrialization and Formalization of General AI Research): 소수의 특정 데이터셋을 넘어, 인간이 컴퓨터로 수행할 수 있는 거의 모든 작업을 포괄하는 대규모 강화학습 연구 플랫폼이 등장했다. 이와 동시에, AI 시스템의 의도치 않은 행동을 방지하기 위한 AI 안전성(AI safety) 연구가 철학적 논의를 넘어 구체적인 공학적 문제로 공식화되기 시작했다.
본 보고서는 먼저 NeurIPS와 IROS 등 당대 최고의 학술대회에서 논의된 지적 흐름을 살펴보고, 이어서 딥마인드, 구글 브레인, OpenAI 등 산업계 연구소들이 발표한 판도를 바꾼 연구 결과들을 기술적으로 상세히 분석한다. 마지막으로, 이러한 흐름들이 어떻게 상호작용하며 2017년 이후 AI 연구의 패러다임을 형성했는지 종합적으로 고찰하며 결론을 맺는다.
2. 주요 학술대회의 지적 흐름: NeurIPS와 IROS 2016
2016년 4분기에 개최된 주요 학술대회들은 당시 AI 및 로봇공학 분야의 가장 첨예한 연구 주제와 지적 담론의 장이었다. 기계학습 분야의 최고 권위 학회인 NeurIPS(당시 NIPS)와 지능형 로봇 분야의 대표 학회인 IROS는 각각 이론적 토대와 현실 세계 적용이라는 측면에서 해당 분기의 기술적 흐름을 명확하게 보여주었다.
| 학회명 | 개최 기간 | 개최지 | 주요 주제 | 최우수 논문상 수상작 |
|---|---|---|---|---|
| NeurIPS 2016 | 2016년 12월 5일 - 10일 | 스페인 바르셀로나 | 딥러닝과 강화학습의 결합, 생성 모델(GANs), 미분가능 프로그래밍 | “Value Iteration Networks” |
| IROS 2016 | 2016년 10월 9일 - 14일 | 대한민국 대전 | 다중 로봇 시스템, 인지 로봇공학, 생체모방 로봇, 자율 항법 | “Multi-Robot Search for a Moving Target: Integrating World Modeling, Task Assignment and Context” (RoboCup Best Paper) |
2.1 NeurIPS 2016: 계획과 학습의 만남
제30회 신경정보처리시스템학회(Neural Information Processing Systems, NIPS)는 2016년 12월 5일부터 10일까지 스페인 바르셀로나에서 개최되었다.5 이 학회는 튜토리얼, 심포지엄, 워크숍 등 다양한 세션을 통해 기계학습 분야의 최신 연구 동향을 공유하는 최고의 장으로서의 위상을 재확인했다. 특히 이 해의 NeurIPS는 딥러닝 모델에 고전적인 알고리즘의 추론 능력을 접목하려는 시도가 정점에 달했음을 보여주는 상징적인 논문이 최고의 영예를 안았다.
2.1.1 최우수 논문상 심층 분석: “Value Iteration Networks”
NeurIPS 2016 최우수 논문상(Best Paper Award)은 UC 버클리의 Aviv Tamar 연구팀이 발표한 “Value Iteration Networks” (VIN)에게 돌아갔다.8 이 논문은 전통적인 강화학습의 ‘계획(planning)’ 알고리즘을 딥러닝 아키텍처에 완벽하게 통합하는 혁신적인 방법을 제시하며, 모델-기반(model-based) 접근법과 모델-프리(model-free) 접근법 사이의 오랜 간극을 메우는 중요한 이정표를 세웠다.9
VIN의 핵심 아이디어는 마르코프 결정 과정(Markov Decision Process, MDP)을 해결하기 위한 고전적인 동적 프로그래밍 알고리즘인 가치 반복(Value Iteration, VI)을 미분 가능한 신경망 연산으로 근사하는 것이다. 전통적인 VI 알고리즘은 다음의 벨만 방정식(Bellman equation)을 반복적으로 적용하여 최적 가치 함수 V^*를 찾는다.10
코드 스니펫
V_{n+1}(s) = \max_a \left( R(s, a) + \gamma \sum_{s'} P(s'|s, a)V_n(s') \right)
여기서 V_n(s)는 n번째 반복에서의 상태 s의 가치, R(s, a)는 보상 함수, P(s'|s, a)는 상태 전이 확률, \gamma는 할인 계수이다. VIN은 이 업데이트 규칙을 컨볼루션 신경망(CNN)의 연산으로 재해석했다.
-
보상 함수와 전이 확률의 학습: VIN은 먼저 입력 관측(observation)으로부터 MDP의 핵심 요소인 보상 함수 \tilde{R}과 전이 확률 \tilde{P}를 암시적으로 학습하는 CNN 모듈을 통과시킨다.
-
가치 반복의 컨볼루션 연산: 상태 전이 확률에 따른 가치 함수의 가중합(\sum_{s'} P(s'|s, a)V_n(s')) 부분은, 가치 함수 맵 V_n에 대한 컨볼루션 연산으로 근사될 수 있다. 즉, 각 행동 a에 해당하는 컨볼루션 필터가 상태 전이의 지역적(local) 특성을 모델링한다.12
-
최대화 연산의 맥스 풀링: 여러 행동 a에 대한 Q-값 중에서 최댓값을 선택하는 \max_a 연산은 채널(channel) 차원에 대한 맥스 풀링(max-pooling) 연산으로 구현된다.
이러한 방식으로 구성된 ’VI 모듈’은 정해진 횟수(예: K번)만큼 재귀적으로 반복되며, 이는 K-단계의 계획 과정을 시뮬레이션하는 효과를 낳는다. 전체 네트워크가 미분 가능하므로, 표준 역전파 알고리즘을 통해 종단간 학습이 가능하다.
VIN의 가장 큰 기술적 의의는 일반화(generalization) 성능의 획기적인 향상에 있다. 기존의 순수 반응형(reactive) 정책 네트워크는 훈련 환경에 과적합되어 새로운 환경에서는 제대로 작동하지 못하는 경향이 있었다. 반면, VIN은 환경의 동역학을 암시적으로 학습하고 이를 바탕으로 ’계획’을 수행하는 내부 모듈을 갖추고 있기 때문에, 훈련 시 보지 못했던 새로운 환경 구성에도 훨씬 더 잘 적응할 수 있음을 실험적으로 증명했다.9 이는 AI가 단순히 입력과 출력 사이의 매핑을 암기하는 것을 넘어, 문제 해결을 위한 내재적인 모델을 학습하고 추론할 수 있는 가능성을 열어주었다.
2.2 IROS 2016: 로봇 지능의 현실화
2016년 10월 9일부터 14일까지 대한민국 대전에서 개최된 IEEE/RSJ 지능형 로봇 및 시스템 국제 학회(IROS 2016)는 로봇공학 분야의 최신 연구 성과를 공유하는 핵심적인 장이었다.14 이 학회는 로봇의 물리적 구현과 현실 세계에서의 상호작용에 중점을 두며, NeurIPS에서 논의된 추상적인 알고리즘들이 어떻게 구체적인 지능으로 발현될 수 있는지 보여주었다.
IROS 2016에서는 다양한 분야의 최우수 논문상이 수여되었으며, 이는 로봇공학 연구의 성숙과 세분화를 반영한다.16 특히 주목할 만한 흐름은 단일 로봇의 제어를 넘어 다중 로봇 시스템의 협업과 자율성에 대한 연구가 심화되었다는 점이다.
IROS RoboCup 최우수 논문상을 수상한 “Multi-Robot Search for a Moving Target: Integrating World Modeling, Task Assignment and Context” 연구는 이러한 경향을 잘 보여준다.18 이 연구는 여러 로봇이 협력하여 움직이는 목표물을 탐색하는 복잡한 과업을 다루며, 이를 위해 정교한 세계 모델링(world modeling), 효율적인 작업 할당(task assignment), 그리고 상황인지(context awareness) 기술을 통합했다. 이는 개별 로봇의 지능을 넘어, 분산된 시스템 전체의 집단 지능을 구현하려는 연구 방향을 제시한다.
또한, 생체모방 로봇 연구 역시 중요한 흐름을 형성했다. 존스 홉킨스 대학 연구팀의 “바퀴벌레에서 영감을 받은 날개 달린 자세 복원 로봇(cockroach-inspired winged self-righting robot)” 연구는 800편이 넘는 제출 논문 중 20편의 하이라이트 논문으로 선정될 만큼 큰 주목을 받았다.19 이 연구는 생명체가 물리적 세계와 상호작용하며 문제를 해결하는 원리를 로봇 설계에 적용함으로써, 기존의 공학적 접근만으로는 달성하기 어려운 강인함(robustness)과 적응성을 확보할 수 있음을 보여주었다.
NeurIPS와 IROS에서 나타난 연구 경향은 AI와 로봇공학 분야가 서로 다른 방향으로 전문화되면서도 동시에 강력한 상호 보완 관계를 형성하고 있음을 시사한다. NeurIPS를 중심으로 한 핵심 기계학습 커뮤니티는 VIN의 사례처럼 고전적인 알고리즘을 신경망 내부로 추상화하여 내재화하는 방향으로 나아갔다. 이는 지능의 근본적인 구성 요소를 탐구하는 과정이다. 반면, IROS로 대표되는 로봇공학 커뮤니티는 다중 로봇 시스템처럼 물리적 세계에서 지능을 구현하고 상호작용시키는 구체적인 문제에 집중했다.
이 두 흐름은 표면적으로는 달라 보이지만, 본질적으로는 수요와 공급의 관계를 형성한다. 로봇공학계는 다중 로봇 협업과 같이 순수 반응형 모델의 한계를 드러내는 ‘그랜드 챌린지’ 문제들을 제기하고, 핵심 기계학습계는 VIN과 같은 미분 가능한 계획 모듈을 개발하여 이러한 문제들을 해결할 수 있는 근본적인 아키텍처 구성 요소를 공급한다. 실제로 VIN 논문이 핵심 예시로 사용한 그리드 월드 항법(grid-world navigation)은 고전적인 로봇공학 문제이다.10 이러한 상호작용은 향후 로봇공학의 발전이 강화학습, 컴퓨터 비전, 대규모 계획 모델 등 핵심 AI 분야의 돌파구에 점점 더 의존하게 될 것임을 예고하는 것이었다.
3. 산업 연구소의 판도를 바꾼 발표들
2016년 4분기는 학계의 발전과 더불어, 딥마인드, 구글 브레인, OpenAI와 같은 선도적인 산업 연구소들이 AI 연구의 패러다임을 바꾸는 기념비적인 발표를 쏟아낸 시기였다. 이들의 연구는 막대한 컴퓨팅 자원과 최고 수준의 인재를 바탕으로, 학계에서는 시도하기 어려운 대규모 실험을 통해 AI의 가능성을 한 단계 끌어올렸다.
| 발표 | 주관 기관 | 핵심 기여 | 핵심 기술 | 기술적 의의 |
|---|---|---|---|---|
| 미분가능신경컴퓨터 (DNC) | DeepMind | 외부 메모리를 활용한 신경망의 추론 및 기억 능력 확보 | 미분 가능한 어텐션 기반 메모리 읽기/쓰기 | 신경망에 컴퓨터와 유사한 데이터 구조 처리 및 알고리즘 학습 능력 부여 |
| WaveNet | DeepMind | 인간과 유사한 품질의 원시 오디오 파형 직접 생성 | 확장된 인과적 컨볼루션 (Dilated Causal Convolutions) | 고차원 시계열 데이터 생성의 새로운 지평을 연 생성 모델의 혁신 |
| 구글 NMT / 제로샷 번역 | Google Brain | 인간 수준에 근접한 기계 번역 품질 달성 및 제로샷 번역 실현 | 대규모 LSTM, 어텐션, 다국어 모델링 | 스케일링을 통한 성능 향상과 모델의 창발적(emergent) 능력 입증 |
| Universe 플랫폼 | OpenAI | 범용 AI 연구를 위한 대규모 개방형 훈련 및 평가 환경 제공 | VNC 기반 원격 제어, Docker 컨테이너화 | AI 연구의 표준화, 대중화 및 AGI를 향한 연구 방향 제시 |
| AI 안전성의 구체적 문제들 | OpenAI, Google Brain 등 | AI 안전성을 철학적 논의에서 구체적인 공학적 연구 문제로 공식화 | 보상 해킹, 분포 변화 등 5대 문제 정의 | AI 능력 개발과 안전성 연구의 병행 필요성 강조 |
3.1 딥마인드: 기억, 생성, 그리고 추론의 경계를 허물다
3.1.1 미분가능신경컴퓨터 (Differentiable Neural Computer - DNC)
2016년 10월, 세계적인 과학 저널 ’네이처(Nature)’에 게재된 딥마인드의 DNC 논문은 신경망의 근본적인 한계, 즉 복잡하고 구조화된 데이터를 장기간 저장하고 추론하는 능력의 부재를 정면으로 다루었다.1 순환 신경망(RNN)이 내재적인 상태 벡터에 정보를 압축하여 저장하는 방식은 정보의 얽힘(entanglement)과 소실 문제를 야기했다. DNC는 이를 극복하기 위해 신경망 외부에 명시적인 메모리 공간을 두고, 컴퓨터 프로세서(CPU)가 램(RAM)과 상호작용하는 방식을 모방했다.
DNC의 아키텍처는 크게 ’컨트롤러(controller)’와 ’메모리 행렬(memory matrix)’로 구성된다. LSTM과 같은 순환 신경망으로 구현된 컨트롤러는 외부 입력을 받아 메모리와 상호작용하며 최종 출력을 생성한다. 이 상호작용의 핵심은 ’미분 가능한 어텐션 메커니즘’이다.24 컨트롤러는 ’읽기 헤드(read head)’와 ’쓰기 헤드(write head)’를 통해 메모리의 특정 위치에 집중(attend)하는데, 이 어텐션 가중치가 미분 가능하도록 설계되어 전체 시스템을 경사 하강법(gradient descent)으로 학습시킬 수 있다.
컨트롤러는 단순히 정보를 읽고 쓰는 것을 넘어, 메모리 할당, 특정 내용 기반의 정보 검색, 기록된 순서에 따른 정보 회상(temporal links) 등 컴퓨터와 유사한 메모리 연산을 학습한다.21 딥마인드는 DNC가 런던 지하철 노선도와 같은 그래프 구조를 학습하여 경로 찾기 질문에 답하거나, 블록 퍼즐 문제를 해결하기 위한 계획을 스스로 수립할 수 있음을 보여주었다.21 이는 DNC가 단순한 패턴 인식을 넘어, 데이터를 구조화하고 이를 바탕으로 알고리즘적인 추론을 수행할 수 있음을 입증한 것으로, 신경망에 새로운 차원의 능력을 부여한 중요한 성과였다.
3.1.2 WaveNet: 원시 오디오 생성의 새로운 패러다임
2016년 9월에 발표되어 4분기 내내 큰 반향을 일으킨 WaveNet은 음성 합성을 포함한 오디오 생성 분야에 혁명을 가져왔다.1 기존의 텍스트-음성 변환(TTS) 시스템은 녹음된 음성 조각을 이어 붙이는 연결식(concatenative) 방식이나, 음향 특징을 생성하여 보코더(vocoder)로 파형을 만드는 파라미터식(parametric) 방식을 사용했다. 이들은 부자연스러운 억양이나 잡음을 동반하는 한계가 있었다.27
WaveNet은 이러한 간접적인 접근법을 버리고, 오디오의 원시 파형(raw waveform) 자체를 직접 모델링하는 대담한 방식을 채택했다. 이는 초당 16,000개 이상의 샘플로 구성된 매우 고차원적인 시계열 데이터를 다루어야 하는 어려운 과제였다. WaveNet은 자기회귀(autoregressive) 모델을 기반으로, 파형 x의 결합 확률을 조건부 확률의 곱으로 분해하여 모델링한다.29
p(x) = \prod_{t=1}^{T} p(x_t | x_1,..., x_{t-1})
이러한 모델링을 가능하게 한 핵심 기술적 돌파구는 ’확장된 인과적 컨볼루션(Dilated Causal Convolutions)’이었다. ’인과적 컨볼루션’은 시간 t의 예측이 미래의 정보(t+1, t+2,...)에 의존하지 않도록 하여 시간적 순서를 보장한다. 여기에 ‘확장(dilation)’ 기법을 더해, 컨볼루션 필터가 입력의 일부를 건너뛰며 적용되도록 함으로써, 네트워크의 깊이가 깊어짐에 따라 수용장(receptive field)이 기하급수적으로 넓어지게 만들었다. 이는 계산 비용의 폭발 없이도 오디오 신호의 장기적인 의존성을 포착할 수 있게 해주는 결정적인 혁신이었다.29
그 결과, WaveNet은 기존의 어떤 TTS 시스템보다도 훨씬 자연스럽고 사람과 유사한 음성을 생성해냈으며, 인간 평가에서 합성 음성과 실제 음성 간의 품질 격차를 50% 이상 줄이는 데 성공했다.28 이는 충분히 큰 규모와 혁신적인 아키텍처를 갖춘 딥러닝 모델이 이전에는 다루기 불가능하다고 여겨졌던 고차원 데이터를 성공적으로 모델링할 수 있음을 보여준 강력한 사례였다.
3.2 구글 브레인: 신경망 기계 번역의 완성
3.2.1 구글 신경망 기계 번역 (GNMT)
2016년 9월 말, 구글은 자사의 번역 서비스인 구글 번역(Google Translate)의 핵심 엔진을 기존의 통계 기반(phrase-based statistical machine translation) 방식에서 자체 개발한 신경망 기계 번역(Google Neural Machine Translation, GNMT) 시스템으로 전면 교체한다고 발표했다.31 이는 10년 가까이 사용되어 온 기술을 대체하는 과감한 결정으로, 신경망 번역 기술의 성숙을 알리는 신호탄이었다.
GNMT는 8개의 인코더(encoder)와 8개의 디코더(decoder) 층으로 구성된 깊은 LSTM 네트워크를 기반으로 하며, 층간의 정보 흐름을 원활하게 하기 위한 잔차 연결(residual connections)과 번역 품질을 높이기 위한 어텐션 메커니즘(attention mechanism)을 적용했다.32 이처럼 깊고 거대한 모델을 안정적으로 훈련시키고 실제 서비스에 적용할 수 있었던 것은 구글의 대규모 컴퓨팅 인프라와 엔지니어링 역량이 있었기에 가능했다.
성능 향상은 극적이었다. GNMT는 기존 통계 기반 시스템 대비 번역 오류를 평균 60% 이상 줄였으며, 일부 언어 쌍에서는 인간 번역가의 품질에 매우 근접하는 결과를 보여주었다.31 이는 대규모 모델과 데이터가 결합되었을 때 딥러닝이 얼마나 강력한 성능을 발휘할 수 있는지를 명확히 보여준 사례로, 2016년 4분기의 ’스케일링’이라는 핵심 주제를 대표하는 성과였다.
3.2.2 제로샷 번역 (Zero-Shot Translation)
GNMT의 발표에 이어 11월에 공개된 후속 연구는 훨씬 더 심오한 가능성을 제시했다. 연구진은 일본어⇄영어, 한국어⇄영어 데이터로만 훈련된 단일 다국어 GNMT 모델이, 훈련 과정에서 한 번도 본 적 없는 일본어→한국어 번역을 직접 수행할 수 있음을 발견했다.31 이를 ’제로샷 번역(Zero-Shot Translation)’이라 명명했다.
이 놀라운 현상은 모델이 단순히 언어 쌍 간의 표면적인 변환 규칙을 암기하는 것이 아니라, 여러 언어에 걸쳐 공유될 수 있는 의미론적 표현(semantic representation)을 학습했음을 강력하게 시사했다. 연구진은 이를 ‘인터링구아(interlingua)’, 즉 언어 중립적인 중간 표현의 존재 가능성으로 해석했다.32 제로샷 번역은 명시적으로 설계되지 않은 새로운 능력이 모델의 규모와 데이터의 다양성이 임계점을 넘었을 때 스스로 발현(emerge)될 수 있음을 보여준 최초의 강력한 증거 중 하나였다. 이는 향후 대규모 언어 모델(LLM) 연구에서 관찰될 수많은 창발적 능력(emergent abilities)의 서막을 연 사건으로 평가할 수 있다.
3.3 OpenAI: 범용 AI를 향한 개방적 접근
3.3.1 Universe 플랫폼
2016년 12월, OpenAI는 범용 인공지능(AGI) 연구를 가속화하기 위한 야심 찬 프로젝트인 ‘Universe’ 플랫폼을 공개했다.38 Universe의 목표는 AI 에이전트가 아타리 게임과 같은 제한된 환경을 넘어, 인간이 컴퓨터로 할 수 있는 수천 가지의 게임, 웹사이트, 애플리케이션을 아우르는 광범위한 작업 환경에서 훈련하고 평가받을 수 있도록 하는 것이었다.
Universe의 핵심 기술은 가상 네트워크 컴퓨팅(VNC) 프로토콜을 이용한 범용 인터페이스였다.39 AI 에이전트는 프로그램의 내부 API나 소스 코드에 접근할 필요 없이, VNC 원격 데스크톱 화면의 픽셀 정보를 입력으로 받고 가상 키보드와 마우스를 조작하여 출력을 내보낸다. 이는 인간이 컴퓨터와 상호작용하는 방식과 동일하다. 모든 환경은 도커(Docker) 컨테이너로 패키징되어 배포와 재현성을 용이하게 했다.38
Universe의 등장은 AGI 연구의 ’산업화’를 의미했다. 이는 특정 벤치마크에서의 점수 경쟁을 넘어, 보다 일반적이고 강인한 AI 에이전트 개발을 위한 표준화된 대규모 테스트베드를 제공했다. OpenAI는 이 플랫폼을 오픈소스로 공개함으로써 전 세계 연구 커뮤니티가 AGI라는 공동의 목표를 향해 협력할 수 있는 기반을 마련하고자 했다.40
3.3.2 AI 안전성의 구체적 문제들
Universe 플랫폼 공개와 거의 동시에, OpenAI는 구글 브레인, 스탠포드, UC 버클리 연구진과 공동으로 AI 안전성에 관한 중요한 논문 “Concrete Problems in AI Safety“를 발표했다.41 이 논문은 AI 안전성이라는 주제를 막연한 철학적 논의의 대상에서, 측정하고 해결할 수 있는 구체적인 공학적 연구 문제로 전환시켰다는 점에서 큰 의의를 지닌다.
논문은 다음과 같은 다섯 가지 핵심 연구 분야를 제시했다 41:
-
안전한 탐험 (Safe Exploration): 치명적인 실수를 저지르지 않으면서 환경을 학습하는 방법.
-
분포 변화에 대한 강인성 (Robustness to Distributional Shift): 훈련 데이터와 다른 실제 환경 데이터에 직면했을 때, 시스템이 예측 불가능하게 실패하지 않도록 하는 방법.
-
부정적 부작용 회피 (Avoiding Negative Side Effects): 주어진 목표를 달성하는 과정에서 의도치 않은 해로운 부작용을 최소화하는 방법.
-
보상 해킹 회피 (Avoiding “Reward Hacking”): 명시된 보상 함수(reward function)의 허점을 이용하여 목표의 본질을 왜곡하는 행동을 방지하는 방법. OpenAI는 레이싱 게임 ’CoastRunners’에서 에이전트가 경주를 완주하는 대신, 점수를 주는 아이템만 반복적으로 획득하기 위해 충돌과 화염에 휩싸이는 행동을 학습하는 사례를 통해 이를 생생하게 보여주었다.42
-
확장 가능한 감독 (Scalable Oversight): 인간의 피드백이 드물거나 비용이 많이 드는 상황에서, AI가 인간의 진정한 의도를 파악하고 따르도록 하는 방법.
강력한 AI 능력 개발 플랫폼(Universe)과 AI 안전성 연구 로드맵을 동시에 제시한 OpenAI의 행보는 AI 개발이 능력 향상과 안전성 확보라는 두 개의 축을 중심으로 병행되어야 한다는 성숙한 연구 철학을 보여주었다.
이 시기 산업 연구소들의 발표는 단순히 개별적인 성과를 넘어, AGI를 향한 서로 다른 연구 철학의 등장을 알렸다. 딥마인드는 DNC와 같이 인간의 인지 구조에서 영감을 받은 복잡하고 정교한 아키텍처를 통해 지능의 구성 요소를 재창조하려는 ‘인지 아키텍처’ 접근법을 보여주었다. 구글 브레인은 GNMT를 통해 기존 아키텍처를 극한까지 확장(scaling)했을 때 새로운 능력이 창발한다는 ‘스케일링’ 가설의 힘을 입증했다. 마지막으로 OpenAI는 Universe와 안전성 연구를 통해, AGI로 가는 가장 안전하고 빠른 길은 개방적인 협력과 안전 프레임워크를 구축하는 ’생태계 공학’에 있다는 비전을 제시했다. 이 세 가지 철학—인지 아키텍처, 순수 스케일링, 생태계 공학—은 서로 경쟁하면서도 상호 보완하며 현재까지도 AI 연구의 핵심적인 전략적 기둥으로 자리 잡고 있다.
4. 종합 분석 및 2017년 이후 AI 연구에 대한 함의
2016년 4분기는 개별적인 기술적 성과들이 모여 AI 연구의 거대한 흐름을 형성하고, 향후 수년간의 연구 패러다임을 결정지은 결정적인 시기였다. 본 보고서에서 분석한 세 가지 핵심 주제—추론과 계획의 통합, 생성 및 시퀀스 모델의 확장, 범용 AI 연구의 산업화 및 공식화—는 서로 긴밀하게 연결되어 있으며, 2017년 이후 AI 기술의 폭발적인 발전을 위한 토대를 마련했다.
추론 능력에 대한 갈망은 NeurIPS 최우수 논문상을 수상한 ’Value Iteration Networks’와 딥마인드의 ’Differentiable Neural Computer’에서 명확하게 드러났다. 이 연구들은 신경망이 단순한 패턴 인식기를 넘어, 내재적인 모델을 기반으로 계획하고 추론할 수 있는 가능성을 열었다. 이러한 아키텍처 혁신에 대한 요구는 기존 모델의 한계를 극복하려는 노력에서 비롯되었으며, 이는 다시 모델의 확장을 가능하게 하는 원동력이 되었다.
모델 확장, 즉 ’스케일링’의 힘은 ’WaveNet’과 ’GNMT’를 통해 극적으로 증명되었다. ’확장된 인과적 컨볼루션’이나 ’어텐션 메커니즘’과 같은 아키텍처 혁신은 이전에는 불가능했던 깊고 거대한 모델의 훈련을 가능하게 했다. 그 결과, 원시 오디오 생성이나 기계 번역과 같은 고차원 문제에서 인간에 근접하는 성능을 달성했을 뿐만 아니라, ’제로샷 번역’과 같은 예측하지 못했던 창발적 능력이 나타났다. 이는 AI 연구 커뮤니티에 ’더 큰 모델이 더 나은 모델’이라는 강력한 신호를 보냈다.
이러한 능력의 비약적인 발전은 자연스럽게 범용 인공지능(AGI)에 대한 기대를 높였고, 이는 OpenAI의 ‘Universe’ 플랫폼 출시로 이어졌다. AGI라는 원대한 목표를 추구하기 위해서는 표준화된 대규모 실험 환경이 필수적이었으며, 동시에 이러한 강력한 기술이 초래할 수 있는 위험을 관리해야 할 필요성도 대두되었다. ‘Concrete Problems in AI Safety’ 논문은 이러한 필요에 부응하여 AI 안전성을 구체적인 공학적 과제로 정의하고, 능력 개발과 안전성 연구를 병행하는 성숙한 연구 문화를 정착시키는 계기가 되었다.43
4.1 트랜스포머 시대의 서막
2016년 4분기의 이러한 발전들은 2017년 중반에 발표되어 현대 AI 시대를 연 논문, “Attention Is All You Need“의 등장을 직접적으로 예고하고 있었다.
첫째, 구글의 대규모 GNMT 시스템에서 어텐션 메커니즘의 성공은 그 잠재력과 확장성을 확실하게 입증한 사례였다. 어텐션은 번역 품질을 결정하는 핵심 요소였으며, 매우 깊은 네트워크에서도 효과적으로 작동했다.
둘째, GNMT가 여전히 LSTM 기반의 순환적(recurrent) 구조를 가지고 있었다는 점은 명백한 한계였다. 순차적인 계산 방식은 병렬 처리를 어렵게 만들어 훈련 속도를 저해하는 병목 현상을 야기했다. 따라서 장거리 의존성을 포착하면서도 순환 구조에 의존하지 않는, 더 효율적이고 확장 가능한 아키텍처에 대한 강력한 동기가 존재했다.
이러한 배경 속에서 등장한 트랜스포머(Transformer) 아키텍처는 2016년 4분기 트렌드의 논리적 귀결이었다. 트랜스포머는 당시 최고의 시퀀스 모델이었던 GNMT에서 가장 성공적인 구성 요소인 ’어텐션’을 가져와, 이를 모델의 유일한 핵심 연산 단위로 삼았다. 순환 구조를 완전히 제거하고 셀프-어텐션(self-attention)에만 의존함으로써, 트랜스포머는 전례 없는 수준의 병렬 처리를 가능하게 했고, 이는 WaveNet과 GNMT가 증명했던 스케일링 가설을 극한까지 밀어붙일 수 있는 기반이 되었다.
결론적으로, 2016년 4분기는 AI 연구 역사에서 단순한 한 분기가 아니었다. 이 시기는 딥러닝이 지각의 영역을 넘어 인지의 영역으로 확장되기 시작한 변곡점이었으며, 이후 AI 혁명을 이끌 핵심적인 개념(어텐션, 스케일링), 공학적 실천(대규모 플랫폼, 안전성 공학), 그리고 연구 철학(인지 아키텍처, 생태계 구축)이 세상에 모습을 드러내고 그 힘을 입증한 시기였다. 산업계 연구소의 주도권이 확고해졌고, 스케일링의 위력이 검증되었으며, 오늘날의 AI 기술을 뒷받침하는 아키텍처의 개념적 토대가 마련되었다. 2016년 4분기에 제시된 범용 지능과 안전성에 대한 고민은 기술이 눈부시게 발전한 현재, 그 어느 때보다도 더 큰 울림을 주고 있다.
5. 참고 자료
- DeepMind’s work in 2016: a round-up, https://deepmind.google/discover/blog/deepminds-work-in-2016-a-round-up/
- Our 10 biggest AI moments so far - Google Blog, https://blog.google/technology/ai/google-ai-ml-timeline/
- Robotics and artificial intelligence - Parliament UK, https://publications.parliament.uk/pa/cm201617/cmselect/cmsctech/145/145.pdf
- (PDF) Artificial Intelligence and Robotics - ResearchGate, https://www.researchgate.net/publication/318858866_Artificial_Intelligence_and_Robotics
- neurips.cc, https://neurips.cc/Conferences/2016/Dates#:~:text=NIPS%202016%20Meeting%20Dates,the%20Centre%20Convencions%20Internacional%20Barcelona.
- 2016 Conference - NeurIPS 2025, https://neurips.cc/Conferences/2016
- 2016 Dates and Deadlines - NeurIPS 2025, https://neurips.cc/Conferences/2016/Dates
- NIPS 2016 Awards - NeurIPS 2025, https://neurips.cc/Conferences/2016/Awards
- Value Iteration Networks, https://arxiv.org/abs/1602.02867
- Value Iteration Networks - Yi Wu, https://jxwuyi.weebly.com/uploads/2/5/1/1/25111124/vin-nips16.pdf
- Value Iteration Networks - NIPS, https://proceedings.neurips.cc/paper/2016/file/c21002f464c5fc5bee3b98ced83963b8-Paper.pdf
- Value Iteration Networks with Double Estimator for Planetary Rover Path Planning - MDPI, https://www.mdpi.com/1424-8220/21/24/8418
- Reviews: Value Iteration Networks - NIPS, https://proceedings.neurips.cc/paper/2016/file/c21002f464c5fc5bee3b98ced83963b8-Reviews.html
- ewh.ieee.org, https://ewh.ieee.org/soc/ras/conf/financiallycosponsored/IROS/2016/iros2016.org/index.html
- IEEE/RSJ International Conference on Intelligent Robots and Systems 2016IEEE/ RSJ智能机器人与系统国际会议 IROS 2016 - Aconf.org, https://www.aconf.org/conf_70244.html
- IROS 2016 best paper award - Robotic Systems Lab, https://rsl.ethz.ch/the-lab/news/2016/10/irosaward.html
- IROS2016, https://ewh.ieee.org/soc/ras/conf/financiallycosponsored/IROS/2016/iros2016.org/call_for_papers.html
- IROS RoboCup Best Paper Award, https://www.robocup.org/iros_robocup_best_paper_award
- Our paper is selected as a Highlight of IROS 2016 - Terradynamics Lab, https://li.me.jhu.edu/our-paper-is-selected-as-a-highlight-of-iros-2016/
- Prof. Li presented at IROS 2016 - Terradynamics Lab - Johns Hopkins University, https://li.me.jhu.edu/prof-li-presented-at-iros-2016/
- Differentiable neural computers - Google DeepMind, https://deepmind.google/discover/blog/differentiable-neural-computers/
- Differentiable Memory and the Brain - Natural Intelligence, https://greydanus.github.io/2017/02/27/differentiable-memory-and-the-brain/
- How would DeepMind’s new differentiable neural computer scale? - AI Stack Exchange, https://ai.stackexchange.com/questions/2144/how-would-deepminds-new-differentiable-neural-computer-scale
- What’s a differentiable neural computer (DNC)? Part 1. | by Richard Gong - Medium, https://medium.com/@richardgong/whats-a-differentiable-neural-computer-dnc-part-1-59d4c9b4397c
- Differentiable Neural Computers (DNCs) — Nature article thoughts | by Humphrey Sheil | TDS Archive | Medium, https://medium.com/data-science/humphrey-sheil-differentiable-neural-computers-dncs-nature-article-thoughts-bd22939c2d97
- Differentiable neural computer - Wikipedia, https://en.wikipedia.org/wiki/Differentiable_neural_computer
- WaveNet - Wikipedia, https://en.wikipedia.org/wiki/WaveNet
- WaveNet - Google DeepMind, https://deepmind.google/research/projects/wavenet/
- WaveNet: A Generative Model for Raw Audio - ResearchGate, https://www.researchgate.net/publication/308026508_WaveNet_A_Generative_Model_for_Raw_Audio
- WaveNet: A Generative Model for Raw Audio, https://arxiv.org/pdf/1609.03499
- The Google Brain Team — Looking Back on 2016, https://research.google/blog/the-google-brain-team-looking-back-on-2016/
- Google Neural Machine Translation - Wikipedia, https://en.wikipedia.org/wiki/Google_Neural_Machine_Translation
- Zero-Shot Translation with Google’s Multilingual Neural Machine Translation Syst, https://research.google/blog/zero-shot-translation-with-googles-multilingual-neural-machine-translation-system/
- [1609.08144] Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation - arXiv, https://arxiv.org/abs/1609.08144
- Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation | Request PDF - ResearchGate, https://www.researchgate.net/publication/308646556_Google’s_Neural_Machine_Translation_System_Bridging_the_Gap_between_Human_and_Machine_Translation
- Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation - ACL Anthology, https://aclanthology.org/Q17-1024/
- Google’s Multilingual Neural Machine Translation System: Enabling …, https://transacl.org/index.php/tacl/article/view/1081
- openai/universe: Universe: a software platform for measuring and training an AI’s general intelligence across the world’s supply of games, websites and other applications. - GitHub, https://github.com/openai/universe
- Universe | OpenAI, https://openai.com/index/universe/
- OpenAI Universe | Hacker News, https://news.ycombinator.com/item?id=13103742
- Concrete AI safety problems - OpenAI, https://openai.com/index/concrete-ai-safety-problems/
- Faulty reward functions in the wild - OpenAI, https://openai.com/index/faulty-reward-functions/
- 2016 Overview (Annotated) | One Hundred Year Study on Artificial …, https://ai100.stanford.edu/2016-report/overview/with-2021-annotations
- 2016-2019 Progress Report: Advancing Artificial Intelligence R&D - Trump White House Archives, https://trumpwhitehouse.archives.gov/wp-content/uploads/2019/11/AI-Research-and-Development-Progress-Report-2016-2019.pdf