년 12월 AI 및 로봇 연구 동향

년 12월 AI 및 로봇 연구 동향

1. 서론: 2019년 12월 AI 및 로봇 연구 동향 개관

2019년 12월은 인공지능(AI) 및 로봇 연구 분야에서 중요한 변곡점으로 기록된다. 이 시기는 딥러닝의 경험적 성공이 정점에 달하면서, 동시에 그 이론적 기반에 대한 근본적인 질문이 최고조에 이른 시점이었다. 대규모 언어 모델과 강화학습 에이전트가 연이어 인간의 능력을 넘어서는 성과를 보이는 가운데, 학계와 산업계 연구소들은 이러한 성공의 이면에 있는 원리를 이해하고, 기존 방법론의 한계를 극복하며, 보다 일반적이고 효율적이며 신뢰할 수 있는 시스템을 구축하려는 노력을 경주했다.

본 보고서는 2019년 12월에 발표된 AI 및 로봇 분야의 핵심 연구들을 종합적으로 분석하여 당시 연구 지형의 다층적인 단면을 제시하고자 한다. 보고서는 세 가지 핵심 축을 중심으로 구성된다.

첫째, 이론적 심층 탐구이다. 세계 최고 권위의 머신러닝 학회인 NeurIPS 2019에서는 딥러닝의 일반화(generalization)와 강인성(robustness)에 대한 근본적인 질문을 던지는 연구들이 학계의 가장 큰 주목을 받았다. 이는 AI 기술의 경험적 성공을 넘어서 그 작동 원리에 대한 깊은 이해와 이론적 토대를 마련하려는 학문적 성숙을 반영한다.

둘째, 실용적 시스템의 진화이다. 로보틱스와 머신러닝의 융합을 다루는 핵심 학회인 CoRL 2019에서는 로봇이 더욱 복잡하고 현실적인 과업을 수행하기 위한 학습 방법론의 발전이 두드러졌다. 모방 학습에 대한 통일된 이론적 프레임워크를 제시한 연구와, 시뮬레이션 환경에서 학습하여 실제 로봇으로 성공적으로 이전되는 복잡한 조작 시스템 연구는 로봇 지능의 실용적 진보를 명확히 보여주었다.

셋째, 산업계의 패러다임 전환이다. OpenAI, DeepMind, Google AI와 같은 세계적인 산업 연구소들은 기존의 통념을 깨고 새로운 연구 방향을 제시하는 혁신적인 모델과 현상을 발표했다. 모델의 복잡성과 성능 간의 관계에 대한 새로운 관점을 제시한 ‘Deep Double Descent’ 현상, 게임의 규칙 없이도 환경을 학습하며 초인적 성능을 달성한 MuZero 알고리즘, 그리고 기존 모델보다 훨씬 적은 파라미터로 최고 성능을 경신한 경량 언어 모델 ALBERT의 등장은 AI 연구의 스케일, 일반성, 효율성에 대한 패러다임을 바꾸는 신호탄이었다.1

본 보고서는 이 세 가지 축을 따라 각 분야의 주요 발표 내용을 심층적으로 분석하고, 이들이 어떻게 상호작용하며 2019년 말 AI 및 로봇 분야의 전체적인 그림을 완성했는지 조망한다. 이를 통해 당시의 기술적 성취를 기록할 뿐만 아니라, 현재까지 이어지는 AI 연구의 주요 흐름이 어떻게 형성되었는지 그 기원을 추적한다.

2. NeurIPS 2019 - 딥러닝 이론의 최전선

2019년 12월 9일부터 14일까지 캐나다 밴쿠버에서 개최된 NeurIPS(Conference on Neural Information Processing Systems) 2019는 머신러닝 분야 최고 권위의 학회로서, 이 해에는 특히 딥러닝의 이론적 기반을 탐구하는 연구들이 큰 주목을 받았다.4 수상작 선정 위원회가 ‘잠재적 지속성’, ‘깊은 통찰력’, ‘창의성’, ‘혁명적 가능성’ 등을 핵심 기준으로 삼았다는 점에서, 당시 학계가 단순한 성능 지표 향상을 넘어 AI의 근본 원리에 대한 이해를 갈망하고 있었음을 엿볼 수 있다.6 특히 이 해에는 ‘최우수 새로운 방향성 논문(Outstanding New Directions Paper Award)’ 부문이 신설되어, 미래 연구에 새로운 길을 여는 독창적인 아이디어를 장려하고자 하는 의지를 명확히 했다.4

2.1 최우수 논문(Outstanding Paper Award) 분석: “Distribution-Independent PAC Learning of Halfspaces with Massart Noise”

이 논문은 머신러닝의 가장 오래되고 근본적인 문제 중 하나인 ‘반공간(halfspace)’ 또는 선형 임계 함수(Linear Threshold Function, LTF)의 학습 문제를 다룬다.7 특히, 현실 세계 데이터에 필연적으로 존재하는 노이즈, 그중에서도 다루기 까다로운 ‘Massart 노이즈’ 환경에서의 학습 가능성에 대한 중요한 이론적 돌파구를 마련했다.

2.1.1 문제 정의 및 배경

반공간 함수는 f(x) = \text{sign}(\langle w, x \rangle - \theta) 형태로 정의되는 이진 분류기로, 퍼셉트론의 기원이 된 이래 머신러닝 이론 발전의 중심에 있었다.7 노이즈가 없는 이상적인 환경에서는 이 문제를 다항식 시간에 효율적으로 학습할 수 있음이 알려져 있다. 그러나 현실의 데이터는 손상되기 마련이며, 노이즈의 종류에 따라 학습의 난이도는 극적으로 변한다.

이 논문이 주목한 Massart 노이즈 모델은 각 데이터 포인트의 레이블 y가 참 레이블 f(x)와 같을 확률이 1 - \eta(x)이고, 반대 레이블 -f(x)와 같을 확률이 \eta(x)이며, 이때 모든 x에 대해 \eta(x) \le \eta < 1/2를 만족하는 모델이다.8 이는 각 레이블이 고정된 확률로 뒤집히는 ‘무작위 분류 노이즈(Random Classification Noise, RCN)’ 모델보다 더 일반적이고 강력하다. Massart 노이즈에서는 적대자(adversary)가 어떤 샘플의 레이블을 뒤집을지, 그리고 얼마의 확률(최대

\eta까지)로 뒤집을지 선택할 수 있기 때문에 훨씬 더 다루기 어렵다.7 이러한 현실적인 노이즈 모델 하에서 데이터의 분포에 대한 어떠한 가정도 없이(distribution-independent) 효율적으로 학습하는 알고리즘의 존재 여부는 오랫동안 미해결 문제로 남아 있었다.8

2.1.2 핵심 방법론 및 기여

이 논문의 핵심 기여는 분포 독립적인 PAC(Probably Approximately Correct) 학습 모델 하에서 Massart 노이즈가 존재하는 반공간을 효율적으로 학습할 수 있는 최초의 다항 시간 알고리즘을 제시한 것이다.7 저자들은 매우 정교하고 기술적으로 증명하기 어려운 알고리즘을 개발했으며, 이 알고리즘은 \text{poly}(d, 1/\epsilon)의 시간 복잡도를 가지면서 정보 이론적으로 달성 가능한 최적 오차에 근접하는 \eta + \epsilon의 오차율을 보장한다.6

이 성과는 2010년대 후반 AI 커뮤니티의 관심사가 순수한 성능 경쟁을 넘어 ’강인성(robustness)’과 ’신뢰성(trustworthiness)’으로 이동하고 있음을 상징적으로 보여준다. 초기 딥러닝의 성공은 주로 깨끗하게 정제된 벤치마크 데이터셋에서의 성능으로 측정되었다. 그러나 자율주행, 의료 진단 등 고신뢰성이 요구되는 실제 응용 분야에서는 데이터 노이즈가 불가피하며, 때로는 적대적일 수 있다. 완전히 적대적인 상황을 가정한 ‘Agnostic’ 모델은 이론적으로 너무 비관적이어서 효율적인 학습이 어렵고, 단순한 RCN 모델은 너무 낙관적이어서 비현실적이다. Massart 노이즈는 이 둘 사이의 합리적인 절충안을 제시하며, 이 문제에 대한 효율적인 알고리즘을 제시한 이 논문이 최우수 논문으로 선정된 것은 학계가 ’현실 세계의 복잡성과 불확실성을 어떻게 수학적으로 모델링하고 극복할 것인가’라는 더 깊은 질문으로 나아가고 있음을 의미한다.

2.2 최우수 새로운 방향성 논문(Outstanding New Directions Paper Award) 분석: “Uniform convergence may be unable to explain generalization in deep learning”

이 논문은 딥러닝의 가장 큰 미스터리 중 하나인 ‘일반화(generalization)’ 현상에 대한 기존의 이론적 설명 방식에 근본적인 의문을 제기한다.10 과매개변수화된(overparameterized) 모델이 수많은 파라미터를 가지고 훈련 데이터에 완벽히 들어맞으면서도 어떻게 처음 보는 데이터에서 좋은 성능을 보이는지에 대한 질문은 딥러닝 이론의 핵심 과제였다. 기존의 많은 이론적 설명들은 통계적 학습 이론의 근간을 이루는 ‘균일 수렴(uniform convergence)’ 원리에 기반해왔으나, 이 논문은 바로 그 기반이 흔들리고 있음을 설득력 있게 주장한다.

2.2.1 실험적 및 이론적 증명

저자들은 균일 수렴 기반 일반화 이론의 두 가지 치명적인 문제점을 드러냈다.

첫째, 실험을 통해 기존의 여러 균일 수렴 기반 일반화 경계(bound)들이 훈련 데이터셋의 크기가 커질수록 오히려 증가하는 경향을 보임을 밝혔다.11 이는 일반화 오차는 훈련 데이터가 많아질수록 감소해야 한다는 가장 기본적인 직관과 정면으로 배치되는 결과다. 이 관찰은 기존 경계들이 단지 수치적으로 느슨하다(loose)는 문제를 넘어, 질적으로 잘못된 경향을 예측하고 있음을 시사하는 더 심각한 문제다.11

둘째, 더 나아가 경사 하강법(GD)으로 훈련된 과매개변수화 모델이 실제로는 매우 낮은 테스트 오차를 보임에도 불구하고, 어떤 (양측) 균일 수렴 경계를 적용하더라도 이론적으로 공허한(vacuous) 결과만을 얻을 수밖에 없는 반례를 수학적으로 구성하여 증명했다.10 ’공허하다’는 것은 예측된 오차 경계가 1에 가까워, ’오차율이 100% 이하일 것이다’라는 식의 아무런 정보도 주지 못하는 무의미한 예측이 된다는 뜻이다. 심지어 학습 알고리즘이 선택한, 테스트 오차가 매우 작다고 알려진 가설들로만 범위를 좁혀서 균일 수렴을 적용하더라도 결과는 마찬가지였다.13

2.2.2 학계에 미친 영향과 다른 연구와의 연관성

이 논문은 딥러닝 일반화 이론 연구에 큰 충격을 주며 새로운 방향을 모색하는 계기가 되었다. 균일 수렴이라는 전통적인 도구의 한계를 명확히 함으로써, 알고리즘 안정성(algorithmic stability), PAC-Bayes 이론, 또는 딥러닝 알고리즘의 ’암묵적 편향(implicit bias)’과 같은 새로운 이론적 도구에 대한 연구를 촉발시켰다.12

흥미롭게도, 이 연구는 같은 달 OpenAI에서 발표한 ‘Deep Double Descent’ 현상에 대한 이론적 배경을 설명하는 완벽한 짝을 이룬다. OpenAI는 모델 복잡성이 특정 임계점을 넘어서면 테스트 오차가 다시 감소하는, 기존 통계학의 상식과 어긋나는 경험적 현상을 보고했다.2 이 NeurIPS 논문은 바로 그 과매개변수화 영역에서 일반화를 설명하는 표준 도구인 균일 수렴이 왜 작동하지 않는지를 이론적으로 증명했다. 이 두 연구를 함께 보면, 2019년 말 딥러닝 이론 연구가 기존의 틀을 깨고 ’암묵적 편향’과 같은 새로운 패러다임을 찾아야 하는 시점에 이르렀음을 명확히 알 수 있다. ‘Deep Double Descent’ 현상은 균일 수렴으로는 설명될 수 없는, 딥러닝의 새로운 학습 동역학의 발현이며, 이 논문은 그 이유를 이론적으로 뒷받침한다.

2.3 시간의 시험상(Test of Time Award) 분석: “Dual Averaging Method for Regularized Stochastic Learning and Online Optimization”

2009년에 발표된 이 논문이 10년이 지난 2019년에 ’시간의 시험상’을 수상한 것은, 화려한 딥러닝 아키텍처나 응용 연구의 그늘에 가려지기 쉬운 ‘최적화(optimization)’ 분야의 근본적인 중요성을 환기시키는 사건이었다.4 AI의 발전은 결국 거대한 최적화 문제를 효율적으로 푸는 능력에 달려있으며, 이 논문은 그 초석을 다진 연구 중 하나로 평가받는다.

2.3.1 핵심 공헌 및 알고리즘 특징

이 논문은 정규화(regularization) 항을 포함하는 대규모 최적화 문제를 위한 효율적인 온라인 알고리즘인 ‘정규화된 이중 평균(Regularized Dual Averaging, RDA)’ 방법을 제안했다.15 당시 널리 쓰이던 확률적 경사 하강법(SGD)은 정규화 항의 구조를 제대로 활용하지 못해, 예를 들어 L1-정규화를 사용하더라도 진정으로 희소(sparse)한 해를 생성하기 어려웠다.15

RDA는 이 문제를 해결하기 위해 독창적인 업데이트 방식을 도입했다. 매 스텝에서 단일 샘플의 그래디언트만 사용하는 대신, 과거의 모든 그래디언트의 평균전체 정규화 항을 직접적으로 포함하는 간단한 최적화 문제를 풀어 다음 파라미터를 결정한다.15 이 접근법 덕분에 RDA는 특히 L1-정규화 환경에서 매우 효과적으로 희소성을 유도할 수 있으며, 동시에 이론적으로 최적의 수렴 속도(O(1/\sqrt{t}))를 보장한다.15

2.3.2 지속적인 영향력

2019년의 AI 모델들은 수억, 수십억 개의 파라미터를 가지며, 이들을 훈련시키는 것은 본질적으로 거대한 스케일의 정규화된 최적화 문제를 푸는 것이다. RDA와 그 기반 아이디어(예: 이중 평균, 근접 연산자 활용)는 오늘날 대규모 머신러닝 모델을 훈련시키는 다양한 최적화 알고리즘의 근간을 이루고 있다. 이 상은 ’새로운 아키텍처’만큼이나 ‘그것을 가능하게 하는 효율적인 최적화 알고리즘’ 또한 AI 발전의 핵심 동력임을 인정하는 것이며, 기초 연구의 장기적인 가치를 강조하는 강력한 메시지를 전달한다.

2.4 기타 주요 수상작 및 주목할 만한 연구 동향

NeurIPS 2019에서는 앞서 분석한 세 편의 논문 외에도 다양한 분야에서 중요한 기여를 한 연구들이 Honorable Mention으로 선정되었다. 이 연구들은 당시 머신러닝 커뮤니티의 주요 관심사를 다각적으로 보여준다.

  • GAN의 이론적 이해: “Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses“는 생성적 적대 신경망(GAN)이 이론적으로 기존의 선형적 방법을 능가하는 밀도 추정 성능을 보일 수 있음을 엄밀하게 증명하여, GAN의 표현력에 대한 깊은 이해를 제공했다.4

  • 핵심 알고리즘의 효율화: “Fast and Accurate Least-Mean-Squares Solvers“는 수많은 머신러닝 알고리즘의 핵심 연산인 최소평균제곱 문제의 계산 복잡도를 획기적으로 줄이는 방법을 제시하여, 실용적인 성능 향상에 크게 기여했다.4

  • 종단간 학습의 대안 모색: “Putting An End to End-to-End“는 거대한 신경망 전체를 한 번에 역전파로 학습시키는 대신, 네트워크를 여러 모듈로 나누어 각 모듈을 지역적인 자기지도학습 방식으로 훈련하는 새로운 패러다임을 제안했다. 이는 생물학적 신경망의 학습 방식과 유사하며, 메모리 및 계산 효율성 측면에서 큰 잠재력을 가진다.4

  • 3D 비전의 발전: “Scene Representation Networks“는 2D 이미지 몇 장만으로 3차원 구조를 이해하고 연속적인 시점의 이미지를 생성할 수 있는 새로운 신경망 구조를 제시하여, 3D 장면 이해 및 렌더링 기술의 발전에 기여했다.4

이러한 연구들은 딥러닝의 이론적 토대를 다지는 동시에, 기존 알고리즘의 효율성을 높이고, 학습 패러다임 자체에 대한 근본적인 대안을 모색하는 등 다방면에 걸친 연구가 활발히 진행되었음을 보여준다. 아래 표는 NeurIPS 2019의 주요 수상 논문들을 요약한 것이다.

수상 부문논문 제목저자핵심 기여
Outstanding PaperDistribution-Independent PAC Learning of Halfspaces with Massart NoiseIlias Diakonikolas, Themis Gouleakis, Christos Tzamos현실적인 Massart 노이즈 모델 하에서 반공간을 효율적으로 학습하는 최초의 다항 시간 알고리즘 제시. 4
Outstanding New Directions PaperUniform convergence may be unable to explain generalization in deep learningVaishnavh Nagarajan, J. Zico Kolter과매개변수화된 딥러닝 모델의 일반화를 설명하는 데 있어 균일 수렴의 근본적 한계를 이론적/실험적으로 증명. 4
Test of Time AwardDual Averaging Method for Regularized Stochastic Learning and Online OptimizationLin Xiao정규화 구조를 명시적으로 활용하여 희소성 등을 효과적으로 유도하는 온라인 최적화 알고리즘(RDA) 제시. 4
Honorable Mention (Paper)Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM LossesAnanya Uppal, Shashank Singh, Barnabas PoczosGAN이 밀도 추정에서 전통적 선형 방법을 능가할 수 있음을 이론적으로 증명. 4
Honorable Mention (Paper)Fast and Accurate Least-Mean-Squares SolversIbrahim Jubran, Alaa Maalouf, Dan Feldman핵심 ML 알고리즘의 기반이 되는 최소평균제곱 솔버의 계산 복잡도를 획기적으로 줄이는 알고리즘 제시. 4
Honorable Mention (New Directions)Putting An End to End-to-End: Gradient-Isolated Learning of RepresentationsSindy Löwe, Peter O’Connor, Bas Veeling전역적 역전파 없이, 각 모듈을 지역적 자기지도학습으로 훈련하는 새로운 딥러닝 방식 제안. 4
Honorable Mention (New Directions)Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene RepresentationsVincent Sitzmann, Michael Zollhoefer, Gordon Wetzstein2D 이미지로부터 연속적이고 3D 구조를 인식하는 장면 표현 신경망 제안. 4

3. CoRL 2019 - 로봇 학습의 진화

2019년 10월 30일부터 11월 1일까지 일본 오사카에서 개최된 CoRL(Conference on Robot Learning) 2019는 로보틱스와 머신러닝의 교차점에 초점을 맞춘 핵심 학회로서, 이 분야의 최신 연구 동향을 가늠할 수 있는 중요한 자리였다.20 이 해의 수상작들은 로봇 학습 분야가 한편으로는 다양한 방법론을 아우르는 통일된 이론을 구축하려는 지적 성숙을, 다른 한편으로는 현실 세계의 복잡성을 해결하기 위한 정교한 시스템을 개발하려는 실용적 진보를 동시에 추구하고 있음을 명확히 보여주었다.

3.1 최우수 논문(Best Paper Award) 분석: “A Divergence Minimization Perspective on Imitation Learning Methods”

이 논문은 로봇이 전문가의 시연을 통해 행동을 학습하는 모방 학습(Imitation Learning) 분야에 중요한 이론적 기여를 했다. 그동안 행동 복제(Behavioral Cloning, BC), 역강화학습(Inverse Reinforcement Learning, IRL), 생성적 적대 모방 학습(Generative Adversarial Imitation Learning, GAIL) 등 다양한 알고리즘들이 개별적으로 제안되고 발전해왔지만, 이들 사이의 근본적인 관계는 명확하지 않았다.23

3.1.1 핵심 아이디어 및 이론적 기여

이 논문의 핵심 아이디어는 겉보기에는 달라 보이는 여러 모방 학습 알고리즘들을 f-발산(f-divergence) 최소화라는 단일한 수학적 프레임워크 아래에서 통합적으로 설명할 수 있음을 보인 것이다. f-발산은 두 확률 분포 사이의 차이를 측정하는 일반적인 척도로, 어떤 f 함수를 사용하느냐에 따라 쿨백-라이블러 발산(KL-divergence), 젠슨-섀넌 발산(JS-divergence), 총변동 거리(Total Variation distance) 등 다양한 구체적인 척도가 된다.

저자들은 이 프레임워크를 통해 기존의 주요 모방 학습 알고리즘들이 사실상 전문가의 행동 분포와 학습 에이전트의 행동 분포 사이의 특정 f-발산을 암묵적으로 최소화하고 있었음을 증명했다.27 예를 들어, GAIL은 JS-발산을, 일부 IRL 변형은 KL-발산을 최소화하는 것과 같다는 것을 보였다. 이 통일된 관점은 각 알고리즘이 어떤 종류의 발산을 최소화하는지에 따라 왜 특정한 장단점을 갖게 되는지를 깊이 이해할 수 있게 해준다. 예를 들어, 모드 붕괴(mode-collapse) 문제나 분포 외(out-of-distribution) 데이터에 대한 강인성 등이 어떤 발산 척도와 관련이 있는지 분석할 수 있게 된 것이다.

이러한 이론적 통합은 단순히 과거의 연구들을 정리하는 데 그치지 않고, 미래 연구에 대한 체계적인 지침을 제공한다. 연구자들은 이제 해결하고자 하는 문제의 특성에 맞춰 적절한 f-발산을 선택하고, 그에 해당하는 새로운 모방 학습 알고리즘을 원리적으로 설계할 수 있게 되었다. 이는 로봇 학습 분야가 개별적인 ’해결책’들을 나열하는 단계를 넘어, 이들을 아우르는 ’일반 이론’을 구축하려는 성숙 단계에 진입했음을 보여주는 중요한 성과다. 이는 마치 물리학에서 다양한 힘들을 통일장 이론으로 설명하려는 시도와 유사하며, 분야의 지적 깊이가 더해지고 있음을 의미한다.

3.2 최우수 시스템 논문(Best System Paper Award) 분석: “Learning to Manipulate Object Collections Using Grounded State Representations”

이 논문은 로봇 조작 분야의 오랜 난제 중 하나인, 단일 객체가 아닌 개수가 가변적인 ’객체군(object collections)’을 다루는 문제에 대한 실용적이고 혁신적인 해결책을 제시했다.29 특히, 시뮬레이션에서 학습하여 실제 로봇으로 정책을 성공적으로 전이(Sim-to-Real)하는 데 있어 중요한 진전을 이루었다.

3.2.1 해결 과제 및 기술적 접근

로봇이 책상 위의 큐브 더미를 한 곳으로 모으거나, 싱크대에 담긴 여러 식기류를 정리하는 등의 과업은 객체의 수가 정해져 있지 않고 객체 간의 상호작용이 복잡하여 매우 어렵다. 이 논문은 이러한 문제를 해결하기 위해 ‘비대칭 액터-크리틱(Asymmetric Actor-Critic)’ 프레임워크를 독창적으로 활용했다.29

이 프레임워크의 핵심은 학습(training)과 실행(deployment) 단계에서 로봇이 접근할 수 있는 정보의 종류가 다르다는 점을 영리하게 이용하는 것이다.

  • 크리틱(Critic): 학습 단계에서만 사용되며, 시뮬레이터에서만 얻을 수 있는 완벽하고 정확한 정보, 즉 모든 객체의 3D 위치와 같은 ‘상태(state)’ 정보를 입력으로 받는다. 객체의 수가 가변적이기 때문에, 이러한 집합 형태의 데이터를 효과적으로 처리할 수 있는 **그래프 신경망(Graph Neural Network, GNN)**을 사용하여 상태를 인코딩한다. 이 정확한 정보를 바탕으로 크리틱은 액터의 행동 가치를 정확하게 평가하고 학습을 안정적으로 이끈다.29

  • 액터(Actor): 정책을 의미하며, 학습과 실행 단계 모두에서 사용된다. 액터는 실제 로봇 환경에서도 쉽게 얻을 수 있는 RGB 카메라 이미지와 같은 ‘관찰(observation)’ 정보만을 입력으로 받는다. 이 이미지는 **합성곱 신경망(Convolutional Neural Network, CNN)**을 통해 인코딩된다.29

즉, 학습 시에는 크리틱이 ’정답(상태)’을 참고하여 액터를 현명하게 가르치고, 실제 실행 시에는 액터가 ’문제지(관찰)’만 보고도 훈련된 대로 올바른 행동을 수행하게 되는 구조다.

3.2.2 실용적 의의

이 시스템은 시뮬레이션에서만 훈련되었음에도 불구하고, 별도의 미세 조정(fine-tuning) 없이 실제 로봇 환경에서 훈련 중에 보지 못했던 다양한 종류와 개수의 객체군(예: 큐브, 식기류, 구겨진 종이 공)을 성공적으로 조작하는 높은 일반화 성능을 보였다.30 이는 Sim-to-Real 연구의 실용성을 한 단계 끌어올린 중요한 성과다.

이 연구는 로봇 학습의 미래가 ’데이터의 비대칭성’을 얼마나 영리하게 활용하는지에 달려있음을 보여준다. 시뮬레이션에서는 풍부하고 완벽한 정보(상태)를, 실제 세계에서는 제한적이고 노이즈가 많은 정보(관찰)만을 얻을 수 있다는 근본적인 제약을 극복하기 위한 효과적인 청사진을 제시했다. 이는 로봇 학습이 순수한 강화학습을 넘어, 지도학습(상태 정보 활용)과 강화학습의 장점을 결합하는 하이브리드 형태로 발전하고 있음을 시사하는 중요한 사례다.

4. 산업 연구소의 혁신적 발표

2019년 12월은 학계의 이론적 성찰과 더불어, 주요 산업 연구소들이 AI의 스케일과 능력에 대한 기존의 통념을 깨는 혁신적인 연구들을 쏟아낸 시기이기도 했다. OpenAI, DeepMind, Google AI의 발표들은 각각 스케일의 ‘미스터리’, ‘일반화’, ’효율성’이라는 다른 측면을 조명하며 AI 연구의 새로운 지평을 열었다. 이들의 연구는 공통적으로 ’스케일의 역설’을 탐구하며, AI 연구가 단순히 모델을 키우는 단계를 넘어 스케일의 본질과 그것을 다루는 방법을 다각도로 고민하기 시작했음을 보여준다.

4.1 OpenAI: ‘Deep Double Descent’ 현상의 발견과 그 의미

OpenAI는 딥러닝 모델의 성능과 복잡성(모델 크기, 훈련 시간, 데이터 크기) 간의 관계에 대한 기존의 이해를 뒤흔드는 ‘Deep Double Descent’ 현상을 체계적으로 보고했다.2

4.1.1 현상 설명 및 세부 분석

전통적인 통계학 및 머신러닝 이론에 따르면, 모델의 복잡성이 증가함에 따라 테스트 오차는 특정 지점(과적합이 시작되는 지점)까지 감소하다가 이후에는 증가하는 U자형 곡선을 그릴 것으로 예상된다. 그러나 OpenAI의 연구는 현대적인 딥러닝 모델에서는 이와 다른, 더 복잡한 패턴이 나타남을 보였다. 테스트 오차는 [감소 → 증가 → 다시 감소] 하는 이중 W자형 패턴을 보였다.2

이 현상은 세 가지 차원에서 일관되게 관찰되었다:

  1. Model-wise Double Descent: 모델의 파라미터 수를 점진적으로 늘릴 때, 테스트 오차는 ‘보간 임계점(interpolation threshold)’—모델이 훈련 데이터를 간신히 완벽하게 기억할 수 있는 지점—에서 최고점을 찍은 후, 모델이 더 커짐에 따라 다시 감소했다.2

  2. Epoch-wise Double Descent: 충분히 큰 모델을 훈련시킬 때, 훈련 에포크(epoch)가 진행됨에 따라 테스트 오차가 감소하다가 증가하고, 더 오래 훈련시키면 다시 감소하는 현상이 나타났다. 이는 ’더 오래 훈련하는 것이 과적합을 되돌릴 수 있다’는 직관에 반하는 결과를 보여준다.2

  3. Sample-wise Non-monotonicity: 특정 크기의 모델에서는 훈련 데이터의 양을 늘리는 것이 오히려 테스트 성능을 악화시키는 역설적인 구간이 존재함을 보였다.2

4.1.2 시사점

’Deep Double Descent’의 발견은 ’더 큰 모델은 항상 더 좋다’거나 ’과적합은 피해야 한다’는 기존의 단순한 통념들이 과매개변수화된 딥러닝 모델에는 그대로 적용되지 않음을 명확히 보여주었다.34 이는 모델 복잡성이 보간 임계점을 넘어가는 영역에서 우리가 이해하지 못하는 새로운 학습 원리가 작동하고 있음을 시사한다. 이 경험적 발견은 NeurIPS에서 발표된 “균일 수렴의 한계” 논문과 맞물려, 딥러닝의 일반화 미스터리를 풀기 위한 새로운 이론적 프레임워크의 필요성을 강력하게 제기하는 증거가 되었다. 즉, OpenAI는 ’왜 이런 이상한 현상이 일어나는가?’라는 경험적 질문을 던졌고, NeurIPS 논문은 ’기존 이론으로는 왜 이 현상을 설명조차 할 수 없는가?’라는 이론적 한계를 지적하며 상호보완적인 그림을 완성했다.

4.2 DeepMind: 규칙 없이 게임을 마스터하는 MuZero 알고리즘

DeepMind는 이전 세대의 게임 AI인 AlphaGo나 AlphaZero의 한계를 뛰어넘는 새로운 알고리즘 MuZero를 발표했다.3

4.2.1 핵심 혁신 (AlphaZero와의 차이점)

AlphaZero의 경이로운 성능은 게임의 규칙, 즉 완벽한 시뮬레이터(perfect simulator)를 미리 알고 있다는 전제 하에 가능했다. 이는 체스나 바둑처럼 규칙이 명확한 환경에는 적용 가능하지만, 규칙을 알 수 없거나 시뮬레이션하기 어려운 현실 세계 문제에는 적용하기 어렵다는 근본적인 한계가 있었다.

MuZero는 이 한계를 극복했다. 아무런 사전 지식 없이, 환경과의 상호작용만으로 스스로 환경의 동역학(dynamics) 모델을 학습하고, 이 학습된 모델을 기반으로 **계획(planning)**을 수행한다.3 이는 ’모델 기반 강화학습(Model-Based Reinforcement Learning)’의 궁극적인 목표에 한 걸음 더 다가선 것이다.

4.2.2 핵심 구조

MuZero의 성공 비결은 환경의 모든 세부사항(예: 게임 화면의 모든 픽셀)을 완벽하게 예측하려 하지 않는다는 점에 있다. 대신, 계획에 가장 직접적으로 관련된 세 가지 핵심 요소만을 예측하는 추상적인 모델을 학습한다.3

  1. 가치(Value): 현재 상태가 얼마나 유리한가?

  2. 정책(Policy): 현재 상태에서 어떤 행동이 가장 유망한가?

  3. 보상(Reward): 직전에 한 행동으로 즉각적인 보상을 얼마나 얻었는가?

관찰(observation)은 먼저 ’표현 함수(representation function)’를 통해 추상적인 숨겨진 상태(hidden state)로 인코딩된다. 이후 ’동역학 함수(dynamics function)’는 현재의 숨겨진 상태와 가상의 행동을 입력받아 다음 숨겨진 상태와 즉각적인 보상을 예측하고, ’예측 함수(prediction function)’는 각 숨겨진 상태로부터 가치와 정책을 예측한다. 이 학습된 모델은 AlphaZero에서 사용된 것과 유사한 몬테카를로 트리 탐색(MCTS) 알고리즘과 결합되어, 상상 속의 시뮬레이션을 통해 최적의 수를 탐색한다.39

4.2.3 성과

MuZero는 시각적으로 복잡하고 규칙을 미리 알 수 없는 57개의 아타리(Atari) 게임에서 기존의 모든 강화학습 알고리즘을 능가하는 새로운 최고 성능(SOTA)을 달성했다. 동시에, 규칙이 명확한 바둑, 체스, 쇼기에서는 게임 규칙을 미리 알려주고 학습한 AlphaZero와 대등한 초인적 성능을 달성했다.39 이는 단일 알고리즘이 규칙을 아는 환경과 모르는 환경 모두에서 최고 수준의 성능을 보일 수 있음을 증명한 놀라운 성과다.

4.3 Google AI: 경량 언어 모델 ALBERT의 등장

Google AI는 대규모 사전 훈련 언어 모델의 성능을 유지하면서도 파라미터 수를 획기적으로 줄인 **ALBERT(A Lite BERT)**를 발표하며, 모델 효율성에 대한 새로운 방향을 제시했다.1

4.3.1 문제 의식 및 기술적 혁신

BERT와 같은 모델들은 파라미터 수를 늘릴수록 성능이 향상되는 경향을 보였지만, 이는 막대한 GPU/TPU 메모리와 긴 훈련 시간을 요구하는 문제를 야기했다.43 ALBERT는 이러한 ‘스케일링의 비효율성’ 문제를 해결하기 위해 두 가지 핵심적인 파라미터 절감 기법을 제안했다.

  1. 인수분해 임베딩 매개변수화(Factorized Embedding Parameterization): BERT에서는 단어 임베딩의 차원(E)과 트랜스포머 은닉층의 차원(H)이 같았다. 그러나 단어 임베딩은 문맥과 무관한 정보를, 은닉층 임베딩은 문맥을 고려한 정보를 학습하므로 이 둘의 역할이 다르다. ALBERT는 거대한 어휘 임베딩 행렬(V \times H)을 두 개의 작은 행렬(V \times EE \times H, 여기서 E \ll H)로 분해하여, 은닉층의 크기를 키우면서도 임베딩 파라미터의 폭발적인 증가를 막았다.46

  2. 교차 계층 매개변수 공유(Cross-layer Parameter Sharing): 트랜스포머의 모든 계층이 동일한 파라미터(피드포워드 네트워크와 어텐션 파라미터 모두)를 공유하도록 했다. 이는 모델의 깊이가 파라미터 수 증가로 직접 이어지지 않게 하여 파라미터 효율을 극대화했다.46

또한, 기존 BERT의 다음 문장 예측(NSP) 태스크가 너무 쉽다는 비판을 수용하여, 두 문장의 순서가 올바른지 아니면 뒤바뀌었는지를 예측하는 더 어려운 **문장 순서 예측(Sentence Order Prediction, SOP)**이라는 새로운 자기지도학습 손실 함수를 도입했다.43

4.3.2 성능

이러한 혁신을 통해 ALBERT는 BERT-large 모델보다 18배나 적은 파라미터를 가지면서도 GLUE, RACE, SQuAD와 같은 주요 자연어 이해(NLU) 벤치마크에서 BERT-large를 능가하고 새로운 최고 성능(SOTA)을 달성했다.44 이는 모델의 성능이 단순히 파라미터의 수에만 비례하는 것이 아니라, 아키텍처의 설계와 파라미터 효율성에 크게 좌우될 수 있음을 증명한 중요한 사례다.

5. 결론: 2019년 말을 기점으로 한 AI 및 로봇 분야의 종합적 평가와 미래 전망

2019년 12월은 AI 분야가 양적 팽창의 정점에서 질적 성찰로 전환되는 중요한 순간이었음을 종합적으로 보여준다. 이 시기에 발표된 연구들은 서로 다른 방향에서 출발했지만, 공통적으로 AI 기술의 다음 단계를 향한 깊은 고민을 담고 있었다.

NeurIPS에서는 딥러닝의 성공을 뒷받침하는 이론적 기반의 균열과 재건의 필요성이 제기되었다. Massart 노이즈에 대한 강인한 학습 알고리즘은 AI의 신뢰성이라는 현실적 과제에 대한 이론적 응답이었으며 7, 균일 수렴의 한계를 지적한 연구는 일반화라는 딥러닝의 근본 미스터리에 대한 기존의 설명 방식이 더 이상 유효하지 않음을 선언했다.10 CoRL에서는 로봇 학습의 이론적 체계화(모방 학습의 통합 프레임워크)와 시스템적 복잡성 증대(객체군 조작)가 동시에 이루어지며, 분야의 성숙을 알렸다.23

한편, 산업계에서는 기존의 스케일링 법칙에 대한 통념을 깨는 경험적 발견(‘Deep Double Descent’)이 이루어졌고 2, 이를 통해 이론과 실제 사이의 간극이 더욱 명확해졌다. 동시에 DeepMind의 MuZero와 Google AI의 ALBERT는 각각 ’일반성’과 ’효율성’이라는 두 가지 키워드를 중심으로 차세대 대규모 모델의 방향성을 제시했다.3 MuZero는 AI가 사전 지식 없이도 스스로 세계를 이해하고 계획할 수 있는 가능성을, ALBERT는 막대한 성능을 보다 효율적인 아키텍처로 달성할 수 있는 가능성을 보여주었다.

이러한 2019년 12월의 유산은 이후 AI 및 로봇 연구의 방향성에 지대한 영향을 미쳤다.

  • 이론과 실제의 간극 메우기: ’Deep Double Descent’와 ’균일 수렴의 한계’가 제기한 미스터리를 풀기 위한 ‘암묵적 편향’, ‘신경망 동역학’, ‘정보 병목 이론’ 등 새로운 이론적 도구를 탐구하는 연구가 이후 몇 년간 AI 이론 연구의 주류를 형성하게 되었다.

  • 모델 기반 강화학습의 부상: MuZero의 성공은 규칙을 모르는 복잡한 현실 세계 문제(로보틱스, 자원 관리, 단백질 접힘 등)에 계획 기반 강화학습을 적용하려는 연구를 가속화시키는 기폭제가 되었다.

  • 효율적인 AI 모델 아키텍처: ALBERT가 제시한 파라미터 효율성이라는 방향성은 이후 모델 압축, 지식 증류, 효율적인 아키텍처 탐색(NAS) 등 ‘지속 가능한 AI’ 연구의 중요성을 부각시켰으며, 이는 현재 거대 언어 모델(LLM)의 경량화 및 최적화 연구로 이어지고 있다.

  • 로보틱스의 복잡성 증대: CoRL에서 보여준 객체군 조작과 같은 연구는 단일 에이전트, 단일 과업을 넘어 다중 에이전트, 다중 과업, 인간과의 상호작용 등 더 복잡하고 현실적인 시나리오로 로봇 학습 연구가 확장되는 흐름을 예고했다.

결론적으로, 2019년 12월은 AI가 스스로의 성공에 도취되지 않고, 그 이면의 원리를 파고들며 다음 단계의 도약을 준비하던 지적인 전환기였다. 이 시기에 제기된 질문들과 제시된 방향성들은 오늘날 우리가 마주하고 있는 AI 연구 지형의 근간을 이루고 있다.

6. 참고 자료

  1. Latest News from Google Research Blog - Google Research, https://blog.research.google/2019/?m=1
  2. Deep double descent | OpenAI, https://openai.com/index/deep-double-descent/
  3. MuZero: Mastering Go, chess, shogi and Atari without rules - Google DeepMind, https://deepmind.google/discover/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules/
  4. NeurIPS 2019 Roundup: Outstanding Papers, Featured Talks, Facts and Figures | Synced, https://syncedreview.com/2019/12/15/neurips-2019-roundup-outstanding-papers-featured-talks-facts-and-figures/
  5. Deadlines for the major conferences of robotics, computer vision, and machine learning. - GitHub, https://github.com/xahidbuffon/conference-deadlines
  6. NeurIPS 2019 Paper Awards - Neural Information Processing Systems Conference, https://neuripsconf.medium.com/neurips-2019-paper-awards-807e41d0c1e
  7. Distribution-Independent PAC Learning of Halfspaces with Massart Noise, http://papers.neurips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise.pdf
  8. Distribution-Independent PAC Learning of Halfspaces with Massart …, https://arxiv.org/pdf/1906.10075
  9. Learning Halfspaces with Massart Noise Under Structured Distributions - arXiv, https://arxiv.org/pdf/2002.05632
  10. NeurIPS 2019 Outstanding New Directions Paper Award w/ slides - YouTube, https://www.youtube.com/watch?v=JzwsiYfg_GA
  11. Uniform convergence may be unable to explain generalization in deep learning - NIPS, http://papers.neurips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning.pdf
  12. Uniform convergence may be unable to explain generalization in deep learning, https://locuslab.github.io/2019-07-09-uniform-convergence/
  13. Uniform convergence may be unable to explain generalization in …, https://arxiv.org/pdf/1902.04742
  14. NeurIPS 2019 Awards, https://neurips.cc/virtual/2019/awards_detail
  15. Dual Averaging Method for Regularized Stochastic … - Microsoft, https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/rda_nips09_fixed.pdf
  16. Dual Averaging Method for Regularized Stochastic Learning and Online Optimization, http://papers.neurips.cc/paper/3882-dual-averaging-method-for-regularized-stochastic-learning-and-online-optimization.pdf
  17. Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization, https://jmlr.org/papers/v11/xiao10a.html
  18. Dual Averaging Method for Regularized Stochastic Learning and Online Optimization - NIPS, https://papers.nips.cc/paper/3882-dual-averaging-method-for-regularized-stochastic-learning-and-online-optimization
  19. Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization | Request PDF - ResearchGate, https://www.researchgate.net/publication/220320647_Dual_Averaging_Methods_for_Regularized_Stochastic_Learning_and_Online_Optimization
  20. CoRL-2019 - Sony Research, https://research.sony/conferences/corl2019/
  21. CoRL 2019 : Conference on Robot Learning - WikiCFP, http://wikicfp.com/cfp/servlet/event.showcfp?eventid=85648©ownerid=152567
  22. Conference on Robot Learning (CoRL), 2019 | ServiceNow AI Research, https://www.servicenow.com/research/event/2019-corl.html
  23. Home - Google Sites, https://sites.google.com/view/gugurus/home
  24. Professor Richard Zemel - Department of Computer Science, University of Toronto, http://www.cs.toronto.edu/~zemel/
  25. Seyed Kamyar Seyed Ghasemipour - Department of Computer Science, University of Toronto, https://www.cs.utoronto.ca/~kamyar/
  26. Research Discussion - Harshit Sikchi, https://hari-sikchi.github.io/papers/masters_research.pdf
  27. Auto-Encoding Adversarial Imitation Learning - arXiv, https://arxiv.org/html/2206.11004v5
  28. apexrl/Imitation-Learning-Paper-Lists - GitHub, https://github.com/apexrl/Imitation-Learning-Paper-Lists
  29. Learning to Manipulate Object Collections Using Grounded State …, http://proceedings.mlr.press/v100/wilson20a/wilson20a.pdf
  30. Matthew Wilson, https://matwilso.github.io/
  31. [1909.07876] Learning to Manipulate Object Collections Using Grounded State Representations - ar5iv, https://ar5iv.labs.arxiv.org/html/1909.07876
  32. Publications - LL4MA lab, https://robot-learning.cs.utah.edu/publications
  33. AI Best Paper Awards, https://aibestpape.rs/
  34. Deep Double Descent (cross-posted on OpenAI blog) - Windows On Theory, https://windowsontheory.org/2019/12/05/deep-double-descent/
  35. Deep Double Descent: Where Bigger Models and More Data Hurt - OpenReview, https://openreview.net/forum?id=B1g5sA4twr
  36. Deep Double Descent - Where Data can Damage Performance | Data Science Dojo, https://datasciencedojo.com/blog/deep-double-descent/
  37. Reproducing deep double descent | stephen wan, https://stpn.bearblog.dev/reproducing-double-descent/
  38. Understanding “Deep Double Descent” — LessWrong, https://www.lesswrong.com/posts/FRv7ryoqtvSuqBxuT/understanding-deep-double-descent
  39. Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model - arXiv, https://arxiv.org/pdf/1911.08265v1.pdf?ref=bestofml
  40. Paper Insight: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model, https://engineering.nordeus.com/mastering-atari-go-chess-and-shogi-by-planning-with-a-learned-model/
  41. Mastering Atari, Go, chess and shogi by planning with a learned model - Semantic Scholar, https://www.semanticscholar.org/paper/c39fb7a46335c23f7529dd6f9f980462fd38653a
  42. [R] [1911.08265] Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model - Reddit, https://www.reddit.com/r/MachineLearning/comments/dzakrs/r_191108265_mastering_atari_go_chess_and_shogi_by/
  43. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, https://www.bibsonomy.org/bibtex/231219db789093ce55622945118b2a574/janpf
  44. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, https://iclr.cc/virtual_2020/poster_H1eA7AEtvS.html
  45. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, https://www.researchgate.net/publication/336084032_ALBERT_A_Lite_BERT_for_Self-supervised_Learning_of_Language_Representations
  46. ALBERT: A Lite BERT for Self-supervised Learning of Language… : r/MachineLearning, https://www.reddit.com/r/MachineLearning/comments/d9tdfo/albert_a_lite_bert_for_selfsupervised_learning_of/
  47. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, https://openreview.net/forum?id=H1eA7AEtvS
  48. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, https://www.semanticscholar.org/paper/ALBERT%3A-A-Lite-BERT-for-Self-supervised-Learning-of-Lan-Chen/7a064df1aeada7e69e5173f7d4c8606f4470365b