년 12월 AI 및 로봇 연구 동향

년 12월 AI 및 로봇 연구 동향

1. 서론: 2020년 말을 장식한 AI와 로보틱스의 변곡점

2020년 12월은 인공지능(AI) 분야가 양적 팽창을 넘어 질적 도약을 이룬 결정적 시기로 기록된다. 이 시기는 세 가지 주요 흐름으로 요약될 수 있다. 첫째, 전례 없는 규모의 모델(GPT-3)이 새로운 학습 패러다임을 제시하며 **‘규모의 법칙’**을 증명하였다. 둘째, 다중 에이전트 시스템의 오랜 이론적 난제가 해결되며 **‘이론의 심화’**가 이루어졌다. 마지막으로, AI가 50년 묵은 생명 과학의 난제를 해결하며 **‘과학적 발견의 도구’**로서의 가능성을 입증한 것이다. 본 보고서는 이 세 가지 축을 중심으로 2020년 12월의 주요 연구 성과를 심층적으로 분석하고, 그 기술적 함의와 미래에 미칠 영향을 고찰한다.

2. NeurIPS 2020 - 시대정신과 기술적 성취

2.1 학회 전반의 주요 동향

신경정보처리시스템학회(NeurIPS) 2020에서 발표된 논문들은 당시 AI 연구의 지형도를 명확히 보여준다.1 학회 전반에 걸쳐 자기 지도 학습(Self-Supervised Learning), 그래프 신경망(Graph Neural Networks, GNNs), 모델 강건성(Robustness), 그리고 공정성(Fairness)과 같은 주제들이 핵심 키워드로 부상했다.1 이는 AI 기술이 단순한 성능 경쟁을 넘어, 데이터 효율성, 관계 추론 능력, 예측의 신뢰성, 그리고 사회적 책임과 같은 보다 복잡하고 현실적인 문제로 연구의 초점을 확장하고 있음을 시사한다. 예를 들어, ’Unsupervised Representation Learning by Invariance Propagation’과 같은 연구는 레이블 없는 데이터로부터 유용한 표현을 학습하는 자기 지도 학습의 가능성을 탐구했으며, ’GPS-Net: Graph-based Photometric Stereo Network’는 객체 간의 관계를 모델링하는 GNN의 효용성을 입증했다.1

2.2 최우수 논문상 분석: 시대를 정의한 세 가지 연구

NeurIPS 2020 최우수 논문상 수상작들은 각각 AI 연구의 다른 차원을 대표하며, 이들의 동시 수상은 2020년의 시대정신을 다각적으로 반영한다.6

  • Language Models are Few-Shot Learners (GPT-3): 이 연구는 대규모 데이터와 막대한 컴퓨팅 자원을 활용한 경험적, 실용적 접근법의 정점을 보여준다. ’더 큰 모델이 질적으로 다른 능력을 창발한다’는 스케일링 가설(scaling hypothesis)을 강력하게 뒷받침하며, AI 연구의 패러다임을 전환시켰다.6

  • No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium: 수리적 증명과 정교한 알고리즘 설계를 통해 게임 이론 분야의 오랜 미해결 문제를 해결한 순수 이론 연구의 성과를 대표한다. 이는 AI 시스템의 합리적 의사결정 메커니즘에 대한 근본적인 이해를 심화시켰다.8

  • Improved Guarantees and a Multiple-Descent Curve for Column Subset Selection and the Nyström Method: 기계학습의 근간이 되는 행렬 근사 및 커널 방법론에 대한 깊은 이론적 통찰을 제공한다. 특히 이 연구는 신경망의 일반화 성능에서 관찰되는 이중 하강(double-descent) 현상과 같은 현대적 이슈를 이해하는 데 중요한 단서를 제공했다.8

이 세 연구는 각각 실용적 스케일업, 이론적 증명, 그리고 근본 원리 탐구라는 AI 발전의 세 축을 상징하며, 2020년 AI 분야의 성숙도와 다변화를 보여주는 지표라 할 수 있다.

2.3 시간의 시험상(Test of Time Award) 분석: HOGWILD!와 병렬 SGD의 유산

2020년 NeurIPS에서 2011년 논문인 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent가 시간의 시험상을 수상한 것은 단순한 과거의 영광을 회고하는 것을 넘어선 깊은 의미를 가진다.6 이 수상은 같은 해 최우수 논문상을 받은 GPT-3의 등장이 어떠한 기술적 토대 위에서 가능했는지를 명확히 보여준다.

GPT-3와 같이 1750억 개에 달하는 파라미터를 가진 모델의 학습은 단일 프로세서로는 사실상 불가능하며, 수천 개의 GPU를 동원한 대규모 병렬 처리를 필수적으로 요구한다.11 이러한 대규모 병렬 처리 환경에서 가장 큰 기술적 난제는 각 프로세서 간의 동기화(synchronization)로 인해 발생하는 오버헤드를 최소화하는 것이다. 전통적인 록(lock) 기반 동기화 방식은 프로세서 수가 증가할수록 병목 현상을 일으켜 전체 시스템의 효율을 급격히 저하시킨다.

HOGWILD!는 바로 이 문제에 대한 혁신적인 해법을 제시했다. 이 연구는 메모리 접근에 대한 록(lock) 없이도 여러 프로세서가 비동기적으로 확률적 경사 하강법(Stochastic Gradient Descent, SGD)을 수행할 수 있음을 이론적, 실험적으로 증명했다.9 특히 그래디언트 업데이트가 희소(sparse)한 경우, 즉 업데이트가 전체 파라미터 중 일부에만 영향을 미치는 환경에서는 프로세서 수에 거의 선형적으로 비례하는 속도 향상(speedup)을 달성할 수 있음을 보였다.9

HOGWILD!가 제시한 이 비동기 병렬 처리 패러다임은 이후 대규모 분산 딥러닝 시스템 발전의 핵심적인 사상적, 기술적 근간이 되었다. 이는 결국 GPT-3와 같은 초거대 모델의 학습을 현실적으로 가능하게 만든 핵심 기술 중 하나로 작용했다. 따라서 2020년에 HOGWILD!가 시간의 시험상을 수상한 것은, 같은 해 AI 분야의 가장 큰 화두였던 GPT-3의 등장이 결코 우연이 아니며, 지난 10년간 꾸준히 축적된 분산 컴퓨팅 기술의 발전 위에 서 있음을 상징적으로 보여주는 사건이었다.

3. 언어 모델의 새로운 지평 - GPT-3와 퓨샷 학습 패러다임

3.1 GPT-3 아키텍처 심층 분석

GPT-3는 이전 모델인 GPT-2와 동일한 트랜스포머의 디코더-온리(decoder-only) 아키텍처를 기반으로 한다. 하지만 파라미터 수를 GPT-2의 15억 개에서 1750억 개로 100배 이상 대폭 확장하여 규모의 차이를 질의 차이로 전환시켰다.11 이 아키텍처는 자기회귀(autoregressive) 방식으로, 주어진 텍스트 시퀀스의 이전 토큰들을 바탕으로 다음 토큰을 순차적으로 예측하며 문장을 생성한다.11

GPT-3는 단일 모델이 아니라, 1억 2500만 개부터 1750억 개에 이르는 8가지 다른 크기의 모델군(family of models)으로 구성된다.14 이는 모델의 크기(파라미터 수, 네트워크 깊이, 너비 등)가 성능에 미치는 영향을 체계적으로 분석하기 위한 설계로, ‘스케일링 법칙(scaling laws)’ 연구의 중요한 실험적 기반이 되었다. 모델 학습에는 Common Crawl, WebText2, Books, Wikipedia 등에서 수집된 약 45TB 규모의 방대한 텍스트 코퍼스가 사용되었다.14

모델명파라미터 수레이어 수 (n_{layers})임베딩 차원 (d_{model})어텐션 헤드 수 (n_{heads})헤드 당 차원 (d_{head})
GPT-3 small125M127681264
GPT-3 medium350M2410241664
GPT-3 large760M2415361696
GPT-3 XL1.3B24204824128
GPT-3 2.7B2.7B3225603280
GPT-3 6.7B6.7B32409632128
GPT-3 13B13B40512040128
GPT-3 175B175B961228896128

3.2 인-컨텍스트 학습(In-Context Learning)의 원리

GPT-3가 제시한 가장 혁신적인 개념은 ‘인-컨텍스트 학습(In-Context Learning)’, 또는 ’퓨샷 학습(Few-Shot Learning)’으로 알려진 새로운 패러다임이다.6 이는 모델의 가중치를 직접 수정하는 파인튜닝(fine-tuning) 과정 없이, 모델의 입력 프롬프트에 몇 개의 예시(demonstrations)를 텍스트 형태로 제공하는 것만으로 모델이 새로운 작업을 수행하는 능력을 의미한다.11 이 방식은 예시의 수에 따라 다음과 같이 구분된다.

  • Zero-Shot (0S): 작업에 대한 자연어 설명만 제공한다.

  • One-Shot (1S): 하나의 예시와 작업 설명을 제공한다.

  • Few-Shot (FS): 여러 개의 예시와 작업 설명을 제공한다.

이러한 능력은 단순히 거대한 모델이 더 많은 패턴을 암기한 결과로 보기 어렵다. 기존의 파인튜닝 패러다임은 사전학습된 모델의 가중치 자체를 특정 작업 데이터셋에 맞게 ’수정’하는 과정이었다. 반면, 인-컨텍스트 학습은 모델의 가중치는 고정된 상태에서, 입력으로 주어지는 컨텍스트를 통해 모델의 ’동작 모드’를 실시간으로 전환시키는 것에 가깝다.11

GPT-3 논문 저자들은 이를 ’느린 가중치 업데이트를 통한 학습’과 ’빠른 인-컨텍스트 학습’의 결합으로 해석하며, 메타-학습(meta-learning)과의 유사성을 시사했다.11 이는 모델이 방대한 텍스트 코퍼스를 학습하는 과정에서 단순히 언어적 패턴이나 사실적 지식만을 학습한 것이 아니라, ‘작업을 학습하는 방법’ 자체에 대한 고수준의 추상적 지식을 내재화했음을 의미한다. 즉, 파라미터 수의 양적 증가가 단순히 성능 향상을 넘어, 질적으로 다른 학습 메커니즘(메타-학습 능력)을 창발(emerge)시킬 수 있다는 강력한 증거를 제시한 것이다. 이는 AI의 능력에 대한 기존의 관점을 근본적으로 바꾸는 계기가 되었다.

3.3 수학적 탐구: 자기회귀 언어 모델의 목적 함수

GPT-3와 같은 자기회귀 언어 모델은 주어진 텍스트 코퍼스 U = \{u_1,..., u_n\}에 대해 비지도 학습 방식으로 우도(likelihood)를 최대화하도록 학습된다. 표준적인 언어 모델링의 목적은 다음과 같이 비조건부 확률의 곱을 최대화하는 것이다.

\sum_i P(u_i)

하지만 일반적으로는 이전 토큰들이 주어졌을 때 다음 토큰을 예측하는 조건부 확률을 모델링한다. 이는 다음과 같은 목적 함수를 사용하여 최적화된다.
L(U) = \sum_i \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)
여기서 k는 컨텍스트 윈도우의 크기, P는 파라미터 \Theta를 갖는 신경망(트랜스포머)에 의해 계산되는 조건부 확률이다. 이 목적 함수는 주어진 컨텍스트 하에서 실제 다음 단어가 나타날 확률을 최대화하도록 모델의 파라미터 \Theta를 조정한다.

3.4 DALL-E: GPT-3 아키텍처의 멀티모달 확장

GPT-3의 성공은 곧바로 언어를 넘어 다른 양식(modality)으로의 확장을 예고했다. 2021년 1월 공식 발표된 DALL-E는 GPT-3의 120억 파라미터 버전으로, 텍스트와 이미지를 하나의 통합된 토큰 시퀀스로 처리하는 혁신적인 아이디어에 기반한다.18

DALL-E의 핵심 아키텍처는 텍스트 토큰과 이산적 변이 오토인코더(discrete Variational Autoencoder, dVAE)를 통해 인코딩된 이미지 토큰을 입력으로 받는 거대 트랜스포머 모델이다.19 여기서 dVAE는 고차원의 연속적인 픽셀 공간을 저차원의 이산적인 ’시각적 코드북(visual codebook)’으로 압축하는 역할을 한다. 이 과정을 통해 이미지는 트랜스포머가 처리할 수 있는 일련의 토큰으로 변환된다. 이 접근법은 GPT-3가 보여준 언어의 구성적(compositional) 이해 능력이 시각적 개념으로까지 확장될 수 있음을 증명했으며, 이후 폭발적으로 발전한 텍스트-이미지 생성 모델의 기술적 토대를 마련했다.

4. 게임 이론과 학습 동역학의 진보 - 무후회 학습 동역학 연구

4.1 핵심 개념 정의: 내쉬 균형(Nash Equilibrium) 대 상관 균형(Correlated Equilibrium)

다중 에이전트 시스템의 상호작용을 분석하는 게임 이론에서 균형(equilibrium)은 중요한 솔루션 개념이다.

  • 내쉬 균형 (Nash Equilibrium): 각 플레이어가 다른 모든 플레이어의 전략이 고정되어 있다고 가정할 때, 자신의 전략을 단독으로 변경하여 더 높은 보상을 얻을 수 없는 상태를 의미한다. 내쉬 균형에서 플레이어들의 전략 선택은 통계적으로 독립적이다.22

  • 상관 균형 (Correlated Equilibrium): 신뢰할 수 있는 외부 중재자(mediator)가 존재하여 각 플레이어에게 행동을 비밀리에 추천하는 상황을 가정한다. 어떤 플레이어도 중재자의 추천을 따르지 않고 다른 행동을 하는 것이 이득이 되지 않을 때, 이러한 추천들의 확률 분포를 상관 균형이라 한다.22 플레이어들의 행동은 중재자가 보내는 공통 신호(common signal)에 의해 상관될 수 있다.

상관 균형은 내쉬 균형을 포함하는 더 일반적인 개념이다. 중요한 점은, 상관 균형이 내쉬 균형보다 더 높은 사회적 후생(social welfare, 모든 플레이어 보상의 합)을 달성할 수 있으며, 계산적으로도 선형 계획법(linear programming)으로 해결 가능하여 내쉬 균형보다 다루기 쉽다는 것이다.8

4.2 확장형 게임(Extensive-Form Games)에서의 상관 균형 문제

현실의 많은 전략적 상호작용은 플레이어들이 동시에 한 번만 행동하는 정규형 게임(Normal-Form Games)보다, 순차적으로 행동하며 이전의 정보를 바탕으로 결정을 내리는 확장형 게임(Extensive-Form Games, 또는 트리형 게임)으로 더 잘 모델링된다.24

확장형 게임에서의 상관 균형(Extensive-Form Correlated Equilibrium, EFCE)은 정규형 게임보다 훨씬 복잡하다. 중재자는 게임 시작 전에 가능한 모든 결정 지점(information set)에 대한 행동 계획을 추천하지만, 플레이어가 실제로 해당 결정 지점에 도달했을 때만 관련 정보를 점진적으로 공개해야 한다.24

이 논문이 발표되기 전까지, 정규형 게임에서는 각 플레이어가 자신의 ’내부 후회(internal regret)’를 최소화하는 간단하고 분산된 학습 동역학(uncoupled learning dynamics)을 따를 때, 그 결과가 상관 균형으로 수렴한다는 사실이 20년 이상 알려져 있었다. 그러나 이러한 단순한 학습 과정이 훨씬 복잡한 확장형 게임에서도 EFCE로 수렴할 수 있는지는 오랫동안 해결되지 않은 미해결 문제(long-standing open problem)였다.8

4.3 제안된 방법론: 트리거 후회(Trigger Regret)의 개념과 ICFR 알고리즘

이 연구는 최초로 n-플레이어 일반합(general-sum) 확장형 게임에서 EFCE로 수렴하는 분산된 무후회(no-regret) 학습 동역학을 제시함으로써 이 미해결 문제에 대한 답을 내놓았다.9

  • 트리거 후회 (Trigger Regret): 연구진은 확장형 게임의 순차적, 정보 비대칭적 특성을 반영하기 위해 새로운 후회 개념인 ’트리거 후회’를 도입했다. 이는 정규형 게임의 ’내부 후회’를 확장한 개념으로, 특정 행동 순서(sequence)가 관찰되었을 때 ’트리거’되는 가상의 에이전트가 겪는 후회로 정의된다.24 각 플레이어가 자신의 트리거 후회를 낮게 유지하면, 전체 시스템의 경험적 플레이 빈도는 EFCE에 가까워진다. 수학적으로 플레이어 i의 시퀀스 \sigma = (I,a)에 대한 트리거 후회는 다음과 같이 정의된다.

R^T_\sigma := \max_{\hat{\pi}_i \in \Pi_i(I)} \left( \sum_{t=1}^T 1[\pi^t_i \in \Pi_i(\sigma)] \left( V^t_I(\hat{\pi}_i) - V^t_I(\pi^t_i) \right) \right)

여기서 \pi^t_it번째 라운드에서 플레이어 i의 전략, \Pi_i(\sigma)는 시퀀스 \sigma를 포함하는 전략 집합, V^t_I는 정보 집합 I에서의 기대 보상을 나타낸다.24

  • ICFR (Internal Counterfactual Regret) 알고리즘: 제안된 알고리즘은 이 트리거 후회를 각 결정 지점(information set)에서의 지역적 하위 문제로 효율적으로 분해하여 최소화한다.24 이를 위해 각 정보 집합마다 하나의 내부 후회 최소화기와 여러 개의 외부 후회 최소화기를 인스턴스화하고, 이들의 학습 과정을 정교하게 조율하여 전체 후회를 효과적으로 관리한다.24

4.4 이론적 기여와 응용 가능성

이 연구의 결과는 AI 에이전트 간의 정교한 ’사회적 계약’이 중앙의 명시적인 통제 없이, 각자 자신의 이익을 추구하는 분산된 학습만으로 형성될 수 있음을 이론적으로 증명했다는 점에서 깊은 함의를 가진다. 현실 세계의 자율주행차 네트워크나 통신망 라우팅과 같은 다중 에이전트 시스템은 중앙에서 모든 것을 통제하기 어렵다. 이 연구는 이러한 시스템에서 각 에이전트가 ’트리거 후회’라는 국소적이고 이기적인 목표를 최소화하는 것만으로도, 전체 시스템이 사회적으로 더 효율적인 ‘상관 균형’ 상태로 자연스럽게 수렴할 수 있음을 보여준다.

예를 들어, 내비게이션 앱이 제공하는 경로 추천은 일종의 중재자 역할을 한다.8 각 운전자는 추천 경로를 따를 수도, 무시할 수도 있다. 이 연구는 모든 운전자가 추천을 따르는 것이 장기적으로 각자에게 이득이 되는 균형 상태가, 각 운전자의 분산된 학습을 통해 자발적으로 형성될 수 있는 메커니즘을 규명한 것이다. 이는 복잡한 상호작용 시스템에서 어떻게 정교한 협력(coordination)이 창발될 수 있는지에 대한 근본적인 통찰을 제공하며, 향후 AI 윤리 및 거버넌스 설계에 중요한 이론적 토대가 될 수 있다.

5. 생명 과학의 난제 해결 - 딥마인드 알파폴드 2

5.1 단백질 접힘 문제의 중요성과 CASP14에서의 압도적 성능

단백질은 생명 현상의 거의 모든 과정에 관여하는 핵심 분자다. 아미노산 서열이라는 1차원 정보가 어떻게 복잡한 3차원 구조로 접히는지를 예측하는 ’단백질 접힘 문제’는 지난 50년간 생물학 분야의 가장 큰 난제(Grand Challenge) 중 하나였다.28 단백질의 3차원 구조는 그 기능을 결정하며, 구조가 잘못 접힐 경우 알츠하이머, 파킨슨병 등 심각한 질병을 유발할 수 있다.28

2020년 12월, 딥마인드가 개발한 알파폴드 2(AlphaFold 2)는 제14회 단백질 구조 예측 학술대회(CASP14)에서 이 난제를 사실상 해결했음을 선언했다.29 정확도를 측정하는 GDT(Global Distance Test) 점수에서 중앙값 92.4점을 기록했는데, 이는 90점 이상이면 실험적으로 구조를 규명하는 것과 유사한 수준으로 간주되는 점수다.28 이 성과는 많은 전문가들이 수십 년은 더 걸릴 것으로 예상했던 것으로, AI가 과학적 발견의 패러다임을 바꿀 수 있음을 보여준 역사적인 사건이었다.28

5.2 알파폴드 2 아키텍처의 혁신: Evoformer와 어텐션 메커니즘

알파폴드 2의 경이로운 성능의 중심에는 Evoformer라는 새로운 신경망 블록이 있다.31 Evoformer는 두 종류의 핵심 정보를 동시에 처리하고 상호작용을 통해 정제하는 독특한 이중 경로(dual-track) 구조를 가진다.

  1. MSA 표현 (MSA Representation): 예측 대상 단백질과 진화적으로 관련된 여러 단백질 서열을 정렬한 다중 서열 정렬(Multiple Sequence Alignment) 정보. 이는 어떤 아미노산 잔기들이 함께 변이하는지에 대한 공진화(co-evolution) 정보를 담고 있다.

  2. 쌍 표현 (Pair Representation): 아미노산 잔기 쌍(residue pair) 간의 상대적 거리나 방향 같은 기하학적 정보를 나타내는 행렬.

Evoformer 블록 내에서 이 두 정보 스트림은 어텐션(attention) 메커니즘을 통해 서로 정보를 교환하며 반복적으로 업데이트된다.32 이는 마치 진화의 역사에 담긴 통계적 정보(MSA)와 단백질이 따라야 할 물리적 제약(거리)을 동시에 고려하여 가장 가능성 있는 구조를 추론하는 과정과 유사하다.

이러한 구조는 트랜스포머와 어텐션 아키텍처가 특정 도메인을 넘어선 범용적 정보 처리 구조임을 입증하는 강력한 사례이다. GPT-3가 단어(토큰) 시퀀스 내의 문법적, 의미적 관계를 파악하기 위해 어텐션을 사용했다면, 알파폴드 2는 아미노산 시퀀스 내의 진화적, 공간적 관계를 파악하기 위해 어텐션을 사용했다. 즉, 언어 모델이 문장에서 단어 간의 관계를 파악하는 것과, 알파폴드 2가 단백질 서열에서 잔기 간의 관계를 파악하는 것은 근본적으로 동일한 ‘관계 추론’ 문제에 해당한다. 알파폴드 2의 성공은 어텐션 메커니즘이 언어의 ’문법’을 넘어 생명의 ’문법’까지 해독할 수 있는 강력하고 보편적인 원리임을 보여주었다.

5.3 종단간(End-to-End) 구조 예측과 반복적 정제(Recycling)

알파폴드 2는 이전 버전인 알파폴드 1과 비교하여 구조 예측 파이프라인에서도 큰 혁신을 이루었다. 알파폴드 1은 잔기 간 거리 행렬을 예측한 후, 이를 물리 법칙 기반의 최적화 알고리즘을 통해 3D 구조로 조립하는 다단계 방식을 사용했다.33 반면, 알파폴드 2는 아미노산 서열 정보로부터 직접 3D 좌표를 예측하는 종단간(end-to-end) 학습 방식을 채택하여 전체 과정을 하나의 신경망 안에서 통합했다.33

이를 위해 ’구조 모듈(Structure Module)’이라는 3D 등변성(equivariant) 트랜스포머 아키텍처를 도입했다.32 이 모듈은 예측 대상인 단백질 구조 전체를 회전하거나 평행 이동시켜도 예측 결과가 일관되게 유지되도록 보장하여, 3차원 공간 정보를 효과적으로 처리한다. 또한, 한번 예측된 구조 정보를 다시 Evoformer의 입력으로 되먹임하는 ‘재활용(recycling)’ 과정을 최대 3번까지 반복한다.32 이 반복적 정제 과정을 통해 모델은 초기 예측의 오류를 스스로 수정하며 점진적으로 더 정확한 구조를 찾아간다.

5.4 과학계에 미친 파급 효과와 향후 과제

알파폴드 2의 등장은 신약 개발, 질병 메커니즘 연구, 맞춤형 효소 설계 등 생명 과학 전반의 연구 속도를 극적으로 가속화하는 기폭제가 되었다.28 이전에는 수개월에서 수년이 걸리던 단백질 구조 규명 작업을 며칠, 혹은 몇 시간 만에 높은 정확도로 수행할 수 있게 되면서 연구의 패러다임 자체가 바뀌고 있다.

그러나 알파폴드 2가 모든 문제를 해결한 것은 아니다. 여러 단백질이 상호작용하여 거대한 복합체를 이루는 경우나, 하나의 단백질이 여러 가지 동적인 구조를 가지는 경우에 대한 예측은 여전히 도전적인 과제로 남아있다.34 그럼에도 불구하고, 알파폴드 2는 AI가 가설 생성과 실험 검증의 반복 주기를 단축시켜 과학적 발견의 핵심 도구로 자리매김할 수 있음을 보여준 기념비적인 성과로 평가된다.

6. 로보틱스 분야 주요 연구 동향

2020년 12월 로보틱스 분야에서는 AI 기술, 특히 딥러닝과 강화학습을 로봇의 인식, 계획, 제어 문제에 적용하려는 연구들이 활발하게 진행되었다. 주요 흐름은 복잡한 조작 기술을 학습하는 모방 학습의 진화, 객체 조작을 위한 시각적 이해 심화, 그리고 현실 세계 적용을 위한 강건성 확보로 요약할 수 있다.

6.1 모방 학습의 진화: Deep Imitation Learning for Bimanual Robotic Manipulation

NeurIPS 2020에서 발표된 이 연구는 두 팔 로봇(bimanual robot)이 사람의 시연으로부터 복잡한 조작 기술을 학습하는 딥 모방 학습 프레임워크를 제시했다.35 이 연구의 핵심 과제는 학습된 기술을 초기 조건이 다른 새로운 상황, 예를 들어 객체의 위치가 바뀐 경우에도 성공적으로 일반화하는 것이었다.

이를 해결하기 위해 연구진은 계층적, 관계적 접근법을 제안했다.36

  1. 계층적 분해: 복잡한 연속 동작을 ‘물체에 접근하기’, ‘물체 잡기’, ’물체 들어올리기’와 같은 기본적인 ’움직임 프리미티브(movement primitives)’의 순차적 조합으로 분해한다.

  2. 관계적 모델링: 로봇의 두 팔, 조작 대상 물체, 작업대 등 환경 내의 주요 요소들을 그래프의 노드(node)로 표현하고, 이들 간의 동적인 상호작용을 순환 그래프 신경망(recurrent GNN)을 통해 모델링한다.

  3. 통합 제어: 상위 수준에서는 어떤 프리미티브를 선택할지 계획하고, 하위 수준에서는 선택된 프리미티브를 실행하는 계층적 구조를 가진다.

이 연구는 로봇 조작 기술의 일반화 문제를 해결하는 열쇠가 단순히 특정 궤적(trajectory)을 정확히 모방하는 것이 아니라, 환경 내 객체들 간의 ’관계’를 학습하고 추론하는 데 있음을 보여준다. 기존의 모방 학습이 ’로봇 팔을 좌표 (x, y, z)로 이동시켜라’와 같은 절대적인 정보를 학습했다면, 이 연구의 모델은 ’왼쪽 팔로 테이블의 왼쪽 모서리를 잡고, 오른쪽 팔로 오른쪽 모서리를 잡아라’와 같은 상대적이고 관계적인 정보를 학습한다. GNN을 통해 이러한 관계적 편향(relational bias)을 모델 구조에 명시적으로 부여함으로써, 물체의 위치나 크기가 변하더라도 학습된 관계를 유지하려는 방식으로 동작하여 높은 일반화 성능을 달성할 수 있었다. 이는 복잡한 로봇 조작 문제 해결을 위해 종단간 블랙박스 모델을 넘어, 세상에 대한 구조화된 표현과 관계적 추론 능력을 모델에 통합하는 것이 효과적인 접근법임을 시사한다.

6.2 객체 조작을 위한 시각적 이해: 조밀한 대응 관계 학습 연구

로봇이 다양한 객체를 조작하기 위해서는 시연에 사용된 객체와 실제 환경에 놓인 객체 사이의 의미적으로 동일한 부분(예: 컵의 손잡이, 병의 뚜껑)을 시각적으로 인식할 수 있어야 한다. 이러한 문제를 ‘조밀한 대응 관계(dense correspondence)’ 학습 문제라고 한다.39

NeurIPS 2020에서는 이 문제에 대한 새로운 접근법이 제시되었다. 특히, ‘Learning Implicit Functions for Topology-Varying Dense 3D Shape Correspondence’ 연구는 위상(topology)이 다른 객체들, 예를 들어 다리가 세 개인 의자와 네 개인 의자 사이에서도 의미적 대응 관계를 비지도(unsupervised) 방식으로 학습하는 방법을 제안했다.41 이 방법은 각 3D 지점에 대해 기하학적 위치뿐만 아니라 의미론적 ‘부분(part)’ 임베딩을 예측하는 새로운 종류의 심층 함수(implicit function)를 학습한다. 이를 통해 부품의 개수나 형태가 다르더라도 ’의자 다리’나 ’등받이’와 같은 기능적으로 동일한 부분들을 매칭할 수 있게 되어, 로봇의 조작 일반화 능력을 크게 향상시킬 잠재력을 보여주었다.

6.3 자율 시스템을 위한 강건한 계획 및 제어 연구 동향

시뮬레이션 환경에서 학습된 AI 정책을 현실 세계의 로봇에 적용할 때 발생하는 성능 저하, 즉 ‘현실과 시뮬레이션의 간극(sim-to-real gap)’ 문제는 로보틱스 분야의 오랜 난제다. NeurIPS 2020에서는 이 문제를 해결하기 위한 강건한(robust) 강화학습 연구들이 다수 발표되었다.1

특히, ‘On the Stability and Convergence of Robust Adversarial Reinforcement Learning’ 연구는 적대적 강화학습(Adversarial Reinforcement Learning)의 안정성과 수렴성에 대한 심도 있는 이론적 분석을 제공했다.1 이 연구는 정책을 학습하는 주인공 에이전트와 시스템에 불확실성을 가하는 적대자 에이전트 간의 상호작용을 분석함으로써, 어떤 조건 하에서 학습 과정이 안정적으로 수렴하는지를 밝혔다. 이러한 이론적 기초 연구는 안전이 최우선으로 요구되는 자율주행차나 산업용 로봇 제어 시스템에 AI를 신뢰성 있게 적용하기 위한 필수적인 기반을 다지는 중요한 기여라 할 수 있다.

연구 분야핵심 문제제안 방법론주요 기여
모방 학습36두 팔 로봇의 복잡한 조작 기술을 시연으로부터 학습하고 일반화계층적 프리미티브 분해 및 순환 그래프 신경망(GNN)을 이용한 관계적 모델링
시각적 이해41위상이 다른 3D 객체 간의 조밀한 의미적 대응 관계 학습부분 임베딩을 예측하는 새로운 심층 함수(Implicit Function)를 비지도 방식으로 학습
강건 제어1적대적 강화학습의 안정성 및 수렴성 보장선형 2차 시스템(LQS) 사례 연구를 통한 이론적 분석
자율 항법43무인 항공기의 정적/동적 목표물 추적 및 랑데부Takagi-Sugeno 퍼지 제어기를 이용한 유도 시스템(FGS)
인간-로봇 상호작용44협업 로봇 환경에서 인간의 작업 진행 상황 실시간 추정온라인 동적 시간 왜곡(Online Dynamic Time Warping)

7. 결론: 2020년 12월의 유산과 미래 전망

2020년 12월은 AI 연구가 세 가지 뚜렷한 방향으로 동시에 폭발적으로 성장하며 미래의 청사진을 제시한 변곡점이었다. GPT-3는 **‘규모’**가 어떻게 양적 성능 향상을 넘어 질적으로 새로운 능력(인-컨텍스트 학습)을 창발하는지를 보여주었고, 무후회 학습 동역학 연구는 **‘이론’**의 깊이가 어떻게 복잡한 다중 에이전트 상호작용의 원리를 규명하는지를 증명했으며, 알파폴드 2는 이 두 가지 힘이 결합하여 어떻게 인류의 오랜 **‘과학적 난제’**를 해결하는지를 입증했다.

이 시점을 기점으로, 초거대 모델은 AI 연구의 주류 패러다임으로 확고히 자리 잡았으며, ’AI를 통한 과학(AI for Science)’은 가장 유망하고 파급력 있는 응용 분야로 부상했다. 로보틱스 분야 역시 순수한 제어 이론을 넘어, 대규모 데이터 기반의 학습 방법론과 세상에 대한 구조화된 이해(관계적 추론)를 통합하는 방향으로의 전환이 가속화되었다.

2020년 12월의 성과들은 AI가 단순히 기존의 문제를 더 효율적으로 푸는 엔지니어링 도구를 넘어, 새로운 과학적 발견을 가능하게 하고, 복잡한 사회 시스템을 이해하는 근본적인 도구가 될 수 있음을 명확히 보여주었다. 이 시기에 뿌려진 씨앗들은 오늘날 우리가 경험하고 있는 생성 AI 시대의 기술적, 사상적 토대를 형성하며 그 유산을 이어가고 있다.

8. 참고 자료

  1. NeurIPS 2020 Papers - NeurIPS 2025, https://neurips.cc/virtual/2020/papers.html
  2. Accepted Papers, https://sites.gatech.edu/neurips/our-work/accepted-papers/
  3. Advances in Neural Information Processing Systems 33 (NeurIPS 2020) - NIPS, https://papers.nips.cc/paper/2020
  4. Papers - NeurIPS 2020, https://nips.cc/virtual/2020/public/papers.html
  5. NeurIPS 2020 Accepted Paper List - Paper Copilot, https://papercopilot.com/paper-list/neurips-paper-list/neurips-2020-paper-list/
  6. [N] NeurIPS 2020 awards : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/k8kxnw/n_neurips_2020_awards/
  7. Open AI’s GPT-3 Paper Shares NeurIPS 2020 Best Paper Award …, https://syncedreview.com/2020/12/07/open-ais-gpt-3-paper-shares-neurips-2020-best-paper-awards-with-politecnico-di-milano-cmu-and-uc-berkeley/
  8. Announcing the NeurIPS 2020 award recipients | by Neural …, https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
  9. NeurIPS 2020 Awards, https://nips.cc/virtual/2020/awards_detail
  10. Best paper award at NeurIPS 2020 - Berkeley RISE Lab, https://rise.cs.berkeley.edu/blog/best-paper-award-at-neurips-2020/
  11. Language Models are Few-Shot Learners - NIPS, https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
  12. Explaining GPT-3. Architecture and Working | by Abhi Sai | Medium, https://medium.com/@tsaiabhi.cool/explaining-gpt-3-architecture-and-working-d0219c79202c
  13. Neural Information Processing Systems (NeurIPS) 2020 Test of Time Award Winner Hogwild: A Lock-Free Approach to Parallelizing S, https://neurips.cc/media/Press/NeurIPS_Paper_Award_Winners.pdf
  14. OpenAI GPT-3: Everything You Need to Know [Updated] - Springboard, https://www.springboard.com/blog/data-science/machine-learning-gpt-3-open-ai/
  15. OpenAI’s GPT-3 Language Model: A Technical Overview - Lambda, https://lambda.ai/blog/demystifying-gpt-3
  16. What is GPT AI? - Generative Pre-Trained Transformers Explained - AWS - Updated 2025, https://aws.amazon.com/what-is/gpt/
  17. Paper page - Language Models are Few-Shot Learners - Hugging Face, https://huggingface.co/papers/2005.14165
  18. DALL·E: Creating images from text | OpenAI, https://openai.com/index/dall-e/
  19. DALL-E - Wikipedia, https://en.wikipedia.org/wiki/DALL-E
  20. DALL-E: Powerful Image Generation - EdgeOps.AI, https://www.edgeops.ai/post/dall-e-powerful-image-generation
  21. How OpenAI’s DALL-E works?. Learn about Architecture, Training… | by Zain ul Abideen | Medium, https://medium.com/@zaiinn440/how-openais-dall-e-works-da24ac6c12fa
  22. Correlated equilibrium - Wikipedia, https://en.wikipedia.org/wiki/Correlated_equilibrium
  23. Correlated Equilibrium and Communication in Games, https://economia.uniroma2.it/cdl/biennio/clemif/corso/asset/YTo0OntzOjI6ImlkIjtzOjM6Ijg2NSI7czozOiJpZGEiO3M6NToiMjI3NDQiO3M6MjoiZW0iO047czoxOiJjIjtzOjU6IjQxNmM3Ijt9
  24. No-Regret Learning Dynamics for Extensive-Form Correlated …, https://proceedings.neurips.cc/paper/2020/file/5763abe87ed1938799203fb6e8650025-Paper.pdf
  25. Simple Uncoupled No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium, https://re.public.polimi.it/retrieve/1f7247ec-b894-4e86-bb3c-bbbf0b0bd1fd/11311-1224308_Celli.pdf
  26. No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium - MIT, https://www.mit.edu/~gfarina/2020/no-regret-efce-neurips20/no_regret_efce.neurips20.pdf
  27. [2004.00603] No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium, https://arxiv.org/abs/2004.00603
  28. DeepMind solves protein folding - AlphaFold 2 - Nural Research, https://www.nural.cc/deepmind-protein-folding/
  29. AlphaFold2 and its applications in the fields of biology and medicine - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC10011802/
  30. CASP14: what Google DeepMind’s AlphaFold 2 real- ly achieved, and what it means for protein folding, biology and bioinformatics, https://dasher.wustl.edu/bio5357/readings/oxford-alphafold2.pdf
  31. AlphaFold 2: Why It Works and Its Implications for Understanding the Relationships of Protein Sequence, Structure, and Function - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC8592092/
  32. AlphaFold 2: Attention Mechanism for Predicting 3D Protein Structures - PI IP LAW, https://piip.co.kr/en/blog/AlphaFold2_Architecture_Improvements
  33. AlphaFold - Wikipedia, https://en.wikipedia.org/wiki/AlphaFold
  34. AlphaFold 2 - Protein Structure Prediction Center, https://predictioncenter.org/casp14/doc/presentations/2020_12_01_TS_predictor_AlphaFold2.pdf
  35. Deep Imitation Learning for Bimanual Robotic Manipulation - Papertalk, https://papertalk.org/papertalks/9461
  36. Deep Imitation Learning for Bimanual Robotic Manipulation - NIPS, https://papers.nips.cc/paper/2020/file/18a010d2a9813e91907ce88cd9143fdf-Paper.pdf
  37. Deep Imitation Learning for Bimanual Robotic Manipulation - Khoury College of Computer Sciences, https://www.ccs.neu.edu/home/lsw/papers/neurips2020-bimanual.pdf
  38. Deep Imitation Learning for Bimanual Robotic Manipulation, https://proceedings.neurips.cc/paper/2020/hash/18a010d2a9813e91907ce88cd9143fdf-Abstract.html
  39. Learning Dense 3D Correspondence, http://papers.neurips.cc/paper/2957-learning-dense-3d-correspondence.pdf
  40. DenseMatcher: Learning 3D Semantic Correspondence for Category-Level Manipulation from a Single Demo - arXiv, https://arxiv.org/html/2412.05268v1
  41. Learning Implicit Functions for Topology-Varying Dense 3D Shape Correspondence - NeurIPS 2020, https://nips.cc/virtual/2020/public/poster_335cd1b90bfa4ee70b39d08a4ae0cf2d.html
  42. NeurIPS 2020 Posters, https://neurips.cc/virtual/2020/events/poster
  43. Robotics, Volume 9, Issue 4 (December 2020) – 36 articles - MDPI, https://www.mdpi.com/2218-6581/9/4
  44. Frontiers in Robotics and AI, https://www.frontiersin.org/journals/robotics-and-ai