년 7월 AI 및 로봇 연구 동향

년 7월 AI 및 로봇 연구 동향

1. 2022년 여름, AI 연구의 변곡점

2022년 7월은 인공지능(AI) 연구 역사에서 중요한 변곡점으로 기록된다. 이 시기는 두 가지 핵심적인 흐름이 동시에 부상하며 상호작용하던 역동적인 순간이었다. 한편에서는 딥마인드(DeepMind)를 필두로 한 연구 그룹들이 단백질 구조 예측이나 불완전 정보 게임 정복과 같은, 수십 년간 과학 및 전략 분야의 ’그랜드 챌린지’로 여겨졌던 난제들을 해결하며 AI의 능력 범위를 극적으로 확장했다.1 다른 한편에서는 OpenAI와 같은 기관들이 DALL-E 2와 같은 강력한 생성 모델의 사회적 파급력을 직접 마주하며, AI 시스템의 안전성, 윤리, 그리고 사회적 가치와의 정렬(alignment) 문제를 최우선 연구 과제로 설정하고 그 접근법을 구체화하기 시작했다.3

이러한 두 흐름은 제39회 국제 머신러닝 학회(ICML 2022)와 로보틱스: 과학 및 시스템 학회(RSS 2022)와 같은 최고 권위의 학술대회에서 발표된 연구들을 통해 더욱 명확히 드러났다.5 학계에서는 이론적 깊이를 더하고, 현실 문제에 대한 강건성(robustness)과 효율성을 높이려는 노력이 두드러졌다. 동시에 보스턴 다이내믹스(Boston Dynamics)와 같은 로봇 공학 기업들은 기술의 오용 가능성에 대한 사회적 우려에 응답하며 책임 있는 기술 개발에 대한 입장을 표명했다.7

본 보고서는 2022년 7월을 중심으로 AI 및 로봇 공학 분야에서 나타난 주요 연구 성과들을 심층적으로 분석한다. ICML과 RSS 학회에서 발표된 핵심 논문들의 방법론과 그 의미를 파헤치고, 딥마인드와 OpenAI가 발표한 혁신적인 연구들의 기술적 세부 사항과 장기적인 비전을 조망한다. 또한, 자연어 처리(NLP), 컴퓨터 비전(CV), 강화학습(RL) 등 주요 세부 분야별 기술 동향을 종합적으로 분석함으로써, 2022년 여름이 AI 기술의 순수한 능력 확장과 책임 있는 개발이라는 두 축 사이의 생산적인 긴장 관계 속에서 어떻게 미래 연구의 방향성을 설정했는지 명확히 하고자 한다.

2. 제39회 국제 머신러닝 학회(ICML 2022): 이론과 응용의 최전선

2022년 7월 미국 볼티모어에서 개최된 ICML 2022는 머신러닝 분야의 최신 이론적 성과와 실제적 응용 가능성을 탐색하는 중요한 장이었다. 6,000편에 가까운 논문이 제출되는 등 학계의 높은 관심 속에 8, 다중 과업 학습(Multi-Task Learning), 인과추론(Causal Inference), 자기지도학습(Self-Supervised Learning) 등 핵심 분야에서 주목할 만한 진전이 있었다. 특히, 다른 학문 분야의 이론을 머신러닝 문제 해결에 접목하거나, 기존 방법론의 한계를 이론적 기반 위에서 극복하려는 시도들이 두드러졌다.

2.1 다중 과업 학습과 게임 이론의 접목

다중 과업 학습(MTL)은 여러 관련 작업을 동시에 학습하여 개별적으로 학습할 때보다 더 나은 일반화 성능을 달성하는 것을 목표로 한다. 그러나 각 과업의 손실 함수로부터 계산된 그래디언트를 어떻게 효과적으로 결합하여 모델 파라미터를 업데이트할 것인지는 오랜 난제였다. ICML 2022에서 스포트라이트 논문으로 발표된 ’Nash-MTL’은 이 문제를 해결하기 위해 게임 이론의 개념을 도입하는 독창적인 접근법을 제시했다.5

이 연구는 MTL의 그래디언트 결합 단계를 여러 과업이 공동의 파라미터 업데이트 방향에 대해 합의에 도달하려는 ’협상 게임(bargaining game)’으로 재정의했다. 각 과업을 협상에 참여하는 플레이어로 간주하고, 모든 플레이어에게 공정하고 효율적인 최적의 합의점을 찾는 것을 목표로 한다. 특정 가정 하에서 이 협상 문제는 ’내쉬 협상 해법(Nash Bargaining Solution)’이라는 유일한 해를 가지며, 연구팀은 이를 MTL 최적화를 위한 원칙적인 접근법으로 제안했다. 이는 기존의 경험적 휴리스틱에 의존하던 방식에서 벗어나, 이론적으로 수렴이 보장되는 안정적인 해법을 제공한다.

이러한 접근은 머신러닝 아키텍처 설계에 있어 ’원칙 기반 메커니즘 설계(principled mechanism design)’라는 더 넓은 흐름을 반영한다. 이는 단순히 경험적으로 잘 작동하는 방법을 찾는 것을 넘어, 경제학이나 게임 이론과 같이 잘 정립된 이론을 바탕으로 예측 가능하고, 안정적이며, 공정한 속성을 가진 알고리즘을 설계하려는 시도이다. AI 시스템이 점점 더 복잡해지고 내부 동작을 이해하기 어려운 ’블랙박스’가 되어감에 따라, 시스템의 각 구성 요소나 학습 과정 자체에 이론적 건전성을 부여하려는 요구가 커지고 있다. 내쉬 균형 개념을 활용한 딥마인드의 딥내쉬(DeepNash) 사례와 마찬가지로 1, Nash-MTL은 안정적이고 착취 불가능한 해를 찾으려는 게임 이론의 원리를 최적화 문제에 적용했다. 이는 고위험 분야에서 신뢰할 수 있는 AI를 구축하기 위해 공정성과 안정성의 원칙을 학습 동역학에 직접 내장하려는, 머신러닝 분야의 성숙을 보여주는 중요한 진전이라 할 수 있다.

2.2 인과추론 및 자기지도학습의 발전

ICML 2022에서는 모델의 정확성을 넘어 강건성과 데이터 효율성을 높이기 위한 연구들이 주목받았다. 특히 인과추론과 자기지도학습 분야에서 발표된 두 연구는 기존 딥러닝 패러다임의 근본적인 한계를 극복하려는 시도라는 점에서 공통점을 가진다.

첫째, 자연어 처리 분야의 적대적 공격에 대한 강건성 확보를 위해 인과추론적 관점을 도입한 ‘CISS(Causal Intervention by Semantic Smoothing)’ 프레임워크가 제안되었다.5 기존의 방어 기법들이 관측된 데이터의 상관관계에 기반하여 모델을 학습시키는 데 그쳤다면, CISS는 잠재 의미 공간(latent semantic space)에서 의미론적 평활화(semantic smoothing)를 통해 인과적 효과, 즉

p(y|do(x))를 학습한다. 여기서 do(x)는 변수 x에 대한 중재(intervention)를 의미하며, 이는 단순히 x를 관측하는 것을 넘어 x의 값을 특정 값으로 설정했을 때 결과 y에 미치는 순수한 인과적 영향을 추정하는 것을 목표로 한다. 이 접근법은 단어 대체 공격에 대해 이론적으로 증명 가능한 강건성을 제공하며, 알려지지 않은 새로운 공격 알고리즘에 대해서도 경험적으로 높은 방어 성능을 보였다. 예를 들어, YELP 데이터셋에서 CISS는 단어 대체 공격에 대한 인증된 강건성(certified robustness) 측면에서 2위 방법론보다 6.8% 높은 성능을 달성했다.5

둘째, 그래프 신경망(GNN)을 위한 자기지도학습(SSL) 분야에서는 ‘LaGraph’ 프레임워크가 제시되었다.5 기존 그래프 SSL 연구의 주류였던 대조 학습(contrastive learning) 방법은 효과적인 ‘뷰(view)’ 생성과 충분한 수의 ’네거티브 샘플’을 필요로 한다는 점에서 데이터 및 계산 효율성에 한계가 있었다. LaGraph는 이러한 네거티브 샘플링 없이 잠재 그래프 예측(latent graph prediction)에 기반한 예측 모델을 제안한다. 이 방법은 이론적 지침에 따라 명시적으로 설계되어, 기존 예측 모델들이 휴리스틱에 의존해 사전 학습 과제(pretext task)를 설계했던 문제를 극복했다.

CISS와 LaGraph는 각각 상관관계에 의존하는 딥러닝 모델의 취약성과 비효율적인 학습 신호라는 문제를 정면으로 다룬다. CISS가 데이터의 피상적인 연관성을 넘어 인과 관계를 학습하여 강건성을 확보하려 한다면, LaGraph는 이론적 기반 위에서 효율적인 학습 목표를 설계하여 데이터 효율성을 높이고자 한다. 이는 단순히 모델과 데이터의 크기를 키우는 것만으로는 도달할 수 없는, 보다 근본적인 구조(인과 관계, 잠재 그래프 구조)를 학습하려는 방향으로 연구의 패러다임이 전환되고 있음을 시사한다.

2.3 수상 논문 심층 분석

ICML 2022 최우수 논문상(Outstanding Paper Award)은 라이스 대학교 연구팀의 ’G-Mixup: Graph Data Augmentation for Graph Classification’과 뉴욕 대학교 연구팀의 ’Bayesian Model Selection, the Marginal Likelihood, and Generalization’에 공동으로 수여되었다.10 특히 G-Mixup은 그래프와 같은 비유클리드(non-Euclidean) 데이터에 대한 데이터 증강(data augmentation)이라는 어려운 문제에 대한 창의적인 해결책을 제시했다는 점에서 큰 주목을 받았다.8

’Mixup’은 두 개의 데이터 샘플과 그 레이블을 선형 보간(linear interpolation)하여 새로운 학습 데이터를 생성하는 매우 효과적인 데이터 증강 기법이다.12 이미지와 같은 정형적인 유클리드 데이터에서는 성공적으로 적용되었지만, 그래프 데이터는 노드 수가 다르고 정렬되어 있지 않으며 위상 구조가 복잡하여 직접적인 적용이 불가능했다.12

G-Mixup은 이 문제를 해결하기 위해 ’그래폰(graphon)’이라는 수학적 개념을 도입했다. 그래폰은 무한히 큰 그래프를 생성할 수 있는 일종의 ’생성자(generator)’로, $^2 \to $로 정의되는 대칭 함수 W로 표현된다. 여기서 W(u, v)는 노드 uv 사이에 간선이 존재할 확률을 나타낸다.12 중요한 점은, 그래폰이 정규화되고 잘 정렬된 유클리드 공간상의 표현이라는 것이다. G-Mixup의 핵심 아이디어는 불규칙한 그래프를 직접 섞는 대신, 이들을 대표하는 정규적인 그래폰을 추정한 뒤, 이 그래폰들을 유클리드 공간상에서 Mixup하고, 그 결과로 생성된 새로운 그래폰으로부터 합성 그래프(synthetic graph)를 샘플링하는 것이다.

G-Mixup의 과정은 다음과 같이 수학적으로 정의된다 12:

  1. 그래폰 추정: 서로 다른 클래스에 속한 두 그래프 집합 GH로부터 각각의 그래폰 W_GW_H를 추정한다.

G \to W_G, H \to W_H

  1. 그래폰 Mixup: 두 그래폰을 비율 \lambda를 사용하여 선형 보간하여 혼합된 그래폰 W_I를 생성한다.

W_I = \lambda W_G + (1 - \lambda) W_H

  1. 그래프 생성: 혼합된 그래폰 W_I로부터 K개의 노드를 가진 합성 그래프 집합 \{I_1,..., I_m\}을 샘플링한다.

\{I_1, I_2, \cdots, I_m\} \underset{\text{i.i.d}}{\sim} G(K, W_I)

  1. 레이블 Mixup: 원본 레이블 y_Gy_H도 동일한 비율 \lambda로 혼합하여 합성 그래프의 레이블 y_I를 생성한다.

y_I = \lambda y_G + (1 - \lambda) y_H

G-Mixup의 성공은 머신러닝 분야에서 점점 더 보편화되고 있는 강력한 문제 해결 메타-알고리즘을 명확히 보여준다. 즉, 복잡하고 다루기 힘든 비유클리드 공간에서 직접 연산을 수행하는 것이 어려울 때, 데이터를 더 단순하고 잘 정의된 잠재 공간(latent space)으로 사영(projection)하고, 그 공간에서 원하는 연산을 수행한 뒤, 다시 원래 공간으로 되돌리는 ’잠재 공간 트릭’이다. 이는 VAE나 GAN과 같은 생성 모델의 핵심 원리와 동일하다. 이 모델들은 픽셀을 직접 조작하는 대신, 이미지를 연속적인 잠재 벡터 공간으로 매핑하고, 그 공간에서 새로운 벡터를 샘플링한 뒤 디코더를 통해 새로운 이미지로 변환한다. 따라서 G-Mixup은 단순히 그래프를 위한 새로운 증강 기법을 넘어, 이 강력하고 일반적인 원리를 구조화된 데이터에 성공적으로 적용한 사례이다. 이는 향후 3D 포인트 클라우드나 매니폴드(manifold) 데이터와 같은 다른 비유클리드 데이터 영역에서도 유사한 전략, 즉 적절한 생성자나 잠재 표현을 찾아 그 공간에서 연산을 수행하는 방식의 연구를 촉진할 것임을 시사한다.

3. 2022 로보틱스: 과학 및 시스템 학회(RSS 2022): 현실 세계 적용을 향한 로봇 공학의 진보

2022년 6월 말부터 7월 초까지 뉴욕에서 개최된 RSS 2022는 로봇 공학 분야의 최신 연구 성과를 공유하는 핵심적인 학술 행사였다.6 특히 이번 학회에서는 변형 가능 객체(deformable objects)나 긴 케이블과 같이 복잡하고 예측하기 어려운 동역학을 가진 대상을 다루는 연구들이 큰 주목을 받았다. 이는 로봇 공학의 연구 초점이 통제된 환경의 강체(rigid body) 조작을 넘어, 더욱 현실적이고 도전적인 문제로 확장되고 있음을 보여준다.

3.1 변형 가능 객체 조작의 새로운 지평

RSS 2022 최우수 논문상(Best Paper Award)은 컬럼비아 대학교 연구팀의 ’Iterative Residual Policy for Goal-Conditioned Dynamic Manipulation of Deformable Objects’에 수여되었다.14 이 연구는 밧줄을 휘둘러 목표 지점을 맞추거나 천을 펼쳐 특정 자세를 만드는 것과 같이, 변형 가능 객체를 이용한 동적인 조작 과제를 해결하기 위한 새로운 학습 프레임워크인 ’반복적 잔차 정책(Iterative Residual Policy, IRP)’을 제안했다.15

이러한 과제는 객체의 비선형적이고 예측하기 어려운 동역학과 정밀한 목표 달성 요구 조건 때문에 기존 로봇 공학 방법론으로는 해결하기 매우 어려웠다.17 IRP는 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입했다.

  1. 반복적 행동 개선(Iterative action refinement): 로봇이 목표를 달성하기 위한 최적의 행동을 한 번에 추론하는 대신, 초기 추측 행동으로 시작하여 실제 실행 결과를 관찰하고, 목표와의 오차를 줄이는 방향으로 행동을 반복적으로 미세하게 수정해 나간다.17 이 접근법은 반복 가능한 동역학을 가진 과제에서 높은 정밀도를 달성하고, 행동, 관측, 모델 예측에서 발생하는 오차에 대해 강건한 시스템을 가능하게 한다.

  2. 델타 동역학(Delta dynamics): 전체 시스템의 복잡한 동역학 모델을 처음부터 학습하는 대신, IRP는 ’델타 동역학’을 학습한다. 이는 현재 행동에서 미세한 변화(\Delta a)를 주었을 때, 결과 궤적에 어떤 변화(\Delta \tau)가 나타날지를 예측하는 모델이다. 즉, 시스템의 전체 상태 변화를 예측하는 것이 아니라, 행동 변화에 따른 결과의 ’차이’를 학습하는 것이다.16

IRP의 성공은 복잡한 동역학을 다루는 로봇 학습의 패러다임 전환을 시사한다. 이는 완벽한 ’세계 모델’을 구축하려는 기존의 모델 기반 강화학습의 이상적인 목표에서 벗어나, 보다 실용적이고 오차를 스스로 교정해나가는 암시적 정책(implicit policy) 학습으로의 전환을 의미한다. ’델타 동역학’은 본질적으로 시스템의 야코비안(Jacobian) 행렬을 국소적으로, 온라인으로 수정 가능하게 학습하는 것과 유사하다. 이는 전체 동역학 모델을 정확하게 학습하려는 시도보다 훨씬 데이터 효율적이며, 시뮬레이션과 현실 세계 간의 차이(sim-to-real gap)에도 훨씬 강건하다. 사람이 다트를 던질 때 완벽한 물리 모델을 머릿속에 두는 대신, 첫 시도의 오차를 보고 다음 던지기에서 미세한 수정을 가하는 직관적인 과정과 유사하다. 이는 복잡하고 반복적인 로봇 과제에서는 예측의 완벽성보다 ‘반복적으로 수정 가능한’ 학습 프레임워크에 투자하는 것이 더 효과적일 수 있음을 보여준다.

3.2 자율 시스템의 복잡성 해결

RSS 2022 최우수 시스템 논문상(Best Systems Paper Award)은 UC 버클리 연구팀의 ’Autonomously Untangling Long Cables’에 수여되었다.18 이 연구는 일상 및 산업 현장에서 흔하지만 다루기 매우 어려운 문제인 ’긴 케이블의 엉킴 풀기’를 자율적으로 수행하는 시스템을 개발했다. 특히 케이블이 길어질수록 스스로를 가리거나(self-occlusion) 복잡한 매듭을 형성하여 인식과 조작이 기하급수적으로 어려워진다.19

연구팀은 이 문제를 해결하기 위해 ‘SGTM(Sliding and Grasping for Tangle Manipulation)’ 알고리즘을 제안했다.21 SGTM은 단일한 엔드투엔드(end-to-end) 심층 학습 정책에 의존하는 대신, 학습 기반의 인식 모듈과 정교하게 설계된 알고리즘적 기본 동작(primitive) 라이브러리를 결합한 하이브리드 접근법을 채택했다.

  • 인식(Perception): RGBD 비전 시스템을 사용하여 케이블의 끝점과 매듭의 위치 및 구조를 감지한다.22

  • 조작(Manipulation): 특수하게 설계된 ‘핀치-케이지(Pinch-Cage)’ 그리퍼를 사용하여 케이블을 단단히 잡거나(pinch) 미끄러지게(slide) 할 수 있다. 이를 바탕으로 다음과 같은 기본 동작들을 수행한다 22:

  • 레이데마이스터 동작(Reidemeister move): 케이블 양 끝을 당겨 펴서 매듭을 드러낸다.

  • 양손 물리적 추적(Bimanual physical tracing): 두 팔을 이용해 케이블을 따라 미끄러지며 매듭의 위치를 찾는다.

  • 듀얼-케이지 분리(Dual-cage separation): 감지된 매듭의 양쪽을 잡고 벌려서 푼다.

  • 알고리즘: SGTM은 ’활성 매듭 인지’와 ’매듭 풀기/물리적 추적’이라는 두 단계를 반복하는 상태 기계(state machine)처럼 작동한다. 예를 들어, ‘만약 양 끝점이 보이면 레이데마이스터 동작을 수행하라’ 또는 ’만약 매듭이 감지되면 듀얼-케이지 분리 동작을 수행하라’와 같은 규칙에 따라 고수준 계획을 수립한다.22

이러한 SGTM의 설계는 사실상 ‘신경-심볼릭(neuro-symbolic)’ 접근법의 성공적인 실제 사례로 볼 수 있다. 복잡하고 불확실한 인식 문제는 심층 신경망이 처리하고, 고수준의 순차적 계획 및 의사결정은 구조화되고 해석 가능한 심볼릭 알고리즘이 담당한다. 이러한 하이브리드 구조는 시스템의 디버깅을 용이하게 한다. 실패 시, 그것이 인식의 오류인지(신경망이 매듭을 잘못 인식) 아니면 로직의 오류인지(상태 기계가 잘못된 동작을 선택)를 명확히 구분할 수 있다. 후속 연구인 SGTM 2.0에서는 시스템이 자신의 인식에 대한 불확실성을 정량화하고, 불확실성을 줄이기 위한 탐색적 행동을 수행하는 기능까지 추가되었다.23 이는 복잡한 조작 과제의 미래가 단일한 거대 AI 두뇌가 아닌, 학습된 인식 모듈이 전통적인 알고리즘 플래너에게 현실 세계에 대한 정보를 제공하는 모듈형 시스템에 있을 수 있음을 시사한다.

4. 주요 AI 연구소의 혁신적 연구 성과

2022년 7월은 학계의 발전과 더불어, 산업계를 선도하는 AI 연구소들이 인류의 과학적 난제 해결과 AI의 사회적 책임이라는 두 가지 상이한 방향에서 기념비적인 성과를 발표한 시기였다. 딥마인드는 생물학 및 게임 이론 분야에서 AI의 능력 한계를 다시 한번 돌파했으며, OpenAI는 자사의 강력한 모델들이 현실 세계에 미치는 영향을 관리하기 위한 구체적인 기술적, 철학적 접근법을 제시했다.

4.1 딥마인드(DeepMind): 과학적 발견과 전략적 사고의 정복

4.1.1 알파폴드(AlphaFold): 단백질 우주의 공개

2022년 7월 28일, 딥마인드는 유럽 분자생물학 연구소 산하 유럽 생물정보학 연구소(EMBL-EBI)와의 파트너십을 통해, 알파폴드 단백질 구조 데이터베이스(AlphaFold Protein Structure Database)를 2억 개 이상의 예측 구조로 확장하여 공개한다고 발표했다.2 이는 사실상 과학계에 알려진 거의 모든 단백질의 3차원 구조를 포함하는 방대한 규모로, 생물학 연구의 패러다임을 근본적으로 바꾸는 사건이었다.1

알파폴드는 아미노산 서열만으로 단백질의 3차원 구조를 실험에 필적하는 정확도로 예측하는 AI 시스템이다.25 이전까지 단백질 구조 하나를 규명하기 위해서는 수개월에서 수년에 걸친 시간과 막대한 비용이 소요되는 실험적 과정이 필요했다.26 이로 인해 구조 정보는 생물학 연구에서 매우 희소한 자원이었다. 그러나 이번 대규모 데이터베이스 공개는 전 세계 모든 연구자에게 구조 생물학 데이터에 대한 즉각적이고 자유로운 접근을 가능하게 했다.27 이는 신약 개발, 질병 메커니즘 규명, 플라스틱 분해 효소 설계 등 다양한 응용 연구를 전례 없는 속도로 가속화할 잠재력을 지닌다.24

이 사건의 더 깊은 의미는, 알파폴드가 생물학 분야를 ‘데이터 부족(data-scarce)’ 환경에서 ‘데이터 풍족(data-abundant)’ 환경으로 전환시켰다는 점에 있다. 역사적으로 인간 게놈 프로젝트와 같은 데이터의 폭발적인 증가는 해당 데이터를 관리, 검색, 분석하기 위한 새로운 계산 도구의 개발을 촉진했다. 마찬가지로, 2억 개가 넘는 단백질 구조 데이터는 개별 구조 예측을 넘어, ‘단백질 우주’ 전체에 대한 새로운 질문을 던질 수 있는 기반이 된다. 예를 들어, “특정 단백질과 유사한 결합 부위를 가진 모든 단백질을 찾아라” 또는 “특정 질병과 관련된 새로운 구조적 모티프를 식별하라“와 같은 고차원적인 탐색이 가능해진다. 이러한 복잡한 패턴 인식 및 데이터 마이닝 문제는 새로운 AI/ML 모델 개발의 촉매제가 될 것이다. 따라서 알파폴드는 단지 정답을 제시하는 도구가 아니라, AI가 주도하는 과학적 발견의 새로운 선순환을 만들어낼 거대한 데이터셋 그 자체로서의 가치를 지닌다.

4.1.2 딥내쉬(DeepNash): 불완전 정보 게임의 정복

같은 시기, 딥마인드는 고전 보드게임 ’스트라테고(Stratego)’를 인간 전문가 수준으로 마스터한 AI 에이전트 ’딥내쉬(DeepNash)’를 공개했다.1 스트라테고는 체스나 바둑과 같은 완전 정보 게임과 달리, 상대방의 기물 정체를 알 수 없는 ‘불완전 정보(imperfect information)’ 게임이라는 특징을 가진다. 여기에 게임 시작 시 기물을 자유롭게 배치하는 단계까지 더해져, 게임 상태 공간의 복잡도는 약 10^{535}에 달하며, 이는 바둑(10^{360})이나 체스(10^{120})를 압도하는 규모이다.29 이러한 복잡성 때문에 기존 AI 기법들은 스트라테고에서 아마추어 수준을 넘어서지 못했다.31

딥내쉬의 성공은 그 방법론의 독창성에 있다. 기존의 강력한 게임 AI들이 의존했던 ‘게임 트리 탐색(game tree search)’ 기법을 완전히 배제하고, 순수한 ’모델-프리(model-free) 심층 강화학습’과 ’게임 이론’을 결합한 새로운 접근법을 사용했다.9 딥내쉬의 핵심에는 ’정규화된 내쉬 동역학(Regularized Nash Dynamics, R-NaD)’이라는 알고리즘이 있다. 이 알고리즘의 목표는 학습 과정을 통해 게임의 ’내쉬 균형(Nash Equilibrium)’에 직접 수렴하는 것이다.33 내쉬 균형은 어떤 플레이어도 자신의 전략을 일방적으로 변경하여 이득을 볼 수 없는 안정된 상태를 의미하며, 이 균형점에 도달한 정책은 상대방이 어떻게 대응하든 원칙적으로 착취가 불가능하다.

이러한 접근을 통해 딥내쉬는 수십억 번의 자가 대국(self-play)을 통해 스트라테고를 학습했으며, 그 결과 세계 최대의 온라인 스트라테고 플랫폼인 ’Gravon’에서 인간 전문가들을 상대로 84%의 높은 승률을 기록하며 역대 랭킹 3위권에 진입했다.9 딥내쉬는 단순히 게임에서 승리하는 것을 넘어, 상대의 핵심 기물을 파악하기 위해 자신의 기물을 희생하거나, 약한 기물로 강한 척하여 상대의 실수를 유도하는 ’블러핑(bluffing)’과 같은 고도의 전략적 행동까지 스스로 터득했다.35 딥내쉬의 등장은 불완전하고 불확실한 정보 하에서 장기적인 전략을 수립해야 하는 현실 세계의 복잡한 문제들을 해결하는 데 AI가 어떻게 기여할 수 있는지에 대한 중요한 단서를 제공한다.

게임게임 유형상태 공간 복잡도핵심 AI 돌파구
체스완전 정보~10^{120}딥 블루 (탐색 기반)
바둑완전 정보~10^{360}알파고 (탐색 + 심층 강화학습)
포커 (Heads-Up NL)불완전 정보~10^{164}플루리버스, 리브라투스 (게임 이론, 탐색)
스트라테고불완전 정보~10^{535}딥내쉬 (모델-프리 심층 강화학습)

4.2 OpenAI: 책임 있는 배포와 AI 정렬

4.2.1 DALL-E 2: 편향 완화 및 안전성 향상

2022년 7월 18일, OpenAI는 이미지 생성 모델 DALL-E 2의 편향을 줄이고 안전성을 개선하기 위한 새로운 기술적 조치를 발표했다.3 이는 DALL-E 2가 제한된 사용자들에게 공개된 이후, 모델이 학습 데이터에 내재된 사회적 편견을 재현하고 증폭시킨다는 비판에 대한 직접적인 대응이었다. 예를 들어, ’CEO’나 ’소방관’과 같은 직업을 묘사하는 프롬프트에 대해 주로 남성 이미지를 생성하는 경향이 관찰되었다.3

OpenAI가 도입한 핵심 기법은 사용자가 인종이나 성별을 명시하지 않은 프롬프트(예: “a photo of a firefighter”)를 입력했을 때, 시스템 수준에서 보이지 않는 키워드를 프롬프트에 추가하여 생성되는 이미지의 인구통계학적 다양성을 높이는 방식이다. 내부 평가에 따르면, 이 기술 적용 후 사용자들이 DALL-E가 생성한 이미지에 다양한 배경의 인물이 포함되었다고 응답할 가능성이 12배나 높아졌다.3 이 외에도, 사실적인 얼굴 이미지가 포함된 업로드를 거부하고 유명인이나 정치인의 유사 이미지를 생성하려는 시도를 차단하여 딥페이크와 같은 오용 위험을 최소화했으며, 유해 콘텐츠 필터의 정확도를 개선하는 등의 조치도 함께 이루어졌다.3

이러한 OpenAI의 접근은 ’사전 데이터 정제(pre-hoc data purification)’가 아닌 ‘사후 조향(post-hoc steering)’ 전략으로 해석될 수 있다. 웹 스케일의 데이터에서 편향을 완전히 제거하여 완벽하게 균형 잡힌 학습 데이터셋을 구축하는 것은 엄청나게 어려운 사회기술적 과제임을 인정하고 36, 대신 모델이 사용되는 단계에서 개입하여 결과물을 바람직한 방향으로 유도하는 실용적인 공학적 해법을 선택한 것이다. 이 방식은 즉각적이고 측정 가능한 개선을 가져왔지만, 동시에 새로운 문제를 제기한다. 사용자의 입력이 더 이상 출력의 유일한 결정 요인이 아니게 되며, 투명하지 않은 중간 개입 계층이 생성 과정을 조종하게 된다. 이는 잠재적인 검열 문제와 함께, ’바람직한 다양성’의 기준을 누가 어떻게 설정하는지에 대한 근본적인 질문으로 이어진다. 즉, 이 접근법은 편향된 출력이라는 ’증상’을 치료하지만, 편향된 데이터와 모델이라는 ’근본 원인’은 그대로 남겨둔다.

4.2.2 AI 정렬 연구

OpenAI는 DALL-E 2의 안전성 조치와 더불어, 초지능(AGI)이 인류의 가치 및 의도와 일치하도록 만드는 것을 목표로 하는 ‘AI 정렬(AI Alignment)’ 연구에 대한 자신들의 접근법을 체계적으로 정리하여 발표했다.4 이는 단순히 현재 모델의 문제를 해결하는 것을 넘어, 미래의 훨씬 더 강력한 AI 시스템을 안전하게 개발하기 위한 장기적인 연구 로드맵을 제시한 것이다. OpenAI의 정렬 연구는 세 가지 주요 기둥으로 구성된다.

  1. 인간 피드백을 이용한 AI 학습: 인간의 선호를 직접 학습 데이터로 사용하여 AI를 미세조정하는 방식이다. 대표적인 예가 ’인간 피드백 기반 강화학습(RLHF)’으로, 이 기술은 InstructGPT와 이후 ChatGPT 개발의 핵심이 되었다. 인간 평가자가 여러 모델 출력물 중 더 나은 것을 선택하면, 이 선호도 데이터를 보상 모델 학습에 사용하고, 이 보상 모델을 통해 언어 모델을 강화학습으로 최적화한다.4

  2. 인간 평가를 보조하는 AI 학습: AI가 생성하는 결과물이 책 한 권 분량의 요약이나 복잡한 코드처럼 점점 더 정교해짐에 따라, 인간이 그 정확성과 유용성을 평가하는 것 자체가 어려워진다. 이 문제를 해결하기 위해, OpenAI는 인간 평가자를 ’보조’하는 AI를 개발하는 데 주력한다. 예를 들어, 책 요약의 정확성을 평가하기 위해 AI가 먼저 각 챕터별 요약을 제공하거나, 사실 관계 확인을 위해 웹을 검색하고 관련 인용문과 출처 링크를 제시하는 모델을 학습시킨다.4

  3. 정렬 연구를 수행하는 AI 학습: 이는 가장 장기적인 목표로, 정렬 연구에 필요한 대부분의 인지적 노동을 고도로 능력 있고 잘 정렬된 AI 시스템 자체에 위임하는 것이다. 인간 연구자들은 AI가 수행한 정렬 연구를 직접 생성하기보다는 검토하고 감독하는 역할로 전환될 것으로 예상된다.4

OpenAI의 정렬 전략은 근본적으로 ‘부트스트래핑(bootstrapping)’ 가설에 기반한 재귀적(recursive) 접근법이다. 이는 정렬 문제에 대한 이론적 돌파구를 기다리는 대신, 현재 사용 가능한 수준으로 정렬된 모델(예: InstructGPT)을 활용하여 미래의 더 강력한 모델을 정렬하는 데 필요한 데이터와 도구를 구축하는 방식이다. 1단계(RLHF)가 부트스트랩의 기반을 만들고, 2단계(AI 보조 평가)가 인간 평가자의 한계를 극복하며 확장성을 확보하는 첫 번째 재귀 단계라면, 3단계(AI 기반 정렬 연구)는 정렬 연구 과정 자체를 자동화하는 완전한 재귀를 목표로 한다. 이 전략은 ’AI를 정렬 연구에 도움을 주도록 정렬하는 문제’가 ’AI를 다른 모든 것을 안전하게 하도록 정렬하는 문제’보다 더 쉽다는 중요한 가정에 기반한다. 이는 완벽한 이론적 해법이 초지능보다 먼저 등장하기 어려울 것이라는 현실 인식 하에, AI의 능력과 정렬 기술이 함께 점진적으로 발전해야 한다는 실용적인 철학을 반영한다.

5. 2022년 7월 AI 및 로봇 분야별 기술 동향

2022년 7월은 AI의 여러 세부 분야에서 중요한 변화의 조짐이 나타나던 시기였다. 자연어 처리 분야에서는 거대 언어 모델의 혁명이 임박했음을 암시하는 연구들이 진행되고 있었고, 컴퓨터 비전은 2D 인식을 넘어 3D 공간과 언어를 아우르는 종합적인 ’세계 이해’로 나아가고 있었다. 강화학습 분야는 현실 세계 적용을 위한 실용적 접근과 계산 능력의 한계를 시험하는 대규모 도전이라는 두 갈래로 발전하고 있었다.

5.1 자연어 처리(NLP)

2022년 중반의 NLP 시장은 성숙한 기술들이 지배하고 있었다. 당시 발표된 시장 분석 보고서에 따르면, ’통계적 NLP’가 여전히 39.3%의 높은 시장 점유율을 차지하고 있었으며, 대기업을 중심으로 클라우드 기반 솔루션과 자동 요약, 감성 분석과 같은 특정 응용 분야가 성장을 주도했다.38 특히 의료 및 금융 분야에서 비정형 텍스트 데이터를 처리하고 분석하려는 수요가 높았다.38

그러나 이러한 시장 동향은 당시 최고 수준의 연구소 내부에서 벌어지고 있던 거대한 변화의 전조를 모두 담아내지는 못했다. 이는 마치 거대한 빙산의 수면 위로 드러난 일부만을 보는 것과 같았다. 시장이 기존 기술의 최적화에 집중하는 동안, 수면 아래에서는 대화형 AI의 패러다임을 완전히 바꿀 거대 언어 모델(LLM)들이 조용히 개발되고 있었다. OpenAI는 이미 GPT-3.5 시리즈를 미세조정하며 훗날 ChatGPT로 알려질 모델을 개발 중이었고, 그 전신인 InstructGPT는 인간의 지시를 따르도록 학습시키는 RLHF 기술의 효과를 입증했다.37 딥마인드 역시 ICML 2022에서 ’통합 스케일링 법칙(unified scaling laws)’이나 ’더 큰 언어 모델을 효율적으로 구축하는 방법’에 대한 논문을 발표하며 LLM 연구의 최전선에 있었다.41

이러한 상황은 상업적 시장에서 인식하는 NLP 기술과 선도 연구소의 실제 연구 개발 사이에 상당한 괴리가 있었음을 보여준다. 시장은 기존 패러다임 내에서의 점진적 개선에 초점을 맞추고 있었지만, 연구소들은 이미 다음 패러다임을 구축하고 있었다. 따라서 2022년 7월의 NLP 동향 분석은 당시의 현황뿐만 아니라, 몇 달 후 생성 AI 혁명으로 폭발하게 될 임박한 파괴적 변화의 마지막 정적을 포착한다는 점에서 중요한 의미를 가진다.

5.2 컴퓨터 비전(CV)

2022년 6월에 개최된 컴퓨터 비전 및 패턴 인식 학회(CVPR 2022)의 결과가 분석되기 시작한 7월, 컴퓨터 비전 분야의 연구 동향은 단순한 2D 이미지 분류를 넘어, 보다 총체적인 ’세계 이해(world understanding)’를 향한 움직임을 명확히 보여주었다. CVPR 2022에서 가장 많은 논문이 발표된 상위 연구 분야는 3D 컴퓨터 비전, 이미지 및 비디오 생성, 그리고 비전과 언어의 융합(Vision+Language)이었다.42

  1. 3D 컴퓨터 비전: 여러 시점의 센서 데이터로부터 3차원 장면을 복원하고 이해하는 연구가 주류로 부상했다. 이는 평면 이미지 속 객체를 인식하는 것을 넘어, 장면의 기하학적 구조와 공간적 배치까지 파악하려는 시도이다.

  2. 이미지 및 비디오 생성: DALL-E 2와 같은 생성 모델의 등장은 컴퓨터 비전이 분석을 넘어 창작의 영역으로 확장되고 있음을 보여주었다. 이는 단순히 패턴을 인식하는 것을 넘어, 고수준의 개념적 묘사로부터 새로운 시각적 콘텐츠를 합성해내는 깊은 수준의 이해를 요구한다.

  3. 비전과 언어의 융합: 시각적 정보와 상징적, 구성적 개념인 언어를 연결하는 연구가 활발히 진행되었다. 이는 “파란색 큐브 왼쪽에 있는 빨간 공을 찾아라“와 같이, 시각 세계에 대한 언어적 질의응답 및 추론을 가능하게 한다.

이러한 세 가지 흐름은 개별적인 연구 주제가 아니라, 하나의 통합된 목표를 향해 수렴하고 있다. 그 목표는 세상을 3D로 인식하고, 그 세상에 대한 새로운 가능성을 시각적으로 생성하며, 자연어를 통해 그 세상에 대해 묘사하고 추론할 수 있는 통합된 다중모드(multi-modal) 표상을 구축하는 것이다. 자율주행, 의료, 소매 등 실제 산업 현장에서의 응용 수요가 이러한 통합적 이해를 더욱 촉진했으며 42, 데이터가 생성되는 현장에서 즉시 처리하는 ‘엣지 컴퓨팅(edge computing)’ 기술의 발전은 이러한 복잡한 모델을 현실 세계에 배포할 수 있는 기반을 마련했다.44 이는 ImageNet 시대의 객체 인식 중심 연구에서 벗어나, 보다 일반적이고 체화된(embodied) 지능을 향한 야심 찬 도약을 의미한다.

5.3 강화학습(RL)

2022년 강화학습 분야는 두 가지 상반되면서도 상호보완적인 방향으로 발전하고 있었다. 하나는 데이터 효율성과 안전성 문제를 해결하여 강화학습을 로봇 공학과 같은 현실 세계 문제에 적용 가능하게 만들려는 실용적인 연구 흐름이고, 다른 하나는 막대한 계산 자원을 바탕으로 강화학습 패러다임의 궁극적인 잠재력을 증명하려는 대규모 도전이었다.

첫 번째 흐름인 ’현실 세계를 위한 강화학습’은 강화학습의 고질적인 한계, 즉 막대한 양의 시행착오를 필요로 하는 낮은 샘플 효율성과 예측 불가능한 탐험(exploration)으로 인한 안전 문제를 극복하는 데 초점을 맞췄다. ICML 2022에서 발표된 PAIR 프레임워크처럼, 지도학습(SL)의 데이터 효율성을 활용하여 강화학습을 보완하거나 45, 로봇 공학이나 자율주행과 같이 안전이 중요한 분야에서는 엄격한 제약 조건을 만족시키기 위한 기법들이 연구되었다.46 이는 강화학습을 단독으로 사용하기보다, 지도학습, 모방학습, 제어 이론 등 다른 기술과 결합하여 현실적인 제약 하에서 작동 가능한 해법을 찾으려는 실용주의적 접근이다.

두 번째 흐름인 ’스케일에서의 강화학습’은 딥마인드의 딥내쉬가 상징적으로 보여주었다. 딥내쉬는 사전 데이터나 인간의 시연 없이, 순수한 자가 대국과 모델-프리 강화학습만으로 불가능에 가까워 보였던 스트라테고를 정복했다.9 이는 수십억 번의 게임 플레이라는 막대한 계산량을 필요로 했지만 29, 동시에 R-NaD와 같은 혁신적인 알고리즘과 결합될 때 순수 강화학습이 얼마나 강력한 문제 해결 능력을 가질 수 있는지를 증명했다.

이 두 흐름은 서로 다른 방향을 지향하는 것처럼 보이지만, 실제로는 분야의 발전을 이끄는 두 개의 엔진 역할을 한다. 딥내쉬와 같은 대규모 연구는 강화학습의 가능성 범위를 넓히고 새로운 핵심 알고리즘을 개발하는 ‘북극성’ 역할을 한다. 반면, 현실 세계 적용 연구는 이렇게 개발된 강력하지만 데이터에 굶주린 알고리즘들을 물리적 시스템의 제약 하에서 작동하도록 변형하고 하이브리드화하는 역할을 담당한다. 이 이중적인 발전 구조가 2022년 강화학습 분야의 역동성을 정의했다.

6. 결론 및 미래 전망

2022년 7월은 AI 연구가 순수한 능력의 확장을 추구하는 동시에, 그 능력에 대한 책임의 무게를 절감하기 시작한 중요한 시기였다. 딥마인드의 알파폴드는 AI가 인류의 과학적 발견을 가속하는 강력한 도구가 될 수 있음을 증명했고, 딥내쉬는 불완전한 정보 속에서 최적의 전략을 찾아내는 AI의 능력이 인간 전문가의 수준에 도달했음을 보여주었다. 이러한 성과는 AI가 해결할 수 있는 문제의 경계를 극적으로 넓혔다.

동시에, OpenAI의 DALL-E 2 편향 완화 노력과 체계적인 AI 정렬 연구 로드맵 발표는 기술의 사회적 배포가 야기하는 복잡한 문제들을 전면에 부상시켰다. 강력한 AI 모델이 현실 세계와 상호작용하기 시작하면서, 편향, 오용, 안전성과 같은 문제들은 더 이상 부차적인 고려사항이 아닌, 기술 발전의 지속 가능성을 결정하는 핵심 요인이 되었다. ICML과 RSS와 같은 학술대회에서도 이러한 흐름은 명확히 나타났다. G-Mixup이나 IRP와 같은 연구들은 단순히 성능을 높이는 것을 넘어, 비정형 데이터나 복잡한 동역학과 같은 근본적인 난제에 대한 강건하고 일반화 가능한 해법을 모색했다.

결론적으로, 2022년 7월은 학계에서 제시된 이론적, 알고리즘적 진보가 산업계에서 혁신적인 실제 역량으로 구현되고, 동시에 시급한 사회적 과제로 전환되는 과정을 압축적으로 보여준 시점이었다. 이 시기를 기점으로 AI 연구는 단순히 더 똑똑하고 강력한 모델을 만드는 것을 넘어, 그 모델이 강건하고, 안전하며, 해석 가능하고, 궁극적으로 인류의 가치와 정렬되도록 만드는 방향으로 무게 중심을 옮겨가고 있다. 미래의 AI 연구는 능력과 책임이라는 두 축의 교차점에서, 이 두 가지 가치를 동시에 만족시키는 시스템을 구축하는 데 더욱 집중하게 될 것이다. 이는 더 이상의 기술적 진보와 사회적 수용을 위한 필수 전제 조건이 되었기 때문이다.

7. 참고 자료

  1. Google DeepMind - Wikipedia, https://en.wikipedia.org/wiki/Google_DeepMind
  2. AlphaFold: Using AI for scientific discovery - Google DeepMind, https://deepmind.google/discover/blog/alphafold-using-ai-for-scientific-discovery/
  3. Reducing bias and improving safety in DALL·E 2 - OpenAI, https://openai.com/index/reducing-bias-and-improving-safety-in-dall-e-2/
  4. Our approach to alignment research - OpenAI, https://openai.com/index/our-approach-to-alignment-research/
  5. ICML 2022 Spotlights, https://icml.cc/virtual/2022/events/spotlight
  6. Robotics: Science and Systems June 27–July 1, 2022, https://roboticsconference.org/2022/
  7. General Purpose Robots Should Not Be Weaponized | Boston …, https://bostondynamics.com/news/general-purpose-robots-should-not-be-weaponized/
  8. Xia “Ben” Hu and Rice CS’ DATA Lab win Outstanding Paper at …, https://csweb.rice.edu/news/xia-ben-hu-and-rice-cs-data-lab-win-outstanding-paper-icml-2022
  9. Mastering Stratego, the classic game of imperfect information - Google DeepMind, https://deepmind.google/discover/blog/mastering-stratego-the-classic-game-of-imperfect-information/
  10. csweb.rice.edu, https://csweb.rice.edu/news/xia-ben-hu-and-rice-cs-data-lab-win-outstanding-paper-icml-2022#:~:text=Rice%20CS’%20DATA%20Lab%20won,machine%20learning%20and%20network%20analytics.
  11. News | ai @ NYU, https://cims.nyu.edu/ai/news/65/
  12. G-Mixup: Graph Data Augmentation for Graph Classification, https://proceedings.mlr.press/v162/han22c/han22c.pdf
  13. G-Mixup: Graph Augmentation for Graph Classification - OpenReview, https://openreview.net/forum?id=dIVrWHP9_1i
  14. Best Paper Award - RSS Foundation, https://roboticsfoundation.org/awards/best-paper-award/
  15. Iterative residual policy: For goal-conditioned dynamic manipulation of deformable objects | Request PDF - ResearchGate, https://www.researchgate.net/publication/373744908_Iterative_residual_policy_For_goal-conditioned_dynamic_manipulation_of_deformable_objects
  16. Iterative Residual Policy - Robotics, https://www.roboticsproceedings.org/rss18/p016.pdf
  17. for Goal-Conditioned Dynamic Manipulation of Deformable Objects - Iterative Residual Policy, https://irp.cs.columbia.edu/irp_2022.pdf
  18. Best Systems Paper in Memory of Seth Teller Award - RSS Foundation, https://roboticsfoundation.org/awards/best-systems-paper-award/
  19. Autonomously Untangling Long Cables | Request PDF - ResearchGate, https://www.researchgate.net/publication/362089800_Autonomously_Untangling_Long_Cables
  20. SGTM 2.0: Autonomously Untangling Long Cables using Interactive Perception - arXiv, https://arxiv.org/pdf/2209.13706
  21. [PDF] Autonomously Untangling Long Cables - Semantic Scholar, https://www.semanticscholar.org/paper/Autonomously-Untangling-Long-Cables-Viswanath-Shivakumar/9dd2aaa82d346d462bccbaa2b41dd7f93d30f78b
  22. Autonomously Untangling Long Cables - arXiv, https://arxiv.org/abs/2207.07813
  23. SGTM 2.0: Autonomously Untangling Long Cables using Interactive Perception - arXiv, https://arxiv.org/abs/2209.13706
  24. A glimpse of the next generation of AlphaFold - Google DeepMind, https://deepmind.google/discover/blog/a-glimpse-of-the-next-generation-of-alphafold/
  25. AlphaFold Protein Structure Database, https://alphafold.ebi.ac.uk/
  26. The AlphaFold Database of Protein Structures: A Biologist’s Guide - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC8783046/
  27. Case study: AlphaFold uses open data and AI to discover the 3D protein universe | EMBL, https://www.embl.org/news/science/alphafold-using-open-data-and-ai-to-discover-the-3d-protein-universe/
  28. AlphaFold - Google DeepMind, https://deepmind.google/science/alphafold/
  29. DeepMind Has Developed a New AI Program That Has Mastered Stratego | by ODSC, https://odsc.medium.com/deepmind-has-developed-a-new-ai-program-that-has-mastered-stratego-c3b917146af9
  30. Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning, https://pattern.swarma.org/paper/780369d4-f8ff-11ec-befc-0242ac17000f
  31. Deepmind AI introduces “DeepNash”, the model-free autonomous RL agent, expert of the game “Classic Stratego” - ActuIA, https://www.actuia.com/en/news/deepmind-ai-introduces-deepnash-the-model-free-autonomous-rl-agent-expert-of-the-game-classic-stratego/
  32. Mastering the game of Stratego with model-free multiagent reinforcement learning | Request PDF - ResearchGate, https://www.researchgate.net/publication/365944057_Mastering_the_game_of_Stratego_with_model-free_multiagent_reinforcement_learning
  33. Deepmind AI Researchers Introduce ‘DeepNash’, An Autonomous Agent Trained With Model-Free Multiagent Reinforcement Learning That Learns To Play The Game Of Stratego At Expert Level : r/reinforcementlearning - Reddit, https://www.reddit.com/r/reinforcementlearning/comments/vvc3cc/deepmind_ai_researchers_introduce_deepnash_an/
  34. Deepmind AI Researchers Introduce ‘DeepNash’, An Autonomous …, https://www.marktechpost.com/2022/07/09/deepmind-ai-researchers-introduce-deepnash-an-autonomous-agent-trained-with-model-free-multiagent-reinforcement-learning-that-learns-to-play-the-game-of-stratego-at-expert-level/
  35. AI beats us at another game: STRATEGO | DeepNash paper explained - YouTube, https://www.youtube.com/watch?v=3vO45gcEbRs
  36. DALL·E 2 pre-training mitigations | OpenAI, https://openai.com/index/dall-e-2-pre-training-mitigations/
  37. Introducing ChatGPT - OpenAI, https://openai.com/index/chatgpt/
  38. Natural Language Processing Market Size | CAGR of 33%, https://market.us/report/natural-language-processing-market/
  39. NLP to grow from USD 15.7 bn in 2022 to USD 49.4 bn by 2027 - AI-Tech Park, https://ai-techpark.com/nlp-to-grow-from-usd-15-7-bn-in-2022-to-usd-49-4-bn-by-2027/
  40. Reflections - Sam Altman, https://blog.samaltman.com/reflections
  41. DeepMind’s latest research at ICML 2022 - Google DeepMind, https://deepmind.google/discover/blog/deepminds-latest-research-at-icml-2022/
  42. Record-breaking 2022 CVPR - IEEE Computer Society, https://www.computer.org/press-room/2022-news/record-breaking-2022-cvpr
  43. CVPR Reveals Top Five Trends in Computer Vision, https://www.computer.org/press-room/cvpr-reveals-top-five-trends-in-computer-vision/
  44. The 5 Biggest Computer Vision Trends In 2022 | Bernard Marr, https://bernardmarr.com/the-5-biggest-computer-vision-trends-in-2022/
  45. Track: Reinforcement Learning: Deep RL - ICML 2025, https://icml.cc/virtual/2022/session/20080
  46. Deep Reinforcement Learning: A Chronological Overview and Methods - MDPI, https://www.mdpi.com/2673-2688/6/3/46