년 1월 AI 및 로봇 분야 연구 동향
1. 서론
2023년 1월은 인공지능(AI) 분야의 역사적 변곡점으로 기록된다. 2022년 11월 OpenAI의 ChatGPT 등장 이후 가속화된 생성형 AI 혁명은, 2023년 1월 Microsoft와 OpenAI의 초대형 파트너십 발표를 통해 산업적 현실로 구체화되었으며, 이는 기술 패권 경쟁의 서막을 알렸다.1 이 시기는 단순한 기술 발표의 연속이 아니라, 두 개의 뚜렷한 가속화 현상이 동시에 발현된 중요한 순간이었다. 첫 번째는 Microsoft-OpenAI의 제휴로 대표되는 ’상업적 가속화’로, 이는 기존의 돌파구(거대 언어 모델 등)를 대규모로 배포하고 플랫폼화하는 데 초점을 맞춘다. 두 번째는 ’기초 연구의 가속화’로, 음성 합성 분야의 VALL-E나 컴퓨터 비전 분야의 I-JEPA와 같이 기존 패러다임을 근본적으로 전환하는 혁신적인 연구들이 바로 이 시기에 발표되었다.4
이러한 이중적 가속화 현상은 AI 분야가 두 가지 전선에서 동시에 빠르게 성숙하고 있음을 시사한다. 한편으로는 기존 기술을 산업화하는 능력이 고도화되고, 다른 한편으로는 새로운 기초 아이디어를 창출하는 역량이 폭발적으로 증가한 것이다. 알려진 기술의 규모를 확장하는 동시에 미지의 영역을 재정의하는 이러한 역동성은 2023년 한 해 동안 이어진 기술 혁신의 격렬한 속도를 결정지었다.
본 보고서는 2023년 1월 한 달 동안 발표된 AI 및 로봇 분야의 주요 연구와 산업 동향을 심층적으로 분석하여, 해당 시점의 기술적 성취를 조망하고 미래 발전 방향을 고찰하는 것을 목표로 한다. 보고서는 먼저 생성형 AI의 산업 지형 재편을 다루고, 이어서 음성 합성, 컴퓨터 비전, 그리고 로보틱스 분야의 핵심 연구 발표를 순차적으로 분석한다. 특히, 해당 월에 주요 결과가 공개된 최고 수준의 AI 학회인 AAAI-23에서 발표된 주요 논문들을 통해 학문적 최전선의 동향을 심도 있게 검토한다.
2. 생성형 AI의 산업 지형 재편: Microsoft와 OpenAI의 파트너십 강화
2023년 1월 23일, Microsoft와 OpenAI는 기존의 파트너십을 확장하는 수십억 달러 규모의 다년 계약을 공식 발표했다.2 이는 2019년과 2021년에 이은 세 번째 투자로, 단순한 자금 지원을 넘어 AI 기술의 연구, 개발, 상용화 전반에 걸친 심층적인 전략적 제휴의 시작을 의미하며, 생성형 AI 시대의 산업 지형을 근본적으로 재편하는 신호탄이 되었다.
2.1 파트너십의 세 가지 핵심 축
양사의 파트너십은 세 가지 주요 축을 기반으로 구성된다.
- AI 슈퍼컴퓨팅의 확장 (Supercomputing at Scale): Microsoft는 OpenAI의 독립적인 AI 연구를 가속화하기 위해 특화된 슈퍼컴퓨팅 시스템의 개발 및 배포에 대한 투자를 대폭 확대한다. Azure는 OpenAI의 연구, API, 제품 전반에 걸친 모든 워크로드에 대한 독점 클라우드 제공업체로서의 지위를 유지하며, 이는 OpenAI 모델의 훈련 및 추론 워크로드에 최상의 성능과 규모를 제공하는 Azure의 고유한 아키텍처 설계가 결정적인 역할을 했음을 시사한다.2
- 새로운 AI 기반 경험의 도입 (New AI-Powered Experiences): Microsoft는 OpenAI의 모델을 자사의 소비자 및 기업 제품 전반에 배포할 계획을 명확히 했다. 여기에는 개발자들이 Azure의 신뢰성 높은 엔터프라이즈급 기능과 AI 최적화 인프라를 통해 OpenAI 모델에 직접 접근하여 최첨단 AI 애플리케이션을 구축할 수 있도록 지원하는 ’Azure OpenAI Service’가 포함된다.3 GitHub Copilot, DALL·E 2, ChatGPT와 같은 기존 성공 사례를 기반으로, 개인용 컴퓨터, 인터넷, 모바일 장치, 클라우드에 버금가는 변혁적 영향을 미칠 새로운 범주의 디지털 경험 창출을 목표로 한다.
- 안전하고 책임감 있는 AI (Safe and Responsible AI): 양사는 안전한 AI 시스템의 구축 및 배포를 위해 긴밀히 협력한다. OpenAI의 AI 정렬(AI Alignment)에 대한 선도적인 연구와 Microsoft의 책임감 있는 AI 표준(Responsible AI Standard)을 결합하여, 자체 기술의 안전한 배포를 위한 프레임워크를 구축할 뿐만 아니라 업계 전반에 더 책임감 있는 결과를 유도하는 것을 목표로 한다.3
2.2 전략적 함의: ‘컴퓨팅 해자(Compute-as-a-Moat)’ 전략의 부상
이 파트너십의 가장 심오한 함의는 단순한 자금의 규모나 기술 협력을 넘어, ‘컴퓨팅을 통한 해자(Compute-as-a-Moat)’ 전략을 확립했다는 점에 있다. Azure를 세계에서 가장 진보된 AI 모델의 독점 클라우드로 지정함으로써, Microsoft는 자사의 클라우드 서비스를 단순한 유틸리티에서 최첨단 AI에 접근하기 위한 전략적 길목(chokepoint)으로 변모시켰다.
이 전략의 작동 원리는 다음과 같다. 첫째, 계약의 핵심은 수십억 달러라는 금액이 아니라 Azure에 대한 ‘독점성’ 조항이다.2 이는 OpenAI의 미래 모델 개발이 Microsoft의 인프라에 직접적으로 종속됨을 의미한다. 둘째, 차세대 모델을 훈련하는 데 필요한 전례 없는 규모의 컴퓨팅 파워는 Microsoft가 구축하는 것과 같은 특화된 슈퍼컴퓨팅 클러스터에 대한 접근을 연구의 최전선에 머무르기 위한 전제 조건으로 만든다. 셋째, 이는 강력한 선순환 구조를 형성한다. OpenAI가 더 나은 모델을 개발하면 더 많은 사용자와 개발자가 Azure로 유입되고, 이 수익은 다시 OpenAI를 위한 더 크고 강력한 슈퍼컴퓨터를 구축하는 데 사용되어 기술적 우위를 더욱 공고히 한다. 이는 컴퓨팅 자원을 기반으로 구축된 전형적인 경제적 해자다.
이러한 움직임은 기업 경쟁을 넘어 지정학적 파급 효과를 낳는다. 최첨단 AI에 대한 접근이 소수의 미국 기반 기업과 그들의 독점적 인프라 파트너십에 의해 통제된다면, AI 리더십을 추구하는 다른 국가들(예: 유럽, 아시아)에게 이는 중대한 도전이 된다. 이들은 미국의 플랫폼에 종속되거나, 막대한 투자를 통해 자체적인 ‘주권 컴퓨팅(sovereign compute)’ 인프라를 구축해야 하는 선택에 직면하게 된다. 따라서 이 계약은 단순한 비즈니스 거래가 아니라, 향후 수년간의 AI 지정학적 지형을 정의하는 데 일조한 전략적 행보였다.
이러한 거대 연합의 등장은 Google을 비롯한 경쟁사들에게 즉각적인 압박으로 작용했다. 실제로 Google의 CEO 순다르 피차이는 파트너십 발표 직전인 1월 20일, 약 12,000명의 인력 감축을 발표하며 회사의 최우선 순위를 AI에 대한 투자에 집중할 것임을 천명했다.6 이는 Microsoft-OpenAI 연합에 대응하기 위한 전략적 재편의 명백한 신호로, 2023년 내내 이어진 거대 기술 기업 간의 치열한 AI 경쟁의 서막을 열었다.
3. 음성 합성의 새로운 패러다임: Microsoft VALL-E
2023년 1월, Microsoft 연구진은 “Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers“라는 논문을 통해 음성 합성(Text-to-Speech, TTS) 분야에 새로운 패러다임을 제시하는 VALL-E를 공개했다.4 VALL-E는 기존 TTS 기술이 음성을 연속적인 신호 회귀(continuous signal regression) 문제로 다루던 접근법에서 벗어나, 이를 조건부 언어 모델링(conditional language modeling) 작업으로 근본적으로 재정의했다.
3.1 VALL-E의 구조와 원리: 음성을 언어로 취급하다
VALL-E의 진정한 중요성은 단순히 더 나은 TTS 시스템을 만드는 데 있는 것이 아니라, ‘모달리티를 언어처럼(Modality as Language)’ 다룰 수 있다는 가설을 증명한 데 있다. 이는 오디오와 같은 다양하고 연속적인 데이터 유형을 효과적으로 이산화하여 ’어휘(vocabulary)’로 만들고, 텍스트를 위해 개발된 강력하고 확장 가능한 트랜스포머 기반 언어 모델링 아키텍처를 사용하여 모델링할 수 있음을 보여준다.
기존의 TTS 시스템은 음성을 신호 처리 문제로 간주하여 멜-스펙트로그램과 같은 연속적인 값을 예측했다.8 이는 도메인 특화적인 아키텍처와 처리 파이프라인을 필요로 했다. VALL-E의 핵심 혁신은 Encodec과 같은 신경 오디오 코덱(neural audio codec)을 사용하여 원시 오디오를 유한한 집합의 이산 코드(discrete code)로 ’토큰화(tokenize)’한 것이다.4 이로써 TTS 문제는 신호 회귀에서 기계 번역이나 텍스트 생성과 같은 시퀀스-투-시퀀스(sequence-to-sequence) 예측 문제로 변환되었다.
이러한 패러다임 전환을 통해 VALL-E는 현대 언어 모델링의 모든 도구, 즉 자기회귀(autoregressive) 생성, 프롬프팅(prompting), 그리고 인-컨텍스트 학습(in-context learning)을 활용할 수 있게 되었다. VALL-E의 파이프라인은 다음과 같이 요약된다.8
- 입력 처리: 텍스트는 음소(phoneme) 시퀀스로 변환되어 음소 임베딩 행렬을 생성한다. 동시에, 프롬프트로 제공된 3초 길이의 음성 샘플은 사전 훈련된 Encodec의 인코더를 통해 이산 오디오 코드 시퀀스(acoustic prompt)로 변환된다.
- 자기회귀 예측: 모델은 음소 임베딩과 어쿠스틱 프롬프트를 입력받아, 자기회귀 언어 모델처럼 다음 이산 오디오 코드를 순차적으로 예측하여 전체 오디오 코드 시퀀스를 생성한다.
- 파형 합성: 마지막으로, Encodec의 디코더가 생성된 이산 코드 시퀀스를 다시 오디오 파형으로 변환한다.
3.2 혁신적 역량: 인-컨텍스트 학습의 발현
VALL-E는 언어 모델링 패러다임을 채택함으로써 기존 TTS가 갖지 못했던 강력한 인-컨텍스트 학습 능력을 보여주었다.
- 제로샷 TTS (Zero-Shot TTS): 훈련 데이터에 포함되지 않은 새로운 화자의 3초짜리 음성 샘플만으로 그 사람의 목소리 특성을 복제하여 고품질의 개인화된 음성을 합성할 수 있다.7 이는 사실상 제로샷 음성 복제(zero-shot voice cloning) 기능으로, 실험 결과 VALL-E는 음성의 자연스러움과 화자 유사성 측면에서 기존의 최첨단 제로샷 TTS 시스템을 크게 능가했다.
- 감정 및 음향 환경 보존: VALL-E의 가장 놀라운 능력 중 하나는 프롬프트로 사용된 음성의 감정(예: 분노, 졸림)과 음향 환경(예: 전화 통화, 소음이 섞인 환경)을 그대로 유지한 채 새로운 내용의 음성을 합성할 수 있다는 점이다.8 이는 모델이 단순히 음색을 모방하는 것을 넘어, 음성에 담긴 미묘한 맥락까지 학습하고 재현할 수 있음을 의미한다. 이는 언어 모델이 프롬프트의 스타일을 채택하는 것과 동일한 원리가 오디오 모달리티에서 구현된 것이다.
3.3 의의 및 윤리적 고려사항
VALL-E는 음성 합성을 언어 모델링의 영역으로 완전히 편입시킨 최초의 사례로, 콘텐츠 제작, 접근성 기능, 음성 편집 등 다양한 응용 분야에 혁신을 가져올 잠재력을 지닌다.8 이는 오디오가 ’언어’가 될 수 있다면, 비디오, 센서 데이터, 심지어 단백질 구조와 같은 다른 모달리티들도 토큰화될 수 있다는 강력한 가능성을 제시한다. 이는 결국 트랜스포머와 같은 단일의 강력한 시퀀스 모델링 아키텍처가 모든 모달리티에 걸쳐 콘텐츠를 생성하고 ’번역’할 수 있는, 진정으로 통합된 다중 모달 생성 지능의 미래를 향한 길을 열어준다.
그러나 이 기술은 심각한 윤리적 문제를 수반한다. 3초의 음성만으로 목소리를 복제하는 능력은 음성 식별 시스템을 속이거나(spoofing), 특정 인물을 사칭하여(impersonating) 사기나 허위 정보 유포에 악용될 수 있다. Microsoft는 이러한 오용 위험을 명확히 인지하고 있으며, 사용자가 자신의 목소리 사용에 동의하는 것을 전제로 실험을 진행했다고 밝혔다. 또한, 이 기술이 실제 제품에 적용될 경우, 화자의 명시적인 사용 동의를 보장하는 프로토콜과 합성된 음성을 탐지하는 모델이 반드시 포함되어야 한다고 제안했다.10
4. 시각적 표현 학습의 진화: Meta의 I-JEPA 아키텍처
2023년 1월 19일, Meta AI 연구진은 Yann LeCun을 포함한 저자들과 함께 “Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture“라는 논문을 통해 I-JEPA를 발표했다.5 I-JEPA는 수작업으로 설계된 데이터 증강(data augmentation)에 의존하지 않고 고도로 의미론적인(semantic) 이미지 표현을 학습하는 새로운 자기 지도 학습(self-supervised learning, SSL) 방법론이다. 이 연구는 Yann LeCun이 오랫동안 제안해 온 ‘월드 모델(world model)’ 비전의 첫 번째 구체적인 AI 모델 구현으로, AI가 단순히 패턴을 인식하는 것을 넘어 세상이 어떻게 작동하는지에 대한 내부 모델을 학습하는 방향으로 나아가는 중요한 단계로 평가된다.11
4.1 I-JEPA의 구조와 원리: 추상 공간에서의 예측
I-JEPA의 핵심 철학은 픽셀 공간(pixel space)에서 정보를 직접 재구성하는 대신, 추상적인 표현 공간(abstract representation space)에서 누락된 정보를 예측하는 것이다.13 이는 모델이 잔디의 질감과 같은 불필요하고 예측하기 어려운 저수준(low-level) 세부 정보에 모델 용량을 낭비하지 않고, 객체의 부분과 같은 더 의미론적인 특징을 학습하도록 유도한다.
I-JEPA의 작동 메커니즘은 다음과 같다.5
- 입력 처리 및 마스킹: 하나의 이미지에서 두 종류의 블록, 즉 컨텍스트 블록(context block)과 타겟 블록(target block)을 샘플링한다. 컨텍스트 블록은 예측의 기반이 되는 정보이고, 타겟 블록은 예측해야 할 대상이다.
- 인코더: 두 개의 Vision Transformer (ViT) 기반 인코더가 사용된다.
- Context Encoder: 컨텍스트 블록을 입력받아 그 표현을 추출한다.
- Target Encoder: 타겟 블록을 입력받아 예측의 ’정답’이 되는 목표 표현을 생성한다. 이 인코더의 가중치는 훈련 중에 직접 업데이트되지 않고, 컨텍스트 인코더 가중치의 지수 이동 평균(exponential moving average, EMA)으로 부드럽게 업데이트된다. 이는 학습 목표를 안정화시키는 역할을 한다.
- 예측기 (Predictor): 컨텍스트 인코더가 추출한 표현을 입력받아, 타겟 블록의 위치 정보를 조건으로 하여 타겟 블록의 표현을 예측하도록 훈련되는 작은 ViT이다.
- 손실 함수: 예측된 표현과 타겟 인코더가 생성한 실제 목표 표현 간의 평균 제곱 오차(MSE)를 최소화하는 방향으로 컨텍스트 인코더와 예측기의 가중치를 업데이트한다.
이 구조에서 핵심적인 설계 요소는 **다중 블록 마스킹 전략(multi-block masking strategy)**이다. 연구진은 의미론적 표현 학습을 위해서는 (a) 충분히 큰 규모의(즉, 의미 있는 부분을 포함하는) 타겟 블록을 샘플링하고, (b) 공간적으로 분산되어 충분한 정보를 제공하는 컨텍스트 블록을 사용하는 것이 중요함을 실험적으로 입증했다.5
4.2 기존 자기 지도 학습 패러다임과의 비교
I-JEPA는 기존의 두 가지 주요 SSL 패러다임, 즉 불변성 기반(invariance-based) 방법과 생성 기반(generative) 방법의 한계를 극복하고자 설계되었다.
- vs. 생성 기반 방법 (예: MAE): MAE와 같은 생성 모델은 마스킹된 픽셀을 직접 재구성하도록 학습한다. 이 과정은 계산 비용이 높은 디코더를 필요로 하며, 모델이 저수준 텍스처 정보 복원에 집중하게 만들어 상대적으로 덜 의미론적인 표현을 학습할 수 있다. 반면 I-JEPA는 추상 공간에서 예측을 수행하므로 계산적으로 훨씬 효율적이며, 불필요한 픽셀 수준의 세부 사항을 무시하여 더 높은 수준의 의미론적 특징을 학습한다.12
- vs. 불변성 기반 방법 (예: SimCLR, DINO): SimCLR과 같은 대조 학습(contrastive learning) 방법은 데이터 증강을 통해 생성된 동일 이미지의 여러 뷰(view)가 유사한 표현을 갖도록 학습한다. 이 방식은 강력한 표현을 학습할 수 있지만, 사용되는 데이터 증강 기법에 매우 민감하며, 이러한 증강 기법이 특정 다운스트림 작업에 편향된 귀납적 편향(inductive bias)을 주입할 수 있다. I-JEPA는 데이터 증강에 의존하지 않음으로써 이러한 문제를 피하고, 보다 일반적이고 광범위한 작업에 적용 가능한 표현을 학습한다.5
아래 표는 2023년 1월 기준으로 세 가지 자기 지도 학습 패러다임의 주요 특징을 비교 분석한 것이다.
| 특성 (Feature) | 불변성 기반 (Invariance-Based, e.g., SimCLR) | 생성 기반 (Generative, e.g., MAE) | 예측 기반 (Predictive, I-JEPA) |
|---|---|---|---|
| 핵심 목표 (Core Objective) | 증강된 뷰들의 표현 불변성 학습 | 마스킹된 입력의 픽셀/토큰 재구성 | 컨텍스트로부터 타겟의 추상적 표현 예측 |
| 데이터 증강 의존성 | 매우 높음 | 낮음 | 없음 |
| 예측 공간 (Prediction Space) | N/A (비교 기반) | 픽셀/토큰 공간 | 추상적 표현 공간 |
| 학습된 특징의 수준 | 높은 의미론적 수준 | 낮은 의미론적 수준 | 높은 의미론적 수준 |
| 계산 효율성 | 중간 | 낮음 (디코더로 인해) | 매우 높음 |
| 주요 장점 | 강력한 선형 분리 성능 | 간단한 구현, 증강 불필요 | 효율성, 일반성, 의미론적 특징 |
| 주요 단점 | 증강 설계에 민감, 편향 가능성 | 저수준 텍스처 학습에 치중 | 상대적으로 새로운 접근법 |
4.3 주요 성과 및 의의
I-JEPA는 데이터 증강 없이도 강력한 기성(off-the-shelf) 표현을 학습하며, ImageNet-1K 선형 평가(linear probing), 준지도 학습(semi-supervised learning), 그리고 다양한 의미론적 전이 학습 작업에서 MAE를 능가하는 성능을 보였다.14 특히, 객체 계수(object counting)나 깊이 예측(depth prediction)과 같은 저수준 비전 작업에서도 기존 불변성 기반 방법들보다 우수한 성능을 보여, 덜 경직된 귀납적 편향을 가진 모델이 더 넓은 범위의 작업에 적용될 수 있음을 시사했다.14 이는 I-JEPA가 고수준 의미론과 저수준 공간 정보를 모두 효과적으로 포착하는 균형 잡힌 표현을 학습함을 의미한다.
5. AAAI-23 주요 발표를 통해 본 최신 AI 연구 동향
제37회 AAAI 인공지능 학회(AAAI-23)는 2023년 1월 말부터 2월 초에 걸쳐 개최되었으며, 1월에 주요 논문들이 공개되었다. AI 분야 최고 권위의 학술대회 중 하나인 AAAI는 AI 및 관련 분야 연구자, 실무자, 학생 간의 과학적 교류를 촉진하는 장이다.16 AAAI-23에서 수상한 논문들은 당시 AI 연구의 최전선이 어디를 향하고 있는지를 명확히 보여준다. 특히, 이들 연구를 종합적으로 분석하면 학계의 연구 초점이 ‘배포 과학(Deployment Science)’, 즉 모델을 훈련하는 단계를 넘어 실제 세계에 안정적으로 배포할 때 발생하는 도전 과제들을 해결하는 방향으로 이동하고 있음을 알 수 있다.
초기 AI 연구가 주로 정적이고 깨끗한 벤치마크 데이터셋에서 최고 성능을 달성하는 데 집중했다면, AAAI-23의 주요 논문들은 모델 부정확성에 대한 강건성, 변화하는 데이터 분포에 대한 적응성, 그리고 다중 모달 및 가려진 현실 세계 센서 데이터 처리와 같은 실질적인 배포 시나리오의 문제들을 정면으로 다루고 있다. 이는 AI 연구가 실험실을 떠나 현실 세계의 복잡하고 예측 불가능한 문제들을 해결하는 단계로 성숙하고 있음을 보여주는 중요한 신호다.
5.1 컴퓨터 비전
컴퓨터 비전 분야에서는 실제 환경의 복잡성을 다루는 연구들이 두각을 나타냈다.
- Distinguished Paper - “Two Heads are Better than One: Image-Point Cloud Network for Depth-Based 3D Hand Pose Estimation” 17: 이 연구는 3D 손 자세 추정의 정확성과 강건성을 높이기 위해 2D 깊이 이미지의 효율성과 3D 포인트 클라우드의 기하학적 정보력을 결합한 하이브리드 네트워크(IPNet)를 제안했다. IPNet은 2D CNN을 통해 효율적으로 시각적 표현을 학습한 후, 3D 포인트 클라우드 공간에서 반복적 보정(iterative correction)을 수행하여 3D 기하학 정보를 정교하게 활용한다. 특히, 이 연구는 손-객체 상호작용과 같이 가림(occlusion)과 깊이 정보 손실이 심한 현실적인 시나리오에서 기존 최첨단(SOTA) 방법들을 큰 폭으로 능가하는 성능을 보였다. 이는 통제된 데이터셋이 아닌, 배포 환경에서 흔히 발생하는 문제에 대한 강건성을 확보하려는 연구 방향을 명확히 보여준다.17
- Outstanding Student Paper - “Decorate the Newcomers: Visual Domain Prompt for Continual Test Time Adaptation” 17: 이 논문은 모델이 배포된
이후에 발생하는 핵심 문제인 지속적 테스트 시점 적응(Continual Test-Time Adaptation, CTTA)을 다룬다. CTTA는 소스 데이터에 접근할 수 없는 상황에서, 지속적으로 변화하는 새로운 타겟 도메인에 모델을 적응시키는 것을 목표로 한다. 기존 자가 학습(self-training) 방식은 노이즈가 낀 의사 레이블(pseudo label)로 인해 치명적 망각(catastrophic forgetting)과 오류 누적 문제에 시달렸다. 이 연구는 모델 파라미터를 고정한 채 입력 데이터에 적용되는 ’시각적 도메인 프롬프트’를 학습하는 새로운 패러다임을 제안하여 이 문제를 해결했다. 이는 모델이 배포 후 마주하는 동적인 데이터 스트림에 효과적으로 적응하는 방법을 제시한 것으로, ’배포 과학’의 전형적인 예라 할 수 있다.19
5.2 강화학습 및 로보틱스
강화학습 분야에서는 이론적 모델과 실제 세계 간의 괴리를 줄이려는 노력이 돋보였다.
- Outstanding Paper - “Misspecification in Inverse Reinforcement Learning” 17: 이 논문은 역강화학습(Inverse Reinforcement Learning, IRL)의 근본적인 문제인 ’모델 부정확성(misspecification)’을 수학적으로 분석했다. IRL은 인간의 행동으로부터 선호나 보상 함수를 추론하는 데 널리 사용되지만, 이때 사용되는 인간 행동 모델(예: 최적성, 볼츠만 합리성)은 실제 인간의 복잡한 의사결정 과정을 지나치게 단순화한 것이다. 이 논문은 이러한 모델의 부정확성이 추론 결과에 미치는 영향을 정량적으로 분석하고, 다양한 IRL 모델이 이러한 불일치에 얼마나 강건한지를 밝혔다. 이는 실제 인간 데이터를 사용하여 AI를 정렬(align)하고자 할 때 발생하는 핵심적인 배포 문제를 다루며, 보다 신뢰할 수 있는 인간-AI 상호작용 연구의 기틀을 마련했다.19
5.3 신뢰할 수 있는 AI 및 핵심 머신러닝
핵심 머신러닝 분야에서는 모델의 일반화 성능과 강건성을 향상시키기 위한 기초 연구가 주목받았다.
- Distinguished Paper - “DropMessage: Unifying Random Dropping for Graph Neural Networks” 17: 그래프 신경망(GNN)에서 과적합(overfitting)과 과평활(over-smoothing) 문제를 완화하기 위해 사용되는 다양한 랜덤 드롭핑(random dropping) 기법들(예: DropOut, DropEdge, DropNode)을 통합하는 일반화된 프레임워크 ’DropMessage’를 제안했다. 이 연구는 메시지 전달 과정에서 정보를 무작위로 제거하는 통합된 관점을 제시함으로써, 기존 기법들을 특수한 경우로 포괄하고 GNN의 성능과 강건성을 향상시키는 데 기여했다.
이처럼 AAAI-23의 주요 수상 논문들은 공통적으로 AI 모델이 실제 세계의 불확실성, 동적인 변화, 그리고 복잡한 제약 조건 하에서 얼마나 안정적으로 작동할 수 있는가에 대한 질문에 답하고 있다. 이는 AI 연구가 벤치마크 리더보드를 넘어, 실제 배포의 과학적 난제들을 해결하는 방향으로 성숙해지고 있음을 보여주는 중요한 흐름이다.
6. 로보틱스 프론티어: 자율성과 상호작용의 심화
2023년 1월 arXiv에 발표된 로보틱스 연구들은 AI 기술, 특히 트랜스포머와 같은 최신 아키텍처와의 융합이 심화되면서 로봇의 자율성과 상호작용 능력이 한 단계 도약하고 있음을 보여준다. 이 시기의 연구들은 전통적인 로보틱스 프레임워크에 AI를 모듈처럼 추가하는 방식에서 벗어나, 로봇의 전체 인식-행동 루프를 최신 AI 아키텍처를 중심으로 재구성하는 ‘AI-네이티브(AI-Native)’ 로보틱스 스택의 등장을 예고한다.
전통적인 로보틱스 스택은 ’인식 → 상태 추정 → 계획 → 제어’와 같은 분리된 모듈로 구성되며, AI는 주로 인식 모듈에 사용되었다. 그러나 2023년 1월의 연구들은 이러한 경계를 허물고, 로봇의 ‘두뇌’ 전체를 다중 모달 입력과 상위 수준의 목표를 저수준 행동으로 직접 매핑하는 통합된 AI 모델로 구상하고 있다. 이는 트랜스포머의 어텐션 메커니즘이나 언어 모델의 인-컨텍스트 학습 능력과 같은 AI 고유의 속성을 로봇 시스템의 핵심 작동 원리로 활용하는 근본적인 아키텍처 변화를 의미한다.
6.1 자율 항법
자율 항법 분야에서는 데이터 효율성과 강건성을 극대화하려는 시도가 두드러졌다.
- “Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient Autonomous Navigation” (GTRL) 20: 이 연구는 기존 심층 강화학습(DRL) 기반 항법의 고질적인 데이터 비효율성 문제를 해결하기 위해 제안되었다. 전통적인 방식이 목표 지점 정보를 의사결정의 조건으로만 사용했던 것과 달리, 이 연구는 목표 지점 정보를 장면 인코더(scene encoder)의 입력으로 직접 활용하는
Goal-guided Transformer (GoT) 아키텍처를 도입했다. GoT는 트랜스포머의 어텐션 메커니즘을 통해 시각적 입력과 목표 정보를 융합하여, 장면 표현 자체가 목표와 관련된 특징에 집중하도록 만든다. 이는 단순한 인식 모듈이 아니라, 목표가 조건화된 표현을 생성하여 DRL 정책에 직접 공급하는 통합된 시스템이다. 그 결과, 학습 효율이 극적으로 향상되었으며, 시뮬레이션 및 실제 로봇 실험을 통해 데이터 효율성, 성능, 강건성, 그리고 sim-to-real 일반화 능력에서 기존 SOTA를 능가함을 입증했다.20 - 자율 드론 관련 서베이 논문: 자율 드론 레이싱 기술에 대한 서베이 논문은 고속, 고기동성 비행에 필요한 인식, 계획, 제어 기술의 발전을 조망하며, 실제 응용으로 나아가기 위한 안전성과 일반화가 향후 주요 과제임을 지적했다.22 이는 극한의 성능을 요구하는 환경에서 AI 기반 자율 시스템의 한계와 가능성을 탐구하는 연구 동향을 보여준다.
6.2 인간-로봇 상호작용 및 조작
인간-로봇 상호작용(HRI) 및 조작(manipulation) 분야에서는 언어 모델을 실시간 인터페이스로 활용하는 등 더욱 직관적이고 유연한 상호작용 방식이 모색되었다.
- “No, to the Right – Online Language Corrections for Robotic Manipulation via Shared Autonomy” (LILAC) 23: 이 연구는 로봇이 작업을 수행하는 도중에 “아니, 오른쪽으로“와 같은 실시간 자연어 교정을 수용하고 즉각적으로 적응할 수 있는 LILAC 프레임워크를 제안했다. 이는 언어 모델을 오프라인 계획기가 아닌, 인간의 피드백에 따라 로봇의 저차원 제어 공간을 동적으로 재구성하는 실시간 인터페이스로 활용하는 혁신적인 접근이다. 여기서 핵심 원리는 언어 모델의 온라인 언어 기반 추론(grounding) 능력이다. 사용자 연구를 통해 작업 성공률과 사용자 선호도에서 기존 방식을 압도함을 보이며, 보다 자연스러운 공유 자율(shared autonomy) 패러다임을 구현했다.
- “Dexterous Robotic Manipulation using Deep Reinforcement Learning and Knowledge Transfer…” 24: 희소 보상(sparse reward) 환경에서 복잡하고 정교한 로봇 조작을 학습하기 위한 DRL 접근법을 제시했다. 특히, 이 연구는 기존에 학습된 지식을 새로운 작업(예: 큐브의 위치뿐만 아니라 방향까지 유지하는 작업)에 효과적으로 전달하는 지식 이전(Knowledge Transfer) 기법을 활용하여 학습 효율을 크게 개선했다. 이는 복잡한 기술을 점진적으로 학습하는 AI-네이티브 접근법의 가능성을 보여준다.24
6.3 장기 자율성 및 특수 목적 로봇
변화하는 환경에서의 장기 자율성과 극한 환경에서의 로봇 활용 연구도 활발히 진행되었다.
- “Online Continual Learning in Mobile Robotics: A Survey of the State of the Art” 25: 변화하는 환경에서 로봇의 장기 자율성을 확보하기 위한 핵심 기술로, 인간의 개입 없이 현장(in-situ)에서 즉석(on-the-fly)으로 학습하는 온라인 지속 학습(online continual learning)의 중요성을 강조했다. 이는 로봇이 고정된 모델을 사용하는 것이 아니라, 지속적으로 환경과 상호작용하며 스스로를 개선해나가는 능력을 갖추어야 함을 역설한다.
- “Computational Co-Design and Validation of the Multi-Arm Relocatable Manipulator (MARM)” 26: 우주 정거장과 같은 극한 환경에서의 조립 및 유지보수 작업을 위해 3개의 팔을 가진 로봇 MARM의 설계 및 검증 과정을 다루었다. 이 연구는 복잡한 기구학적, 동역학적 제약 조건 하에서 최적의 로봇 설계를 도출하기 위해 시뮬레이션 기반 공동 설계(co-design) 파이프라인을 활용한 사례로, 특정 목적을 위해 하드웨어와 소프트웨어가 긴밀하게 통합되는 로봇 시스템 개발의 현주소를 보여준다.
7. 결론: 2023년 1월의 유산과 향후 전망
2023년 1월은 거대 자본과 기초 연구의 강력한 시너지가 AI 발전을 어떻게 촉진하는지를 명확히 보여준 달이었다. Microsoft와 OpenAI의 파트너십은 생성형 AI의 산업적 잠재력을 폭발시키는 기폭제가 되었고, 이는 AI 기술이 ‘모델’ 중심에서 ‘플랫폼’ 중심으로 이동하는 거대한 패러다임 전환을 상징했다. 동시에 VALL-E와 I-JEPA 같은 연구는 AI가 텍스트를 넘어 음성, 시각 등 다양한 양식(modality)을 아우르는 범용 기술로 진화하고 있음을 증명하며, 학문적 깊이를 더했다.
이 시기의 발전은 2023년 내내 이어진 AI 기술 경쟁의 토대를 마련했다. 산업계에서는 AI 모델을 자사의 제품과 서비스에 신속하게 통합하려는 경쟁이 극도로 심화되었다.27 학계에서는 단순히 성능을 높이는 것을 넘어, 실제 세계에 배포될 때 마주하는 문제들, 즉 효율성, 강건성, 적응성, 신뢰성을 해결하기 위한 ‘배포 과학’ 연구가 가속화되었다.
특히 로보틱스 분야에서는 트랜스포머와 같은 최신 AI 아키텍처를 로봇의 인식-계획-행동 루프에 깊숙이 통합하려는 ‘AI-네이티브’ 접근법이 주류가 되면서, ’지능’의 본질에 대한 추상적 탐구가 로봇의 물리적 구현과 결합되는 새로운 연구의 장이 열렸다. 2023년 1월은 AI가 연구실의 성과를 넘어 사회 전반에 실질적인 영향을 미치기 시작한 진정한 ’변곡점’으로 기억될 것이다.
8. 참고 자료
- 2023년 1월 AI 뉴스 동향 총정리 - 알쓸AI잡 - 티스토리, https://ai-mentor.tistory.com/3
- OpenAI and Microsoft extend partnership, https://openai.com/index/openai-and-microsoft-extend-partnership/
- Microsoft and OpenAI extend partnership - The Official Microsoft Blog, https://blogs.microsoft.com/blog/2023/01/23/microsoftandopenaiextendpartnership/
- VALL-E architecture - learnius, https://learnius.com/slp/9+Speech+Synthesis/2+Advanced+Topics/4+Neural+Codec+Language+Modeling/VALL-E+architecture
- [2301.08243] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture - arXiv, https://arxiv.org/abs/2301.08243
- A difficult decision to set us up for the future - Google Blog, https://blog.google/inside-google/message-ceo/january-update/
- Neural Codec Language Models are Zero-Shot … - GreatGameIndia, https://arxiv.org/abs/2301.02111
- VALL-E - lifeiteng.github.com, https://lifeiteng.github.io/valle/index.html
- Plachtaa/VALL-E-X: An open source implementation of Microsoft’s VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io/vallex - GitHub, https://github.com/Plachtaa/VALL-E-X
- VALL-E - Microsoft, https://www.microsoft.com/en-us/research/project/vall-e-x/
- I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI, https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/
- facebookresearch/ijepa: Official codebase for I-JEPA, the … - GitHub, https://github.com/facebookresearch/ijepa
- [2301.08243] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture - ar5iv, https://ar5iv.labs.arxiv.org/html/2301.08243
- Self-Supervised Learning From Images With a … - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2023/papers/Assran_Self-Supervised_Learning_From_Images_With_a_Joint-Embedding_Predictive_Architecture_CVPR_2023_paper.pdf
- Self-Supervised Learning from Satellite Images with a Joint-Embedding Predictive Architecture | EPFL, https://www.epfl.ch/labs/eceo/wp-content/uploads/2024/06/2024_MSc_JointEmbeddingPredictiveArchitecture.pdf
- AAAI 2023 Conference - The Association for the Advancement of Artificial Intelligence, https://aaai.org/conference/aaai/aaai-23/
- AAAI-23 is pleased to announce the winners of the … - AAAI 2023, https://aaai-23.aaai.org/wp-content/uploads/2023/02/AAAI-23-Paper-Awards-1.pdf
- Two Heads Are Better than One: Image-Point Cloud Network for …, https://ojs.aaai.org/index.php/AAAI/article/view/25310/25082
- Congratulations to the #AAAI2023 best paper winners - ΑΙhub - AI Hub, https://aihub.org/2023/02/11/congratulations-to-the-aaai2023-best-paper-winners/
- [2301.00362] Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient Autonomous Navigation - arXiv, https://arxiv.org/abs/2301.00362
- Goal-guided Transformer-enabled Reinforcement … - SciSpace, https://scispace.com/pdf/goal-guided-transformer-enabled-reinforcement-learning-for-3accy3d8.pdf
- [2301.01755] Past, Present, and Future of Autonomous Drone Racing: A Survey - arXiv, https://arxiv.org/abs/2301.01755
- [2301.02555] “No, to the Right” – Online Language Corrections for Robotic Manipulation via Shared Autonomy - arXiv, https://arxiv.org/abs/2301.02555
- [2205.09683] Dexterous Robotic Manipulation using Deep Reinforcement Learning and Knowledge Transfer for Complex Sparse Reward-based Tasks - arXiv, https://arxiv.org/abs/2205.09683
- arXiv:2212.12798v3 [cs.RO] 20 Jan 2023, https://arxiv.org/pdf/2212.12798
- arXiv:2301.09863v1 [cs.RO] 24 Jan 2023, https://arxiv.org/pdf/2301.09863
- 2023 국내 AI 도입 및 활용 현황 조사 | 인사이트리포트 | 삼성SDS, https://www.samsungsds.com/kr/insights/2023-ai-survey.html