년 4월 AI 및 로봇 분야 연구 동향
1. 서론: 2024년 4월, AI와 로보틱스의 연구 지형도
2024년 4월은 인공지능(AI)과 로보틱스 분야의 연구 지형에 있어 하나의 변곡점으로 기록될 중요한 시점이었다. 이 시기에는 International Conference on Learning Representations (ICLR), IEEE International Conference on Robotics and Automation (ICRA), Conference on Computer Vision and Pattern Recognition (CVPR)과 같은 세계 최고 수준의 학회들에서 주요 연구 결과들이 집중적으로 공개되었다. 이들 학회에서 발표된 논문들은 파운데이션 모델의 지속적인 규모 확장과 함께 그 효율성을 극대화하려는 노력, 가상 세계에서 축적된 지능을 물리적 세계로 이전하여 로봇의 일반화 능력을 확보하려는 시도, 그리고 인간과 유사한 방식으로 환경을 이해하고 상호작용하는 능력을 심화시키려는 연구라는 세 가지 거대한 흐름을 명확히 보여주었다. 본 보고서는 이 시기에 발표된 핵심 연구들을 심층적으로 분석하여, 단순한 기술적 성취의 나열을 넘어 이들이 AI와 로보틱스 분야의 미래 연구 방향과 산업적 응용에 미치는 심오한 함의를 다각도로 조명하고자 한다.
주요 학회들의 동향을 살펴보면, ICLR 2024는 총 7,262편의 논문이 제출되어 그중 31%에 해당하는 2,260편이 채택되었으며, 특히 대규모 언어 모델(LLM)의 이론적 기반과 실제적 성능 향상에 관한 연구들이 두각을 나타냈다.1 로보틱스 분야의 플래그십 컨퍼런스인 ICRA 2024는 3,937편의 제출물 중 약 45%인 1,765편을 채택하며, 로봇 학습, 제어, 그리고 인간-로봇 상호작용(HRI) 분야에서의 실질적인 기술적 진보를 비중 있게 다루었다.2 컴퓨터 비전 분야의 최고 권위 학회인 CVPR 2024는 11,532편이라는 방대한 수의 논문이 제출되어 23.6%인 2,719편만이 채택되었으며, 생성 모델과 파운데이션 모델이 컴퓨터 비전의 거의 모든 하위 분야에 미치는 혁신적인 영향을 조명하는 연구들이 주를 이루었다.3
이러한 학문적 배경 속에서, 본 보고서는 다음의 네 가지 핵심 연구 주제를 중심으로 2024년 4월의 연구 지형도를 탐색한다.
- 파운데이션 모델의 진화: 장문 맥락 처리의 효율화, 다중 에이전트 협업 프레임워크의 고도화 등 모델의 내적, 외적 한계를 극복하려는 시도를 분석한다.
- 로보틱스의 새로운 지평: 이종(cross-embodiment) 데이터셋을 통한 로봇 학습의 일반화, 비전-언어 모델을 활용한 의미론적 항법(semantic navigation), 그리고 극한 환경 및 특수 목적 로보틱스의 발전을 탐구한다.
- 강화학습의 심화: 뇌 과학과의 접점을 통해 새로운 학습 패러다임을 모색하고, 실제 물리 환경에 적용하기 위한 안전성 확보 기술을 고찰한다.
- 생성 모델과 컴퓨터 비전: 정적인 이미지 생성을 넘어, 시공간적 일관성을 갖춘 동적 콘텐츠 생성 기술의 발전을 살펴본다.
과거 AI와 로보틱스 분야의 연구는 비교적 독립적으로 발전하는 경향이 있었다. AI 학회는 주로 알고리즘의 수학적 정교함과 모델 구조의 혁신에 집중했고, 로보틱스 학회는 제어 이론, 동역학, 하드웨어 설계와 같은 물리적 구현에 중점을 두었다. 그러나 2024년 4월의 연구 동향은 이러한 분야 간의 경계가 허물어지고 있음을 명백히 보여준다. 이제 연구의 핵심 화두는 개별 분야의 독립적 발전이 아닌, 분야 간 ’융합(convergence)’과 물리 세계에 대한 ’접지(grounding)’로 이동하고 있다. 예를 들어, 대규모 언어 모델(AI)은 로봇의 행동 계획(Robotics)에 직접적으로 접지되고 있으며, 강화학습 알고리즘(AI)은 뇌의 학습 원리(Neuroscience)를 통해 그 효율성을 설명하고 개선하려 시도한다. 또한, 컴퓨터 비전(AI) 기술의 발전은 로봇의 환경 인식 능력(Robotics)을 근본적으로 변화시키고 있다. 이는 AI 연구가 더 이상 순수한 디지털 영역이나 추상적인 벤치마크 점수 향상에만 머무르지 않고, 물리 세계와의 실질적인 상호작용을 통해 지능을 완성하려는 패러다임의 전환이 가속화되고 있음을 의미한다. 이 ’접지’의 과정에서 과거에는 존재하지 않았던 새로운 문제들이 정의되고, 이를 해결하기 위한 혁신적인 방법론들이 동시에 등장하고 있다.
본 보고서는 각 장에서 해당 주제를 대표하는 가장 영향력 있는 연구들을 선정하여 그 기술적 깊이를 파고드는 동시에, 관련 연구 동향과 유기적으로 연결하여 해당 분야의 거시적 맥락과 미래 전망을 제시할 것이다.
| 학회명 | 주요 통계 | 본 보고서 선정 대표 연구 | 핵심 기여 |
|---|---|---|---|
| ICLR 2024 | 제출: 7,262 / 채택: 2,260 (31%) 1 | LongLoRA (Chen et al.) MetaGPT (Hong et al.) Predictive auxiliary objectives… (Fang et al.) | Shifted Sparse Attention을 통한 효율적 장문 맥락 파인튜닝 SOPs 기반 다중 에이전트 협업 프레임워크 뇌의 학습 방식을 모방한 강화학습 표현 학습 |
| ICRA 2024 | 제출: 3,937 / 채택: 1,765 (45%) 2 | Open X-Embodiment (Padalkar et al.) VLFM (Yokoyama et al.) Time-Optimal Gate-Traversing Planner… (Qin et al.) Exoskeleton-Mediated… (Vianello et al.) | 이종 로봇 데이터셋을 통한 범용 로봇 정책 학습 VLM을 활용한 의미론적 항법 및 탐색 게이트 기하학을 고려한 드론 레이싱 시간 최적화 외골격을 통한 치료사-환자 간 물리적 상호작용 매개 |
| CVPR 2024 Workshops | 제출: 11,532 / 채택: 2,719 (23.6%) 3 | LATENTMAN (Eldesokey & Wonka) VFM-UDA (Englert et al.) | 잠재 공간 정렬을 통한 시간적 일관성을 갖춘 캐릭터 애니메이션 생성 VFM과 UDA를 결합하여 성능과 추론 속도를 동시 향상 |
2. 파운데이션 모델의 진화 - 장문 맥락, 에이전트 협업, 그리고 그 너머
파운데이션 모델 연구는 단순히 더 많은 파라미터를 가진 거대 모델을 구축하는 초기 단계를 지나, 이제는 주어진 모델의 능력을 어떻게 더 효율적으로 활용하고, 어떻게 구조적으로 조직하여 더 복잡한 문제를 해결할 것인가에 대한 성숙한 논의로 접어들고 있다. 2024년 4월에 발표된 연구들은 이러한 패러다임 전환을 명확히 보여준다. 모델의 ’내부 구조’인 어텐션 메커니즘을 최적화하여 계산 효율성을 높이는 연구(LongLoRA), 모델들 간의 ’외부 구조’인 협업 워크플로우를 정립하여 집단 지성을 구현하는 연구(MetaGPT), 그리고 기존 모델과 새로운 모델의 ’결합 구조’를 최적화하여 시너지를 창출하는 연구(VFM-UDA)는 모두 ’규모(scale)’에서 ’구조(structure)’와 ’효율(efficiency)’로 연구의 무게 중심이 이동하고 있음을 시사한다. 이는 AI 기술이 실험실 수준의 성능 경쟁을 넘어, 실제 산업 현장에서 요구되는 비용 효율성과 안정성을 본격적으로 고려하기 시작했음을 의미하며, 향후 AI 아키텍처 설계의 핵심 원칙이 될 방향을 제시한다.
2.1 장문 컨텍스트의 한계 극복: LongLoRA 심층 분석
문제 정의
대규모 언어 모델(LLM)의 핵심 구성 요소인 트랜스포머 아키텍처의 셀프 어텐션 메커니즘은 그 자체로 강력한 성능을 발휘하지만, 근본적인 확장성 문제를 내포하고 있다. 어텐션 메커니즘은 입력 시퀀스의 모든 토큰 쌍 간의 관계를 계산해야 하므로, 입력 시퀀스의 길이를 n이라 할 때 계산량과 메모리 요구량이 O(n^2)으로 증가한다.4 이 이차적 복잡도는 모델이 처리할 수 있는 컨텍스트 길이를 심각하게 제약하는 병목으로 작용한다. 수만 토큰 이상의 긴 문서를 요약하거나, 여러 턴에 걸친 긴 대화의 이력을 모두 기억하거나, 복잡한 코드베이스 전체를 이해하고 디버깅하는 등의 작업은 이러한 한계로 인해 실질적으로 구현하기 어려웠다.
LongLoRA의 접근법
ICLR 2024에서 구두 발표로 선정된 “LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models“는 이러한 장문 컨텍스트 처리의 비효율성 문제를 해결하기 위해 두 가지 독창적인 전략을 결합한 효율적인 파인튜닝 방법론을 제시한다.5
- Shifted Sparse Attention (S²-Attn): 연구진은 모델이 최종적으로 추론을 수행할 때는 모든 토큰 간의 관계를 파악하는 밀집 어텐션(dense attention)이 필요하지만, 긴 컨텍스트에 적응하도록 모델을 파인튜닝하는 단계에서는 이를 희소 지역 어텐션(sparse local attention)으로 효율적으로 근사할 수 있다는 핵심적인 통찰을 발견했다. S²-Attn은 전체 시퀀스를 여러 그룹으로 나누어 각 그룹 내에서만 어텐션을 계산하되, 일부 어텐션 헤드의 그룹을 순환적으로 이동(shift)시켜 정보가 인접 그룹 간에 효과적으로 전파되도록 설계되었다. 이 구조적 변경을 통해 어텐션 계산의 복잡도를 O(n \cdot m) (여기서 m은 그룹 크기로, m \ll n)으로 크게 줄이면서도 정보 손실을 최소화했다.4
- 개선된 LoRA (Improved LoRA): 기존의 파라미터 효율적 파인튜닝(PEFT) 기법인 LoRA(Low-Rank Adaptation)는 주로 트랜스포머의 선형 계층(linear layers)에 저차원 행렬을 추가하여 학습 파라미터 수를 줄이는 데 집중했다. 그러나 LongLoRA 연구진은 긴 컨텍스트를 이해하기 위해서는 모델의 입력단인 임베딩 계층과 각 계층의 출력을 안정화하는 정규화(normalization) 계층의 미세 조정이 필수적임을 실험적으로 밝혀냈다. 따라서 LongLoRA는 이들 계층 또한 학습 가능하도록 만들어, 최소한의 파라미터 증가로 컨텍스트 확장에 필요한 표현력을 효과적으로 확보했다.6
기술적 세부사항: Shifted Sparse Attention (S²-Attn)
S²-Attn의 작동 원리는 다음과 같다. 먼저, 길이 n의 입력 시퀀스를 크기 m의 g = n/m개 그룹으로 분할한다. 표준적인 희소 어텐션은 각 그룹 내에서만 어텐션을 계산하여 정보가 그룹 경계를 넘지 못하는 한계가 있다. S²-Attn은 이를 해결하기 위해 전체 어텐션 헤드의 절반은 기존 방식대로 그룹 내 어텐션을 수행하고, 나머지 절반은 각 그룹을 오른쪽으로 s = m/2 토큰만큼 순환 이동(circular shift)시킨 후 그룹 내 어텐션을 계산한다. 이 간단한 이동 연산만으로 한 그룹의 토큰들은 이동된 그룹 내에서 다른 그룹의 토큰들과 상호작용할 수 있게 되어, 전체 시퀀스에 걸쳐 정보가 효과적으로 전파된다. 이 방식은 훈련 시에만 적용되며, 추론 시에는 표준적인 밀집 어텐션을 그대로 사용하므로 기존에 개발된 다양한 최적화 기법(예: FlashAttention2)과 완벽하게 호환된다. 놀랍게도 이 복잡한 개념은 코드 상으로는 단 몇 줄의 추가로 간단하게 구현될 수 있어 실용성이 매우 높다.6
성능 및 의의
LongLoRA의 효과는 실험 결과를 통해 명확히 입증되었다. 단일 8x A100 GPU 서버 환경에서, Llama2 7B 모델의 컨텍스트 길이를 기존 4,096 토큰에서 100,000 토큰까지 확장했으며, 70B 모델의 경우 32,000 토큰까지 확장하는 데 성공했다.9 이는 모든 파라미터를 학습시키는 전체 파인튜닝(full fine-tuning) 방식에 비해 훨씬 적은 계산 자원과 시간으로 장문 컨텍스트 처리 능력을 확보할 수 있음을 의미한다. LongLoRA는 장문 컨텍스트 연구 및 응용의 진입 장벽을 크게 낮춤으로써, LLM이 더욱 복잡하고 긴 정보를 다룰 수 있는 새로운 가능성을 열어준 중요한 기술적 진보로 평가된다.7
| 방법론 | 핵심 아이디어 | 계산 복잡도 | 메모리 효율성 | 성능 (Perplexity) | 장점 | 단점 |
|---|---|---|---|---|---|---|
| Full Fine-tuning | 모델의 모든 파라미터를 학습 | O(n^2) | 낮음 | 기준 성능 | 최고의 성능 잠재력 | 막대한 계산 비용 및 시간 |
| Standard LoRA | 선형 계층에 저차원 행렬을 추가하여 학습 | O(n^2) | 중간 | 기준 대비 소폭 하락 | 파라미터 효율적 | 장문 맥락 확장에는 부적합 |
| Positional Interpolation | 위치 임베딩을 보간하여 컨텍스트 확장 | O(n^2) | 낮음 (Full FT 기준) | 장문에서 성능 유지 | 기존 모델 구조 변경 불필요 | 여전히 O(n^2) 계산 필요 |
| LongLoRA | S²-Attn + 개선된 LoRA | O(n \cdot m) (훈련 시) | 높음 | Full FT에 근접 | 계산 및 메모리 효율성 극대화 | 추론 시에는 여전히 O(n^2) |
2.2 다중 에이전트 협업 패러다임: MetaGPT 분석
기존 다중 에이전트 시스템의 한계
LLM을 기반으로 한 여러 에이전트를 연결하여 복잡한 문제를 해결하려는 시도는 활발히 이루어져 왔다. 하지만 단순히 이전 에이전트의 출력을 다음 에이전트의 입력으로 사용하는 채팅 기반의 연쇄 방식은 심각한 한계를 드러냈다. 한 에이전트가 생성한 작은 오류나 환각(hallucination)이 다음 에이전트로 전달되면서 증폭되어, 결국 전체 시스템이 논리적으로 비일관적이거나 완전히 잘못된 결과를 내놓는 “연쇄적 환각(cascading hallucinations)” 문제가 빈번하게 발생했다.10 이는 에이전트 간의 상호작용이 체계적으로 관리되지 않고, 중간 결과물에 대한 검증 절차가 부재하기 때문에 발생하는 근본적인 문제였다.
MetaGPT의 핵심 아이디어: SOPs
이러한 문제를 해결하기 위해 ICLR 2024 구두 발표 논문인 “MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework“는 인간 사회가 수 세기에 걸쳐 발전시켜 온 가장 효율적인 협업 방식, 즉 ’표준 운영 절차(Standardized Operating Procedures, SOPs)’를 LLM 기반 다중 에이전트 시스템에 도입하는 혁신적인 메타 프로그래밍 프레임워크를 제안했다.10 MetaGPT의 핵심 철학은 에이전트들이 자유롭게 대화하도록 방치하는 대신, 잘 정의된 역할과 절차에 따라 협업하도록 구조화하는 것이다.
작동 방식
MetaGPT는 마치 잘 조직된 소프트웨어 회사를 시뮬레이션하는 것처럼 작동한다.14
- 역할 분담 (Role Specialization): 시스템은 사용자로부터 “2048 게임을 만들어줘“와 같은 단일 목표를 입력받으면, 이 목표를 달성하기 위해 필요한 역할들을 에이전트에게 부여한다. 예를 들어, ‘제품 관리자(Product Manager)’, ‘아키텍트(Architect)’, ‘프로젝트 관리자(Project Manager)’, ‘엔지니어(Engineer)’, ‘품질 보증 엔지니어(QA Engineer)’ 등의 역할이 동적으로 생성된다.10 각 역할은 해당 분야의 전문 지식을 갖도록 설계된 프롬프트를 통해 초기화된다.
- SOP 기반 워크플로우 (SOP-based Workflow): 각 에이전트는 자신에게 할당된 SOP에 따라 정해진 순서대로 작업을 수행한다. 예를 들어, 제품 관리자는 경쟁 분석과 사용자 요구사항을 바탕으로 표준화된 형식의 ’제품 요구사항 명세서(Product Requirement Document, PRD)’를 작성한다. 아키텍트는 이 PRD를 입력받아 시스템의 기술적 구조를 설계하고 ’시스템 설계 문서’를 생성한다. 엔지니어는 이 설계 문서를 바탕으로 코드를 작성한다.14 이처럼 각 단계는 명확한 입력과 출력을 가지며, 인간의 실제 워크플로우를 모방한다.
- 구조화된 출력 (Structured Output): MetaGPT의 가장 큰 특징은 에이전트 간의 상호작용이 비정형적인 자연어 대화가 아니라, ’구조화된 문서’를 통해 이루어진다는 점이다. PRD, 설계 다이어그램, API 명세서, 순서도와 같은 표준화된 중간 산출물은 후속 에이전트가 수행해야 할 작업을 명확하게 정의하고, 모호성을 제거하며, 오류 발생 가능성을 크게 줄인다. 이 구조화된 결과물들은 시스템의 공유 메모리 역할을 하여, 모든 에이전트가 프로젝트의 현재 상태와 맥락을 일관되게 파악할 수 있도록 돕는다.10
의의
MetaGPT는 다중 에이전트 시스템 연구 분야에 중요한 이정표를 제시했다. 이는 개별 에이전트의 지능을 높이는 것을 넘어, ’어떻게 효과적으로 협업할 것인가’라는 근본적인 질문에 대해 ’인간 사회에서 검증된 고도의 프로세스를 모방’하는 것이 강력한 해답이 될 수 있음을 보여주었다. 에이전트 간의 비생산적인 상호작용과 오류 전파를 최소화하고, 복잡한 작업을 체계적으로 분해하여 해결하는 능력을 극대화함으로써, MetaGPT는 다중 에이전트 시스템이 단순한 역할 놀이를 넘어 실제적이고 복잡한 소프트웨어 공학 문제를 해결할 수 있는 잠재력을 입증했다.16
2.3 파운데이션 모델의 응용 확장: VFM-UDA 사례
배경
컴퓨터 비전 분야에서 파운데이션 모델(Vision Foundation Models, VFM)은 대규모의 다양한 데이터셋으로 사전 학습되어, 특정 다운스트림 작업에 대해 강력한 일반화(generalization) 성능을 보인다. 하지만 이러한 모델들은 특정 배포 환경, 즉 타겟 도메인(target domain)의 고유한 데이터 분포(예: 다른 날씨, 조명, 카메라 센서)에 완벽하게 최적화되어 있지는 않다. 반면에, 비지도 도메인 적응(Unsupervised Domain Adaptation, UDA) 기술은 레이블이 없는 타겟 도메인 데이터를 활용하여 소스 도메인에서 학습된 모델을 타겟 도메인에 맞게 미세 조정하는 데 특화된 방법론이다.17 이 두 접근법은 각기 다른 장점을 가지며, 그동안 독립적으로 연구되어 왔다.
VFM-UDA의 접근법
CVPR 2024 워크숍에서 발표된 “Exploring the Benefits of Vision Foundation Models for Unsupervised Domain Adaptation” 연구는 이 두 가지 강력한 패러다임을 결합할 때 발생하는 시너지 효과를 탐구했다. 연구진은 대표적인 UDA 프레임워크인 MIC(Masked Image Consistency)의 인코더를 DINOv2와 같은 강력한 VFM으로 교체하는 VFM-UDA 아키텍처를 제안했다.18 이 아이디어의 핵심은 VFM의 풍부하고 일반화된 특징 표현 능력을 UDA의 도메인 적응 메커니즘과 결합하여, 두 접근법의 장점을 모두 취하는 것이다.
시너지 효과 및 성능
결과는 놀라웠다. VFM의 강력한 특징 추출 능력은 기존 UDA 방법론에서 도메인 간 격차를 줄이기 위해 사용되었던 복잡하고 계산 비용이 높은 일부 구성 요소들을 불필요하게 만들었다. 예를 들어, 고해상도와 저해상도 이미지를 모두 처리하여 성능을 높였던 HRDA(High-Resolution Domain Adaptation) 모듈은 VFM의 강력한 표현력 앞에서는 오히려 성능 향상에 기여하지 못하거나 미미한 영향을 주었다. 이러한 불필요한 구성 요소를 제거함으로써, VFM-UDA는 아키텍처를 단순화하고 추론 속도를 극적으로 향상시킬 수 있었다.
구체적인 성능 수치는 이 접근법의 효과를 명확히 보여준다. 기존의 비-VFM 기반 SOTA UDA 방법과 거의 동일한 파라미터 수를 가진 모델(ViT-B/14 vs. MiT-B5)과 비교했을 때, VFM-UDA는 8.4배의 추론 속도 향상을 달성했다. 놀라운 점은 속도만 빨라진 것이 아니라는 점이다. 타겟 도메인 내에서의 성능(UDA 성능)은 +1.2 mIoU 향상되었고, 학습 과정에서 전혀 보지 못한 완전히 새로운 도메인에 대한 일반화 성능(out-of-distribution generalization)은 +6.1 mIoU나 개선되었다. 더 큰 VFM을 사용했을 때도 이러한 경향은 유지되어, 3.3배의 속도 향상과 함께 UDA 성능 +3.1 mIoU, 분포 외 일반화 성능 +10.3 mIoU라는 인상적인 결과를 기록했다.17 이는 VFM과 UDA의 결합이 단순한 성능 향상을 넘어, 효율성과 강건성(robustness)까지 동시에 달성할 수 있는 새로운 길을 열었음을 의미한다.
3. 로보틱스의 새로운 지평 - 대규모 학습, 의미론적 항법, 인간-로봇 상호작용
로보틱스 분야의 연구는 ’데이터의 물리적 현실성’과 ’지식의 추상화 수준’이라는 두 가지 중요한 축을 따라 동시에 진화하고 있다. 한편으로는 수많은 ‘실제’ 로봇의 경험 데이터를 통합하여 물리적 세계의 다양성과 복잡성에 대응하려는 노력이 이루어지고 있으며, 다른 한편으로는 인간의 언어와 개념으로 대표되는 ‘추상적’ 지식을 로봇의 물리적 행동 계획에 접목하려는 시도가 본격화되고 있다. Open X-Embodiment 프로젝트는 전자의 대표적인 사례로, 전례 없는 규모의 실제 로봇 데이터를 통해 물리적 현실성의 범위를 극적으로 확장했다. 반면, VLFM 연구는 후자의 사례로, 대규모 언어-비전 모델이 가진 추상적 개념 이해 능력을 로봇의 물리적 탐색 문제에 직접적으로 연결했다. 이 두 연구 흐름은 현재는 독립적으로 보일 수 있지만, 사실상 ’체화된 범용 지능(Embodied General Intelligence)’이라는 동일한 목표를 향한 상호 보완적인 접근이다. 미래의 로봇은 방대한 실제 세계의 경험(데이터)을 바탕으로 학습된 ‘물리적 사전 지식’ 위에, 인간 수준의 추상적 개념(언어)을 이해하고 추론하는 ’의미론적 엔진’을 탑재하는 형태로 발전할 것이다. 이러한 결합은 로보틱스가 특정 작업을 잘 수행하는 단계를 넘어, ‘다양한 물리적 환경에서 인간의 추상적인 명령을 이해하고 수행하는’ 범용 에이전트로 진화하는 중요한 변곡점이 될 것임을 시사한다.
3.1 일반화 로봇을 향한 거대한 도약: Open X-Embodiment
로봇 학습의 근본적 문제
전통적인 로봇 학습 방법론은 근본적인 일반화의 한계에 부딪혀왔다. 특정 로봇 팔, 특정 작업 환경, 특정 물체 집합에 대해 수집된 데이터로 훈련된 정책(policy)은 해당 조건에서는 높은 성능을 보일 수 있지만, 로봇의 종류가 바뀌거나, 조명이 달라지거나, 새로운 물체가 등장하는 순간 그 성능이 급격히 저하되는 경향이 있었다.19 이는 각 연구실이나 기업이 자신들의 고유한 환경에서 데이터를 수집하고 개별적으로 모델을 훈련시키는 ‘데이터 사일로(data silo)’ 현상 때문이었다. 이러한 접근 방식은 데이터 수집 비용이 많이 들고 확장성이 떨어져, 인간처럼 다양한 환경과 도구에 빠르게 적응하는 범용 로봇의 등장을 가로막는 가장 큰 장벽으로 작용했다.
Open X-Embodiment의 비전
2024년 ICRA 최우수 논문으로 선정된 “Open X-Embodiment: Robotic Learning Datasets and RT-X Models“는 이러한 한계를 극복하기 위한 담대한 비전을 제시한다.20 이 연구의 핵심 패러다임은 ‘이종 체화(Cross-Embodiment)’ 훈련으로, 이는 서로 다른 형태와 동역학을 가진 다양한 로봇 플랫폼에서 수집된 방대한 양의 데이터를 하나의 거대하고 표준화된 데이터셋으로 통합하고, 이를 바탕으로 단일한 고용량 모델(high-capacity model)을 훈련하는 것이다. 이 접근법의 기저에는, 한 로봇이 ‘문을 여는’ 경험이 다른 형태의 로봇이 ‘서랍을 여는’ 법을 배우는 데 긍정적인 영향을 미칠 수 있다는, 즉 로봇 간에 유용한 지식 전이(positive transfer)가 가능하다는 가설이 깔려 있다.
데이터셋 규모와 구성
이 비전을 실현하기 위해, 연구팀은 전 세계 21개의 유수 대학 및 연구 기관과의 대규모 협력을 통해 ‘Open X-Embodiment’ 데이터셋을 구축했다. 이 데이터셋은 22종의 서로 다른 로봇(예: Franka Emika Panda, Sawyer, WidowX, Google Robot 등)으로부터 수집된 100만 개 이상의 실제 로봇 궤적(trajectory) 데이터로 구성되어 있다. 이는 527개의 고유한 기술(skill)과 160,266개의 구체적인 작업(task) 수행 사례를 포함하며, 현재까지 공개된 실제 로봇 학습 데이터셋 중 가장 큰 규모와 다양성을 자랑한다.22 모든 데이터는 RLDS(Reinforcement Learning Datasets)라는 표준화된 형식으로 변환되어, 연구자들이 손쉽게 데이터를 결합하고 활용할 수 있도록 했다.
RT-X 모델과 성능
연구팀은 이 방대한 데이터셋을 사용하여 두 가지 종류의 모델, RT-1-X와 RT-2-X를 훈련했다. RT-1-X는 로봇 제어에 특화된 효율적인 트랜스포머 기반 아키텍처이며, RT-2-X는 거대 비전-언어 모델(VLM)을 기반으로 로봇의 행동을 자연어 토큰으로 출력하도록 파인튜닝한 모델이다. 실험 결과는 ‘이종 체화’ 훈련의 효과를 명확하게 입증했다. 여러 로봇 플랫폼에서, Open X-Embodiment 데이터셋 전체로 훈련된 RT-X 모델은 해당 로봇의 데이터만으로 훈련된 모델보다 평균적으로 더 높은 성공률을 보였다. 이는 다른 로봇들의 경험 데이터가 목표 로봇의 성능 향상에 실질적으로 기여했음을 의미한다. 특히, 550억 파라미터 규모의 RT-2-X 모델은 “사과를 천 위로 옮겨“와 같이 훈련 데이터에 명시적으로 존재하지 않았던 새로운 조합의 명령을 이해하고 수행하는 ’창발적 능력(emergent skills)’을 보여주었다.19 이는 대규모의 다양한 데이터가 단순히 성능을 향상시키는 것을 넘어, 로봇에게 새로운 수준의 일반화 및 추론 능력을 부여할 수 있음을 실증적으로 증명한 기념비적인 결과다.
3.2 로봇, 세상을 이해하기 시작하다: VLFM
의미론적 항법의 필요성
지금까지의 로봇 항법(navigation) 기술은 주로 라이다(LiDAR)나 깊이 카메라 같은 센서를 사용하여 환경의 3D 구조를 파악하고, 장애물을 피해 목표 지점까지의 최단 경로를 찾는 기하학적(geometric) 접근에 집중해왔다. 이러한 접근은 “좌표 (x, y)로 이동하라“와 같은 명령은 효율적으로 수행할 수 있지만, “가장 가까운 의자를 찾아 앉아라” 또는 “부엌에 가서 컵을 가져와라“와 같은 인간의 일상적인 고수준 명령을 이해하고 수행하는 데는 근본적인 한계가 있다. 이를 위해서는 로봇이 단순히 공간을 점과 선의 집합으로 인식하는 것을 넘어, 공간 내에 존재하는 객체들의 의미, 즉 “무엇이 어디에 있는지“를 이해하는 의미론적 지도(semantic map)가 필수적이다.24
VLFM의 혁신
2024년 ICRA 인지 로보틱스(Cognitive Robotics) 부문 최우수 논문으로 선정된 “VLFM: Vision-Language Frontier Maps for Semantic Navigation“은 이 문제에 대한 혁신적인 해결책을 제시한다.21 VLFM의 핵심 아이디어는, 사전 학습된 대규모 비전-언어 모델(VLM)이 가진 방대한 양의 상식적 지식을 로봇의 능동적 탐색(active exploration) 과정에 직접적으로 통합하는 것이다. 기존의 의미론적 항법이 주로 현재 보이는 장면에 대해서만 객체를 탐지하고 지도를 만드는 수동적인 방식이었다면, VLFM은 아직 탐색하지 않은 미지의 영역, 즉 ’경계(frontier)’에 대해 VLM을 사용하여 의미론적 추론을 수행한다.
작동 원리
VLFM 시스템의 작동 방식은 다음과 같다. 로봇이 새로운 환경에 놓이면, 먼저 주변을 관찰하여 초기 지도를 작성하고 탐색 가능한 경계 영역들을 식별한다. 그런 다음, 각 경계 영역에 대해 로봇은 그 방향의 이미지와 “이 복도를 따라가면 무엇이 있을 것 같은가?“와 같은 질문을 VLM에 입력한다. VLM은 사전 학습된 지식을 바탕으로 “저 너머에는 사무실 공간이 있을 가능성이 높으며, 책상과 의자가 있을 수 있다“와 같은 의미론적 예측을 생성한다. 로봇은 이 예측된 정보와 현재의 목표(예: “의자 찾기”)를 비교하여, 목표 달성에 가장 유망하다고 판단되는 경계를 다음 탐색 지점으로 선택한다. 이 과정을 반복함으로써 로봇은 무작위로 탐색하는 대신, 목표와 관련된 의미론적 단서를 따라 지능적으로 탐색 경로를 결정하게 되어 탐색 효율을 극적으로 향상시킨다.
의의
VLFM은 VLM의 추상적이고 일반적인 지식(예: ‘사무실에는 의자가 있다’)을 로봇의 구체적이고 물리적인 행동(예: ‘의자를 찾기 위해 저쪽 복도로 이동한다’)과 직접적으로 연결한 선구적인 연구다. 이는 로봇이 단순히 센서 데이터를 수동적으로 처리하여 환경을 인식하는 단계를 넘어, 인간과 유사하게 상식에 기반한 ’추론’을 통해 보이지 않는 세계를 예측하고, 이를 바탕으로 능동적으로 정보를 획득하며 목표를 달성할 수 있는 새로운 가능성을 열었다. VLFM의 등장은 로봇 항법 연구가 기하학적 경로 계획에서 의미론적 목표 달성으로 나아가는 중요한 전환점을 마련했으며, VLM이 체화된 AI(Embodied AI)의 ’뇌’로서 기능할 수 있는 잠재력을 명확히 보여주었다.
3.3 극한 환경 및 특수 목적 로보틱스
로보틱스 연구는 범용 지능을 향한 거대한 흐름과 더불어, 특정 분야의 한계를 돌파하려는 깊이 있는 노력 또한 병행되고 있다. 2024년 ICRA에서는 특히 드론 레이싱과 의료 재활 분야에서 기존의 패러다임을 전환하는 중요한 연구들이 최우수 논문으로 선정되며 주목받았다.
드론 레이싱 최적화: 한계를 넘어서는 정밀함
ICRA 무인 항공기(UAV) 부문 최우수 논문으로 선정된 “Time-Optimal Gate-Traversing Planner for Autonomous Drone Racing“은 자율 드론 레이싱의 성능을 극한까지 끌어올리기 위한 새로운 접근법을 제시했다.26 기존의 많은 연구들은 복잡한 레이스 트랙을 단순화하여, 각 게이트의 중심을 통과해야 할 하나의 ’경유점(waypoint)’으로 추상화했다.27 이러한 접근은 문제를 쉽게 만들지만, 드론이 게이트의 넓은 통과 가능 영역을 전혀 활용하지 못하고 보수적인 경로를 선택하게 만든다는 치명적인 단점이 있었다.
이 연구는 이러한 한계를 정면으로 돌파한다. 연구진은 게이트를 단순한 점이 아닌, 그 모양과 크기, 방향을 모두 고려한 정확한 ’기하학적 제약 조건(geometric constraint)’으로 수학적으로 모델링했다. 그리고 이 제약 조건을 만족하면서 비행 시간을 최소화하는 최적 제어 문제(optimal control problem)를 수립하고, 이를 수 초 내에 풀 수 있는 고효율 솔버를 개발했다. 그 결과, 이 플래너로 생성된 궤적은 게이트의 가장자리를 아슬아슬하게 스치듯 통과하는 등, 게이트가 제공하는 모든 자유 공간을 최대한 활용하여 비행 시간을 단축하는 공격적이고 진정한 의미의 시간 최적 경로를 찾아냈다.27 이 연구는 복잡한 물리적 제약 조건을 얼마나 충실하게(high-fidelity) 모델링하는지가 극한의 성능을 요구하는 작업에서 결정적인 차이를 만들어낸다는 중요한 공학적 교훈을 남겼다.
의료 재활의 새로운 패러다임: 로봇을 통한 인간 능력의 증강
ICRA 의료 로보틱스 부문 최우수 논문으로 선정된 “Exoskeleton-Mediated Physical Human-Human Interaction for a Sit-to-Stand Rehabilitation Task“는 인간-로봇 상호작용에 대한 새로운 관점을 제시했다.28 기존의 재활 로봇 연구가 주로 로봇이 치료사를 ’대체’하여 반복적인 훈련을 수행하는 데 초점을 맞췄다면, 이 연구는 로봇이 치료사와 환자 간의 상호작용을 ’매개(mediate)’하고 ’증강(augment)’하는 새로운 역할을 제안한다.
이 혁신적인 프레임워크에서는 치료사와 환자가 각각 하체 외골격 로봇을 착용한다. 시스템은 두 로봇을 가상의 스프링-댐퍼 시스템처럼 부드럽게 연결하여, 치료사가 움직이면 그 의도가 환자에게 물리적인 힘으로 전달되고, 반대로 환자의 움직임이나 저항은 치료사에게 햅틱 피드백으로 전달된다. 이를 통해 치료사는 환자의 근육 상태나 균형 능력을 자신의 몸으로 직접 느끼면서 더욱 직관적이고 효과적인 맞춤형 지도를 제공할 수 있다. 동시에, 외골격 로봇은 환자가 균형을 잃지 않도록 보조력을 제공하고, 치료사의 육체적 부담을 덜어주며, 모든 상호작용 데이터를 정량적으로 기록하여 재활 과정을 객관적으로 평가할 수 있게 한다. 이 연구는 로봇을 인간의 대체재가 아닌, 인간 전문가의 고유한 기술과 직관을 로봇의 정밀성, 힘, 데이터 수집 능력과 결합하여 시너지를 창출하는 협업 파트너로 재정의했다는 점에서 큰 의의를 가진다.29
4. 강화학습의 심화 - 안전성, 효율성, 그리고 뇌 과학과의 접점
강화학습(RL) 연구는 보상을 극대화하는 최적의 정책을 찾는다는 고전적인 목표를 넘어, 이제는 더 성숙하고 실용적인 질문들로 나아가고 있다. 2024년 4월의 주요 연구들은 이러한 변화를 뚜렷하게 보여준다. 한편에서는 생물학적 뇌가 수억 년의 진화를 통해 얻은 효율적인 학습 메커니즘을 모방하여 ‘어떻게(how)’ 더 효과적으로 학습할 것인가를 탐구하고 있으며, 다른 한편에서는 실제 물리 세계에 RL을 적용할 때 필연적으로 마주치는 위험을 관리하기 위해 ’무엇을 하지 말아야 하는가(what not to do)’를 수학적으로 보장하려는 노력이 이루어지고 있다. 이는 RL이 순수한 이론적 탐구를 넘어, 현실 세계의 본질적인 제약 조건인 ’유한한 자원’과 ’감수해야 할 위험’을 다루는 실용적인 공학 기술로 진화하고 있음을 의미한다.
4.1 뇌를 모방하는 강화학습: 예측 보조 목표의 역할
연구 배경 및 질문
심층 강화학습(Deep RL) 분야에서는 에이전트가 환경으로부터 받는 주된 보상(reward)을 학습하는 것 외에, 추가적인 보조 과제를 함께 학습시켜 전반적인 성능과 학습 효율을 높이는 기법이 널리 사용되어 왔다. 이러한 ‘보조 목표(auxiliary objectives)’ 중 가장 대표적인 것이 바로 미래의 상태나 결과를 예측하는 것이다. ICLR 2024에서 구두 발표로 선정된 “Predictive auxiliary objectives in deep RL mimic learning in the brain“은 한 걸음 더 나아가, 이러한 예측 보조 목표를 가진 RL 시스템이 신경과학에서 관찰되는 뇌의 학습 방식과 얼마나 놀랍도록 유사한지를 계산적으로 탐구했다.12
주요 발견
연구진은 RL 에이전트를 인코더(상태 인식), 가치 학습 네트워크(행동 결정), 예측 모듈(미래 예측)의 세 부분으로 구성하고, 이 시스템이 학습하는 과정에서 나타나는 표현(representation)의 변화를 분석했다.
- 학습 효율성 및 일반화 능력 향상: 예측 보조 목표를 함께 학습시킨 에이전트는 그렇지 않은 에이전트에 비해 학습이 더 안정적이었으며, 특히 네트워크의 용량이 제한된(resource-limited) 상황에서 표현이 단조롭게 변하는 ‘표현 붕괴(representational collapse)’ 현상을 효과적으로 방지했다. 또한, 단기적인 미래보다 더 먼 미래를 예측하도록 학습된 에이전트일수록, 이전에 경험하지 못한 새로운 환경에 더 잘 적응하는 ‘전이 학습(transfer learning)’ 능력이 뛰어났다.32 이는 뇌가 새로운 환경에 처했을 때 장기적인 예측과 관련된 해마의 특정 영역이 활성화되는 현상과 일치한다.
- 뇌의 기능적 분화와의 유사성: 이 연구의 가장 흥미로운 발견은 RL 시스템의 각 모듈에서 학습된 표현이 뇌의 특정 영역에서 관찰되는 신경 활동 패턴과 매우 유사하다는 점이다.
- 예측 모듈과 해마(Hippocampus): 에이전트의 ’예측 모듈’에서 학습된 뉴런들의 활동 패턴은, 기억을 형성하고 미래를 시뮬레이션하는 데 핵심적인 역할을 하는 것으로 알려진 ’해마’의 장소 세포(place cell)나 격자 세포(grid cell)와 유사한 특성을 보였다.
- 인코더와 시각 피질(Visual Cortex): 외부 세계(예: 그리드 월드)를 관찰하는 ’인코더 네트워크’의 표현은, 가치 학습이나 예측 학습의 필요에 따라 그 특성이 변했는데, 이는 실제 뇌에서 과제의 종류에 따라 ’시각 피질’의 신경 반응이 조절되는 현상과 유사했다.
- 가치 학습 네트워크와 선조체(Striatum): 보상에 기반한 행동 선택을 학습하는 ’가치 학습 네트워크’는, 뇌의 보상 시스템의 중심부인 ’선조체’의 활동 패턴과 유사성을 보였다.31
의의 및 함의
이 연구는 두 가지 중요한 함의를 가진다. 첫째, 잘 설계된 RL 시스템이 뇌의 복잡한 학습 및 의사결정 과정을 이해하기 위한 강력한 ’계산 모델(computational model)’이 될 수 있음을 보여주었다. AI 모델을 통해 신경과학적 가설을 검증하고 새로운 가설을 생성할 수 있는 가능성을 연 것이다. 둘째, 반대로 뇌의 구조와 기능이 더 효율적이고 강건한 AI 아키텍처를 설계하는 데 중요한 영감을 줄 수 있음을 시사한다. 특히, 해마의 역할을 단순히 기억 저장소가 아니라, 다른 뇌 영역의 표현 학습을 돕는 ’보조 학습 시스템’으로 재해석할 수 있는 계산적 근거를 제시했다는 점에서 AI와 신경과학의 상호 발전에 크게 기여한 연구로 평가된다.33
4.2 안전 강화학습의 실제적 접근: CMDP 기반 로봇팔 제어
안전의 중요성
강화학습 에이전트는 시행착오를 통해 최적의 행동 정책을 학습한다. 이 ‘탐험(exploration)’ 과정은 가상 환경에서는 자유롭게 허용될 수 있지만, 실제 물리적 로봇, 특히 인간과 같은 공간에서 작동하는 협동 로봇에게는 심각한 안전 문제를 야기할 수 있다. 로봇팔이 장애물이나 사람과 충돌하는 등의 위험한 행동은 단 한 번의 시행착오만으로도 치명적인 결과를 초래할 수 있기 때문이다.34 따라서 실제 로봇에 RL을 적용하기 위해서는 보상을 극대화하는 동시에, 안전 관련 제약 조건을 ‘반드시’ 만족시키는 것이 필수적이다.
CMDP 기반 접근법
MDPI의 저널 Robotics 2024년 4월호에 게재된 “Safe Reinforcement Learning for Arm Manipulation with Constrained Markov Decision Process“는 이러한 문제를 해결하기 위한 체계적인 접근법을 제시한다.35 이 연구는 안전 강화학습 문제를 ’제약된 마르코프 결정 과정(Constrained Markov Decision Process, CMDP)’이라는 수학적 프레임워크로 공식화한다. 표준적인 MDP가 오직 누적 보상의 기댓값을 극대화하는 것을 목표로 하는 반면, CMDP는 여기에 추가적으로 하나 이상의 ‘비용(cost)’ 함수의 누적 기댓값을 주어진 임계값 이하로 유지해야 한다는 제약 조건을 명시적으로 포함한다. 여기서 비용은 충돌 횟수, 위험 구역 진입 빈도 등 안전과 관련된 지표로 정의될 수 있다.
제안된 방법론
이 논문은 CMDP 문제를 풀기 위해 제어 이론에서 널리 사용되는 라그랑주 승수(Lagrange multiplier) 기법을 심층 강화학습에 통합하는 새로운 알고리즘을 제안한다. 라그랑주 이완법은 원래의 제약 조건이 있는 최적화 문제를, 제약 위반에 대한 페널티가 포함된 제약 조건 없는 문제로 변환하여 푸는 기법이다.
이 연구의 핵심적인 기술적 기여는 ’스칼라화된 기대 수익(scalarized expected returns)’이라는 새로운 개념을 도입한 것이다. 기존의 라그랑주 기반 방법들이 비용의 평균적인 기댓값에만 의존하는 경향이 있었던 반면, 제안된 방법은 에이전트가 경험을 저장하는 리플레이 버퍼(replay buffer)에서 직접 샘플링된 ’지표 비용 함수 값(indicator cost function value)’을 추가적인 스케일링 인자로 사용한다. 이 지표 값은 특정 상태-행동 쌍이 실제로 제약을 위반했는지 여부를 나타내는 이진 값(0 또는 1)이다. 이 값을 직접 활용함으로써, 에이전트는 평균적인 위험뿐만 아니라 순간적인 위험 발생에 대해서도 더 민감하게 반응하여 학습 정책을 조정할 수 있다. 이 방식은 특히 장애물의 움직임이 예측 불가능한 동적(dynamic)이고 비정상(non-stationary)적인 환경에서 기존 방법들보다 더 안정적이고 우수한 성능을 보이는 것으로 실험을 통해 입증되었다.34
의의
이 연구는 강화학습을 이론적 알고리즘의 영역에서 실제 물리 시스템에 적용 가능한 공학 기술로 전환하기 위해 필수적인 ’증명 가능한 안전(provable safety)’을 확보하려는 중요한 연구 흐름의 일부다. 고전적인 최적 제어 이론의 수학적 엄밀함(라그랑주 이완법)을 심층 신경망의 강력한 표현력과 결합함으로써, 복잡한 비선형 동역학을 가진 실제 로봇 시스템에서도 안전을 보장하며 최적의 행동을 학습할 수 있는 가능성을 제시했다는 점에서 그 의의가 크다.37
5. 생성 모델과 컴퓨터 비전의 최신 동향
생성 모델과 컴퓨터 비전 분야의 연구는 이제 정적인 세계를 넘어, 시간과 불확실성이라는 현실 세계의 근본적인 속성을 다루는 동적인 세계로 이동하고 있다. LATENTMAN과 같은 연구는 단일 이미지의 품질을 넘어, 시간의 흐름에 따른 ’일관성’이라는 동적 속성을 제어하려는 시도를 보여준다. 동시에 arXiv에 등장한 새로운 로보틱스 연구들은 정적인 환경에서의 완벽한 계획을 넘어, 변화하는 환경에 대한 ‘설명’, 객체의 동적인 사용 가능성인 ‘어포던스’, 그리고 예측 불가능성에 대한 ’강건성’을 다루고 있다. 이는 AI가 이상적인 가상 환경의 가정을 벗어나, 시간의 흐름과 예측 불가능한 변화가 존재하는 현실 세계의 ’동역학(dynamics)’을 본격적으로 모델링하고 제어하려는 단계로 진입했음을 보여주는 중요한 성숙의 징후다.
5.1 일관성 있는 동적 콘텐츠 생성: LATENTMAN
텍스트-비디오 생성의 난제
텍스트 프롬프트로부터 비디오를 생성하는 텍스트-비디오(T2V) 기술은 최근 몇 년간 괄목할 만한 발전을 이루었다. 하지만 생성된 비디오의 품질을 평가할 때, 각 개별 프레임의 시각적 완성도만큼이나 중요한 것이 바로 프레임 간의 ’시간적 일관성(temporal consistency)’이다. 많은 기존의 제로샷 T2V 모델들은 사전 학습된 텍스트-이미지(T2I) 모델을 프레임 단위로 적용하는 방식을 사용하는데, 이 경우 캐릭터의 옷 색깔이 미세하게 변하거나, 얼굴의 작은 점이 나타났다 사라지는 등, 객체의 정체성이 프레임마다 미세하게 흔들리는 ‘플리커링(flickering)’ 현상이 발생하는 고질적인 문제가 있었다.38 이는 인간의 시각 시스템이 매우 민감하게 감지하는 오류로, 생성된 비디오의 몰입감을 크게 저해하는 요인이다.
LATENTMAN의 접근법
CVPR 2024의 ’제2차 컴퓨터 비전을 위한 생성 모델 워크숍’에서 발표된 “LATENTMAN: Generating Consistent Animated Characters using Image Diffusion Models“는 이 시간적 일관성 문제를 해결하기 위한 독창적인 접근법을 제시한다.38 LATENTMAN의 핵심 전략은 최종적으로 렌더링되는 픽셀 공간(pixel space)에서 일관성을 맞추려는 후처리 방식이 아니라, 생성 과정의 근원인 확산 모델의 잠재 공간(latent space)에서부터 일관성을 강제하는 것이다.
- 모션 생성과 조건화: 먼저, 사용자의 텍스트 프롬프트(예: “해변에서 왼쪽으로 걷는 사이보그”)를 입력받아, 텍스트 기반 모션 확산 모델(MDM, Motion Diffusion Model)을 사용해 연속적인 3D 모션 시퀀스를 생성한다. 이 시퀀스는 각 프레임에 대한 깊이 맵(depth map)과 인체 부위를 분할한 DensePose 맵으로 구성된다. 이 모션 정보는 이후 각 프레임을 생성할 때 강력한 조건(condition)으로 작용하여 전체적인 움직임의 연속성을 보장한다.38
- Spatial Latent Alignment: 이것이 LATENTMAN의 핵심 기술이다. 단순히 위에서 생성된 모션 맵을 조건으로 각 프레임을 독립적으로 생성하면, 조건이 조금만 달라져도 T2I 모델의 출력이 민감하게 변하기 때문에 여전히 불일치 문제가 발생한다. 이를 해결하기 위해, LATENTMAN은 인접한 두 프레임(예: i-1번째와 i번째 프레임) 간의 픽셀 단위 조밀 대응 관계(dense correspondences)를 DensePose 맵을 기반으로 계산한다. 그런 다음, i번째 프레임의 잠재 벡터 x_t^i를 생성하는 DDIM 샘플링 과정에서, 이 대응 관계를 이용해 i-1번째 프레임의 잠재 벡터 x_t^{i-1}의 정보를 x_t^i에 ’주입’한다. 즉, 이전 프레임에서 캐릭터의 ’얼굴’에 해당했던 잠재 벡터가 현재 프레임에서도 ‘얼굴’ 위치의 잠재 벡터에 영향을 주도록 강제하는 것이다. 이 정렬 과정은 픽셀이 아닌, 더 추상적이고 의미론적인 정보를 담고 있는 잠재 공간에서 직접 이루어지기 때문에 훨씬 더 효과적으로 객체의 정체성을 유지할 수 있다.38
수식으로 본 Spatial Latent Alignment
LATENTMAN의 알고리즘 1을 참조하면, 이 잠재 공간 정렬은 전체 DDIM 샘플링 타임스텝 T 중 특정 구간(t \in A)에서만 수행된다. i번째 프레임의 잠재 벡터 x_t^i를 업데이트할 때, 다음과 같은 개념적 연산이 이루어진다.38
x_t^i \leftarrow \text{ALIGN}(x_t^i, x_t^{i-1}, M^{i-1 \to i})
여기서 M^{i-1 \to i}는 (i-1)번째 프레임에서 i번째 프레임으로의 픽셀 대응 관계 맵을 나타내며, ALIGN 함수는 이 맵을 이용해 x_t^{i-1}을 변환(warp)하여 x_t^i와 결합하는 과정을 의미한다. 이 과정을 통해 각 프레임의 생성 과정이 독립적으로 진행되지 않고, 시간 축을 따라 서로의 잠재 정보를 공유하며 긴밀하게 연결된다.
의의
LATENTMAN은 생성 모델의 ’블랙박스’로 여겨졌던 잠재 공간을 직접 제어하여 시간적 일관성이라는 어려운 문제를 해결하는 근본적인 방법을 제시했다. 이는 단순히 보기 좋은 비디오를 만드는 것을 넘어, 생성 AI가 시간의 연속성이라는 물리 세계의 기본 법칙을 이해하고 표현할 수 있는 능력을 갖추기 시작했음을 보여준다. 이러한 기술은 영화, 게임, 가상현실(VR) 등 고품질의 일관된 캐릭터 애니메이션이 필수적인 다양한 디지털 콘텐츠 산업에 혁신을 가져올 잠재력을 지니고 있다.
5.2 arXiv 주요 논문 동향
2024년 4월 arXiv의 컴퓨터 과학(cs) 분야, 특히 인공지능(cs.AI)과 로보틱스(cs.RO) 카테고리에는 다가올 주요 학회들의 연구 방향을 미리 엿볼 수 있는 수많은 중요 프리프린트 논문들이 공개되었다.41 이들 연구는 특히 LLM과 VLM 같은 파운데이션 모델의 능력을 어떻게 실제 물리 세계와 연결하고, 그 과정에서 발생하는 문제들을 어떻게 해결할 것인가에 대한 깊은 고민을 담고 있다.
주요 경향
- LLM의 물리적 접지 (Physical Grounding of LLMs): LLM은 방대한 텍스트 데이터를 통해 추상적인 추론 능력을 갖추었지만, 물리 법칙이나 객체의 실제 사용법에 대한 이해, 즉 ’상식’이 부족하다. “LLM+A(ffordance)“와 같은 연구는 이 문제를 해결하기 위해 ‘어포던스(affordance)’ 개념을 도입한다.44 어포던스는 특정 객체가 환경 속에서 어떤 행동을 유발하거나 가능하게 하는지를 의미한다(예: ‘문의 손잡이는 돌릴 수 있다’, ‘망치의 머리 부분은 못을 박는 데 사용된다’). 이 연구는 LLM이 단순히 “망치를 사용해“와 같은 고수준 계획을 세우는 것을 넘어, “망치의 머리 부분으로 못을 쳐라“와 같이 물리적으로 실행 가능한 저수준 제어 시퀀스를 생성하도록 유도한다. 이를 위해 LLM에게 객체의 각 부분에 대한 어포던스 값을 추론하게 하는 ‘어포던스 프롬프팅’ 기법을 제안했다. 이는 LLM의 추상적 지능을 로봇의 구체적이고 실행 가능한 행동과 연결하려는 중요한 시도다.
- 설명가능 로보틱스 (Explainable Robotics, XAR): 로봇이 점점 더 자율적으로 복잡한 작업을 수행하게 되면서, 로봇이 왜 특정 행동을 했는지 인간이 이해하고 신뢰할 수 있게 만드는 ’설명가능성’이 중요해지고 있다. 한 연구에서는 비전-언어 모델(VLM)을 활용하여 로봇의 내부 상태 로그(log)와 로봇이 촬영한 외부 환경 이미지를 동시에 분석하는 시스템을 제안했다.45 예를 들어, 로봇이 갑자기 멈췄을 때, 시스템은 로그 데이터(“경로 상에 장애물 감지”)와 이미지(“사람이 앞에 서 있음”)를 종합하여 “사람이 길을 막고 있어서 안전을 위해 정지했습니다“와 같이 인간이 직관적으로 이해할 수 있는 자연어 설명을 생성한다. 이는 로봇의 의사결정 과정을 투명하게 만들어 인간과 로봇 간의 신뢰를 구축하고 원활한 협업을 가능하게 하는 핵심 기술이다.
- 모방학습과 강화학습의 결합 (Combining Imitation and Reinforcement Learning): 대규모 시연 데이터로부터 사람의 행동을 모방하는 모방학습(Imitation Learning)은 일반화에 강점이 있지만 최적의 행동을 보장하지는 않는다. 반면, 강화학습(RL)은 최적의 정책을 찾을 수 있지만 많은 시행착오와 데이터가 필요하다. 최근 연구들은 이 둘의 장점을 결합하려는 경향을 보인다. “RESPRECT“는 대규모 객체 데이터로 사전 학습된 모방학습 정책을 기반으로, 새로운 특정 객체를 파지하기 위한 미세한 조정, 즉 ’잔차 정책(residual policy)’을 강화학습으로 매우 빠르게 학습하는 방법을 제안했다.46 또한, “RialTo“는 실제 세계의 소량 데이터로 ‘디지털 트윈’ 시뮬레이션 환경을 구축하고, 그 안에서 모방학습으로 얻은 초기 정책을 강화학습을 통해 더욱 강건하게(robustify) 만드는 시스템을 제시했다.47 이는 대규모 데이터가 제공하는 폭넓은 사전 지식과 RL이 제공하는 최적화 능력을 결합하여, 데이터 효율적이면서도 성능이 뛰어난 로봇 정책을 학습하려는 실용적인 접근법을 보여준다.
6. 결론: 2024년 4월 연구 동향 종합 및 향후 전망
6.1 핵심 동향 종합
2024년 4월에 발표된 AI 및 로보틱스 분야의 주요 연구들은 세 가지 핵심 키워드, 즉 ‘통합(Integration)’, ‘접지(Grounding)’, 그리고 ’구조화(Structuring)’로 요약될 수 있다. 이 키워드들은 각기 다른 연구 주제를 관통하며, 해당 분야가 나아가고 있는 거시적인 방향을 명확하게 제시한다.
- 통합 (Integration): 더 이상 단일 학문 분야의 경계 내에 머무르지 않고, 서로 다른 분야의 지식과 방법론이 적극적으로 융합되고 있다. 강화학습이 뇌의 학습 메커니즘을 모방하여 효율성을 높이려 시도하고(뇌 모방 RL), 제어 이론의 최적화 기법을 도입하여 안전성을 확보하는(CMDP 기반 안전 RL) 사례는 AI, 신경과학, 제어 이론의 성공적인 통합을 보여준다. 이는 복잡한 문제를 해결하기 위해 여러 분야의 도구를 종합적으로 활용하는 학제 간 연구가 표준이 되고 있음을 의미한다.
- 접지 (Grounding): 대규모 언어 모델이나 비전 모델이 가진 방대한 양의 추상적 지식이 실제 물리 세계의 문제 해결에 직접적으로 연결되고 있다. VLFM 연구에서 VLM이 미지의 공간에 대한 의미론적 추론을 통해 로봇의 탐색 경로를 안내하고, arXiv에서 소개된 LLM+A 연구에서 LLM이 객체의 물리적 사용 가능성(어포던스)을 이해하여 로봇의 행동 계획을 수립하는 것은, 가상 세계에 머물러 있던 AI의 지능이 현실 세계에 ‘뿌리내리고(grounding)’ 있음을 보여주는 대표적인 사례다.
- 구조화 (Structuring): 개별 AI 에이전트의 지능을 높이는 것을 넘어, 이들을 어떻게 체계적으로 조직하고 협력시킬 것인가에 대한 고민이 연구의 중심으로 부상하고 있다. MetaGPT가 인간 사회의 표준 운영 절차(SOPs)를 도입하여 다중 에이전트의 협업 효율을 극대화한 것은 ’프로세스의 구조화’를 통한 문제 해결의 좋은 예다. 또한, Open X-Embodiment 프로젝트가 전 세계의 이종 로봇 데이터를 표준화된 형식으로 통합하여 거대한 데이터셋을 구축한 것은, 집단 지성의 기반이 되는 ’데이터의 구조화’를 향한 중요한 발걸음이다.
6.2 거시적 함의
이러한 통합, 접지, 구조화의 흐름은 AI와 로보틱스 분야가 ’범용 인공지능(Artificial General Intelligence, AGI)’이라는 궁극적인 목표를 향한 길목에서 중요한 변곡점을 맞이했음을 시사한다. 이제 연구의 초점은 단순히 더 큰 단일 모델을 만들어 벤치마크 점수를 높이는 경쟁에서 벗어나고 있다. 대신, 다양한 지능적 구성 요소들을 어떻게 효과적으로 조합하고(시스템 아키텍처), 이 시스템이 어떻게 현실 세계와 안전하게 상호작용하며(안전 및 윤리), 어떻게 지속 가능하고 효율적으로 작동할 것인가(효율성)에 대한 시스템 수준의 공학적 고민이 연구의 중심으로 이동하고 있다. 이는 AI가 과학적 탐구의 대상을 넘어, 사회의 기반을 바꿀 수 있는 강력한 기술로서 성숙해가는 과정에서 나타나는 필연적인 변화다.
6.3 향후 전망
2024년 4월의 연구들은 미래 AI 및 로보틱스 기술의 발전 방향에 대한 몇 가지 명확한 단서를 제공한다.
- 데이터 생태계의 가속화: Open X-Embodiment 프로젝트의 성공은 데이터 공유의 가치를 명확히 입증했다. 이는 더 많은 연구 그룹과 기업들이 자신들의 데이터를 표준화하고 공유하도록 장려하여, 로봇 학습을 위한 데이터 생태계가 폭발적으로 성장하는 기폭제가 될 것이다. 이는 결국 더 강건하고 일반화 성능이 뛰어난 로봇 파운데이션 모델의 등장을 가속화할 것이다.
- 파운데이션 모델의 체화 심화: VLM과 LLM은 로봇의 ’뇌’로서 더욱 깊숙이 통합될 것이다. 미래의 로봇은 단순히 “컵을 가져와“와 같은 명시적인 명령을 이해하는 것을 넘어, “목이 마르네“와 같은 인간의 미묘한 의도를 파악하고, 장기적인 목표(예: “저녁 식사 준비 돕기”)를 스스로 수립하며, 예상치 못한 상황에 대해 인간과 소통하며 해결책을 찾아가는 등 고차원적인 인지 능력을 갖추게 될 것이다.
- 안전 및 신뢰성 연구의 부상: AI 로봇이 점차 자율성을 획득하고 공장, 병원, 가정을 포함한 인간의 일상 공간으로 들어옴에 따라, 그 행동의 안전성, 예측 가능성, 그리고 설명 가능성을 보장하는 기술의 중요성은 아무리 강조해도 지나치지 않다. CMDP 기반 안전 강화학습이나 설명가능 로보틱스(XAR)와 같은 연구는 시작에 불과하며, 앞으로 AI 윤리 및 사회적 합의, 법적 규제에 대한 논의와 맞물려 이 분야는 AI 연구의 핵심 중 하나로 부상할 것이다.
결론적으로, 2024년 4월의 연구들은 AI와 로보틱스가 서로를 강화하며 현실 세계의 복잡성을 해결해 나가는 새로운 시대의 서막을 열었다. 이 시기에 제시된 아이디어와 기술들은 앞으로 수년간 관련 분야의 연구와 개발을 이끌어갈 견고한 초석이 될 것이다.
7. 참고 자료
- FACT SHEET - ICLR 2024, https://media.iclr.cc/Conferences/ICLR2024/ICLR2024-Fact_Sheet.pdf
- OMRON SINIC X Six Research Papers Accepted for ICRA 2024, Top-Tier Conference on Robotics, https://www.omron.com/global/en/media/2024/05/c0510.html
- Awesome CVPR 2024 Papers, Workshops, Challenges, and Tutorials! - GitHub, https://github.com/harpreetsahota204/awesome-cvpr-2024
- Song Han: Accelerating Large Language Models and Generative AI, https://iaifi.org/talks/2024_03_IAIFI_Symposium_Han.pdf
- ICLR 2024 Orals, https://iclr.cc/virtual/2024/events/oral
- LONGLORA: EFFICIENT FINE-TUNING OF LONG- CONTEXT LARGE LANGUAGE MODELS - ICLR Proceedings, https://proceedings.iclr.cc/paper_files/paper/2024/file/211ab571cc9f3802afa6ffff52ae3e5b-Paper-Conference.pdf
- LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models | OpenReview, https://openreview.net/forum?id=6PmJoRfdaK
- SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models - arXiv, https://arxiv.org/html/2406.05678v1
- LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models - arXiv, https://arxiv.org/html/2309.12307v3
- MetaGPT: Meta Programming for a Multi-Agent Collaborative Framework - ar5iv - arXiv, https://ar5iv.labs.arxiv.org/html/2308.00352
- MetaGPT: Meta Programming for Multi-Agent Collaborative Framework | Fan Pu Zeng, https://fanpu.io/summaries/2023-08-11-metagpt-meta-programming-for-multi-agent-collaborative-framework/
- ICLR 2024 Schedule, https://iclr.cc/virtual/2024/calendar?filter_events=Oral&filter_rooms=
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework - OpenReview, https://openreview.net/forum?id=VtmBAGCN7o
- MetaGPT: META PROGRAMMING FOR MULTI-AGENT COLLABORATIVE FRAMEWORK - deepsense.ai, https://deepsense.ai/wp-content/uploads/2023/10/2308.00352.pdf
- METAGPT: The Path to Artificial General Intelligence | by samuel chazy, https://ai.plainenglish.io/metagpt-af6fbb23d3a7
- MetaGPT: Meta Programming for Multi-Agent Collaborative Framework - ResearchGate, https://www.researchgate.net/publication/372827726_MetaGPT_Meta_Programming_for_Multi-Agent_Collaborative_Framework
- Exploring the Benefits of Vision Foundation Models for …, https://arxiv.org/abs/2406.09896
- CVPR 2024 Open Access Repository, https://openaccess.thecvf.com/CVPR2024_workshops/2WFM
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models - arXiv, https://arxiv.org/html/2310.08864v8
- ICRA 2024 Best Paper - Henrik I Christensen, https://hichristensen.com/post/icra-2024-best-paper/
- Awards and Finalists - 2024 IEEE International Conference on …, https://2024.ieee-icra.org/awards-and-finalists/
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models, https://robotics-transformer-x.github.io/
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models, https://www.robot-learning.ml/2023/files/paper18.pdf
- Semantic Mapping for Autonomous Navigation and Exploration - Robotics Institute Carnegie Mellon University, https://www.ri.cmu.edu/publications/semantic-mapping-for-autonomous-navigation-and-exploration/
- A Survey on Robot Semantic Navigation Systems for Indoor Environments - MDPI, https://www.mdpi.com/2076-3417/14/1/89
- Hugh Liu receives best paper award at ICRA 2024 - University of …, https://robotics.utoronto.ca/news/hugh-liu-receives-best-paper-award-at-icra-2024/
- Time-Optimal Gate-Traversing Planner for Autonomous Drone Racing - arXiv, https://arxiv.org/html/2309.06837v3
- SRAlab-CRB Collaboration Wins Best Medical Robotics Paper …, https://www.robotics.northwestern.edu/news-events/articles/2024/sralab-crb-collaboration-wins-best-medical-robotics-paper-award-at-icra-2024.html
- Exoskeleton-Mediated Physical Human-Human Interaction for a Sit-to-Stand Rehabilitation Task - arXiv, https://arxiv.org/html/2310.06084v2
- Predictive auxiliary objectives in deep RL mimic learning in the brain - arXiv, https://arxiv.org/html/2310.06089v1
- [2310.06089] Predictive auxiliary objectives in deep RL mimic learning in the brain - arXiv, https://arxiv.org/abs/2310.06089
- Predictive auxiliary objectives in deep RL mimic learning in the brain - arXiv, https://arxiv.org/html/2310.06089v3
- Predictive auxiliary objectives in deep RL mimic learning in the brain - Semantic Scholar, https://www.semanticscholar.org/paper/b1628eb4ff6b89082071eb5e98a8ff98ff7d4861
- Safe Reinforcement Learning for Arm Manipulation with Constrained Markov Decision Process - MDPI, https://www.mdpi.com/2218-6581/13/4/63
- Robotics, Volume 13, Issue 4 (April 2024) – 10 articles, https://www.mdpi.com/2218-6581/13/4
- Safe Reinforcement Learning for Arm Manipulation with Constrained Markov Decision Process - OUCI, https://ouci.dntb.gov.ua/en/works/7Wv3nOZ9/
- NeurIPS Poster Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees, https://neurips.cc/virtual/2024/poster/96317
- LATENTMAN: Generating Consistent Animated Characters using Image Diffusion Models - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2024W/GCV/papers/Eldesokey_LATENTMAN_Generating_Consistent_Animated_Characters_using_Image_Diffusion_Models_CVPRW_2024_paper.pdf
- CVPR 2024 Open Access Repository, https://openaccess.thecvf.com/CVPR2024_workshops/GCV
- LatentMan : Generating Consistent Animated Characters using Image Diffusion Models, https://arxiv.org/html/2312.07133v2
- Robotics Apr 2024 - arXiv, https://web3.arxiv.org/list/cs.RO/2024-04
- Computer Science Apr 2024 - arXiv, http://arxiv.org/list/cs/2024-04?skip=3680&show=2000
- Artificial Intelligence 2024 - arXiv, https://arxiv.org/list/cs.AI/2024
- arXiv:2404.11027v1 [cs.AI] 17 Apr 2024, https://arxiv.org/pdf/2404.11027
- Enhancing Robot Explanation Capabilities through Vision-Language Models - arXiv, https://arxiv.org/pdf/2404.09705
- [2401.14858] RESPRECT: Speeding-up Multi-fingered Grasping with Residual Reinforcement Learning - arXiv, https://arxiv.org/abs/2401.14858
- [2403.03949] Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation - arXiv, https://arxiv.org/abs/2403.03949