년 8월 AI 및 로봇 연구 동향
0.1 서론: 2024년 8월, AI와 로봇공학 연구의 현주소
2024년 8월은 인공지능(AI)과 로봇공학 분야에서 이론적 성숙과 실제적 구현 사이의 간극을 좁히려는 노력이 두드러진 시기였다. 이 기간 발표된 주요 연구들은 세 가지 핵심 키워드로 수렴하는 경향을 보였다. 첫째는 대규모 파운데이션 모델의 추상적 능력을 물리적 세계로 확장하는 ‘체화(Embodiment)’, 둘째는 복잡한 실제 시스템 환경에서 AI와 로봇 기술을 안정적으로 운영하기 위한 ‘확장성(Scalability)’, 그리고 마지막으로 AI 모델의 의사결정 과정을 인간이 신뢰하고 이해할 수 있도록 만드는 **‘해석 가능성(Interpretability)’**이다.
ACM KDD 2024와 같은 최상위 데이터 과학 컨퍼런스에서 발표된 수상 논문들은 이러한 흐름을 명확히 보여주었다. 해석 가능성 분야에서는 저수준의 특성(feature)이 아닌 고수준의 개념(concept)을 기반으로 모델을 설명하는 새로운 프레임워크가 제시되었으며, 확장성 분야에서는 세계 최대 전문 소셜 네트워크의 추천 시스템에 그래프 신경망(GNN)을 성공적으로 적용하고 운영한 사례가 발표되어 학계와 산업계의 큰 주목을 받았다. 동시에, arXiv와 같은 사전 공개 플랫폼에서는 비전-언어 모델(VLM)을 활용하여 로봇이 사전 학습 없이 실제 환경에서 복잡한 작업을 수행하게 하는 연구와, 다수의 이기종 로봇들이 협업 효율을 극대화하는 새로운 스케줄링 기법에 대한 연구가 활발히 논의되었다.
본 보고서는 2024년 8월에 발표된 이들 주요 연구 성과를 심층적으로 분석하고, 세 가지 핵심 키워드가 어떻게 구체적인 기술적 진보로 이어졌는지 조망한다. 이를 통해 해당 월의 기술적 성취를 종합적으로 평가하고, AI 및 로봇공학 분야의 미래 연구 방향에 대한 깊이 있는 통찰을 제공하고자 한다.
1. 주요 학술대회 동향 및 발표 분석
2024년 8월 말은 데이터 과학, 로봇공학, 자동화 분야의 주요 국제 학술대회가 집중적으로 개최된 시기였다. 이는 각 분야의 연구가 독립적으로 발전하는 것이 아니라, 서로 밀접하게 영향을 주고받으며 융합되는 최신 연구 동향을 반영한다. 데이터 과학의 이론적 돌파구가 로봇공학의 실제 적용으로 이어지고, 이는 다시 자동화 공학의 시스템적 과제로 연결되는 지식의 선순환 구조가 형성되고 있음을 시사한다.
1.1 ACM KDD 2024: 데이터 과학의 최전선
8월 25일부터 29일까지 스페인 바르셀로나에서 개최된 제30회 ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2024)은 데이터 과학 분야에서 이론과 실제 응용을 아우르는 세계 최고 권위의 학술대회다.1 KDD는 순수 연구 결과를 다루는 ’연구 트랙(Research Track)’과 산업적 적용 사례를 공유하는 ’응용 데이터 과학 트랙(Applied Data Science Track)’으로 나뉘어 진행되며, 이는 학문적 깊이와 산업적 파급력을 동시에 추구하는 데이터 과학 분야의 특성을 잘 보여준다.3
올해 컨퍼런스의 기조연설 주제는 현재 데이터 과학 커뮤니티의 핵심 의제를 명확히 드러냈다. Tanya Berger-Wolf 교수의 ‘자연을 위한 AI(AI for Nature)’ 강연은 AI 기술을 생태계 보존과 같은 사회적 문제 해결에 적용하는 방안을 탐구했으며, Sanjeev Arora 교수의 ‘LLM의 복합적 사고와 메타인지’ 강연은 대규모 언어 모델(LLM)의 작동 원리를 근본적으로 이해하려는 노력을 다루었다. 또한, Xihong Lin 교수의 ‘데이터 과학 생태계’ 강연은 대규모 보건 및 유전체 데이터 분석을 위한 통계적, AI적 방법론을 포괄적으로 조망했다.2 이들 강연은 각각 AI의 사회적 영향력, 파운데이션 모델의 근본적 이해, 그리고 대규모 데이터 분석 방법론이라는 KDD의 핵심 관심사를 반영한다.
특히 주목할 만한 변화는 KDD가 올해부터 1년에 두 번의 논문 제출 마감일을 도입했다는 점이다.2 이는 데이터 과학 분야의 빠른 발전 속도에 대응하고, 최신 연구 결과를 보다 신속하게 공유하려는 학계의 노력으로 해석된다. 이러한 변화는 전통적인 저널 출판 주기를 기다리기보다, 동료 심사를 거친 컨퍼런스 발표를 통해 연구의 영향력을 조기에 확보하려는 경향이 강화되고 있음을 시사하며, 컨퍼런스 프로시딩이 사실상 저널에 준하는 위상을 갖게 되는 흐름의 일부로 볼 수 있다.
1.2 ISRAI & RO-MAN 2024: 로봇공학과 AI의 국제적 조망
KDD와 비슷한 시기에 로봇공학 및 인간-로봇 상호작용(HRI) 분야의 주요 국제 학회들도 개최되었다. 8월 26일부터 28일까지 스페인 발렌시아에서 열린 제2회 International Summit on Robotics and Artificial Intelligence (ISRAI 2024)는 스탠포드 대학, NASA, 구글 등 세계 유수의 연구 기관 및 기업의 전문가들이 참여하여 로봇공학, 자동화, 머신러닝 분야의 최신 동향을 공유하는 글로벌 리더들의 장으로 자리매김했다.4
또한, 8월 26일부터 30일까지 미국 패서디나에서 개최된 제33회 IEEE International Conference on Robot and Human Interactive Communication (RO-MAN 2024)은 “인간 중심 HRI의 수용(Embracing Human-Centered HRI)“이라는 주제를 내걸었다.6 이는 로봇 기술의 발전이 단순히 기능적 성능 향상에 그치는 것이 아니라, 인간의 필요를 깊이 이해하고 사용자의 경험을 증진시켜 궁극적으로 삶의 질을 향상시키는 방향으로 나아가야 한다는 철학적 방향성을 제시한다.
1.3 기타 주요 학회 및 워크숍 동향
자동화 과학 및 공학 분야에서는 8월 28일부터 9월 1일까지 이탈리아 바리에서 제20회 IEEE International Conference on Automation Science and Engineering (CASE 2024)이 열렸다.8 ’자동화 5.0(Automation 5.0)’을 주제로 내세운 이 학회는 스마트 시티, 스마트 모빌리티, 빌딩 자동화 등 자동화 기술이 사회 전반에 미치는 영향을 폭넓게 탐구하는 중요한 행사였다.
이처럼 8월 말에 데이터 과학(KDD), 로봇공학(ISRAI), 인간-로봇 상호작용(RO-MAN), 자동화 공학(CASE) 분야의 핵심 학회들이 연이어 개최된 것은 우연이 아니다. 이는 각 분야가 독립적인 학문 영역을 넘어, ’데이터 기반의 지능화된 물리 시스템’이라는 공통의 목표 아래 긴밀하게 연계되고 있음을 보여준다. KDD에서 발표된 새로운 알고리즘이 다음 해 RO-MAN이나 CASE에서 실제 로봇 및 자동화 시스템에 적용된 사례로 발표되는 연구의 파이프라인이 형성되고 있는 것이다. 이는 컴퓨터 과학, 로봇공학, 자동화 공학 간의 경계가 허물어지고 있음을 의미하며, 한 분야의 전문가는 이제 다른 분야의 최신 동향에도 정통해야 하는 시대가 도래했음을 시사한다.
| 학회명 (Conference Name) | 개최 기간 (Dates) | 장소 (Location) | 주요 주제 (Core Themes) | 관련 Snippet (Relevant Snippets) |
|---|---|---|---|---|
| KDD 2024 | 2024년 8월 25일 – 29일 | 스페인, 바르셀로나 | 지식 발견, 데이터 마이닝, LLMs, GNNs, 해석 가능성, 확장성 | 1 |
| ISRAI 2024 | 2024년 8월 26일 – 28일 | 스페인, 발렌시아 | 로봇공학, 인공지능, 자동화, 머신러닝 | 4 |
| RO-MAN 2024 | 2024년 8월 26일 – 30일 | 미국, 패서디나 | 인간-로봇 상호작용 (HRI), 인간 중심 로봇공학 | 6 |
| CASE 2024 | 2024년 8월 28일 – 9월 1일 | 이탈리아, 바리 | 자동화 과학 및 공학, 자동화 5.0, 스마트 시스템 | 8 |
2. 수상 연구 심층 분석: KDD 2024 최우수 논문
KDD 2024에서 발표된 최우수 논문들은 AI 연구의 두 가지 중요한 방향성을 명확하게 보여준다. 하나는 모델의 내부 작동을 투명하게 만들어 신뢰성을 높이려는 ’해석 가능성’의 추구이며, 다른 하나는 전례 없는 규모의 데이터와 복잡성을 처리하여 실제 산업 환경에서 가치를 창출하려는 ’확장성’의 확보다. 이 두 연구는 종종 상충 관계로 여겨지는 두 목표를 각자의 영역에서 극한까지 밀어붙인 성과라는 점에서 깊이 분석할 가치가 있다.
2.1 해석 가능한 AI의 새로운 지평: CAT (Concept-based Taylor Additive Models)
2.1.1 연구 배경 및 문제 정의
딥러닝 모델, 특히 심층 신경망(DNN)은 다양한 분야에서 뛰어난 성능을 보이고 있지만, 그 의사결정 과정이 불투명한 ’블랙박스’라는 점은 고질적인 문제로 지적되어 왔다. 이러한 문제를 해결하기 위한 해석 가능한 AI(XAI) 연구의 한 갈래로, 모델의 예측을 각 입력 특성의 기여도 합으로 분해하여 설명하는 일반화 가법 모델(Generalized Additive Models, GAMs)이 주목받아 왔다. 그러나 기존의 신경망 기반 GAMs는 개별 특성에 대한 비선형 함수를 학습하기 위해 많은 수의 모델 파라미터를 필요로 하여 과적합(overfitting)에 취약하고, 학습 및 확장이 어렵다는 단점이 있었다. 더 치명적인 문제는, 수백, 수천 개의 특성을 가진 실제 데이터셋에서 개별 특성 수준의 설명은 인간이 직관적으로 이해하고 통찰을 얻기 어렵다는 점이다.9
2.1.2 CAT 방법론 상세 분석
KDD 2024 연구 트랙 최우수 논문으로 선정된 “CAT: Interpretable Concept-based Taylor Additive Models“는 이러한 한계를 극복하기 위한 혁신적인 접근법을 제시했다.2 CAT의 핵심 아이디어는 모델 해석의 기본 단위를 저수준(low-level)의 개별 특성에서 인간이 이해하기 쉬운 고수준(high-level)의 ’개념(concept)’으로 전환한 것이다. 예를 들어, 대출 심사 모델에서 ‘소득’, ‘자산’, ’부채’와 같은 개별 특성들을 ’재정 안정성’이라는 하나의 개념으로 묶어 설명하는 방식이다. 이 방법의 가장 큰 혁신은, 도메인 전문가가 각 개념의 이름과 실제 값을 일일이 레이블링할 필요 없이, 사용자가 단순히 관련 특성들을 그룹으로 묶어주기만 하면 모델이 데이터로부터 스스로 개념을 학습하도록 설계했다는 점이다.9
CAT 모델의 아키텍처는 두 가지 핵심 구성요소로 이루어진다:
- 개념 인코더 (Concept Encoders): 사용자가 지정한 각 특성 그룹을 입력받아, 해당 그룹을 대표하는 1차원의 고수준 개념 표현(high-level concept representation)으로 압축하여 임베딩하는 역할을 수행한다. 각 인코더는 독립적인 작은 신경망으로 구성된다.12
- TaylorNet (Taylor Neural Network): 개념 인코더로부터 추출된 개념 표현들을 입력받아 최종 예측을 수행하는 새로운 형태의 화이트박스 모델이다. TaylorNet은 테일러 급수(Taylor series)에서 영감을 받아, 다항식(polynomials)을 이용해 개념들과 출력값 사이의 복잡한 비선형 관계 및 상호작용을 학습한다. 예측 결과는 각 개념의 주 효과(main effect)와 개념 간의 상호작용 효과(interaction effect)의 합으로 명확하게 분해될 수 있어 높은 수준의 해석 가능성을 제공한다.9
모델의 최종 예측값 y는 다음과 같이 표현될 수 있다. 여기서 c_i는 i번째 개념을, f_i와 f_{ij}는 TaylorNet이 학습한 함수를 나타낸다.
y = \sum_{i} f_i(c_i) + \sum_{i \neq j} f_{ij}(c_i, c_j) + \text{bias}
2.1.3 실험 결과 및 의의
연구팀은 여러 벤치마크 데이터셋을 이용한 실험을 통해 CAT 모델이 기존의 최신 GAMs 및 블랙박스 모델들과 비교하여 더 적은 수의 파라미터로도 동등하거나 더 우수한 예측 성능을 달성함을 입증했다. 동시에, 모델의 예측 과정을 ’어떤 개념이 예측에 얼마나, 어떻게 기여했는가’의 형태로 시각화하여 명확하게 설명할 수 있음을 보여주었다.9
CAT의 등장은 XAI 연구가 단순히 ’어떤 특성이 중요한가’를 넘어 ’모델이 어떤 추상적인 개념을 통해 세상을 이해하고 있는가’라는 더 근본적인 질문에 답할 수 있는 가능성을 열었다는 점에서 중요한 의미를 가진다. 이는 AI의 투명성과 신뢰성을 한 단계 끌어올리는 중요한 학문적 진일보로 평가된다.
2.2 산업 스케일 그래프 신경망의 구현: LiGNN (Graph Neural Networks at LinkedIn)
2.2.1 연구 배경 및 문제 정의
LinkedIn과 같은 세계 최대 규모의 전문 소셜 네트워크는 10억 명 이상의 회원, 기업, 그룹 등이 복잡하게 연결된 거대 그래프 구조를 가진다. 이 그래프는 수백억 개의 노드(nodes)와 수천억 개의 엣지(edges)로 구성되며, 채용 공고 지원, 게시물 참여, 인맥 연결 등 다양한 상호작용을 포함한다.13 이러한 환경에서 그래프 신경망(GNN)을 활용하여 추천 시스템의 품질을 높이려는 시도는 자연스럽지만, GNN 학습은 전통적인 딥러닝과 달리 그래프 구조 전체를 탐색해야 하므로 막대한 계산 비용과 메모리를 요구하는 고유한 확장성 문제를 야기한다. 특히, 실시간으로 변화하는 그래프의 동적 특성을 반영하고, 활동 기록이 적은 신규 사용자(cold-start) 문제를 해결하는 것은 산업적 GNN 적용의 핵심 난제였다.
2.2.2 LiGNN 프레임워크 상세 분석
KDD 2024 응용 데이터 과학 트랙 최우수 논문으로 선정된 “LiGNN: Graph Neural Networks at LinkedIn“은 이러한 산업적 난제들을 해결하기 위해 LinkedIn에서 실제로 개발하고 배포한 대규모 GNN 프레임워크에 대한 포괄적인 사례 연구다.2 이 연구의 핵심 목표는 학문적 GNN 모델을 실제 산업 환경에 적용할 때 발생하는 구체적인 문제들을 정의하고, 이를 해결하기 위한 알고리즘적 개선과 시스템적 최적화 방안을 공유하는 것이다.13
LiGNN 프레임워크는 다음과 같은 다층적 기여를 포함한다:
- 알고리즘 개선:
- 시간적 그래프 아키텍처 (Temporal Graph Architecture): 사용자의 상호작용이 시간에 따라 변화하는 동적 특성을 모델링하기 위해, 장기적 상호작용의 중요도를 학습에 반영하는 손실 함수(long-term losses)를 도입했다. 이는 GNN이 단순히 현재의 연결 관계뿐만 아니라 과거의 중요한 이력까지 고려하여 더 정교한 임베딩을 생성하게 한다.13
- Cold-Start 문제 해결: 활동이 적은 노드를 위해, 콘텐츠 기반 임베딩을 활용하여 유사한 노드와 가상의 엣지를 생성하는 그래프 밀도화(graph densification) 기법을 적용했다. 또한, 다중 홉(multi-hop) 이웃 샘플링과 ID 임베딩을 통해 부족한 연결 정보를 보완하여 추천의 질을 높였다.14
- 확장성 및 시스템 최적화:
- 대규모 학습 가속화: GNN 학습의 가장 큰 병목인 이웃 노드 샘플링 과정을 최적화하기 위해, 노드의 중요도에 따라 샘플링 빈도를 조절하는 적응형 이웃 샘플링(adaptive sampling)을 도입했다. 또한, 학습 데이터 배치를 효율적으로 구성하는 그룹화 및 슬라이싱(grouping and slicing) 기법, 여러 프로세스가 동시에 그래프 데이터를 가져올 수 있도록 설계된 특화된 공유 메모리 큐(specialized shared-memory queue) 등을 통해 전체 학습 파이프라인을 최적화했다. 이러한 시스템 엔지니어링 노력을 통해 대규모 그래프에서의 학습 속도를 기존 대비 7배 가속화하는 데 성공했다.13
2.2.3 성과 및 의의
LiGNN의 가장 큰 성과는 실제 비즈니스 지표에 미친 긍정적인 영향이다. LinkedIn에서 진행된 대규모 A/B 테스트 결과, LiGNN 기반 모델은 채용 공고 지원 후 회신율(Job application hearing back rate)을 약 1% 상대적으로 개선했으며, 광고 클릭률(Ads CTR)을 2% 향상시켰다. 이 외에도 피드 참여 사용자 수, 세션 시간 등 다양한 지표에서 유의미한 성과를 거두었다.13
이 연구는 GNN이 더 이상 학문적 개념에 머무르지 않고, 세계 최대 규모의 산업 현장에서 측정 가능한 비즈니스 가치를 창출할 수 있음을 실증적으로 보여준 중요한 이정표다. 이는 AI 연구의 두 축인 ’해석 가능성’과 ’확장성’이 어떻게 각기 다른 방식으로 분야의 발전을 이끌고 있는지를 명확히 보여준다. CAT가 AI의 ’내부’를 들여다보며 신뢰를 구축하려 한다면, LiGNN은 AI의 ‘외부’ 영향력을 극대화하며 그 효용성을 증명한다. 미래의 AI 시스템은 이 두 가지 가치를 모두 만족시키는 방향으로 진화해야 할 것이며, 이는 여전히 학계와 산업계에 남겨진 중요한 과제다.
3. arXiv를 통해 본 최신 연구 동향
주요 학술대회가 특정 시점의 완성된 연구 성과를 공유하는 장이라면, arXiv와 같은 사전 공개(pre-print) 서버는 해당 분야의 가장 현재 진행형인, 살아있는 연구 동향을 엿볼 수 있는 창이다. 2024년 8월 arXiv에 공개된 로봇공학 및 AI 관련 논문들은 특히 파운데이션 모델을 물리적 세계와 연결하려는 시도와 다중 로봇 시스템의 지능화라는 두 가지 큰 흐름에 집중되었다. 이는 AI 연구의 패러다임이 개별 모델의 성능 최적화를 넘어, 여러 지능적 구성요소를 조율하여 복잡하고 장기적인 과업을 해결하는 ’시스템 수준의 AI(System-Level AI)’로 이동하고 있음을 시사한다.
3.1 대규모 언어 모델과 로봇공학의 통합
8월 15일에 업데이트된 서베이 논문 “A Survey on Integration of Large Language Models with Intelligent Robots“는 LLM이 로봇 기술에 미치는 광범위한 영향을 체계적으로 정리했다.16 이 논문은 LLM의 활용을 로봇의 네 가지 핵심 기능, 즉 **소통(communication), 인식(perception), 계획(planning), 제어(control)**로 나누어 분석했다.
- 활용 방안: LLM은 방대한 언어 데이터로부터 학습한 상식적 지식과 추론 능력을 바탕으로 로봇에게 새로운 차원의 지능을 부여한다. 로봇은 LLM을 통해 “부엌에서 가장 시원한 음료를 가져와“와 같은 모호하고 개방형인 인간의 지시를 이해하고, 이를 ‘냉장고 문을 연다’, ‘음료수를 찾는다’, ’음료수를 잡는다’와 같은 구체적인 행동 순서로 분해하여 계획을 수립할 수 있다. 또한, 작업 수행 중 발생하는 예외 상황에 대해 인간과 자연어로 대화하며 문제를 해결하는 능력도 갖추게 된다.16
- 기술적 한계: 그러나 LLM을 로봇에 통합하는 과정은 여러 기술적 난제를 동반한다. LLM은 종종 사실과 다른 내용을 생성(hallucination)하거나 예측 불가능한 응답을 내놓을 수 있는데, 이는 물리적 세계에서 작동하는 로봇에게 치명적인 안전 문제로 이어질 수 있다. 또한, LLM의 거대한 모델 크기는 실시간으로 반응해야 하는 로봇 시스템에 통합하기에 계산적으로 부담이 크다. 효과적인 프롬프트를 설계하는 것 역시 여전히 많은 시행착오를 요구하는 과제다.16 이 서베이 논문은 단일 모델의 성능을 넘어, LLM을 로봇 시스템의 각 모듈(인식, 계획 등)과 어떻게 안전하고 효율적으로 ’통합’할 것인가가 핵심 연구 과제임을 명확히 한다.
3.2 비전-언어 모델 기반 로봇 조작 자동화: Manipulate-Anything
로봇이 다양한 작업을 학습하기 위해서는 양질의 시연 데이터가 대량으로 필요하지만, 인간이 직접 데이터를 수집하는 것은 비용과 시간이 많이 소요된다. 이러한 문제를 해결하기 위해 8월 29일에 v3 버전이 공개된 “Manipulate-Anything: Automating Real-World Robots using Vision-Language Models” 연구는 비전-언어 모델(VLM)을 활용하여 로봇 조작을 위한 시연 데이터를 자동으로 생성하는 혁신적인 프레임워크를 제안했다.17
- 기존 방법론과의 차별점: VoxPoser나 Code-as-Policies와 같은 기존 연구들은 데이터 생성을 위해 3D 모델이나 시뮬레이터의 내부 상태 값과 같은 특권 정보(privileged state information)에 의존하거나, 사전에 정의된 몇 가지 기술(hand-designed skills)만을 조합하는 방식이었다. 반면, Manipulate-Anything은 이러한 제약 없이, 오직 카메라 이미지와 자연어 지시만으로 실제 환경에서 처음 보는 물체를 조작하는 작업을 제로샷(zero-shot)으로 수행할 수 있다는 점에서 획기적인 진전을 이루었다.18
- 작동 방식: Manipulate-Anything 프레임워크는 지능적 에이전트들의 협력 시스템처럼 작동한다.21
- 작업 계획 생성 (Task Planning): 먼저, VLM이 자연어 지시와 현재 장면의 이미지를 입력받아, 작업을 완수하기 위한 하위 목표(sub-goals)의 순서를 텍스트로 생성한다. (예: “서랍을 열어라” -> 1. 서랍 손잡이로 이동, 2. 손잡이 잡기, 3. 서랍 당기기)
- 행동 생성 (Action Generation): 각 하위 목표에 대해, 다각도에서 촬영된 이미지와 함께 목표를 다시 VLM에 입력하여 파지 자세(grasp pose)나 움직임 궤적과 같은 구체적인 행동을 생성한다.
- 하위 작업 검증 및 오류 복구 (Verification & Recovery): 행동을 실행한 후, VLM은 다시 장면을 관찰하여 하위 목표가 성공적으로 달성되었는지 검증한다. 만약 실패했다면, 현재 상태에서 다시 계획을 수립하여 오류로부터 복구하는 과정을 거친다.
- 의의: 이 연구는 VLM을 단순한 ’인식 및 추론 엔진’에서 물리 세계와 능동적으로 상호작용하는 ’행동 생성기’로 그 역할을 확장했다는 점에서 파운데이션 모델의 ‘체화’ 연구에 중요한 이정표를 제시한다. 이는 지능적 구성요소들(계획 VLM, 행동 생성 모델, 검증 모듈)을 체계적으로 조직하여 복잡한 문제를 해결하는 ’시스템 수준 AI’의 좋은 예시라 할 수 있다.
3.3 이기종 다중 로봇 시스템의 협업 최적화
단일 고성능 로봇을 사용하는 것보다, 저렴하고 다양한 능력을 가진 로봇들로 팀을 구성하는 것이 제조나 물류 현장에서 더 효율적일 수 있다. 그러나 각기 다른 능력을 가진 이기종(heterogeneous) 로봇 팀의 작업을 최적으로 스케줄링하는 것은 매우 복잡한 문제다.22 8월 12일 언론을 통해 소개된 UMass Amherst 연구팀의 ICRA 2024 최우수 다중 로봇 시스템 논문 최종 후보작, “Learning for Dynamic Subteaming and Voluntary Waiting in Heterogeneous Multi-Robot Collaborative Scheduling“은 이 문제에 대한 새로운 해법을 제시했다.22
- 핵심 개념: LVWS (Learning for Voluntary Waiting and Subteaming): 이 연구의 핵심은 ’자발적 대기(Voluntary Waiting)’라는 직관에 반하는 개념을 도입한 것이다. 기존의 스케줄링 알고리즘은 대부분 유휴 로봇이 없도록 당장 수행 가능한 작업에 로봇을 할당하는 근시안적(greedy) 전략을 사용했다. 그러나 LVWS는 특정 로봇이 당장 할 일이 있더라도, 나중에 더 중요한 협업 작업을 위해 다른 팀원이 준비될 때까지 의도적으로 ’대기’하는 것이 전체 시스템의 효율성을 높일 수 있음을 보였다.23
- 예시: 예를 들어, 4kg씩 들 수 있는 작은 로봇 두 대와 10kg을 들 수 있는 큰 로봇 한 대가 있다고 가정하자. 만약 7kg짜리 상자를 옮겨야 할 때 작은 로봇 한 대가 다른 일을 하고 있다면, 큰 로봇이 이 일을 처리하는 대신, 남은 작은 로봇이 다른 작은 로봇이 일을 마칠 때까지 기다렸다가 함께 상자를 옮기는 것이 더 효율적일 수 있다. 그동안 큰 로봇은 자신의 능력에 더 적합한 10kg짜리 무거운 작업을 처리할 수 있기 때문이다.24
- 실험 결과: 연구팀은 컴퓨터 시뮬레이션을 통해 LVWS 접근법이 다른 네 가지 스케줄링 방법과 비교했을 때, 이론적인 최적해에 단 0.8% 차이로 근접하는 매우 높은 성능을 보임을 입증했다. 또한, 100개의 복잡한 작업을 처리하는 시뮬레이션에서도 다른 방법들보다 약 5-15% 더 빠른 시간 안에 모든 작업을 완료했다.23
- 의의: 이 연구는 개별 로봇의 최적화가 아닌, 다중 로봇 ‘시스템’ 전체의 최적화를 목표로 한다는 점에서 시스템 수준 AI의 또 다른 중요한 사례다. 이는 로봇 시스템의 지능이 개별 에이전트의 능력을 넘어, 이들 간의 상호작용과 협업을 관장하는 스케줄링 정책(policy)에서 발현될 수 있음을 보여준다.
4. 핵심 기술 동향 종합 및 전망
2024년 8월의 주요 연구들은 개별적인 성과를 넘어, AI와 로봇공학 분야의 거시적인 기술 발전 방향을 가리키는 중요한 지표들을 제공한다. 파운데이션 모델의 능력을 물리 세계로 확장하려는 시도, 이론적 모델을 실제 산업 현장에 적용할 때 발생하는 확장성 문제 해결, 그리고 연구 결과를 공유하고 평가하는 학술 문화의 변화는 서로 맞물려 분야 전체의 발전을 견인하고 있다.
4.1 파운데이션 모델의 물리적 구현 (Embodiment of Foundation Models)
이번 달 발표된 Manipulate-Anything 연구와 LLM-로봇 통합 서베이 논문은 파운데이션 모델의 발전이 새로운 국면에 접어들었음을 명확히 보여준다. 지금까지 LLM과 VLM은 주로 텍스트와 이미지를 이해하고 생성하는 디지털 세계의 지능에 머물러 있었다. 그러나 이들 연구는 파운데이션 모델이 단순히 세상을 ’인식’하는 것을 넘어, 물리적 세계와 상호작용하고 변화를 이끌어내는 ’행동(action)’을 생성하는 단계로 진화하고 있음을 보여준다. 이는 디지털 지능이 로봇이라는 매개체를 통해 물리적 실체를 얻는 ’체화된 AI(Embodied AI)’의 본격적인 시작을 의미한다.
이러한 흐름은 로봇공학 분야 최고 권위의 저널인 *International Journal of Robotics Research (IJRR)*가 파운데이션 모델, 생성 모델, 그리고 신경-심볼릭 AI(Neuro-Symbolic AI)를 주제로 특별호를 기획하고 있다는 점에서도 확인된다.26 이는 해당 분야의 학문적 관심이 얼마나 높은지를 방증하는 것이다. 앞으로 체화된 AI 연구는 로봇이 처음 보는 물체와 환경에 대해 제로샷 일반화 성능을 높이는 방향과 동시에, 실제 환경의 예측 불가능한 변수와 동적인 변화에 강건하게 대처하는 능력을 확보하는 방향으로 발전할 것이다.
4.2 확장성과 실제 적용의 과제 (Challenges of Scalability and Real-World Deployment)
LiGNN과 LVWS 연구는 AI와 로봇 기술을 실험실 수준에서 실제 산업 환경으로 이전할 때 반드시 마주하게 되는 확장성 문제를 정면으로 다룬다. 이 두 연구는 확장성의 두 가지 다른 측면을 조명한다. LiGNN은 수십억 개의 노드를 가진 그래프 데이터와 거대한 GNN 모델을 학습시키는 과정에서 발생하는 ’데이터 및 계산적 복잡성’을 다룬다. 반면, LVWS는 수십, 수백 대의 물리적 로봇 에이전트를 실시간으로 조율하고 협업시키는 과정에서 발생하는 ’운영적 복잡성’을 해결한다.
이러한 연구들은 미래 AI 시스템의 평가 기준이 알고리즘의 이론적 정확성뿐만 아니라, 시스템의 처리량(throughput), 지연 시간(latency), 자원 효율성 등과 같은 실용적인 엔지니어링 지표에 의해 좌우될 것임을 시사한다. 이는 순수 알고리즘 연구와 시스템 엔지니어링 간의 경계가 더욱 허물어지고, 두 분야의 전문성을 모두 갖춘 연구자와 엔지니어의 역할이 중요해짐을 의미한다. 특히, 체화된 AI가 더 많은 로봇을 통해 대규모 실제 데이터를 생성하고, 이 데이터가 다시 더 큰 파운데이션 모델을 학습시키는 선순환 구조가 만들어질 때, 확장성 문제는 더욱 핵심적인 과제가 될 것이다.
| 연구명 (Study Name) | 핵심 문제 (Core Problem) | 기술적 혁신 (Technical Innovation) | 적용 분야 (Application Domain) | 주요 성과 (Key Result) |
|---|---|---|---|---|
| CAT | DNN의 블랙박스 문제, 저수준 특성 기반 해석의 한계 | 개념 인코더와 TaylorNet을 통한 고수준 개념 기반 설명 | 해석 가능한 AI (XAI) | 적은 파라미터로 높은 성능과 인간이 이해 가능한 해석 동시 달성 |
| LiGNN | 산업 스케일 GNN의 학습 및 배포 확장성 문제 | 시간적 그래프 모델링, 시스템 최적화를 통한 7배 학습 가속 | 대규모 추천 시스템 | A/B 테스트에서 CTR 2% 등 실제 비즈니스 지표 개선 |
| Manipulate-Anything | 로봇 학습을 위한 시연 데이터 생성의 비효율성 | VLM을 활용한 제로샷, 비-특권 정보 기반 조작 자동화 | 로봇 조작, 데이터 생성 | 실제 및 시뮬레이션 환경에서 기존 방법론 대비 월등한 성공률 |
| LVWS | 이기종 다중 로봇 시스템의 비효율적 작업 스케줄링 | ‘자발적 대기’ 개념을 도입한 학습 기반 스케줄링 | 제조, 물류 자동화 | 최적해에 0.8% 근접하는 높은 효율성, 작업 완료 시간 단축 |
4.3 주요 저널 및 출판 동향
연구 성과를 공유하고 평가하는 방식 또한 빠르게 변화하고 있다. Science Robotics (2024년 Impact Factor 약 27.5), IEEE Transactions on Robotics (2024년 Impact Factor 약 10.5)와 같은 전통적인 최상위 저널들은 여전히 해당 분야에서 막대한 영향력을 유지하고 있다.27
그러나 AI 분야, 특히 머신러닝 커뮤니티에서는 NeurIPS, ICLR, ICML과 같은 최상위 컨퍼런스가 사실상 저널에 필적하거나 그 이상의 영향력을 가지는 출판 매체로 확고히 자리 잡았다.30 이는 연구의 발전 속도가 매우 빨라, 1년 이상 소요되는 저널의 동료 심사 과정을 기다리기보다 신속하게 결과를 공개하고 피드백을 받으려는 커뮤니티의 요구가 반영된 결과다.
이러한 속도 중심의 문화는 arXiv와 같은 사전 공개 서버의 역할을 더욱 중요하게 만들었다. 2024년 8월에 분석된 주요 연구들 대부분이 학회나 저널에 공식 발표되기 전 arXiv를 통해 먼저 공개되었다는 점이 이를 증명한다.31 이는 연구 결과의 신속한 전파와 개방적인 학술 토론을 촉진하는 긍정적인 측면이 있지만, 동시에 동료 심사를 거치지 않은 연구가 무분별하게 확산될 수 있다는 잠재적 위험도 내포하고 있다.
5. 결론: 2024년 8월 연구 동향의 함의와 미래 연구 방향
2024년 8월 한 달간 발표된 AI 및 로봇공학 분야의 주요 연구들은 명확한 방향성을 가지고 수렴하고 있다. 이는 AI의 해석 가능성, 산업적 확장성, 그리고 물리적 세계로의 체화라는 세 가지 핵심 축을 중심으로 전개된다. CAT 연구는 AI의 의사결정 과정을 인간이 이해할 수 있는 ‘개념’ 단위로 설명함으로써 신뢰의 기반을 마련했고, LiGNN 연구는 거대 산업 시스템의 복잡성과 규모를 감당할 수 있는 엔지니어링 해법을 제시하며 AI의 실용적 가치를 증명했다. 또한, Manipulate-Anything과 LVWS와 같은 연구들은 디지털 지능을 실제 로봇과 다중 로봇 시스템에 이식하여 물리적 세계의 문제를 해결하는 ’체화된 AI’의 가능성을 현실로 만들고 있다.
중요한 점은 이 세 가지 축이 독립적으로 발전하는 것이 아니라, 서로를 강화하는 상호 보완적 관계에 있다는 것이다. 신뢰할 수 있는(해석 가능성) AI만이 사회적으로 중요한 영역에 대규모로(확장성) 적용될 수 있으며, 실제 세계에서 유용한(체화) AI 시스템을 구축하기 위해서는 이 두 가지 특성이 모두 필수적이다.
따라서 미래 연구는 이 세 가지 축을 통합하는 방향으로 나아갈 것이 자명하다. 예를 들어, 수백억 개의 파라미터를 가진 파운데이션 모델의 작동 방식을 설명하는 ‘확장 가능한 해석 가능성’ 기술, 또는 수백 대의 로봇으로 구성된 군집 시스템의 창발적 행동을 인간이 이해하고 제어할 수 있도록 하는 ‘체화된 다중 에이전트 시스템의 해석’ 등이 차세대 AI 및 로봇공학 연구의 핵심 주제가 될 것이다. 2024년 8월은 이러한 미래를 향한 중요한 기술적 이정표들이 세워진 시기로 기록될 것이다.
6. 참고 자료
- Agenda at a Glance - ACM KDD 2024, https://kdd2024.kdd.org/agenda-at-a-glance/
- KDD 2024 - ACM KDD 2024, https://kdd2024.kdd.org/
- Research Track: Call for Papers - ACM KDD 2024, https://kdd2024.kdd.org/research-track-call-for-papers/
- International Summit on Robotics and Artificial Intelligence (ISRAI) 2024 - Centraleyes, https://www.centraleyes.com/security-events/international-summit-on-robotics-and-artificial-intelligence-israi-2024/
- ISRAI2024 | 2nd International Summit On Robotics and Artificial Intelligence, https://www.spectrumconferences.com/2024/israi
- General 1 - IEEE RO-MAN 2024, https://www.ro-man2024.org/overview/welcome
- IEEE RO-MAN 2024, https://www.ro-man2024.org/
- CASE 2024 - IEEE 20th International Conference on Automation Science and Engineering, https://in2ccam.eu/event/case-2024-ieee-20th-international-conference-on-automation-science-and-engineering/
- (PDF) CAT: Interpretable Concept-based Taylor Additive Models - ResearchGate, https://www.researchgate.net/publication/381736592_CAT_Interpretable_Concept-based_Taylor_Additive_Models
- CAT: Interpretable Concept-based Taylor Additive Models - arXiv, https://arxiv.org/abs/2406.17931
- CS@W&M PhD student Viet Duong and his advisor Prof. Huajie Shao Win Best Paper Award at ACM SIGKDD 2024 for Novel AI Interpretability Framework | Computer Science - William & Mary, https://www.wm.edu/as/computerscience/about-contactus/news/william-mary-phd-student-viet-duong-wins-best-paper-award-at-acm-sigkdd-2024-for-novel-ai-interpretability-framework.php
- vduong143/CAT-KDD-2024: Source code for the paper “CAT: Interpretable Concept-based Taylor Additive Models”. - GitHub, https://github.com/vduong143/CAT-KDD-2024
- LiGNN: Graph Neural Networks at LinkedIn - arXiv, https://arxiv.org/pdf/2402.11139
- [2402.11139] LiGNN: Graph Neural Networks at LinkedIn - arXiv, https://arxiv.org/abs/2402.11139
- Large Scalable Cross-Domain Graph Neural Networks for Personalized Notification at LinkedIn - ResearchGate, https://www.researchgate.net/publication/392735596_Large_Scalable_Cross-Domain_Graph_Neural_Networks_for_Personalized_Notification_at_LinkedIn
- A Survey on Integration of Large Language Models with Intelligent …, https://arxiv.org/pdf/2404.09228
- arxiv.org, https://arxiv.org/abs/2406.18915
- Manipulate-Anything: Automating Real-World Robots using Vision-Language Models, https://openreview.net/forum?id=2SYFDG4WRA
- Manipulate-Anything: Automating Real-World Robots using Vision-Language Models | Request PDF - ResearchGate, https://www.researchgate.net/publication/381770993_Manipulate-Anything_Automating_Real-World_Robots_using_Vision-Language_Models
- Manipulate Anything, https://robot-ma.github.io/
- anipulate- nything: Automating Real-World Robots using Vision-Language Models - Manipulate Anything, https://robot-ma.github.io/MA_paper.pdf
- New method for orchestrating successful collaboration among robots | ScienceDaily, https://www.sciencedaily.com/releases/2024/08/240812165455.htm
- UMass Amherst Research Advances Collaboration in Multi-Robot …, https://control.com/news/umass-amherst-research-advances-collaboration-in-multi-robot-systems/
- UMass Amherst Researchers Create New Method for Orchestrating …, https://www.cics.umass.edu/news/new-method-successful-robot-collaboration-0
- UMass Amherst Unveils Efficient Robot Collaboration Method - Space Daily, https://www.spacedaily.com/reports/UMass_Amherst_Unveils_Efficient_Robot_Collaboration_Method_999.html
- Foundation Models and Neuro-Symbolic AI for Robotics - SAIR Lab, https://sairlab.org/ijrr/
- Robotics: Journal Rankings | OOIR, https://ooir.org/journals.php?field=Engineering&category=Robotics&metric=jif
- Influential Robotics Journal Picks UVA Paper as Best of 2024, https://engineering.virginia.edu/news-events/news/influential-robotics-journal-picks-uva-paper-best-2024
- IEEE Transactions on Robotics - Wikipedia, https://en.wikipedia.org/wiki/IEEE_Transactions_on_Robotics
- Top 20 Artificial Intelligence Journals for Publishing in 2025 - PhD Mates, https://phdmates.com/top-20-artificial-intelligence-journals-for-publishing/
- Machine Learning Aug 2024 - arXiv, https://arxiv.org/list/cs.LG/2024-08
- Robotics Aug 2024 - arXiv, https://www.arxiv.org/list/cs.RO/2024-08?skip=15&show=250
- Robotics Aug 2024 - arXiv, https://www.arxiv.org/list/cs.RO/2024-08?skip=0&show=500