년 11월 AI 및 로봇 연구 동향

년 11월 AI 및 로봇 연구 동향

1. 서론: 2021년 후반기 AI 연구의 지형도

2021년 11월은 인공지능(AI) 및 로봇공학 커뮤니티에게 있어 중요한 학술적 성과가 집중된 시기였다. NeurIPS(Neural Information Processing Systems) 1, CoRL(Conference on Robot Learning) 1 등 저명한 학회가 연이어 개최되거나 준비 중이었으며, 이는 최신 연구 결과가 집약적으로 발표되는 학문적 정점을 형성했다. 본 보고서는 이 시기에 발표된 핵심 연구들을 심층적으로 분석하여, 기술적 진보의 최전선과 그에 수반되는 사회적, 윤리적 논의의 성숙 과정을 조명하는 것을 목표로 한다.

이 시기의 연구 동향은 세 가지 주요 축으로 요약될 수 있다. 첫째, 로봇 조작(Robotic Manipulation) 분야에서는 특정 모델이나 형태에 의존하지 않는 ’범용성(Generality)’을 향한 뚜렷한 진전이 있었다. 둘째, 핵심 AI 알고리즘, 특히 경로 계획(Path Planning)과 같은 고전적 문제에서 학습 기반 접근법이 기존의 휴리스틱을 넘어서는 가능성을 보였다. 셋째, 기술의 급격한 발전에 발맞춰, AI 기술의 책임 있는 개발과 배포를 위한 국제적인 윤리 규범이 최초로 정립되었다. 이 세 가지 축은 서로 독립적이지 않으며, 기술적 가능성의 확장과 윤리적 성찰의 심화가 동시적으로 일어나는 2021년 11월의 독특한 연구 생태계를 구성한다.

2. 제11회 로봇 학습 컨퍼런스(CoRL 2021) 주요 발표 분석

CoRL은 로봇공학과 기계학습의 교차점에 초점을 맞춘 핵심적인 국제 학회로, 2021년 11월 8일부터 11일까지 런던에서 개최되었다.2 이 학회에서 발표된 연구, 특히 수상 논문들은 당시 로봇 학습 분야의 가장 첨예한 고민과 혁신적인 해결책을 담고 있다.

항목 (Item)A System for General In-Hand Object Re-OrientationFlingBot: The Unreasonable Effectiveness of Dynamic Manipulation for Cloth Unfolding
수상 (Award)최우수 논문상 (Best Paper Award)최우수 시스템 논문상 (Best System Paper Award)
소속 (Affiliation)MITColumbia University
핵심 문제 (Core Problem)다종의 물체를 손안에서 목표 방향으로 재정향변형 가능한 직물의 효율적인 펼치기
주요 방법론 (Methodology)모델-프리 강화학습, 교사-학생 학습자기 지도 학습, 동적 조작 프리미티브
핵심 기여 (Key Contribution)형상에 구애받지 않는 범용 조작 정책 학습준정적 방식 대비 동적 조작의 월등한 효율성 입증

2.1 최우수 논문상: ‘범용 손안 물체 재정향 시스템’ 심층 분석

다관절 로봇 손을 이용한 손안 조작(In-hand Manipulation)은 높은 자유도와 빈번한 접촉 상태 변화로 인해 로봇공학의 오랜 난제로 남아있었다. 이 연구는 특정 물체의 기하학적 모델 없이, 이전에 보지 못했던 수천 개의 다양한 물체를 손바닥이 위를 향하거나 아래를 향한 상태에서 목표 방향으로 재정향하는 범용적 정책을 학습하는 것을 목표로 설정했다.5

연구팀은 모델-프리 강화학습(Model-Free RL)을 기반으로 한 단순하지만 강력한 프레임워크를 제안했다. 이 프레임워크의 핵심 요소는 교사-학생 학습, 중력 커리큘럼, 그리고 안정적 초기화의 세 가지로 구성된다.6 첫째, **교사-학생 학습(Teacher-Student Learning)**은 시뮬레이션 환경의 이점을 극대화하는 전략이다. 완전한 상태 정보(state information)에 접근 가능한 ‘교사’ 정책을 먼저 학습시킨 후, 실제 로봇에서 수집 가능한 센서 데이터(RGBD 이미지, 관절 위치)만을 입력으로 받는 ‘학생’ 정책이 교사 정책의 행동을 모방하도록 증류(distill)한다.7 둘째, **중력 커리큘럼(Gravity Curriculum)**은 손바닥이 아래를 향한 어려운 시나리오를 효과적으로 학습시키기 위해 도입되었다. 중력 가속도를 점진적으로 변화시켜 쉬운 문제에서 시작하여 점차 어려운 문제로 나아가는 방식으로 학습의 안정성과 효율성을 높인다.6 마지막으로, **안정적 초기화(Stable Initialization)**는 물체를 들어 올리는 정책(lifting policy)을 별도로 학습하여, 재정향 학습 시 안정적인 초기 자세를 샘플링하는 데 사용함으로써 탐색 공간을 줄여 학습을 가속화했다.6

이 연구의 가장 놀라운 발견은 학습된 정책이 물체의 ‘형상 정보 없이도(shape-agnostic)’ 높은 일반화 성능을 보였다는 점이다.6 이는 손안 조작에서 정교한 시각적 인식이 필수적이라는 기존의 통념에 도전하는 결과이다. 역사적으로 손안 조작은 물체와 손의 정밀한 3D 모델을 기반으로 접촉 물리를 계산하는 모델 기반 패러다임에 의존했다. 딥러닝의 부상 이후에도 많은 연구는 풍부한 시각적 데이터를 정책 네트워크에 입력하여 암묵적으로 형상 특징을 학습할 것이라 가정했다. 그러나 이 연구는 한 걸음 더 나아가, 손가락의 움직임에 따른 물체의 반응, 즉 상호작용의 동역학(dynamics of interaction) 자체가 학습에 충분히 풍부한 신호를 제공함을 시사한다. 정책은 기하학적 이해에 기반한 사전 계획적 전략이 아닌, 자기수용감각(proprioception)과 기본적인 물체 상태에 기반한 반응적 전략을 학습하는 것이다. 이러한 접근 방식은 로봇 조작 연구의 초점을 ’어떻게 볼 것인가’에서 ’어떻게 느끼고 반응할 것인가’로 전환시킬 잠재력을 가지며, 물체의 가변성이 높은 물류, 제조, 가사 지원 로봇의 상용화 장벽을 극적으로 낮출 수 있다.6

2.2 최우수 시스템 논문상: ’FlingBot’의 동적 조작 기법 연구

옷과 같은 변형 가능한 물체(deformable objects)의 조작, 특히 구겨진 천을 펼치는 작업은 예측 불가능한 동역학 때문에 로봇공학의 주요 난제 중 하나이다. 기존의 준정적(quasi-static) 접근법, 즉 느리게 집고 놓는 방식은 비효율적이며 로봇의 물리적 도달 범위에 의해 명확한 한계를 가졌다.10

FlingBot은 인간이 천을 다룰 때 직관적으로 사용하는 ’내던지기(fling)’와 같은 동적 조작(dynamic manipulation)의 효율성에 주목했다. 연구팀은 자기 지도 학습(self-supervised learning) 프레임워크를 통해 양팔 로봇이 시각적 관찰만으로 ‘집고(pick), 늘리고(stretch), 내던지는(fling)’ 일련의 동작을 학습하도록 설계했다.10 이 접근법은 복잡한 물리 모델링 없이 데이터로부터 직접 효과적인 동적 정책을 학습한다.

FlingBot은 단 3번의 행동으로 새로운 천의 80% 이상을 펼치는 성능을 달성했으며, 이는 준정적 기준선(baseline)보다 4배 이상 효율적인 결과였다. 특히, 로봇의 도달 범위를 넘어서는 큰 천을 펼치거나, 사각형 천으로만 학습했음에도 불구하고 티셔츠와 같은 다른 형태의 의류에 일반화되는 강력한 성능을 보였다.10 이는 동적 조작이 단순히 속도를 높이는 것을 넘어 근본적인 이점을 가짐을 입증한다. 준정적 방식이 천의 모든 주름을 고려하며 손을 ‘걸어가듯’ 옮겨야 하는 복잡한 계획 문제를 풀어야 하는 반면, 동적 방식은 단지 두 개의 좋은 파지점을 찾아 고속 궤적을 실행하기만 하면 된다. 내던지기라는 행위의 물리 현상 자체가 복잡한 펼침 작업을 대신 수행해주는 것이다. 이러한 문제의 단순화가 곧 일반화 성능의 핵심이다. 정책은 티셔츠의 복잡한 위상 구조를 배울 필요 없이, 두 지점을 잡고 내던지는 원리만 학습하면 된다. 더 나아가, 로봇은 천의 일부를 물리적으로 닿을 수 없는 곳까지 투사함으로써 자신의 작업 공간을 효과적으로 확장한다. 이 원리는 천 조작을 넘어, 산업용 탄소 섬유 시트 핸들링, 농업용 그물망 설치, 우주 태양돛 전개 등 다루기 힘든 대형 변형체를 조작하는 기존의 난제들을 해결할 새로운 해법의 가능성을 연다.

3. 주요 산업 연구소의 11월 연구 성과

3.1 Meta AI의 경로 계획 알고리즘: ‘LaP3’ 방법론 탐구

경로 계획은 고차원적이고 다수의 지역 최적해(local optima)를 갖는 다중 모드(multimodal) 보상 함수를 효율적으로 탐색해야 하는 근본적인 최적화 문제이다. CEM, CMA-ES와 같은 기존의 방법들은 탐욕적(greedy)으로 유망한 지역에 집중하여 지역 최적해에 갇히기 쉬웠다.11

2021년 11월 2일 발표된 연구는 ’LaP3 (Learning Search Space Partition for Path Planning)’라는 새로운 경로 계획 방법을 제안했다.12 LaP3의 혁신은 탐색 공간을 분할하는 방식에 있다. 기존 방법들이 보상 함수와 무관하게 공간을 분할한 것과 달리, LaP3는 보상 함수에 민감하게 ‘적응적으로’ 공간을 분할하는 방법을 학습한다.13 또한, 탐색 공간의 잠재 표현(latent representation)을 사용하여 효율성을 높이고 각 하위 영역 내의 함수 값 추정을 개선했다.11 이는 최적화 알고리즘에 메타 학습(meta-learning) 개념을 도입한 것으로 볼 수 있다. 즉, 단순히 최적화 문제의 해를 학습하는 것을 넘어, 해를 ‘탐색하는 더 나은 방법’ 자체를 학습하는 것이다. 컴파일러 최적화 문제의 보상 지형과 분자 설계 문제의 보상 지형은 그 구조가 상이할 수 있는데, 학습된 분할기는 관찰된 구조에 맞춰 탐색 전략을 동적으로 조정하여 탐사 효율을 극대화한다.

LaP3는 어려운 지역 최적해를 포함하는 2D 내비게이션 과제에서 기존 방법을 능가했다. 더 중요한 것은, 이 성능이 컴파일러 최적화를 위한 위상 순서화(compiler phase ordering)나 분자 설계(molecular design)와 같이 매우 복잡하고 현실적인 문제로 전이되었다는 점이다.13 이는 LaP3가 특정 도메인에 국한되지 않는 범용적인 고성능 최적화 도구로서의 잠재력을 가짐을 시사한다. 이러한 접근법은 우리가 복잡한 최적화 문제에 접근하는 방식에 근본적인 변화를 예고한다. 이는 거대 신경망의 하이퍼파라미터 튜닝, 금융 모델링, 물류 최적화 등 전통적인 최적화 기법이 정체된 여러 분야에서 성능의 돌파구를 마련할 수 있는 새로운 패러다임을 제시한다.

3.2 DeepMind AlphaFold 후속 연구: 단백질 구조 예측의 확장

DeepMind의 AlphaFold는 단백질 서열로부터 3차원 구조를 예측하는 데 혁명을 일으켰지만, 예측 모델은 순수한 단백질 사슬에 국한되었다. 실제 생체 내 단백질의 50%에서 70%는 기능과 구조에 결정적인 영향을 미치는 당(glycan)이 결합된 ‘당단백질’ 형태이다. 이러한 번역 후 변형(Post-Translational Modifications, PTMs), 특히 당화(Glycosylation)는 AlphaFold 예측에서 누락된 ’잃어버린 조각’이었다.14

2021년 11월 2일, 요크 대학교(University of York) 연구팀은 이 문제를 해결하기 위한 연구를 발표했다.14 그들은 AlphaFold가 PTMs를 직접 모델링하지는 않지만, 단백질 데이터 은행(PDB)의 수많은 당단백질 데이터를 학습했기 때문에 당이 부착될 공간을 암묵적으로 보존하고 있다는 가설을 세웠다. 이를 바탕으로, AlphaFold가 예측한 단백질 모델에 누락된 당 구성 요소를 ’접목(grafting)’하는 소프트웨어를 개발했다.15 이 방법론은 기존 라이브러리의 당 구조를 AlphaFold 모델에 추가하여 보다 완전하고 생물학적으로 유의미한 구조를 생성한다.

이 연구는 AlphaFold와 같은 혁신적인 AI 도구가 ’최종 결과물’이 아니라, 인간 과학자들에 의해 확장되고 개선될 수 있는 ’플랫폼’임을 보여준다.15 AI가 제공한 전례 없는 수준의 예측을 기반으로, 인간 연구자들이 그 한계를 식별하고 보완 도구를 개발함으로써 과학적 발견의 선순환을 창출할 수 있다. 이는 AI가 문제의 90%를 해결하는 기반 모델을 제공하고, 인간 전문가들이 나머지 10%의 특수한 맥락적 수정과 해석을 담당하는 협력적 워크플로우를 제시한다. 이러한 AI와 인간의 공생 관계는 신약, 백신, 효소 설계 등 생명과학 분야의 연구를 가속화할 수 있는 강력한 패러다임이 될 것이다.14

4. 2021년 11월 AI 및 로봇공학의 윤리적, 사회적 고찰

4.1 유네스코 AI 윤리 권고안 채택과 그 의의

2021년 11월 23일, 유네스코(UNESCO) 193개 회원국은 만장일치로 세계 최초의 AI 윤리 국제 규범인 ’AI 윤리 권고안’을 채택했다.18 이는 AI 기술이 야기할 수 있는 편향, 인권 침해, 환경 파괴 등의 잠재적 위험에 대한 국제 사회의 깊은 우려가 구체적인 행동으로 이어진 결과물이다.

이 권고안은 인권, 인간 존엄성, 환경 번영 등 4가지 핵심 가치를 기반으로 하며, 이를 실현하기 위한 10가지 핵심 원칙을 제시한다.18 이는 AI 시스템의 전체 생애주기에 걸쳐 인간 중심적 접근을 보장하기 위한 포괄적인 프레임워크를 제공한다.

원칙 (Principle)핵심 내용 (Core Tenet)
비례성과 피해 방지 (Proportionality and Do No Harm)정당한 목표 달성에 필요한 수준을 넘지 않으며, 위험 평가를 통해 피해를 방지해야 함.
안전 및 보안 (Safety and Security)안전 및 보안 위험을 회피하고 해결해야 함.
공정성 및 비차별 (Fairness and Non-Discrimination)사회 정의를 증진하고, AI 혜택에 대한 포괄적 접근을 보장해야 함.
지속가능성 (Sustainability)지속가능발전목표(SDGs)를 포함한 지속가능성에 미치는 영향을 평가해야 함.
사생활 보호 및 데이터 보호 권리 (Right to Privacy and Data Protection)AI 생애주기 전반에 걸쳐 사생활과 데이터를 보호해야 함.
인간의 감독 및 결정 (Human Oversight and Determination)AI 시스템이 인간의 궁극적인 책임과 설명책임을 대체하지 않도록 보장해야 함.
투명성 및 설명가능성 (Transparency and Explainability)상황에 적절한 수준의 투명성과 설명가능성을 확보해야 함.
책임 및 설명책임 (Responsibility and Accountability)AI 시스템은 감사 및 추적이 가능해야 하며, 감독 및 실사 메커니즘을 갖춰야 함.
인식 및 리터러시 (Awareness and Literacy)교육과 참여를 통해 AI 및 데이터에 대한 대중의 이해를 증진해야 함.
다중 이해관계자 및 적응형 거버넌스 (Multi-stakeholder and Adaptive Governance)다양한 이해관계자의 참여를 통해 포용적인 AI 거버넌스를 구축해야 함.

이 권고안은 법적 구속력은 없지만, 전 세계 정부와 기업이 AI 관련 정책과 규제를 수립하는 데 있어 강력한 도덕적, 정치적 기준점으로 작용한다. 과거 AI 윤리 논의가 개별 기업이나 학계, 특정 지역 블록에 의해 파편적으로 이루어져 표준 충돌과 규제 회피의 위험이 존재했던 것과 달리, 유네스코 권고안은 국제적 조화를 위한 첫걸음이다. 이는 공유된 어휘와 원칙의 틀을 제공함으로써 AI가 순수한 기술 영역에서 원자력이나 통신처럼 국제 규범의 적용을 받는 영역으로 전환되기 시작했음을 알리는 중요한 이정표이다. 글로벌 기업들은 ’운영에 대한 사회적 허가’를 유지하기 위해 이러한 원칙을 내부 거버넌스의 기준으로 채택해야 할 압력을 받게 될 것이다.

4.2 진화 로봇공학의 윤리적 난제: ’의미 있는 인간 통제’를 중심으로

2021년 11월 발표된 한 연구는 자율적으로 번식하고 진화하는 로봇 시스템이 제기하는 독특한 윤리적 위험을 심도 있게 분석했다.20 이 기술은 내재된 적응성, 확률성, 복잡성으로 인해 인간의 통제력을 약화시키고, 예측 불가능한 새로운 위험을 초래할 수 있다. 주요 위험으로는 통제 불가능한 ‘자율 증식(multiplication)’, 인간의 의도에 반하는 ‘부적응(maladaptation)’, 그리고 궁극적으로 인간에 대한 ’지배(domination)’가 지적되었다.

저자들은 이를 ‘2차 엔지니어링(second order engineering)’ 문제로 정의한다. 즉, 인간은 최종 로봇을 직접 설계하는 것이 아니라, 로봇을 만들어낼 ’진화 시스템’을 설계하게 된다. 이는 결과물에 대한 인간의 직접적인 영향력을 감소시키고, 윤리적 책임의 소재를 복잡하게 만든다.20 이러한 위험에 대응하기 위해 ’의미 있는 인간 통제(meaningful human control)’를 유지하기 위한 구체적인 기술적, 정책적 해결책이 제안되었다.20 여기에는 로봇의 번식을 허가된 중앙 시설에서만 가능하게 하는

중앙 집중식 복제, 시뮬레이션을 통해 진화 과정을 예측하고 위험을 사전에 차단하는 전방향 모델링 및 예측, 그리고 로봇의 핵심 목표 체계에 인간에게 해를 끼치지 않도록 하는 가치를 내재화하는 가치 부여가 포함된다.

이 연구는 현재 널리 퍼진 기술이 아닌, 미래에 실현될 가능성이 있는 기술의 윤리적 위험을 선제적으로 분석한다는 점에서 중요한 의미를 가진다. 역사적으로 윤리 및 규제 프레임워크는 기술이 사회적 문제를 야기한 후에야 반응적으로 만들어지는 경우가 많았다. 그러나 이 연구는 ’윤리적 예측(ethical foresight)’이라는 선제적 접근법의 모델을 제시한다. 이는 일반인공지능(AGI)과 같이 더욱 자율적이고 자기 개선적인 시스템으로 나아감에 따라 필수적인 접근 방식이 될 것이다. 이는 단순히 안전한 최종 제품을 설계하는 것을 넘어, ’증명 가능하게 안전한 창조적 과정’을 설계하는 새로운 학제 간 연구 분야의 필요성을 시사하며 AI 안전 문제의 본질을 근본적으로 변화시킨다.

5. 결론: 2021년 11월 연구 동향 종합 및 향후 전망

2021년 11월은 AI 및 로봇공학 기술의 ’가능성’과 ’책임’이라는 두 축이 동시에 중요한 진전을 이룬 시기로 기록된다. CoRL에서 선보인 범용 조작 기술과 Meta AI의 지능형 계획 알고리즘은 AI가 물리적 세계 및 복잡한 추상적 문제와 상호작용하는 능력이 새로운 단계에 진입했음을 보여주었다. 동시에, 유네스코 권고안과 진화 로봇공학에 대한 윤리적 고찰은 이러한 강력한 기술을 인류의 이익에 부합하도록 이끌기 위한 사회적, 학문적 노력이 본격화되었음을 의미한다.

이 시기의 연구들은 몇 가지 중요한 미래 방향을 제시한다. 첫째, 로봇공학은 점차 ‘모델-프리’ 및 ‘데이터-구동’ 방식으로 전환될 것이며, 복잡한 인식 파이프라인보다 상호작용을 통한 학습이 더욱 중요해질 것이다. 둘째, AI는 특정 문제를 해결하는 도구를 넘어, 과학적 발견의 과정을 가속화하는 협력적 ’플랫폼’으로 자리매김할 것이다. 마지막으로, AI 기술의 개발은 이제 기술적 성능뿐만 아니라 안전성, 공정성, 투명성과 같은 윤리적 원칙을 준수하는 것이 필수적인 요건이 될 것이며, 이는 향후 연구 개발, 투자, 그리고 정책 수립의 전 과정에 깊숙이 영향을 미칠 것이다.

6. 참고 자료

  1. Conferences - Sony AI, https://ai.sony/events/
  2. NeurIPS-2021 - Sony Research, https://research.sony/conferences/neurips2021/
  3. 2021 Conference - NeurIPS 2025, https://neurips.cc/Conferences/2021
  4. CoRL 2021, https://2021.corl.org/
  5. A System for General In-Hand Object Re-Orientation - Tao Chen, https://taochenshh.github.io/projects/in-hand-reorientation
  6. A System for General In-Hand Object Re-Orientation - Proceedings of Machine Learning Research, https://proceedings.mlr.press/v164/chen22a/chen22a.pdf
  7. A System for General In-Hand Object Re-Orientation | OpenReview, https://openreview.net/forum?id=7uSBJDoP7tY
  8. Tao Chen, https://taochenshh.github.io/
  9. Pulkit Agrawal - People | MIT CSAIL, https://people.csail.mit.edu/pulkitag/
  10. FlingBot: The Unreasonable Effectiveness of Dynamic Manipulations for Cloth Unfolding, https://flingbot.cs.columbia.edu/
  11. Learning Search Space Partition for Path Planning | Research - AI at Meta, https://ai.meta.com/research/publications/learning-search-space-partition-for-path-planning/
  12. Yuandong Tian - AI at Meta, https://ai.meta.com/people/807164687865608/yuandong-tian/
  13. Chris Cummins - AI at Meta, https://ai.meta.com/people/1172821370543239/chris-cummins/
  14. Scientists build on AI modelling to understand more about protein-sugar structures - News and events, University of York, https://www.york.ac.uk/news-and-events/news/2021/research/ai-sugar-proteins-research/
  15. The case for post-predictional modifications in the AlphaFold Protein Structure Database, https://www.researchgate.net/publication/355760300_The_case_for_post-predictional_modifications_in_the_AlphaFold_Protein_Structure_Database
  16. Accurate prediction by AlphaFold2 for ligand binding in a reductive dehalogenase and implications for PFAS (per- and polyfluoroalkyl substance) biodegradation, https://pmc.ncbi.nlm.nih.gov/articles/PMC10008544/
  17. Scientists build on AI modelling to understand more about protein, https://www.eurekalert.org/news-releases/933484
  18. Ethics of Artificial Intelligence | UNESCO, https://www.unesco.org/en/artificial-intelligence/recommendation-ethics
  19. Recommendation on the Ethics of Artificial Intelligence - UNESCO Digital Library, https://unesdoc.unesco.org/ark:/48223/pf0000380455
  20. Robot Evolution: Ethical Concerns - Frontiers, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2021.744590/full