년 9월 AI 및 로봇 연구 동향

년 9월 AI 및 로봇 연구 동향

1. 서론: 2019년, AI 연구의 패러다임 전환과 심화

2019년은 인공지능 연구 역사에서 중요한 변곡점으로 기록된다. 대규모 언어 모델과 생성 모델의 성공이 정점에 달하며 그 가능성을 입증하는 동시에, 이러한 경험적 성공의 이면에 존재하는 근본적인 한계와 이론적 공백에 대한 학계의 깊은 성찰이 시작된 시기였다. 본 보고서는 이 시기를 대표하는 최상위 국제 학술대회들에서 발표된 주요 수상 연구들을 중심으로, 당시 학계의 가장 첨예했던 지적 논의와 기술적 돌파구를 심층적으로 분석하고자 한다.1

본 보고서에서 다루는 핵심 연구들은 공통적으로 기존 방법론과 실제 응용, 혹은 정립된 이론과 관찰된 현실 사이의 ’간극(Gap)’을 명확히 정의하고 이를 극복하려는 시도라는 점에서 하나의 지적 흐름을 형성한다. 자연어 처리 분야에서는 모델의 훈련(training) 환경과 실제 추론(inference) 환경 사이의 간극이, 컴퓨터 비전 분야에서는 대규모 데이터셋의 필요성과 단일 샘플로부터의 학습 가능성 사이의 간극이 주요 화두로 떠올랐다. 또한, 로봇 공학에서는 정적인 계획(planning)과 동적인 현실(reality)의 간극을, 기계학습 이론에서는 경험적 성공과 이를 뒷받침하는 이론적 설명의 간극을 메우려는 노력이 최고의 학문적 성과로 인정받았다.

본 보고서는 총 4개의 장으로 구성된다. 제1장은 자연어 처리, 제2장은 컴퓨터 비전, 제3장은 지능형 로봇, 그리고 제4장은 기계학습 이론 분야의 핵심 성과를 각각 다룬다. 각 장은 해당 분야의 기존 패러다임에 도전하고 새로운 방향을 제시한 최우수 논문들을 중심으로, 그 기술적 깊이와 학문적 의의를 면밀히 분석한다. 이를 통해 2019년 하반기를 기점으로 AI 연구가 어떻게 심화되고 발전했는지, 그리고 그 성과가 현재의 AI 기술 지형에 어떠한 영향을 미쳤는지를 조망한다.

표 1: 2019년 하반기 주요 AI 및 로봇 학술대회 개요

학회명 (약어)전체 명칭개최 기간개최지본 보고서에서 다루는 핵심 연구 주제
ACL 2019Association for Computational Linguistics2019년 7월 28일 - 8월 2일이탈리아 피렌체신경망 기계 번역에서의 훈련-추론 간극 해소
ICCV 2019International Conference on Computer Vision2019년 10월 27일 - 11월 2일대한민국 서울단일 이미지 기반 비조건부 생성 모델 (SinGAN)
IROS 2019International Conference on Intelligent Robots and Systems2019년 11월 4일 - 8일중국 마카오동적 환경에서의 반응형 로봇 조작 계획
EMNLP 2019Empirical Methods in Natural Language Processing2019년 11월 3일 - 7일중국 홍콩정보 병목 이론 기반 단어 임베딩 특화
NeurIPS 2019Conference on Neural Information Processing Systems2019년 12월 8일 - 14일캐나다 밴쿠버딥러닝 일반화 이론 및 강건한 학습의 한계와 가능성

2. 자연어 처리의 진화 - 표현의 정제와 학습의 간극 해소

2019년 자연어 처리(NLP) 분야는 BERT와 같은 대규모 사전 훈련 언어 모델(Pre-trained Language Models, PLM)의 성공을 발판 삼아, 이를 더욱 정교하게 활용하여 표현을 ’정제(Refinement)’하거나, 기존 모델이 가진 훈련 방식의 근본적인 결함, 즉 ’간극(Gap)’을 해결하는 방향으로 연구가 심화되었다. 이 시기의 대표적인 두 연구는 각각 훈련과 추론 환경의 불일치 문제, 그리고 과업에 불필요한 정보 과잉 문제를 해결하며 NLP 분야의 기술적 성숙을 이끌었다.

2.1 훈련과 추론의 불일치 문제 해결: ACL 2019 최우수 논문 심층 분석

  • 논문: “Bridging the Gap between Training and Inference for Neural Machine Translation” 5

2.1.1 문제 정의 - 노출 편향(Exposure Bias)

신경망 기계 번역(Neural Machine Translation, NMT)과 같은 자기회귀(autoregressive) 생성 모델들은 고질적인 구조적 문제를 안고 있다. 훈련 시에는 다음 단어를 예측할 때 항상 정답(ground truth) 단어를 입력으로 받아 학습한다. 이는 모델이 안정적인 환경에서 정답 경로를 따라가도록 강제하는 ‘교사 강요(teacher forcing)’ 방식이다. 그러나 실제 추론(inference) 환경에서는 정답이 존재하지 않으므로, 모델 자신이 직전에 생성한 단어를 다음 입력으로 사용해야 한다.6

이러한 훈련과 추론 환경의 근본적인 불일치를 ’노출 편향(exposure bias)’이라 칭한다.6 모델은 훈련 과정에서 스스로의 실수에 노출될 기회가 없기 때문에, 추론 시 작은 예측 오류 하나가 발생하면 그 오류가 다음 예측에 영향을 미치고, 이것이 연쇄적으로 증폭되어 최종적으로는 완전히 잘못된 문장을 생성하게 되는 ‘오류 누적(error accumulation)’ 현상을 야기한다.6 더불어, 훈련 데이터에 제시된 단 하나의 정답 경로만을 학습하도록 강요받기 때문에, 의미적으로는 타당하지만 표현이 다른 번역 경로를 탐색할 기회를 잃고 경직된 번역 결과를 내놓는 ‘과잉 교정(overcorrection)’ 문제 또한 발생시킨다.6

2.1.2 방법론 - Oracle Word를 활용한 스케줄링

이 연구는 훈련 과정에 추론 환경을 점진적으로 모방하여 노출 편향 문제를 해결하는 혁신적인 방법을 제안했다. 핵심 아이디어는 훈련의 각 타임스텝에서 다음 입력으로 정답 단어를 사용할지, 아니면 모델이 생성할 법한 ’최적의 예측 단어(oracle word)’를 사용할지를 확률적으로 결정하는 것이다.

여기서 ’oracle word’는 단순히 모델의 확률 분포상 가장 높은 값을 갖는 단어가 아니다. 대신, 해당 단어를 선택했을 때 문장 전체의 번역 품질(예: BLEU 점수)을 최대화하는 단어를 탐색하여 선택한다.6 이는 단기적인 탐욕적(greedy) 선택을 넘어, 장기적인 보상을 고려하는 보다 정교한 접근 방식이다. 이를 위해 연구진은 단어 수준에서 탐욕적으로 oracle을 찾는 방법(Word-level Oracle)과 빔 탐색(beam search)을 통해 문장 전체 수준에서 최적의 oracle 시퀀스를 찾는 방법(Sentence-level Oracle)을 모두 제안했다.6

이러한 선택 과정을 ‘커리큘럼 학습(curriculum learning)’ 전략과 결합했다. 훈련 초기에는 모델이 아직 불안정하므로 정답 단어의 사용 비율을 높게 유지하여 안정적인 학습을 유도한다. 모델이 점차 수렴하고 성능이 향상됨에 따라, oracle word의 사용 비율을 점진적으로 높여 모델이 스스로의 예측 결과에 기반하여 다음 단어를 생성하는, 즉 추론 환경과 유사한 상황에 익숙해지도록 훈련시킨다.6

2.1.3 결과 및 의의

제안된 방법론은 RNNsearch와 같은 순환 신경망 기반 모델뿐만 아니라, 당시 최신 아키텍처였던 Transformer 모델에서도 일관되고 상당한 성능 향상을 이끌어냈다.6 이는 이 방법이 특정 모델 아키텍처에 국한되지 않는, 자기회귀 생성 모델 전반에 적용 가능한 일반적인 해결책임을 입증한 것이다. 이 연구는 NMT 분야를 넘어, 텍스트 요약, 대화 생성 등 모든 자기회귀 생성 모델이 가진 고질적인 문제인 노출 편향에 대한 실용적이고 효과적인 해결책을 제시했다. 이는 이후 GPT-3와 같은 초거대 언어 모델의 훈련 안정성과 생성 품질을 한 단계 끌어올리는 데 중요한 이론적 및 실제적 기반을 제공하는 결정적인 기여를 했다.9

2.2 정보 병목 이론을 통한 단어 임베딩의 특화: EMNLP 2019 최우수 논문 심층 분석

  • 논문: “Specializing Word Embeddings (for Parsing) by Information Bottleneck” 11

2.2.1 문제 정의 - 정보 과잉(Information Overload)

ELMo나 BERT와 같은 사전 훈련된 문맥적 임베딩은 대규모 텍스트 코퍼스로부터 학습되어, 풍부한 구문론적(syntactic) 정보와 의미론적(semantic) 정보를 모두 압축하여 담고 있다.12 이러한 풍부함이 이들 모델의 범용성을 담보하지만, 특정 하위 과업(downstream task)의 관점에서는 오히려 ‘정보 과잉’ 상태일 수 있다. 예를 들어, 문장의 구조를 분석하는 구문 분석(parsing) 과업에서는 단어의 미묘한 의미 차이보다는 문법적 역할과 관계에 대한 정보가 훨씬 중요하다. 이때 과업과 무관한 의미론적 정보는 오히려 모델 학습에 ’잡음(noise)’으로 작용하여 일반화 성능을 저해할 수 있다.

2.2.2 방법론 - 변분 정보 병목(Variational Information Bottleneck, VIB)

이 연구는 이러한 정보 과잉 문제를 해결하기 위해 정보 이론의 ‘정보 병목(Information Bottleneck, IB)’ 원리를 NLP에 적용했다. IB의 핵심 아이디어는 원본 정보원(X, 여기서는 단어 임베딩)이 가진 정보 중에서, 특정 목표 변수(Y, 여기서는 구문 분석 트리)를 예측하는 데 필수적인 정보만 남기고 나머지 불필요한 정보는 최대한 압축하여 버리는 최적의 압축 표현(T)을 찾는 것이다.12

이를 위해 다음과 같은 목적 함수를 최적화한다. 목표는 Y에 대한 예측력, 즉 상호 정보량 I(Y;T)는 최대화하면서, 동시에 원본 X에 대한 정보량, 즉 상호 정보량 I(X;T)는 최소화하는 것이다. 이 두 목표 사이의 트레이드오프는 라그랑주 승수 β를 통해 조절된다.12

\mathcal{L}_{\text{IB}} = -I(Y;T) + \beta I(X;T)
연구진은 이 원리를 변분 추론(variational inference)과 결합한 변분 정보 병목(VIB) 프레임워크를 사용하여, ELMo 임베딩을 구문 분석 과업에 맞게 특화된 이산적인 태그(discrete tag) 또는 저차원의 연속 벡터(continuous vector)로 비선형적으로 압축하는 신경망을 훈련시켰다.13

2.2.3 결과 및 의의

실험 결과는 매우 인상적이었다.

  • 이산 태그: VIB를 통해 데이터로부터 자동 생성된 태그셋은, 인간 언어학자들이 정의한 전통적인 품사(Part-of-Speech, POS) 태그보다 구문 분석 작업에서 더 높은 정확도를 보였다. 이는 VIB가 구문 분석 과업에 본질적으로 더 유용한, 새로운 형태의 ’기계적 품사’를 학습했음을 의미한다.13

  • 연속 벡터: 원본 ELMo 임베딩을 VIB로 적절히 압축했을 때, 9개 언어 중 8개에서 단순한 차원 축소(PCA 등)나 원본 임베딩을 사용했을 때보다 더 우수한 구문 분석 성능을 달성했다.13 이는 과업과 무관한 정보를 능동적으로 제거하는 것이 모델의 일반화 성능 향상에 직접적으로 기여함을 명확히 증명한 결과이다.

이 연구의 가장 큰 의의는 대규모 모델을 특정 과업에 적용하는 새로운 패러다임을 제시했다는 점에 있다. 기존의 지배적인 패러다임이 모델 전체 또는 일부를 과업 데이터로 추가 학습시키는 ’미세 조정(fine-tuning)’이었다면, 이 연구는 모델의 파라미터를 변경하는 대신 입력으로 들어가는 ‘표현(representation)’ 자체를 과업에 맞게 ’정보를 정제(information refining)’하는 접근법의 효과를 입증했다. 이 방식은 미세 조정에 비해 학습할 파라미터가 훨씬 적어 더 빠르고 효율적이며, 과적합(overfitting)의 위험이 적다는 장점을 가진다.13

결론적으로, 이 시기의 두 대표적인 NLP 연구는 서로 다른 문제를 다루었지만, 거대 모델의 시대를 맞아 그 힘을 맹목적으로 키우기보다, 그 힘을 어떻게 지능적으로 제어하고 적응시킬 것인가에 대한 고민이 학계의 중심으로 이동했음을 보여준다. 한 연구는 모델의 학습 과정을 실제 환경에 맞게 적응시켰고, 다른 연구는 모델에 입력되는 정보 표현을 특정 과업에 맞게 적응시켰다. 이는 NLP 분야가 단순히 모델의 크기를 키우는 단계를 넘어, 그 효율성과 강건성을 높이는 기술적 성숙의 단계로 진입하고 있음을 알리는 중요한 신호였다.

3. 컴퓨터 비전의 새로운 지평 - 단일 이미지로부터의 생성과 3차원 복원의 근간

2019년 컴퓨터 비전 분야는 두 개의 상이하지만 상호 보완적인 방향에서 중요한 진전을 이루었다. 한편에서는 대규모 데이터셋에 대한 의존도를 극복하려는 혁신적인 생성 모델링 기법이 등장했고, 다른 한편에서는 복잡한 3차원 세계를 이해하기 위한 기하학적 기초를 재정립하려는 근본적인 노력이 성과를 거두었다. 이 두 흐름은 각각 데이터 기반 학습의 극한과 원리 기반 기하학의 깊이를 상징하며, 당시 컴퓨터 비전 연구의 양대 축을 명확히 보여주었다.

3.1 SinGAN: 단일 이미지 기반 생성 모델의 혁명 (ICCV 2019 Marr Prize)

  • 논문: “SinGAN: Learning a Generative Model from a Single Natural Image” 14

3.1.1 문제 정의 - 데이터의 제약 극복

생성적 적대 신경망(Generative Adversarial Networks, GAN)은 수천, 수만 장의 방대한 이미지 데이터셋을 학습하여 현실과 유사한 이미지를 생성하는 데 놀라운 성공을 거두었다. 그러나 이러한 대규모 데이터셋에 대한 의존성은 의료 영상, 희귀 예술 작품, 개인화된 콘텐츠 생성 등 데이터 수집 자체가 어렵거나 불가능한 분야에 GAN을 적용하는 데 있어 근본적인 장벽으로 작용했다. SinGAN 연구는 이러한 제약을 정면으로 돌파하고자 했다. 연구의 핵심 가설은 단 한 장의 자연 이미지 내부에 존재하는 다양한 스케일의 패치(patch) 통계 정보만으로도, 해당 이미지의 본질적인 특성을 포착하는 강력한 생성 모델을 학습할 수 있다는 것이었다.18

3.1.2 방법론 - 다중 스케일 피라미드 구조

SinGAN은 단일 이미지의 복잡한 구조와 텍스처 정보를 다양한 스케일에서 효과적으로 학습하기 위해, 여러 개의 생성자(Generator)와 판별자(Discriminator)가 계층적인 피라미드 구조를 이루는 독창적인 아키텍처를 제안했다.

  • 계층적 생성 (Coarse-to-Fine Generation): 모델은 원본 이미지를 여러 단계로 다운샘플링하여 이미지 피라미드를 만든다. 가장 거친(coarsest) 해상도의 GAN은 이미지의 전역적인 구조와 형태를 학습한다. 이후 점차 미세한(finer) 해상도의 GAN으로 올라가면서, 이전 스케일에서 생성된 결과물에 세부적인 텍스처와 디테일을 점진적으로 추가하는 방식으로 최종 이미지를 완성한다.18

  • 완전 컨볼루션 구조: 각 스케일의 생성자와 판별자는 완전 컨볼루션 신경망(Fully Convolutional Network)으로 구성된다. 이 구조 덕분에 모델은 특정 이미지 크기에 종속되지 않는다. 입력 노이즈의 크기를 조절함으로써 최종적으로 생성되는 이미지의 크기와 종횡비를 사용자가 자유롭게 지정할 수 있는 유연성을 확보했다.17

  • 이중 손실 함수: 훈련 과정은 두 가지 손실 함수의 균형을 통해 이루어진다. 첫째, WGAN-GP 기반의 적대적 손실(Ladv​)은 생성된 이미지의 패치 분포가 원본 이미지의 패치 분포와 구별될 수 없도록 강제한다. 둘째, 재구성 손실(Lrec​)은 특정 노이즈 입력을 통해 원본 이미지를 완벽하게 복원할 수 있도록 보장하는 역할을 한다. 이 재구성 능력은 SinGAN이 단순한 이미지 생성을 넘어 이미지 편집, 초해상도, 스타일 변환 등 다양한 응용 작업에 활용될 수 있게 하는 핵심적인 요소이다.18
    \min_{G_n} \max_{D_n} L_{adv}(G_n, D_n) + \alpha L_{rec}(G_n)

3.1.3 결과 및 의의

SinGAN은 단 한 장의 이미지로 학습했음에도 불구하고, 원본의 시각적 정체성(구조와 질감)을 충실히 유지하면서도 객체의 배치나 형태가 새로운, 매우 다양하고 사실적인 이미지를 생성하는 데 성공했다.17 아마존 미케니컬 터크(AMT)를 통한 사용자 연구에서, 참가자들은 SinGAN이 생성한 이미지를 실제 사진과 자주 혼동하는 것으로 나타나 모델의 높은 현실성을 입증했다.18

이 연구는 ’내부 학습(internal learning)’이라는 개념을 통해, 대규모 외부 데이터셋 없이도 고품질 생성이 가능함을 보여주었다. 이는 생성 모델 연구의 패러다임을 전환시킨 기념비적인 성과로, 데이터가 부족한 전문 분야에서의 데이터 증강, 개인의 사진 한 장을 이용한 맞춤형 콘텐츠 생성 등 이전에는 불가능했던 새로운 응용 분야의 문을 활짝 열었다.

3.2 3차원 기하학의 기초 재정립: ICCV 2019 최우수 학생 논문 분석

  • 논문: “PLMP – Point-Line Minimal Problems in Complete Multi-View Visibility” 14

3.2.1 문제 정의 - 최소 문제의 체계화

3차원 재구성(3D reconstruction), 증강 현실(AR), 자율 주행 로봇의 SLAM(Simultaneous Localization and Mapping) 등 현대 컴퓨터 비전의 핵심 응용들은 기하학적 원리에 깊이 뿌리내리고 있다. 이러한 문제들은 공통적으로, 여러 시점의 카메라 영상에서 관측된 기하학적 특징(점, 선 등)들로부터 카메라의 3차원 위치와 방향(pose), 그리고 3차원 공간 구조를 추정하는 과정을 포함한다. 이 과정의 가장 기본적인 단위를 ’최소 문제(minimal problem)’라고 한다. 최소 문제는 유일한 해(finite number of solutions)를 구하기 위해 필요한 최소한의 관측값 조합을 찾는 문제이다. 예를 들어, 5개의 점 대응(point correspondences)으로부터 두 카메라의 상대적 자세를 구하는 ’5-point algorithm’이 대표적이다. 그러나 점과 선이 혼합된 일반적인 경우, 어떤 종류의 특징들을 몇 개의 시점에서 관측해야 최소 문제가 성립하는지에 대한 체계적인 분류와 이해가 부족한 상태였다.

3.2.2 방법론 및 결과

이 연구는 대수 기하학(algebraic geometry)의 도구를 사용하여, 보정된(calibrated) 카메라들로 점(point)과 선(line)의 조합을 관측하는 모든 가능한 경우의 수에 대해, 이것이 최소 문제가 되는 조건을 수학적으로 완벽하게 분류하고 증명했다.14

  • 완전한 분류: 연구 결과, 점과 선을 이용한 최소 문제는 총 30가지 유형만이 존재함을 밝혔다. 또한, 6대 이상의 카메라, 5개 이상의 점, 또는 6개 이상의 선을 사용하는 조합에서는 새로운 최소 문제가 존재하지 않음도 증명했다.

  • 난이도 정량화: 각 30개의 최소 문제에 대해, 해의 개수인 ’대수적 차수(algebraic degree)’를 계산했다. 이는 각 문제의 본질적인 계산 복잡도와 난이도를 정량화한 것으로, 어떤 문제가 실제 응용에 더 효율적으로 사용될 수 있는지를 판단하는 중요한 기준을 제공한다.14

3.2.3 의의

이 연구는 화려한 딥러닝 연구의 흐름 속에서, 컴퓨터 비전 분야의 근간을 이루는 다중 시점 기하학(multi-view geometry) 분야에 매우 중요하고 영구적인 이론적 토대를 마련했다. 이는 마치 물리학에서 기본 입자를 분류하는 것과 같은 근본적인 성과로 평가받는다. 새롭게 발견된 최소 문제들 중 일부는 기존에 알려진 문제들보다 대수적 차수가 낮아, 더 빠르고 안정적인 3D 재구성 알고리즘을 개발하는 데 직접적으로 활용될 수 있는 큰 잠재력을 가졌다. 이 연구는 딥러닝이 데이터로부터 패턴을 학습하는 데 탁월한 능력을 보이는 반면, 세상의 물리적, 기하학적 구조를 이해하고 모델링하는 데에는 여전히 엄밀한 수학적 원리가 필수적임을 상기시키는 중요한 이정표였다.

결론적으로, 2019년 ICCV의 최고상 수상작들은 컴퓨터 비전 분야의 건강한 이중성을 보여준다. SinGAN은 데이터 기반 학습의 힘을 극한까지 밀어붙여 ’하나’로부터 ’무한’을 창조하는 가능성을 보여주었고, PLMP는 수학적 원리를 통해 복잡한 현상의 근본적인 ’구조’를 밝혀냈다. 이 두 연구는 각각 학습(learning)과 원리(principle)라는 두 개의 강력한 엔진이 어떻게 컴퓨터 비전 분야의 발전을 견인하는지를 명확하게 보여주는 사례이다.

4. 지능형 로봇 시스템의 도약 - 동적 환경에서의 반응형 조작

2019년 로봇 공학 분야의 연구는 예측 불가능하고 동적으로 변화하는 실제 환경과의 상호작용 능력을 고도화하는 데 집중되었다. 특히, 정적인 실험실 환경을 벗어나 인간과 함께하는 일상 공간이나 끊임없이 변하는 물류 현장 등에서 강인하고 반응적으로 임무를 수행할 수 있는 제어 및 계획 기술 개발이 핵심 과제로 부상했다. IROS 2019의 최우수 논문은 이러한 시대적 요구에 부응하는 혁신적인 해법을 제시했다.

4.1 강인한 조작을 위한 피드백 플래너: IROS 2019 최우수 논문 심층 분석

  • 논문: “Planning Reactive Manipulation in Dynamic Environments” 19

4.1.1 문제 정의 - 동적 환경의 불확실성

전통적인 산업용 로봇은 대부분 고도로 통제되고 정적인 환경에서, 사전에 정밀하게 프로그래밍된 경로를 반복적으로 수행하는 데 특화되어 있다. 그러나 로봇이 가정, 병원, 물류 창고와 같은 비구조적이고 동적인 환경으로 진출하기 위해서는 근본적으로 다른 접근 방식이 필요하다. 이러한 환경에서는 작업 도중 사람이 나타나거나, 옮겨야 할 물체의 위치가 예기치 않게 바뀌는 등 예측 불가능한 상황이 끊임없이 발생한다.20 기존의 전역 경로 계획(global path planning) 알고리즘들은 이러한 상황 변화에 대응하기 위해 전체 계획을 다시 계산해야 하므로 실시간 반응이 거의 불가능하다. 반면, 지역적 반응 제어기(local reactive controller)들은 갑작스러운 장애물 회피 등에는 능하지만, 문을 열고 들어가 물건을 집는 것과 같은 복잡하고 장기적인 작업 순서를 고려하는 전역적인 지능을 갖추지 못했다.20

4.1.2 방법론 - 제약 기반 제어와 강화학습의 계층적 결합

이 연구는 이러한 간극을 메우기 위해, 전통적인 로봇 제어 이론과 데이터 기반의 강화학습을 계층적으로 결합하는 독창적인 피드백 플래너(feedback planner)를 제안했다. 이 구조는 각 방법론의 장점은 취하고 단점은 보완하도록 설계되었다.

  • 저수준(Low-level) 제어: 반응성과 안전 보장

‘제약 기반 모델링(constraint-based modeling)’ 기법을 사용하여 로봇의 물리적 동작과 환경과의 상호작용을 일련의 수학적 제약 조건(예: 충돌 회피, 관절 한계, 물체와의 접촉 유지)으로 기술한다. 이 제약 조건들로부터 ‘물건 집기’, ‘문 손잡이 돌리기’, ‘특정 위치로 이동하기’ 등 다양한 기본 동작을 수행하는 ‘제어기(controller)’ 라이브러리를 자동으로 생성한다. 이 제어기들은 실행되는 동안 항상 안전 제약 조건을 만족시키도록 설계되어, 실시간 반응성과 안전성을 근본적으로 보장하는 역할을 한다.20

  • 고수준(High-level) 계획: 장기적이고 전역적인 의사결정

심층 강화학습 에이전트, 구체적으로는 심층 Q-네트워크(Deep Q-Networks, DQN)가 고수준의 의사결정을 담당한다. 이 에이전트는 로봇의 현재 상태(위치, 속도 등)와 목표를 입력받아, 미리 정의된 저수준 제어기들 중 어떤 것을 다음 행동으로 선택할지를 결정한다. 즉, 강화학습 에이전트는 단기적인 안전이나 개별 동작의 성공이 아닌, 전체 작업의 성공이라는 장기적인 관점에서 최적의 ’제어기 시퀀스’를 학습한다.20

4.1.3 결과 및 의의

이러한 계층적 구조는 각 방법론의 역할을 명확히 분리함으로써 시너지를 극대화했다. 저수준 제어기는 실시간으로 물리적 제약을 처리하며 반응성과 안전을 보장하고, 고수준 강화학습 에이전트는 복잡하고 전역적인 작업 순서에 대한 의사결정에 집중할 수 있었다. 시뮬레이션 및 실제 듀얼-암 로봇을 이용한 실험에서, 제안된 방법은 기존의 단일 통합 계획 방식에 비해 동적이고 불확실한 환경에서의 작업 성공률을 극적으로 향상시켰다. 예를 들어, DUAL 벤치마크에서 기존 제약 플래너의 성공률이 11%에 불과했던 반면, 제안된 접근 방식은 99.5%의 성공률을 기록했다.20

이 연구는 전통적인 로봇 공학의 정수인 모델 기반 제어 이론과, 현대 AI의 핵심인 데이터 기반 학습을 성공적으로 결합하여 상호 보완적인 시스템을 구축했다는 점에서 큰 의의를 가진다. 이는 동적 환경에서의 로봇 조작(reactive manipulation) 문제에 대한 새로운 표준적 해법을 제시했으며, 이후 복잡한 실제 환경에서 작동하는 자율 로봇 시스템 연구에 중요한 방향성을 제공했다.25 이는 순수 모델 기반 접근법의 경직성과 순수 학습 기반 접근법의 안전성 부족이라는 양극단의 한계를 모두 극복하려는, 보다 성숙하고 실용적인 로봇 공학 연구의 흐름을 상징한다.

4.2 IROS 2019 주요 수상 연구 동향

IROS 2019의 다른 주요 수상 논문들 역시 로봇 공학의 다양한 분야에서 중요한 기술적 진전을 보여주었다.19

  • 인지 로봇(Cognitive Robotics): “RoboTurk” 연구는 크라우드소싱을 통해 인간의 추론 능력과 정교한 손재주를 모방하여 대규모 로봇 조작 데이터셋을 구축하는 새로운 플랫폼을 제시했다. 이는 데이터 기반 로봇 학습의 고질적인 문제인 고품질 데이터 부족 문제를 해결하는 창의적인 방향을 제시했다.

  • 휴머노이드(Humanoids): 동적 보행을 위한 최적화 기반 제어에 관한 연구(“Motion Decoupling and Composition…”)는 복잡한 휴머노이드 로봇의 움직임을 수학적으로 분해하고 재조합하여 안정적이고 효율적인 보행을 구현하는 방법을 제안하며, 휴머노이드의 이동 능력을 한 단계 발전시켰다.

  • 안전 및 구조 로봇(Safety, Security, and Rescue Robotics): 수직 벽면을 등반하는 다족 로봇을 위한 최적화 기반 동작 계획 연구는 극한 환경에서의 로봇 활용 가능성을 넓혔다.

이러한 연구들은 공통적으로 데이터 기반 학습, 최적화 기반 제어, 인간-로봇 상호작용, 그리고 극한 환경 극복이라는 키워드를 중심으로 진행되었다. 이는 2019년 로봇 공학계가 로봇을 더욱 지능적이고 자율적으로 만들어, 궁극적으로는 예측 불가능한 실제 세계와 안전하고 효과적으로 상호작용하도록 만드는 데 연구 역량을 집중하고 있었음을 명확히 보여준다.

5. 기계학습 이론의 근본적 고찰 - 잡음과 일반화에 대한 새로운 통찰

2019년 NeurIPS 학회는 딥러닝의 경이로운 경험적 성공의 이면에 존재하는 깊은 이론적 공백을 정면으로 파고드는 근본적인 질문들을 던졌다. 이 시기의 이론 연구는 두 가지 중요한 방향으로 요약될 수 있다. 첫째, 현실 세계의 데이터가 포함하는 예측 불가능한 ‘잡음(noise)’ 속에서 어떻게 강건한(robust) 학습이 가능한가에 대한 고전적인 질문에 새로운 해답을 제시했다. 둘째, 딥러닝의 가장 큰 미스터리, 즉 훈련 데이터보다 훨씬 많은 파라미터를 가진 모델이 어떻게 새로운 데이터에 대해 성공적으로 ’일반화(generalization)’하는가에 대한 기존의 설명 방식 자체에 근본적인 의문을 제기했다.

5.1 Massart 잡음 하에서의 강건한 학습: NeurIPS 2019 우수 논문 분석

  • 논문: “Distribution-Independent PAC Learning of Halfspaces with Massart Noise” 27

5.1.1 문제 정의 - 현실적인 잡음 모델

기계학습 모델의 신뢰성과 강건성을 이론적으로 보장하기 위해서는, 훈련 데이터에 포함될 수 있는 잡음을 어떻게 수학적으로 모델링하는지가 매우 중요하다. 가장 단순한 모델인 ’무작위 분류 잡음(Random Classification Noise, RCN)’은 모든 데이터 샘플의 레이블이 고정된 확률로 뒤집히는 것을 가정한다. 하지만 이는 현실의 잡음, 특히 악의적인 데이터 오염이나 체계적인 측정 오류 등을 충분히 반영하지 못한다.

이 연구는 훨씬 더 현실적이고 다루기 어려운 ‘Massart 잡음’ 모델에 집중했다. Massart 잡음 모델에서는 적대자(adversary)가 각 데이터 샘플을 관찰한 후, 모델에 가장 불리한 방식으로 레이블을 뒤집을지 말지를 결정할 수 있다 (단, 전체적인 잡음 비율은 특정 값 \eta를 넘지 않는다).29 이러한 강력한 적대적 잡음 환경에서, 데이터의 기저 분포에 대한 어떠한 가정도 없이(distribution-independent) 효율적으로 학습이 가능한지에 대한 문제는 계산 학습 이론(computational learning theory) 분야의 오랜 미해결 난제였다.30

방법론 및 결과

이 연구는 Massart 잡음이 존재하는 환경에서 반공간(halfspace, 선형 분류기)을 다항식 시간 내에 학습할 수 있는 최초의 효율적인 알고리즘을 제시하며 이 난제를 해결했다.29

  • 핵심 아이디어: 기존의 접근법처럼 문제 전체에 대한 단일 최적해를 찾으려는 시도 대신, 볼록 최적화(convex optimization)를 반복적으로 적용하여 데이터 공간의 특정 부분집합에서 점진적으로 신뢰할 수 있는 분류기를 찾아나가는 독창적인 전략을 사용했다. 알고리즘은 각 단계에서 분류가 확실한 데이터 영역을 식별하고, 해당 영역에 대한 분류기를 학습한 뒤, 나머지 불확실한 영역에 대해 이 과정을 반복한다.29

  • 오류 보장: 이 알고리즘은 최종적으로 \eta + \epsilon의 오분류 오류를 보장한다 (여기서 \eta는 최대 Massart 잡음 비율이고 \epsilon은 임의의 작은 양수이다). 이는 정보 이론적으로 달성 가능한 최적의 오류($OPT + \epsilon$)보다는 약하지만, 연구진은 이보다 더 나은 오류를 보장하는 것이 계산적으로 매우 어려울 수 있다는 증거를 함께 제시하여 결과의 중요성을 뒷받침했다.30

5.1.2 의의

이 연구는 딥러닝의 화려한 성공에 가려져 다소 소홀히 여겨졌던 고전적인 계산 학습 이론의 중요성을 다시 한번 부각시켰다. 특히, 적대적 공격(adversarial attack)이나 데이터 포이즈닝(data poisoning)과 같이 예측 불가능하고 악의적인 오류가 발생할 수 있는 현실 세계에서 AI 시스템의 신뢰성과 안전성을 보장하기 위한 견고한 이론적 토대를 마련했다는 점에서 큰 의미를 가진다. 이는 이상적인 환경이 아닌, 더 현실적인 제약 조건 하에서 AI의 성능을 보장하는 방향으로 이론 연구의 초점을 이동시키는 중요한 계기가 되었다.

5.2 딥러닝 일반화의 미스터리: NeurIPS 2019 우수 신방향 논문 분석

  • 논문: “Uniform convergence may be unable to explain generalization in deep learning” 27

5.2.1 문제 정의 - 이론과 현실의 깊은 괴리

딥러닝의 가장 큰 미스터리 중 하나는 ‘일반화’ 현상이다. 딥러닝 모델은 훈련 데이터의 양을 훨씬 초과하는 수백만, 수십억 개의 파라미터를 가짐에도 불구하고, 훈련 데이터를 단순히 ’암기’하는 것에 그치지 않고 한 번도 보지 못한 새로운 데이터에 대해서도 높은 예측 성능을 보인다. 고전적인 통계적 학습 이론의 핵심 도구인 ‘균일 수렴(uniform convergence)’ 원리에 기반한 일반화 경계(generalization bound)는 이러한 현상을 전혀 설명하지 못한다. 이론적으로 계산된 일반화 오차의 상한값은 실제 관찰되는 오차와는 비교할 수 없을 정도로 커서, 사실상 아무런 정보도 주지 못하는 ‘공허한(vacuous)’ 값을 예측한다.32

5.2.2 방법론 - 실험적 반증과 이론적 증명

이 연구는 기존 이론의 부적절함을 지적하는 데 그치지 않고, 균일 수렴이라는 도구 자체가 딥러닝의 일반화를 설명하는 데 근본적으로 부적합할 수 있다는 강력한 논거를 두 가지 방식으로 제시했다.

  • 실험적 반증: 연구진은 기존의 저명한 균일 수렴 기반 일반화 경계들이, 일반화 성능을 향상시키는 가장 확실한 방법인 훈련 데이터셋의 크기를 늘릴수록, 오히려 이론적인 오차 상한값이 함께 증가하는 역설적인 현상을 실험적으로 명확히 보여주었다.32 이는 해당 이론들이 현실의 일반화 메커니즘을 정반대로 설명하고 있음을 시사하는 강력한 증거가 된다.

  • 이론적 증명: 더 나아가, 연구진은 과하게 파라미터화된 선형 분류기와 신경망에 대한 간단하지만 핵심적인 예시를 구성했다. 그리고 이 예시들에서, 경사 하강법(Gradient Descent)과 같은 실제 최적화 알고리즘이 찾아내는 ‘좋은’ 해(낮은 테스트 오차를 갖는)들의 집합에 대해서만 균일 수렴을 적용하더라도, 이론적으로 계산되는 일반화 경계는 여전히 공허할 수밖에 없음을 수학적으로 증명했다.32 이는 단순히 가설 공간이 너무 커서 생기는 문제를 넘어, 알고리즘의 암묵적 편향(implicit bias)을 모두 고려하더라도 균일 수렴이라는 분석 도구 자체의 내재적 한계가 있음을 의미한다.

5.2.3 의의

이 논문은 딥러닝 일반화라는 미스터리를 풀기 위해 지난 수년간 수많은 연구자들이 매달려 온 주된 연구 방향, 즉 ’균일 수렴 기반의 경계를 어떻게든 개선하려는 시도’에 대해 근본적인 의문을 제기했다.33 이 연구는 “우리가 가진 연장이 잘못되었다면, 연장을 고칠 것이 아니라 새로운 연장을 찾아야 한다“는 메시지를 던졌다. 이는 딥러닝의 작동 원리를 진정으로 이해하기 위해 ’알고리즘 안정성(algorithmic stability)’이나 정보 이론, 동역학계 등 완전히 새로운 이론적 도구와 관점이 필요하다는 논의를 학계 전반으로 촉발시키는 계기가 되었다. 이 논문은 딥러닝 이론 연구 커뮤니티에 큰 파장을 일으키며 새로운 연구의 시대를 연 기념비적인 연구로 평가받는다.

결론적으로, 2019년 NeurIPS의 두 주요 이론 연구는 기계학습 이론 커뮤니티 내의 중요한 자성적 움직임을 보여준다. 하나는 이상적인 가정을 버리고 더 현실적인 문제(Massart 잡음)를 해결하려는 노력이었고, 다른 하나는 기존의 이론적 도구(균일 수렴)가 현실(딥러닝 일반화)을 설명하는 데 실패했음을 인정하고 새로운 길을 모색해야 한다는 주장이었다. 이는 딥러닝이라는 경험적 혁명 앞에서, 이론이 현실을 따라잡기 위해 스스로의 핵심 가정을 재검토하고 새로운 패러다임을 구축하려는 건강한 과학적 과정을 상징한다.

6. 결론: 종합 및 전망

2019년 9월을 전후로 발표된 인공지능 및 로봇 공학 분야의 주요 연구들은 각 분야가 마주한 핵심적인 ’간극’을 명확히 인식하고, 이를 극복하기 위한 창의적이고 근본적인 해결책을 모색했다는 공통점을 보여준다. 이는 AI 분야가 폭발적인 성장을 넘어 내실을 다지고 기술적 성숙을 이루는 중요한 단계로 접어들었음을 시사한다.

자연어 처리 분야에서는 훈련 과정과 실제 추론 환경 사이의 불일치라는 고질적인 간극을 메우고, 대규모 모델이 가진 방대한 정보를 특정 과업에 맞게 정제하는 기술적 성숙이 두드러졌다. 컴퓨터 비전 분야에서는 대규모 데이터셋의 한계를 뛰어넘어 단일 이미지로부터 무한한 생성을 이끌어내는 패러다임의 전환과, 3차원 세계 이해의 근간이 되는 기하학적 원리를 재정립하는 이론적 심화가 동시에 이루어졌다. 로봇 공학에서는 정적인 계획과 동적인 실제 실행 사이의 간극을 줄이기 위해 전통적인 제어 이론과 현대적인 강화학습을 결합하는 실용적인 해법이 제시되었다. 마지막으로, 기계학습 이론 분야에서는 딥러닝의 경이로운 일반화 성능과 기존 이론 사이의 깊은 간극을 직시하고, 현실적인 잡음 모델 하에서 강건성을 확보하려는 근본적인 성찰이 최고의 학문적 성과로 인정받았다.

이러한 흐름은 두 가지 중요한 특징을 내포한다. 첫째는 ’기술적 성숙’이다. BERT나 Transformer와 같은 강력한 기반 모델의 등장 이후, 연구의 초점은 단순히 더 큰 모델을 만드는 것을 넘어, 이들을 더 안정적이고 효율적이며 특정 목적에 맞게 최적화하여 사용하는 정교한 방법론으로 이동했다. 둘째는 ’이론적 성찰’이다. 특히 딥러닝의 일반화 원리를 설명하려는 기존의 이론적 도구(균일 수렴)의 한계를 명확히 지적한 연구는, 경험적 성공에만 안주하지 않고 그 근본 원리를 이해하려는 과학계의 건강한 자정 작용을 보여주었다.

본 보고서에서 심층적으로 분석한 2019년의 선도적인 연구들은 이후 AI 기술 발전에 지대한 영향을 미쳤다. NMT의 훈련 안정성 향상 기술은 GPT-3와 같은 초거대 언어 모델의 성공적인 등장을 위한 발판이 되었다. SinGAN의 ‘내부 학습’ 아이디어는 데이터 효율적인 생성 모델 및 개인화 AI 연구의 새로운 흐름을 만들었다. 동적 환경에서의 반응형 로봇 계획 기술은 자율주행차, 물류 로봇 등 실제 환경에서 작동하는 자율 시스템의 강건성을 한 단계 끌어올렸다. 그리고 딥러닝 일반화에 대한 근본적인 질문은 오늘날까지도 이어지는 딥러닝 이론의 핵심 연구 주제들을 탄생시켰다.

동시에, 이 시기는 AI 기술의 사회적 영향에 대한 논의가 본격화된 시점이기도 하다. AI 감시 기술의 전 세계적 확산에 대한 보고서가 발표되는 등 35, 기술의 발전이 윤리적, 사회적 책임에 대한 깊은 고찰과 함께 이루어져야 한다는 인식이 확산되었다. 2019년에 이루어진 이러한 다층적인 학문적, 사회적 논의들은 현재 우리가 마주하고 있는 AI 시대의 기술적, 사상적 초석을 다졌다고 평가할 수 있다.

7. 참고 자료

  1. The Best AI Events to attend in 2019 - European Super Angels Club, https://superangels.club/the-best-ai-events-to-attend-in-2019/
  2. AAAI Conference and Symposium Proceedings, https://aaai.org/aaai-publications/aaai-conference-proceedings/
  3. The Top Upcoming AI Conferences in 2019 | by Practicus AI | TDS Archive | Medium, https://medium.com/data-science/the-top-upcoming-ai-conferences-in-2019-3c3eb6f4c515
  4. Top AI Conferences in 2019 - Roberto Iriondo, https://blog.robertoiriondo.com/top-artificial-intelligence-ai-conferences-in-2019-af111e573dc3
  5. ACL 2019 | Best Papers Announced - Synced Review, https://syncedreview.com/2019/08/01/acl-2019-best-papers-announced/
  6. Bridging the Gap between Training and Inference for Neural Machine Translation - ACL Anthology, https://aclanthology.org/P19-1426.pdf
  7. Bridging the Gap between Training and Inference for Neural Machine Translation (Extended Abstract) - Semantic Scholar, https://www.semanticscholar.org/paper/Bridging-the-Gap-between-Training-and-Inference-for-Zhang-Feng/773f171388d42ea7878b00f6778c2dabd9a012b8
  8. Bridging the Gap between Training and Inference for Neural … - IJCAI, https://www.ijcai.org/proceedings/2020/0667.pdf
  9. Bridging the Gap between Training and Inference in LM-based TTS models - arXiv, https://arxiv.org/html/2509.17021v1
  10. zwhe99/SelfTraining4UNMT: [ACL 2022] Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation - GitHub, https://github.com/zwhe99/SelfTraining4UNMT
  11. The Winning Papers from the World’s Largest Natural Language Processing Conference, https://slator.com/the-winning-papers-from-the-worlds-largest-natural-language-processing-conference/
  12. Specializing Word Embeddings (for Parsing) by Information Bottleneck (Extended Abstract) - IJCAI, https://www.ijcai.org/proceedings/2020/0658.pdf
  13. Specializing Word Embeddings (for Parsing) by … - ACL Anthology, https://aclanthology.org/D19-1276.pdf
  14. ICCV 2019 Best Papers Announced - Synced Review, https://syncedreview.com/2019/10/29/iccv-2019-best-papers-announced/
  15. Google at ICCV 2019, https://research.google/blog/google-at-iccv-2019/
  16. ICCV Paper Awards - IEEE Computer Society Technical Committee on Pattern Analysis and Machine Intelligence, https://tc.computer.org/tcpami/awards/iccv-paper-awards/
  17. SinGAN: Learning a Generative Model from a Single Natural Image - Tamar Rott Shaham, https://tamarott.github.io/SinGAN.htm
  18. SinGAN: Learning a Generative Model From a … - CVF Open Access, https://openaccess.thecvf.com/content_ICCV_2019/papers/Shaham_SinGAN_Learning_a_Generative_Model_From_a_Single_Natural_Image_ICCV_2019_paper.pdf
  19. Best Paper Award - IROS 2019 - Macau, https://www.iros2019.org/awards
  20. Planning Reactive Manipulation in Dynamic Environments, http://ais.informatik.uni-freiburg.de/publications/papers/schmitt19iros.pdf
  21. Modeling and Planning Manipulation in Dynamic Environments - Autonome Intelligente Systeme, http://ais.informatik.uni-freiburg.de/publications/papers/schmitt19icra.pdf
  22. ‪Philipp Sebastian Schmitt‬ - ‪Google Scholar‬, https://scholar.google.com/citations?user=IBRP0CUAAAAJ&hl=de
  23. (PDF) Path Planning for the Robotic Manipulator in Dynamic Environments Based on a Deep Reinforcement Learning Method - ResearchGate, https://www.researchgate.net/publication/387300276_Path_Planning_for_the_Robotic_Manipulator_in_Dynamic_Environments_Based_on_a_Deep_Reinforcement_Learning_Method
  24. Dynamic Planning for Sequential Whole-body Mobile Manipulation, https://www.bigai.ai/wp-content/uploads/2024/10/Dynamic_Planning_for_Sequential_Whole-body_Mobile_Manipulation.pdf
  25. Planning Reactive Manipulation in Dynamic Environments | Request PDF - ResearchGate, https://www.researchgate.net/publication/338941990_Planning_Reactive_Manipulation_in_Dynamic_Environments
  26. Dynamic Planning for Sequential Whole-body Mobile Manipulation - arXiv, https://arxiv.org/html/2405.15377v1
  27. NeurIPS 2019 Roundup: Outstanding Papers, Featured Talks, Facts and Figures | Synced, https://syncedreview.com/2019/12/15/neurips-2019-roundup-outstanding-papers-featured-talks-facts-and-figures/
  28. NeurIPS 2019 Awards, https://neurips.cc/virtual/2019/awards_detail
  29. Distribution-Independent PAC Learning of Halfspaces with Massart …, http://papers.neurips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise.pdf
  30. Distribution-Independent PAC Learning of Halfspaces with Massart Noise - arXiv, https://arxiv.org/pdf/1906.10075
  31. NeurIPS 2019 Outstanding New Directions Paper Award w/ slides - YouTube, https://www.youtube.com/watch?v=JzwsiYfg_GA
  32. Uniform convergence may be unable to explain … - NIPS, http://papers.neurips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning.pdf
  33. Uniform convergence may be unable to explain generalization in deep learning, https://locuslab.github.io/2019-07-09-uniform-convergence/
  34. Uniform convergence may be unable to explain generalization in deep learning - arXiv, https://arxiv.org/pdf/1902.04742
  35. The Global Expansion of AI Surveillance | Carnegie Endowment for International Peace, https://carnegieendowment.org/research/2019/09/the-global-expansion-of-ai-surveillance?lang=en