년 2월 AI 및 로봇 연구 동향

년 2월 AI 및 로봇 연구 동향

1. 서론

2019년 초는 인공지능(AI) 분야에서 하나의 패러다임이 본격적으로 그 힘을 증명하기 시작한 중대한 변곡점으로 기록된다. 이 시기는 ’스케일(scale)’이 곧 ’능력(capability)’이라는 명제가 거대 언어 모델과 생성 모델을 통해 폭발적으로 발현되기 시작한 순간이었다. 2017년 발표된 트랜스포머 아키텍처의 잠재력은 단순한 이론적 가능성을 넘어, 전례 없는 규모의 데이터와 컴퓨팅 자원을 만나면서 질적인 도약을 이루었다. 그 결과, AI는 특정 작업을 수행하는 도구를 넘어, 범용적인 지능의 가능성을 내비치기 시작했다. 로봇공학 분야 역시 이러한 AI의 급격한 발전을 흡수하며, 물리적 세계와의 상호작용에 있어 지능형 자율성의 새로운 단계로 진입할 준비를 하고 있었다. 전통적인 모델 기반 제어 방식의 한계를 넘어서기 위해, 데이터 기반의 학습 방법론이 로봇의 인식, 계획, 제어 전반에 걸쳐 주류로 부상하고 있었다.

이러한 기술적 격변의 배경에는 정책적 움직임도 중요하게 작용했다. 특히 2019년 2월, 당시 미국 트럼프 행정부가 발표한 ‘미국 AI 이니셔티브(American AI Initiative)’ 행정명령 13859는 AI 기술이 더 이상 학문적 탐구의 대상이 아니라, 국가 경제와 안보를 좌우하는 핵심 전략 의제로 부상했음을 전 세계에 각인시킨 사건이었다.1 이 행정명령은 AI 연구 개발에 대한 연방 정부의 투자 확대, 데이터 및 컴퓨팅 자원의 개방, 기술 표준 수립, 인력 양성, 그리고 동맹국과의 협력 강화를 골자로 하며, 국가적 차원의 체계적인 AI 지원이 본격화되었음을 알렸다.1 이는 AI 기술 경쟁이 새로운 국면에 접어들었음을 시사하며, 학계와 산업계의 연구 개발에 강력한 동기를 부여했다.

본 보고서는 이처럼 기술적, 정책적으로 중요한 전환기였던 2019년 2월을 기점으로 발표되거나 주목받기 시작한 세 가지 핵심 AI 모델—OpenAI의 GPT-2, NVIDIA의 StyleGAN, 그리고 다중 에이전트 강화학습의 이정표가 된 MADDPG—을 심층적으로 분석한다. 각 모델의 아키텍처, 핵심 개념, 수학적 원리, 그리고 기술사적 의의를 상세히 탐구할 것이다. 나아가, 동시대 로봇공학계의 주요 산업 동향과 최고 권위 학회인 ICRA 2019에서 논의된 핵심 연구 주제들을 조망함으로써, 당시 AI와 로봇공학의 기술 지형도를 입체적으로 재구성하고, 이 시점의 혁신이 이후 기술 발전에 어떠한 유산을 남겼는지 고찰하고자 한다.

2. 생성 언어 모델의 새로운 지평 - GPT-2

2.1 발표와 단계적 공개의 의의

2019년 2월 14일, OpenAI는 “Language Models are Unsupervised Multitask Learners“라는 제목의 논문과 함께 GPT-2를 세상에 공개했다.2 이 발표는 기술적 성취만큼이나 그 공개 방식 때문에 전례 없는 파장을 일으켰다. OpenAI는 GPT-2가 생성하는 텍스트의 품질이 매우 뛰어나 악의적인 목적으로 사용될 경우(예: 가짜 뉴스 생성, 스팸, 여론 조작 등) 심각한 사회적 혼란을 야기할 수 있다는 우려를 표명하며, 훈련된 모델 전체를 즉시 공개하지 않겠다고 선언했다.2 “너무 위험해서 공개할 수 없다“는 이 메시지는 AI 기술의 발전 속도가 사회의 대응 능력을 앞지르고 있음을 시사하는 상징적인 사건으로, AI 기술의 사회적 영향과 개발자의 윤리적 책임에 대한 논의를 학계와 대중에게 본격적으로 촉발시켰다.

이러한 우려에 따라 OpenAI는 ’단계적 공개(staged release)’라는 실험적인 전략을 채택했다. 가장 먼저 가장 작은 124M 파라미터 모델을 공개하고, 이후 355M(2019년 5월), 774M(2019년 8월) 모델을 순차적으로 배포했으며, 가장 강력한 1.5B 파라미터 전체 모델은 약 9개월이 지난 2019년 11월 5일에야 최종적으로 공개되었다.2 이 단계적 접근의 목적은 AI 커뮤니티와 사회가 강력한 생성 모델의 잠재적 위험성을 연구하고, 생성된 텍스트를 탐지하는 기술을 개발하며, 대응 방안을 모색할 시간을 벌어주기 위함이었다.6 이는 기술 개발의 속도 조절과 책임 있는 AI 연구에 대한 새로운 표준을 제시하려는 시도였다.

OpenAI의 이러한 결정은 AI 커뮤니티에 즉각적인 반향을 일으켰다. 자연어 처리 분야의 주요 플랫폼인 Hugging Face와 같은 기관들은 OpenAI의 윤리적 고려를 존중하여 대형 모델의 배포를 보류하며 관련 논의에 동참했다.6 한편, 워싱턴 대학과 앨런 AI 연구소(AI2)는 GPT-2와 유사한 아키텍처를 가진 GROVER 모델을 개발하면서, 동시에 인공적으로 생성된 텍스트를 탐지하는 기술에 대한 연구를 병행하여 발표했다.6 이처럼 GPT-2의 등장은 단순히 새로운 모델의 발표를 넘어, 모델 개발자뿐만 아니라 학계 전반에 AI 안전성(AI Safety)과 윤리 연구의 중요성을 각인시키는 결정적인 계기가 되었다.

2.2 아키텍처 심층 분석: Decoder-Only 트랜스포머

GPT-2의 아키텍처는 Vaswani 등이 2017년 발표한 기념비적인 논문 “Attention Is All You Need“에서 제안된 트랜스포머(Transformer) 구조에 깊이 뿌리를 두고 있다.2 트랜스포머는 순환 신경망(RNN)이나 컨볼루션 신경망(CNN) 없이 오직 ‘어텐션(attention)’ 메커니즘만으로 시퀀스 데이터의 의존 관계를 모델링하는 혁신적인 구조였다. GPT-2는 이 트랜스포머의 전체 구조, 즉 인코더-디코더 구조 중에서 디코더 부분만을 활용하는 ‘Decoder-Only’ 아키텍처를 채택했다.9 이는 기계 번역과 같이 입력 시퀀스 전체를 이해한 후 출력 시퀀스를 생성하는 작업과 달리, 주어진 이전 단어들을 바탕으로 다음 단어를 예측하는 언어 모델링(language modeling)의 자기회귀적(auto-regressive) 특성에 더 최적화된 선택이었다.

구조적으로 GPT-2는 이전 모델인 GPT-1의 직접적인 확장판으로 설계되었다. 가장 큰 차이는 모델의 규모에 있었다. GPT-2는 GPT-1에 비해 10배 이상의 파라미터와 10배 이상의 데이터로 훈련되어, 스케일이 모델의 성능에 미치는 영향을 극명하게 보여주었다.2 아키텍처에는 몇 가지 미세한 그러나 중요한 수정이 가해졌다. 대표적으로, 기존 트랜스포머 구조에서는 각 서브 블록(어텐션, 피드포워드 신경망)의 출력단에 적용되던 Layer Normalization의 위치를 입력단으로 옮기는 ‘사전 정규화(Pre-normalization)’ 방식을 채택했다.8 또한, 마지막 self-attention 블록 이후에 추가적인 Layer Normalization을 적용했다.10 이러한 변화는 훈련 과정에서의 그래디언트 흐름을 안정시켜 더 깊은 네트워크를 효과적으로 훈련할 수 있게 만들었다.8

GPT-2 아키텍처의 핵심 연산은 다중 헤드 어텐션(Multi-Head Attention) 메커니즘이다. 이는 단일 어텐션 함수를 사용하는 대신, 여러 개의 어텐션 ’헤드’를 병렬적으로 사용하여 입력 시퀀스의 서로 다른 표현 부분 공간(representation subspace)으로부터 정보를 동시에 학습할 수 있도록 한다. 이 메커니즘의 수학적 원리는 다음과 같이 정의된다.12

각 어텐션 헤드는 ’Scaled Dot-Product Attention’을 계산한다. 입력은 Query(Q), Key(K), Value(V) 행렬로 구성되며, 어텐션 출력은 Value의 가중 합으로 계산된다. 이때 가중치는 Query와 Key의 내적 유사도(dot-product similarity)를 기반으로 결정된다.
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
여기서 d_k는 Key 벡터의 차원으로, 내적 값이 너무 커지는 것을 방지하여 softmax 함수의 그래디언트 소실 문제를 완화하는 스케일링 팩터 역할을 한다.

다중 헤드 어텐션은 h개의 독립적인 어텐션 헤드를 병렬로 수행한 후, 각 헤드의 출력 결과를 연결(concatenate)하고, 마지막으로 학습 가능한 선형 변환(W^O)을 적용하여 최종 출력값을 생성한다.
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O
이때 각 헤드 \text{head}_i는 다음과 같이 계산된다.
\text{where head}_i = \text{Attention}(QW^Q_i, KW^K_i, VW^V_i)
여기서 W^Q_i \in \mathbb{R}^{d_{\text{model}} \times d_k}, W^K_i \in \mathbb{R}^{d_{\text{model}} \times d_k}, W^V_i \in \mathbb{R}^{d_{\text{model}} \times d_v}는 각 헤드에 대한 학습 가능한 투영(projection) 행렬이다. 이 구조를 통해 모델은 “The robot was tired so it shut down.“과 같은 문장에서 대명사 ’it’이 ’the robot’을 지칭한다는 것과 같은 장거리 의존 관계(long-range dependency)를 효과적으로 포착하고 학습할 수 있다.9

2.3 핵심 개념: 비지도 다중작업 학습과 제로샷 전이

GPT-2가 제시한 가장 중요한 개념적 기여는 논문의 제목 “Language Models are Unsupervised Multitask Learners(언어 모델은 비지도 다중작업 학습자다)“에 명확히 드러난다.3 이는 하나의 거대한 언어 모델이 특정 작업에 대한 명시적인 지도 학습(supervised learning)이나 레이블링된 데이터 없이도, 오직 방대한 텍스트 데이터로부터 다음 단어를 예측하는 비지도 학습(unsupervised learning) 과정만으로 다양한 자연어 처리(NLP) 작업을 수행하는 능력을 갖추게 된다는 혁신적인 아이디어였다.14 이전까지의 NLP 패러다임이 각 작업별로 특화된 모델을 별도의 데이터셋으로 파인튜닝하는 방식에 의존했던 것과 근본적으로 다른 접근법을 제시한 것이다.

이러한 ‘비지도 다중작업 학습’ 능력의 원천은 훈련에 사용된 데이터셋 ’WebText’에 있다.4 OpenAI는 기존의 웹 스크래핑 데이터셋인 Common Crawl 등이 데이터 품질 문제를 안고 있다고 판단하고, 새로운 고품질 데이터셋을 직접 구축했다.15 WebText는 소셜 뉴스 웹사이트 Reddit에서 3개 이상의 ’카르마(karma)’를 받은 게시물의 외부 링크를 추적하여 해당 웹페이지의 텍스트를 수집하는 방식으로 만들어졌다. 이는 인간이 흥미롭다고 판단한 콘텐츠를 일종의 필터로 활용한 것으로, 약 800만 개의 문서와 40GB에 달하는 방대하고 다양한 텍스트로 구성되었다.4 이 데이터셋에는 뉴스 기사, 블로그, 포럼, 소설 등 다양한 주제와 형식의 자연스러운 언어 사용 예시가 풍부하게 포함되어 있어, 모델이 번역, 요약, 질의응답과 같은 다양한 작업을 ’자연 발생적 시연(naturally occurring demonstrations)’의 형태로 접하고 학습하게 만드는 기반이 되었다.3

WebText를 통해 비지도 학습을 마친 GPT-2는 별도의 모델 구조 변경이나 파인튜닝 없이, 입력 프롬프트(prompt)를 통해 작업을 지시받는 것만으로 새로운 작업을 수행하는 ‘제로샷(Zero-Shot) 태스크 전이’ 능력을 선보였다.3 제로샷 학습은 모델이 훈련 과정에서 전혀 보지 못한 작업을 수행하는 것을 의미한다. GPT-2는 이 능력을 통해 언어 모델의 일반화 가능성을 한 단계 끌어올렸다. 예를 들어, 번역 작업을 수행시키기 위해 모델에게 “translate to french, english text, french text“와 같은 형식의 예시를 몇 개 보여준 뒤, “english sentence =“라는 프롬프트를 입력하면 모델이 스스로 번역 작업을 수행하는 식이다.8 이는 모델이 단순히 패턴을 암기하는 것을 넘어, 주어진 데이터에 내재된 패턴으로부터 작업의 본질과 형식을 추론하고 그에 맞춰 출력을 생성하는 능력을 갖추었음을 시사한다. 이 접근법은 이후 퓨샷(Few-Shot) 학습과 프롬프트 엔지니어링(Prompt Engineering)이라는 새로운 연구 분야의 기틀을 마련했다.

2.4 성능 평가 및 영향

GPT-2의 성능은 두 가지 측면에서 평가되었다. 첫째, 언어 모델링 자체의 성능이다. GPT-2는 제로샷(zero-shot) 설정, 즉 특정 데이터셋에 대한 파인튜닝 없이 사전 훈련된 상태 그대로 평가되었을 때, 당시 존재하던 8개의 언어 모델링 벤치마크 데이터셋 중 7개에서 최고 성능(State-Of-The-Art, SOTA)을 달성했다.3 이는 대규모 모델과 방대한 고품질 데이터가 언어 자체의 통계적, 의미적 구조에 대한 깊은 이해를 가능하게 함을 정량적으로 입증한 결과였다.

둘째, 다양한 다운스트림(downstream) NLP 작업에 대한 제로샷 성능이다. 대화형 질의응답 데이터셋인 CoQA(Conversational Question Answering)에서 GPT-2는 127,000개 이상의 훈련 예제를 전혀 사용하지 않았음에도 불구하고, 당시 존재하던 4개의 베이스라인 시스템 중 3개를 능가하는 F1 점수를 기록했다.3 이는 모델이 별도의 지도 없이도 복잡한 추론 작업을 수행할 수 있는 잠재력을 가지고 있음을 보여주었다. 텍스트 요약, 기계 번역, 독해 등 다른 작업에서도 유의미한 가능성을 보였으나, 모든 작업에서 당시의 SOTA 모델 성능에 도달하지는 못했다.8 그러나 중요한 것은 파인튜닝 없이도 일정 수준의 성능을 달성했다는 사실 그 자체였다.

특히 GPT-2 연구에서 가장 중요한 발견 중 하나는 ’스케일’의 중요성이었다. OpenAI는 124M, 355M, 774M, 1.5B 등 다양한 크기의 모델을 훈련하고 평가했는데, 모델의 파라미터 수가 증가함에 따라 다양한 제로샷 작업에서의 성능이 일관되게, 그리고 로그-선형(log-linear)적인 추세를 보이며 향상된다는 점을 발견했다.3 이는 단순히 모델을 크게 만드는 것만으로도 새로운 능력이 ’창발(emerge)’할 수 있음을 시사하는 강력한 증거였다. 이 발견은 이후 AI 연구 커뮤니티에서 ’스케일링 법칙(Scaling Laws)’이라는 이름으로 정립되었으며, 더 큰 모델과 더 많은 데이터를 향한 경쟁을 촉발하는 이론적 기반이 되었다.

GPT-2가 남긴 영향은 지대하다. 기술적으로는 거대 언어 모델(Large Language Model, LLM) 시대의 본격적인 서막을 열었으며, 제로샷 및 퓨샷 학습 패러다임을 NLP 연구의 중심으로 가져왔다. 이는 GPT-3와 같은 더욱 강력한 후속 모델 개발의 직접적인 토대가 되었다. 더 나아가, GPT-2의 단계적 공개 전략은 AI 기술의 잠재적 위험성과 사회적 책임을 기술 개발의 핵심 고려사항으로 부상시키는 데 결정적인 역할을 했다. 이로 인해 AI 안전성, 윤리, 그리고 거버넌스에 대한 논의가 학계와 산업계 전반으로 확산되는 중요한 전환점이 마련되었다.

이러한 기술적 성취의 이면에는 2019년 이전 NLP 연구 패러다임의 근본적인 전환이 자리 잡고 있다. 당시 지배적이었던 접근법은 특정 NLP 작업, 예를 들어 감성 분석이나 개체명 인식 등을 위해 특별히 설계된 모델 아키텍처를 해당 작업에 맞게 레이블링된 데이터로 미세 조정(fine-tuning)하는 것이었다. 이 방식은 각 작업마다 별도의 데이터셋 구축과 파인튜닝 과정이 필요해 막대한 비용과 시간이 소요되었으며, 모델이 학습한 작업 외의 다른 작업에 대해서는 일반화 능력이 현저히 떨어지는 한계를 지녔다.3

OpenAI는 이러한 한계를 극복하기 위해 근본적인 가설을 세웠다. 즉, 충분히 거대한 모델과, 다양하고 방대한 양의 자연스러운 텍스트 데이터가 주어진다면, 모델이 언어 자체의 근본적인 통계적, 문법적, 의미적 구조를 학습할 수 있을 것이며, 이를 바탕으로 명시적인 훈련 없이도 다양한 작업을 ’추론’하여 수행할 수 있을 것이라는 가정이었다.3 GPT-2는 이 가설을 실험적으로 증명한 결과물이다. WebText라는 자연스러운 데이터셋에서 ’다음 단어 예측’이라는 단순한 비지도 목표만으로 훈련되었음에도 불구하고, 번역, 요약, 질의응답과 같은 복잡한 작업을 제로샷으로 수행할 수 있음을 보였다.3 이는 모델이 데이터 내에 암시적으로 포함된 수많은 ’작업 예시’들을 스스로 학습하고 내재화했음을 의미한다.

이러한 성공은 AI 연구의 방향성을 ’특화된 모델 아키텍처 설계’에서 ’범용적인 기반 모델(foundation model) 구축’으로 전환시키는 결정적인 계기가 되었다. GPT-2는 모델의 ’능력’이 아키텍처의 독창성뿐만 아니라, 파라미터의 ’규모’와 데이터의 ’질과 양’이라는 물리적 요소에 의해 크게 좌우될 수 있음을 명확히 보여주었다. 이로 인해 이후의 AI 연구는 더 많은 컴퓨팅 자원과 더 나은 데이터를 확보하기 위한 경쟁으로 치달았으며, 이는 GPT-3, ChatGPT, 그리고 그 이후의 LLM 개발 경쟁으로 이어지는 직접적인 원동력이 되었다. 아래 표는 GPT-2 모델 제품군의 규모 확장을 명확히 보여준다.

Table 1: GPT-2 모델별 파라미터 및 아키텍처

모델 (Model)파라미터 (Parameters)레이어 수 (n_layers)임베딩 차원 (d_model)
GPT-2 Small124M (1.24억)12768
GPT-2 Medium355M (3.55억)241024
GPT-2 Large774M (7.74억)361280
GPT-2 XL1.5B (15억)481600

3. 사실적 이미지 생성의 도약 - StyleGAN

3.1 NVIDIA의 코드 공개와 그 파급 효과

2018년 12월, NVIDIA 연구진이 “A Style-Based Generator Architecture for Generative Adversarial Networks“라는 논문을 통해 StyleGAN을 처음 소개했을 때, 그 결과물은 학계에 큰 충격을 주었다. 그리고 2019년 2월 18일, NVIDIA는 이 혁신적인 모델의 공식 TensorFlow 구현 코드와 사전 훈련된 모델, 그리고 훈련에 사용된 고품질 데이터셋을 모두 공개하며 생성 모델 연구의 새로운 장을 열었다.17 이러한 전면적인 공개 정책은 연구자들이 즉시 최고 수준의 생성 모델을 직접 실험하고, 그 구조를 분석하며, 이를 기반으로 새로운 아이디어를 신속하게 구축할 수 있는 비옥한 토양을 제공했다. 이는 생성적 적대 신경망(GAN) 연구의 진입 장벽을 낮추고, 전 세계적인 연구 개발을 폭발적으로 가속화하는 기폭제가 되었다.

특히 코드와 함께 공개된 FFHQ(Flickr-Faces-HQ) 데이터셋은 StyleGAN의 성공에 결정적인 역할을 했다. 이 데이터셋은 연령, 인종, 배경 등에서 높은 다양성을 갖춘 70,000개의 고품질(1024x1024 해상도) 인물 이미지로 구성되어 있다.17 이전의 CelebA-HQ와 같은 데이터셋에 비해 품질과 다양성 면에서 월등했던 FFHQ는 고해상도 얼굴 이미지 생성 연구의 새로운 표준 벤치마크로 빠르게 자리 잡았다. 이처럼 잘 정제된 대규모 고품질 데이터셋의 공개는 모델의 성능을 극한까지 끌어올리는 데 필수적이었으며, 데이터의 질이 모델의 질을 결정한다는 사실을 다시 한번 입증했다.

3.2 스타일 기반 생성자 아키텍처 해부

StyleGAN의 가장 큰 혁신은 생성자(Generator) 네트워크의 아키텍처를 완전히 재설계한 데 있다. 기존의 GAN 아키텍처는 일반적으로 무작위 잠재 벡터(latent vector) z를 생성자의 첫 번째 레이어에 직접 입력으로 주입하여 이미지 생성을 시작했다. 하지만 이 방식은 잠재 벡터의 각 차원이 이미지의 여러 속성(예: 머리 모양, 얼굴 각도, 조명)에 복잡하게 얽히는 ‘얽힘(entanglement)’ 문제를 야기했다. StyleGAN은 이 문제를 해결하기 위해 근본적으로 다른 접근법을 취했다. 이미지 생성은 학습된 고정 상수(a learned 4x4x512 constant tensor)에서 시작하며, 잠재 벡터는 이미지의 내용이 아닌 ’스타일’을 제어하는 데에만 사용된다.20

이 구조의 핵심에는 두 개의 주요 네트워크가 있다. 첫 번째는 매핑 네트워크(Mapping Network) f이다. 8계층의 다층 퍼셉트론(MLP)으로 구성된 이 네트워크는, 표준 정규분포에서 샘플링된 512차원의 입력 잠재 벡터 z \in Z를 비선형적으로 변환하여, 데이터 분포의 비선형성을 더 잘 반영하도록 학습된 중간 잠재 공간(intermediate latent space) W의 벡터 w로 매핑한다.21 이 과정은 Z 공간에 존재할 수밖에 없는 왜곡을 완화하고, W 공간의 벡터들이 이미지의 의미론적으로 독립적인 속성들을 제어하도록 유도하여 ’풀어짐(disentanglement)’을 달성하는 데 핵심적인 역할을 한다.

두 번째는 실제 이미지를 생성하는 합성 네트워크(Synthesis Network) g이다. 이 네트워크는 이전 연구인 Progressive GAN의 구조를 계승하여, 4x4의 낮은 해상도에서 시작해 점진적으로 해상도를 1024x1024까지 높여나간다.20 각 해상도 블록은 업샘플링, 컨볼루션 연산, 그리고 StyleGAN의 또 다른 핵심 기술인 적응형 인스턴스 정규화(AdaIN) 연산으로 구성된다.22 매핑 네트워크에서 생성된 중간 잠재 벡터 w는 이 합성 네트워크의 각 블록에 스타일 정보로서 주입되어, 이미지의 다양한 수준의 특징들을 제어하게 된다.

3.3 핵심 기술: 적응형 인스턴스 정규화 (AdaIN)

StyleGAN이 이미지의 스타일을 정교하게 제어할 수 있는 비결은 **적응형 인스턴스 정규화(Adaptive Instance Normalization, AdaIN)**에 있다. 매핑 네트워크를 통해 생성된 중간 잠재 벡터 w는 각 컨볼루션 레이어마다 별도의 학습된 아핀 변환(affine transformation)을 거쳐 ‘스타일’ 벡터 y = (y_s, y_b)로 변환된다.21 여기서 y_s는 스케일(scale)을, y_b는 바이어스(bias)를 나타낸다. 이 스타일 벡터는 합성 네트워크의 각 컨볼루션 레이어 이후에 적용되는 AdaIN 연산을 직접 제어한다.

AdaIN의 수학적 공식은 다음과 같다.18
\text{AdaIN}(x_i, y) = y_{s,i} \frac{x_i - \mu(x_i)}{\sigma(x_i)} + y_{b,i}
이 수식에서 x_i는 이전 컨볼루션 레이어의 출력인 각 피처 맵(feature map)을 의미한다. AdaIN 연산은 먼저 각 피처 맵 x_i를 그 자체의 평균(\mu(x_i))과 표준편차(\sigma(x_i))를 이용해 개별적으로 정규화한다(평균 0, 분산 1). 그 후, 스타일 벡터 y로부터 얻은 스케일 성분 y_{s,i}와 바이어스 성분 y_{b,i}를 각각 곱하고 더해준다.

이 연산은 두 가지 중요한 효과를 낳는다. 첫째, 각 피처 맵의 통계적 속성(평균과 분산)을 스타일 벡터가 완전히 결정하게 되므로, w에 담긴 스타일 정보가 이미지의 시각적 특징으로 효과적으로 변환된다. 둘째, 인스턴스 정규화는 이전 레이어의 스타일 정보를 지우고 새로운 스타일 정보로 덮어쓰는 효과가 있어, 각 해상도 수준에서 주입되는 스타일이 해당 수준의 특징에만 국소적으로(localized) 영향을 미치도록 한다.21 예를 들어, 저해상도 블록에 주입된 스타일은 얼굴의 자세, 형태와 같은 거시적 특징을 제어하고, 고해상도 블록에 주입된 스타일은 머리카락 색상, 피부 질감과 같은 미시적 특징을 제어하게 된다.20

3.4 생성 품질 및 제어 가능성의 혁신

StyleGAN은 당시 이미지 생성 품질의 표준 척도였던 FID(Fréchet Inception Distance) 점수에서 SOTA 성능을 달성하며 기술적 우수성을 입증했다. 논문에서는 Progressive GAN을 베이스라인으로 시작하여, 매핑 네트워크, AdaIN, 노이즈 주입 등 각 아키텍처 개선 사항을 단계적으로 추가하며 FID 점수의 변화를 측정하는 제거 연구(ablation study) 결과를 제시했다. FFHQ 데이터셋에서 최종 모델(F)은 4.40이라는 당시로서는 경이적인 FID 점수를 기록하여, 제안된 각 구성 요소가 이미지 품질 향상에 체계적으로 기여했음을 명확히 보여주었다.

Table 2: StyleGAN FID 점수 비교

구성 (Configuration)변경 사항 (Description)FFHQ FID
A기준 Progressive GAN (Baseline Progressive GAN)8.04
B+ 튜닝 및 Bilinear 샘플링 (+ Tuning & Bilinear sampling)5.25
C+ 매핑 네트워크와 스타일 (+ Mapping network and styles)4.85
D- 전통적 입력 제거 (- Remove traditional input)4.88
E+ 노이즈 입력 추가 (+ Add noise inputs)4.42
F+ 믹싱 정규화 (+ Mixing regularization)4.40

StyleGAN의 진정한 혁신은 단순히 사실적인 이미지를 생성하는 것을 넘어, 생성 과정을 정교하게 제어할 수 있는 새로운 방법을 제시했다는 점이다. 대표적인 기법이 **스타일 믹싱(Style Mixing)**이다. 이는 훈련 중에 두 개의 다른 잠재 벡터 z_1, z_2에서 생성된 중간 잠재 벡터 w_1, w_2를 합성 네트워크의 특정 지점에서 교차하여 적용하는 정규화 기법이다.24 예를 들어, 저해상도(coarse, 4x4-8x8) 레이어에서는 w_1의 스타일을, 고해상도(fine, 64x64-1024x1024) 레이어에서는 w_2의 스타일을 적용할 수 있다. 그 결과, w_1이 가진 인물의 얼굴 구조와 자세에 w_2가 가진 인물의 머리카락 색상과 피부 질감을 조합한 새로운 이미지를 생성할 수 있다.21 이는 StyleGAN의 잠재 공간이 의미론적으로 잘 분리(disentangled)되어 있음을 보여주는 강력한 증거이다.

또 다른 제어 기법은 **노이즈 주입(Noise Injection)**이다. 합성 네트워크의 각 컨볼루션 블록에 학습된 스케일링 팩터와 함께 가우시안 노이즈를 직접 주입하여, 머리카락 가닥의 미세한 뻗침, 주근깨의 분포, 피부 모공과 같은 확률적 변이(stochastic variation)를 제어한다.17 이는 동일한 잠재 벡터 w를 사용하더라도 매번 미세한 디테일이 다른 다양한 이미지를 생성할 수 있게 하여, 생성된 이미지의 다양성과 사실성을 크게 향상시킨다.

StyleGAN의 진정한 혁신은 단순히 더 사실적인 이미지를 생성한 것을 넘어, 생성 과정 자체를 ‘제어 가능한 합성(controllable synthesis)’ 과정으로 재정의했다는 데 있다. 이는 GAN을 예측 불가능한 ’블랙박스’에서 사용자가 의도를 가지고 조작할 수 있는 ’창작 도구’로 전환시키는 중요한 철학적 변화였다. 기존 GAN의 근본적인 한계는 잠재 벡터 z의 각 차원이 이미지의 여러 속성(자세, 정체성, 조명 등)에 복잡하게 얽혀 있어(entangled), 특정 속성 하나만을 독립적으로 변경하기가 매우 어렵다는 점이었다.21

StyleGAN은 이 ‘얽힘’ 문제를 두 단계의 아키텍처 설계를 통해 영리하게 해결했다. 첫째, 매핑 네트워크를 도입하여 얽혀 있는 초기 잠재 공간 Z를 학습을 통해 ‘풀어헤쳐진’ 중간 잠재 공간 W로 변환했다. 둘째, AdaIN 메커니즘을 통해 W 공간의 벡터 w에 담긴 스타일 정보를 합성 네트워크의 각 해상도 수준에 국소적으로 주입했다.21 이로 인해 저해상도 레이어는 자세와 얼굴 형태 같은 ’거시적 스타일’을, 고해상도 레이어는 색상과 미세 질감 같은 ’미시적 스타일’을 독립적으로 제어하는 계층적 제어 구조가 자연스럽게 형성되었다.20

스타일 믹싱 기법은 이러한 제어 가능성을 명확하게 시연하는 대표적인 예시다. 서로 다른 w 벡터에서 파생된 스타일을 다른 레이어 그룹에 주입함으로써, 사용자는 마치 포토샵의 레이어를 다루듯 이미지의 여러 의미론적 속성을 직관적으로 조합할 수 있게 되었다.24 이 ’제어 가능성’의 확보는 GAN의 응용 범위를 폭발적으로 확장시키는 계기가 되었다. 단순한 이미지 생성을 넘어, 생성된 이미지를 다시 잠재 공간으로 되돌려 편집하는 GAN Inversion, 한 도메인의 이미지를 다른 스타일로 변환하는 도메인 적응(Domain Adaptation) 등 다양한 후속 연구의 기반이 되었다. 이는 디지털 아트, 가상현실 아바타 생성, 데이터 증강과 같은 산업적 응용의 문을 활짝 열었으며, 동시에 더욱 정교하고 제어하기 쉬워진 딥페이크 기술의 발전이라는 윤리적 문제를 수면 위로 끌어올리는 계기가 되기도 했다.

4. 다중 에이전트 강화학습의 진화 - MADDPG

4.1 다중 에이전트 환경의 도전 과제

단일 에이전트 강화학습(Reinforcement Learning, RL)이 괄목할 만한 성공을 거두는 동안, 다수의 자율적 에이전트가 상호작용하는 다중 에이전트 시스템(Multi-Agent System, MAS)은 훨씬 더 복잡하고 어려운 도전 과제들을 안고 있었다. 그중 가장 근본적인 문제는 **비정상성(Non-stationarity)**이다. 다중 에이전트 환경에서 특정 에이전트의 관점에서 볼 때, 다른 에이전트들 역시 각자의 정책을 학습하며 계속해서 변화시킨다. 이로 인해 환경의 동역학(dynamics)이 고정되어 있지 않고 끊임없이 변하는 것처럼 보이게 된다.26 이는 환경이 마르코프 결정 과정(Markov Decision Process, MDP)을 따른다는 단일 에이전트 RL의 핵심 가정을 위배하며, Q-러닝과 같은 전통적인 알고리즘의 수렴을 방해하고 학습을 극도로 불안정하게 만드는 주된 원인이 된다.

또 다른 주요 난제는 **부분적 관찰 가능성(Partial Observability)**이다. 실제 세계의 많은 시나리오에서 에이전트는 환경의 전체 상태(global state)를 알 수 없으며, 자신의 제한된 센서를 통해 얻는 부분적인 정보(local observation)만을 바탕으로 의사결정을 내려야 한다.26 이는 최적의 행동을 결정하기 위해 과거의 관찰 기록을 기억하고 추론해야 하는 추가적인 부담을 안겨준다. 이 외에도 에이전트의 수가 증가함에 따라 상태-행동 공간이 기하급수적으로 커지는 확장성(scalability) 문제, 여러 작업이 동시에 주어졌을 때 보상이 큰 특정 작업에만 집중하게 되는 산만한 딜레마(distraction dilemma), 그리고 에이전트 간의 효과적인 협력을 위한 통신 문제 등 다중 에이전트 시스템은 단일 에이전트 시스템에 비해 본질적으로 더 복잡하고 다층적인 문제들을 내포하고 있다.26

4.2 MADDPG 알고리즘: 중앙 집중식 훈련과 분산 실행

Multi-Agent Deep Deterministic Policy Gradient(MADDPG) 알고리즘은 이러한 다중 에이전트 환경의 난제, 특히 비정상성 문제를 해결하기 위해 제시된 혁신적인 프레임워크다. MADDPG의 핵심 철학은 **‘중앙 집중식 훈련과 분산 실행(Centralized Training with Decentralized Execution)’**이라는 패러다임에 있다.26

훈련 단계에서는 시뮬레이터와 같이 모든 에이전트의 정보에 접근할 수 있는 중앙 집중적인 환경을 가정한다. 이 단계에서 각 에이전트의 가치 함수를 평가하는 Critic 네트워크는 자신의 관찰과 행동뿐만 아니라, 다른 모든 에이전트의 관찰과 행동 정보까지 추가적으로 입력받는다.29 이 ‘전지적’ 정보를 통해 Critic은 다른 에이전트들의 정책 변화를 포함한 환경의 전체 동역학을 더 안정적으로 학습할 수 있으며, 이는 비정상성 문제를 효과적으로 완화시킨다.

반면, 훈련이 완료된 후 실제 환경에서 임무를 수행하는 실행 단계에서는 중앙 집중적인 정보 교환이 불가능하거나 비효율적일 수 있다. MADDPG는 이러한 현실을 반영하여, 실행 시에는 각 에이전트의 정책을 결정하는 Actor 네트워크가 오직 자신의 지역적 관찰(local observation)만을 사용하여 독립적으로 행동을 결정하도록 설계되었다.26 훈련 과정에서만 사용되었던 Critic은 실행 단계에서는 필요하지 않다. 이처럼 훈련과 실행 단계에서 사용하는 정보의 수준을 다르게 설계함으로써, MADDPG는 중앙 집중식 학습의 안정성과 분산 실행의 실용성을 동시에 달성했다.

4.3 Actor-Critic 프레임워크의 수학적 원리

MADDPG는 연속적인 행동 공간(continuous action space)을 다루기 위해 개발된 단일 에이전트 알고리즘인 DDPG(Deep Deterministic Policy Gradient)를 다중 에이전트 환경으로 자연스럽게 확장한 것이다.29 DDPG와 마찬가지로 MADDPG 역시 Actor-Critic 구조를 따른다. Actor는 현재 상태에서 어떤 행동을 할지 결정하는 정책(policy) 네트워크이고, Critic은 그 행동이 얼마나 좋은지 평가하는 가치(value) 네트워크이다.

N개의 에이전트가 존재하는 환경에서, 에이전트 i중앙 집중식 Critic Q_i^{\mu}(\mathbf{x}, a_1, \dots, a_N)는 모든 에이전트의 상태 정보 \mathbf{x} = (o_1, \dots, o_N)와 모든 에이전트의 행동 (a_1, \dots, a_N)을 입력으로 받는다. 이 Critic은 다음의 손실 함수 L(\theta_i)를 최소화하는 방향으로 업데이트된다. 이는 예측된 Q값과 타겟 Q값 사이의 평균 제곱 오차(MSE)를 줄이는 과정이다.32
L(\theta_i) = \mathbb{E}_{\mathbf{x},\mathbf{a},r,\mathbf{x}'}\left[(Q_i^{\mu}(\mathbf{x}, a_1, \dots, a_N) - y)^2\right]
여기서 타겟 값 y는 벨만 방정식에 따라 다음과 같이 계산된다.
y = r_i + \gamma Q_i^{\mu'}\left(\mathbf{x}', a'_1, \dots, a'_N\right)\vert_{a'_j=\mu'_j(\mathbf{o}'_j)}
이 식에서 r_i는 에이전트 i가 받은 보상, \gamma는 할인 계수(discount factor)이며, \mu'Q_i^{\mu'}는 학습 안정성을 위해 파라미터를 주기적으로 느리게 업데이트하는 타겟 네트워크(target network)를 의미한다.

한편, 에이전트 i분산 Actor \mu_i는 결정론적 정책(deterministic policy)을 사용하며, 오직 자신의 지역적 관찰 o_i만을 입력받아 행동 a_i를 출력한다. Actor는 중앙 집중식 Critic이 계산한 Q값을 이용해 보상을 최대화하는 방향으로 업데이트된다. 이는 결정론적 정책 경사(Deterministic Policy Gradient) 정리에 따라 다음과 같은 그래디언트를 통해 이루어진다.30
\nabla_{\theta_i}J(\mu_i) = \mathbb{E}_{\mathbf{x},\mathbf{a}\sim\mathcal{D}}[\nabla_{\theta_i}\mu_i(a_i\vert\mathbf{o}_i)\nabla_{a_i}Q_i^{\mu}(\mathbf{x}, a_1, \dots, a_N)\vert_{a_i=\mu_i(\mathbf{o}_i)}]
이 수식의 의미는 명확하다. Actor(\mu_i)는 자신의 정책을 미세하게 변화시켰을 때 Critic(Q_i^{\mu})의 평가가 가장 가파르게 상승하는 방향으로 파라미터 \theta_i를 조정한다. 이 과정은 경험 리플레이 버퍼 \mathcal{D}에서 샘플링된 데이터를 통해 수행된다.

4.4 협력-경쟁 환경에서의 적용 및 전망

MADDPG의 중요한 장점 중 하나는 그 범용성에 있다. 이 알고리즘은 모든 에이전트가 공동의 목표를 위해 협력하는 환경, 서로의 이익을 위해 경쟁하는 환경, 혹은 일부는 협력하고 일부는 경쟁하는 복합적인 시나리오 모두에 효과적으로 적용될 수 있다.29 각 에이전트는 자신만의 개별적인 보상 함수를 가질 수 있으며, 중앙 집중식 Critic은 이러한 복잡한 상호작용 속에서 각자의 행동이 전체 시스템에 미치는 영향을 학습하여 안정적인 정책 수렴을 유도한다.

이러한 특성 덕분에 MADDPG와 같은 다중 에이전트 딥 강화학습(Multi-Agent Deep Reinforcement Learning, MADRL) 기술은 광범위한 응용 분야에 적용될 잠재력을 가진다. 멀티플레이어 온라인 게임의 AI 봇, 생산 공장의 협동 로봇 군집, 도시 교통 신호 제어 시스템, 그리고 자율 무인기 편대 비행과 같은 군사 시스템 등 다수의 지능적 주체가 상호작용하는 모든 문제에 해결의 실마리를 제공할 수 있다.26

MADDPG의 성공은 MADRL 분야의 후속 연구에 큰 영감을 주었다. 예를 들어, 에이전트 간의 중요도를 동적으로 판단하기 위해 어텐션 메커니즘을 결합한 ATT-MADDPG 35, 부분적 관찰 가능성 문제를 해결하기 위해 순환 신경망(RNN)을 결합한 RMADDPG 28 등 다양한 확장 연구가 등장하며 MADRL 분야의 기술적 지평을 넓히는 데 기여했다.

MADDPG의 핵심적인 돌파구는 ’훈련’과 ‘실행’ 단계에서 의도적으로 정보의 비대칭성을 설계하여 다중 에이전트 학습의 고질적인 난제인 비정상성 문제를 효과적으로 우회했다는 점이다. 이는 훈련 중에는 각 에이전트의 Critic에게 마치 ’전지적 시점(God’s-eye view)’을 허용하여 안정적인 가치 학습을 유도하고, 실제 필드에서의 실행 시점에는 각 에이전트가 자신의 제한된 시야(local observation)만으로 행동하게 만드는 영리한 전략으로 비유할 수 있다.

이 전략의 배경에는 비정상성 문제의 근본 원인에 대한 깊은 통찰이 있다. 에이전트 A가 학습하는 동안, 다른 에이전트 B와 C도 동시에 학습하며 정책을 바꾼다. A의 입장에서는 동일한 행동을 해도 환경의 반응(보상 및 상태 전이)이 계속 달라지므로, 학습 목표가 끊임없이 흔들리는 것과 같다.26 이는 마치 움직이는 과녁을 맞추려는 것과 같아 학습이 수렴하기 어렵다. 각 에이전트가 독립적으로 DDPG와 같은 알고리즘을 수행하면 이 문제를 해결할 수 없다. 왜냐하면 각자의 경험 리플레이 버퍼에 저장된 과거의 데이터 (s, a, r, s')가 다른 에이전트들의 정책이 변함에 따라 더 이상 유효하지 않게 되기 때문이다.33

MADDPG는 이 문제를 Actor와 Critic의 역할을 명확히 분리하여 해결한다. Actor는 행동을 결정하는 주체로서, 분산 실행을 위해 지역 정보만 사용한다. 반면, Critic은 훈련 과정에서만 사용되는 일종의 ’보조 학습 장치’로서, 모든 에이전트의 행동과 상태를 관찰할 수 있다. Critic의 가치 함수 Q_i(x, a_1,..., a_N)는 모든 에이전트의 행동 a_1,..., a_N을 입력으로 받기 때문에, 다른 에이전트들의 정책 변화를 명시적으로 조건화(condition on)할 수 있다. 따라서 Critic의 관점에서 환경은 안정적(stationary)으로 유지되며, 안정된 가치 추정을 바탕으로 Actor에게 일관된 학습 신호를 제공할 수 있게 된다.30

이 ‘Centralized Training, Decentralized Execution’ 패러다임은 이론적 우아함과 실용적 효용성을 모두 갖춘 해결책으로, 이후 다중 에이전트 강화학습 연구의 표준적인 접근법 중 하나로 확고히 자리 잡았다. 이 접근법은 에이전트 간의 명시적인 통신 채널 없이도 암묵적인 협력과 경쟁 전략을 학습할 수 있는 길을 열었으며, 복잡한 상호작용이 필수적인 로보틱스, 자율주행, 경제 시뮬레이션 등 다양한 분야로 MADRL의 적용 가능성을 크게 확장시키는 중요한 계기가 되었다.

5. 2019년 로봇공학 동향 및 주요 학회 조망

5.1 산업 동향: 로봇 밀도와 시장 변화

2019년은 글로벌 로봇 산업의 지형에 미묘하지만 중요한 변화가 감지된 해였다. 국제로봇연맹(IFR)이 발표한 2019년 보고서에 따르면, 제조업 근로자 1만 명당 운영되는 산업용 로봇의 대수를 의미하는 ’로봇 밀도(robot density)’에서 싱가포르가 831대를 기록하며, 오랫동안 1위를 지켜온 대한민국(774대)을 제치고 세계 1위 국가로 부상했다.36 이는 싱가포르가 고령화와 노동력 부족 문제에 대응하기 위해 전통적인 서비스 로봇 분야를 넘어, 제조업을 포함한 산업계 전반에 걸쳐 로봇 도입을 매우 공격적으로 추진하고 있음을 보여주는 지표였다. 그 뒤를 이어 독일(338대), 일본(327대) 등이 상위권을 차지했다.36

한편, 당시 격화되던 미중 무역 분쟁은 세계 최대의 산업용 로봇 시장인 중국에 직접적인 타격을 주었다. 중국 정부의 ‘로봇 굴기’ 정책에 힘입어 급성장하던 중국 로봇 산업은 최대 수요처인 자동차 산업의 위축과 맞물려 성장세가 둔화되는 국면을 맞았다.36 2018년 중국의 산업용 로봇 판매량은 전년 대비 3.6% 감소했으며, 이러한 침체 기조는 2019년 상반기까지 이어져 중국산 산업 로봇 누적 판매량이 전년 동기 대비 13.6% 감소하는 결과를 낳았다.36 이러한 중국 시장의 침체는 중국에 대한 수출 의존도가 높았던 일본의 로봇 산업에도 연쇄적인 영향을 미쳐, 2019년 일본의 산업용 로봇 수주액이 감소할 것으로 전망되었다.36 이는 글로벌 공급망과 지정학적 리스크가 로봇 산업에 미치는 영향을 명확히 보여준 사례였다.

5.2 ICRA 2019 주요 연구 주제 분석

2019년 5월, 캐나다 몬트리올에서 개최된 IEEE International Conference on Robotics and Automation(ICRA)은 로봇공학 분야의 최고 권위 학회로서, 당시 학계의 연구 최전선을 가늠할 수 있는 중요한 장이었다.37 4,000명 이상이 참석한 이 학회에서 발표된 논문과 워크숍 주제들은 당시 로봇공학계의 핵심적인 관심사와 기술적 흐름을 명확히 보여주었다.

다중 에이전트 시스템 및 분산 제어: 다수의 로봇이 서로 충돌을 회피하며 공동의 목표를 효율적으로 달성하기 위한 연구가 활발히 진행되었다. 특히 분산 모델 예측 제어(Distributed Model Predictive Control, DMPC)를 기반으로 한 다중 에이전트 궤적 생성 알고리즘은 수십 대의 쿼드콥터가 빠르고 안전하게 이동하는 시연을 통해 큰 주목을 받았다.39 이는 MADDPG와 같은 다중 에이전트 강화학습 연구와 맥을 같이하며, 로봇 시스템의 규모와 복잡성이 점차 증가하고 있음을 시사했다.

학습 기반 자율 항법 및 인식: AI, 특히 딥러닝과 강화학습을 로봇의 자율 항법(autonomous navigation)에 적용하려는 시도가 두드러졌다. 불확실성이 높은 미지의 환경에서 강건하게 항법하는 기술, 과거의 경험을 활용하여 새로운 환경에 빠르게 적응하는 기술, 그리고 AutoRL과 같은 자동화된 학습 프레임워크를 통해 최적의 항법 정책을 찾는 연구 등이 주요 주제로 다루어졌다.40 이는 전통적인 SLAM(Simultaneous Localization and Mapping)과 경로 계획 알고리즘에 데이터 기반 학습 방법론을 결합하려는 패러다임의 전환을 보여주었다.

인식 기반 조작(Perception-Based Manipulation): 로봇이 시각, 촉각 등 다양한 센서 정보를 실시간으로 해석하여 복잡하고 비정형적인 환경에서 물체를 정교하게 조작하는 기술은 로봇공학의 오랜 난제 중 하나다. ICRA 2019에서는 이러한 문제를 해결하기 위한 학습 기반 접근법이 활발히 논의되었으며, 특히 다양한 하드웨어 플랫폼에서 알고리즘의 성능을 공정하게 평가하고 재현성을 높이기 위한 표준화된 벤치마킹 플랫폼의 필요성이 강하게 제기되어 관련 워크숍이 개최되었다.42

소프트 로보틱스 및 생체모방 로봇: 기존의 딱딱한(rigid) 로봇과 달리, 유연한 소재를 사용하여 안전성과 적응성을 높이는 소프트 로보틱스 분야도 큰 관심을 끌었다. 특히, 강성 부재(strut)와 인장 부재(cable)의 조합으로 안정적인 구조를 이루는 텐세그리티(Tensegrity) 구조를 활용한 로봇 연구가 주목받았다.43 텐세그리티는 가벼우면서도 강하고, 유연한 움직임이 가능하여 차세대 소프트 로봇, 모듈형 로봇, 생체모방 로봇 연구에 새로운 가능성을 제시했다.

수중 로보틱스(Underwater Robotics): 접근이 어려운 심해 탐사 및 자원 개발의 중요성이 커지면서 수중 로봇 연구 또한 활발하게 진행되었다. 특히 빛이 부족하고 부유물이 많아 시야가 제한적인 수중 환경에서 강건한 인식(robust perception) 기술을 확보하는 것이 핵심적인 도전 과제로 논의되었다.44 이는 수중 로봇이 외부의 개입 없이 자율적으로 임무를 수행하고 예상치 못한 상황에 대응하기 위한 필수적인 기술이다.

5.3 주목할 만한 연구 및 미래 방향성

ICRA 2019에서는 수많은 우수한 연구들이 발표되었지만, 그중에서도 Kavraki 그룹의 연구는 학계의 큰 주목을 받았다. “Efficient Symbolic Reactive Synthesis for Finite-Horizon Tasks“라는 제목의 이 논문은 인지 로보틱스(Cognitive Robotics) 부문 최우수 논문상을 수상했다.45 이 연구는 인간과 로봇이 협력하여 조립 작업을 수행하는 시나리오를 다루었다. 핵심 아이디어는, 인간이 예측 가능한 모든 행동(심지어 비협조적인 행동까지 포함)에 대해 로봇이 반드시 주어진 임무를 완수할 수 있도록 보장하는 ’필승 전략(winning strategy)’을 사전에 효율적으로 계산하는 방법을 제안한 것이다. 특히, 이 연구는 컴퓨터 과학의 형식 검증(formal methods) 분야에서 사용되는 이진 결정 다이어그램(Binary Decision Diagrams, BDDs)이라는 데이터 구조를 활용하여, 복잡한 상호작용 문제를 기호적으로(symbolically) 표현하고 해결함으로써 계산 효율성을 기하급수적으로 향상시켰다.45 이는 로봇공학과 형식 검증이라는 두 분야를 성공적으로 융합하여 로봇의 안전성과 신뢰성을 보장하는 새로운 접근법을 제시했다는 점에서 높은 평가를 받았다.

한편, ICRA 2019에서는 기술적 성과 발표를 넘어, 로봇공학 학계의 미래 방향성에 대한 깊이 있는 자기 성찰의 장이 마련되기도 했다. “로봇 연구의 미래에 대한 토론(Debates on the Future of Robotics Research)” 세션에서는 “ICRA와 같은 대형 학회가 너무 광범위한 주제를 다루어 의미 있는 담론 형성을 저해하는가?”, 그리고 “로봇 연구에서 딥러닝의 편재가 문제에 대한 과학적 통찰을 얻는 데 장애물이 되는가?“와 같은 도발적인 주제들이 논의되었다.46 이는 로봇공학이 AI, 컴퓨터 과학, 기계 공학 등 여러 분야와 빠르게 융합하면서 겪는 정체성의 고민과, 한편으로는 성숙해가는 학문 분야로서의 건강한 비판적 고찰을 보여주는 중요한 순간이었다.

2019년의 로봇공학계는 AI, 특히 딥러닝과의 관계를 재정립하는 중요한 기로에 서 있었다. 한편으로는 AI 기술을 적극적으로 수용하여 비정형 환경에서의 인식, 조작, 항법과 같은 기존의 난제를 해결하려는 폭발적인 움직임이 있었고, 다른 한편으로는 딥러닝의 ’블랙박스’적인 특성이 물리적 세계와 직접 상호작용하는 로봇 시스템의 안전성과 해석 가능성에 미치는 영향에 대한 깊은 우려와 성찰이 공존했다.

이러한 양면성은 ICRA 2019의 구성에서 명확히 드러났다. 플래너리 연사로 Yoshua Bengio, Raquel Urtasun과 같은 딥러닝 분야의 세계적인 거두가 초청된 것은 로봇공학계가 AI 기술을 얼마나 중요하게 여기고 있는지를 상징적으로 보여준다.47 학회의 주요 세션들은 학습 기반 항법 41, 인식 기반 조작 42 등 AI 기술이 로봇공학의 핵심 문제에 깊숙이 침투했음을 명확히 증명했다. 이는 전통적인 모델 기반(model-based) 접근법의 한계를 데이터 기반(data-driven) 접근법으로 돌파하려는 강력한 시대적 흐름을 반영하는 것이었다.

동시에, “딥러닝의 편재가 과학적 통찰을 저해하는가?“라는 주제가 공식 토론 세션에서 다루어졌다는 사실은 매우 의미심장하다.46 이는 로봇공학 커뮤니티가 딥러닝을 단순한 ’만능 도구’로 받아들이는 것을 넘어, 그것이 로봇 연구의 본질과 방법론에 미치는 영향에 대해 비판적으로 고찰하고 있었음을 보여준다. 로봇은 가상 세계가 아닌 물리 세계에서 작동하기에, 예측 불가능성과 해석 불가능성은 단순한 성능 저하가 아닌, 인간의 안전과 직결되는 심각한 문제로 이어진다.

이러한 두 흐름, 즉 AI 기술의 적극적 수용과 비판적 성찰의 이상적인 결합은 최우수 논문상 수상작에서 잘 나타난다.45 이 연구는 복잡한 인간-로봇 상호작용 문제를 다루면서도, 딥러닝이 아닌 형식 검증(formal methods)이라는 ‘해석 가능하고’ ‘안전성이 보증 가능한(guaranteed)’ 접근법을 사용했다. 이는 AI의 강력한 문제 해결 능력을 추구하되, 로봇 시스템에 필수적인 ’신뢰성’과 ’안전성’이라는 가치를 결코 포기하지 않으려는 노력을 대표한다.

결론적으로 2019년은 로봇공학이 ’AI를 활용하는 단계’를 넘어 ’AI와 어떻게 공존하고 통합할 것인가’를 깊이 고민하는 성숙 단계로 진입했음을 보여주는 해였다. 이 시점의 고민들은 이후 설명 가능한 AI(XAI) in Robotics, 안전 강건한 학습(Safe and Robust Learning), 그리고 신경망의 패턴 인식 능력과 기호주의의 논리적 추론 능력을 결합하려는 신경-기호주의(Neuro-symbolic) 로봇 제어와 같은 중요한 연구 분야의 발전을 촉진하는 지적 토양이 되었다.

6. 결론

2019년 2월은 인공지능과 로봇공학의 역사에서 중요한 이정표로 기록될 만한 시기였다. 이 시기를 전후하여 발표된 연구들은 각 분야의 기술적 지평을 넓혔을 뿐만 아니라, 이후 수년간의 연구 개발 방향성을 결정짓는 근본적인 패러다임의 변화를 예고했다.

AI 분야에서 GPT-2와 StyleGAN의 등장은 ’대규모 비지도 모델’의 시대가 본격적으로 개막했음을 알렸다. GPT-2는 방대한 텍스트 데이터와 거대한 트랜스포머 아키텍처의 결합이 명시적인 지도 없이도 다양한 언어 과업을 수행할 수 있는 범용적인 능력을 낳는다는 것을 증명했다. 이는 ’스케일링 법칙’의 가능성을 시사하며, 이후 기반 모델(Foundation Model) 경쟁의 서막을 열었다. 동시에, OpenAI의 단계적 공개 전략은 AI 기술의 잠재적 위험성과 사회적 책임에 대한 논의를 기술 개발의 중심부로 가져오는 결정적인 계기가 되었다. StyleGAN은 생성 모델을 단순한 ’이미지 생성기’에서 ’제어 가능한 창작 도구’로 격상시켰다. 매핑 네트워크와 AdaIN을 통한 정교한 스타일 제어는 GAN의 ’블랙박스’적인 한계를 극복하고, 이미지 편집, 도메인 적응 등 새로운 응용 분야를 개척하는 길을 열었다.

강화학습 분야에서는 MADDPG와 같은 알고리즘이 복잡한 다중 에이전트 환경의 고질적인 문제인 비정상성을 해결하기 위한 견고한 프레임워크를 제시했다. ‘중앙 집중식 훈련, 분산 실행’ 패러다임은 이론적 우아함과 실용성을 겸비한 해결책으로, 이후 다중 에이전트 강화학습 연구의 표준적인 접근법 중 하나로 자리 잡았다.

로봇공학계는 이러한 AI의 폭발적인 발전을 적극적으로 수용하며, 지능형 자율 시스템의 구현에 박차를 가했다. ICRA 2019에서 나타난 바와 같이, 학습 기반 인식, 계획, 제어는 더 이상 변방의 연구 주제가 아닌, 로봇공학의 핵심 문제를 해결하기 위한 주류 방법론으로 부상했다. 동시에, 로봇공학 커뮤니티는 AI 기술의 신뢰성, 안전성, 해석 가능성에 대한 근본적인 고민을 시작하며, 기술의 맹목적인 수용을 넘어 비판적인 통합을 모색하는 성숙한 모습을 보여주었다.

종합적으로 평가할 때, 2019년 2월에 뿌려진 기술적, 개념적 씨앗들은 이후 AI와 로봇공학의 지형을 근본적으로 바꾸는 거대한 흐름으로 발전했다. 대규모 모델의 시대, AI 윤리와 안전성에 대한 심도 있는 고찰, 그리고 AI와 로봇공학의 심층적인 융합이라는 오늘날의 주요 트렌드는 모두 이 시기에 그 중요한 기원을 두고 있다고 해도 과언이 아니다. 이 시기의 혁신과 고민은 앞으로 다가올 지능형 시스템의 미래를 이해하는 데 있어 필수적인 역사적 맥락을 제공한다.

7. 참고 자료

  1. Artificial Intelligence for the American People - Trump White House Archives, https://trumpwhitehouse.archives.gov/ai/
  2. GPT-2 - Wikipedia, https://en.wikipedia.org/wiki/GPT-2
  3. Language Models are Unsupervised Multitask Learners | OpenAI, https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
  4. Better language models and their implications - OpenAI, https://openai.com/index/better-language-models/
  5. nov 5, 2019 - OpenAI’s GPT-2 Full Release (Timeline) - Time.Graphics, https://time.graphics/event/8496483
  6. GPT-2: 6-month follow-up - OpenAI, https://openai.com/index/gpt-2-6-month-follow-up/
  7. GPT-2: 1.5B release - OpenAI, https://openai.com/index/gpt-2-1-5b-release/
  8. Introduction to GPT-1 and GPT-2 - DebuggerCafe, https://debuggercafe.com/introduction-to-gpt-1-and-gpt-2/
  9. The Illustrated GPT-2 (Visualizing Transformer Language Models) - Jay Alammar, https://jalammar.github.io/illustrated-gpt2/
  10. GPT-1, GPT-2, GPT-3, InstructGPT / ChatGPT and GPT-4 summary - pydata: Huiming’s learning notes, https://songhuiming.github.io/pages/2023/05/28/gpt-1-gpt-2-gpt-3-instructgpt-chatgpt-and-gpt-4-summary/
  11. GPT models explained. Open AI’s GPT-1,GPT-2,GPT-3 | Walmart Global Tech Blog - Medium, https://medium.com/walmartglobaltech/the-journey-of-open-ai-gpt-models-32d95b7b7fb2
  12. Attention Is All You Need, https://arxiv.org/abs/1706.03762
  13. Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
  14. [PDF] Language Models are Unsupervised Multitask Learners | Semantic Scholar, https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe
  15. Language Models are Unsupervised Multitask Learners (GPT-2) | Fan Pu Zeng, https://fanpu.io/summaries/2023-08-10-language-models-are-unsupervised-multitask-learners/
  16. openai-community/gpt2 - Hugging Face, https://huggingface.co/openai-community/gpt2
  17. The StyleGAN Code Released: Neural Network for Faces …, https://neurohive.io/en/state-of-the-art/stylegan-code-released/
  18. NVlabs/stylegan - Official TensorFlow Implementation - GitHub, https://github.com/NVlabs/stylegan
  19. StyleGAN versions - NVlabs, https://nvlabs.github.io/stylegan2/versions.html
  20. StyleGAN - Style Generative Adversarial Networks - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/stylegan-style-generative-adversarial-networks/
  21. StyleGAN: In depth explaination | Towards AI, https://towardsai.net/p/l/stylegan-in-depth-explaination
  22. StyleGAN: A Gentle Introduction. Generative Adversarial Networks have… - AI Mind, https://pub.aimind.so/stylegan-a-step-by-step-introduction-ff995c99a884
  23. A jittor version of StyleGAN - GitHub, https://github.com/jsnln/stylegan-jittor
  24. Understanding StyleGAN1 - Paperspace Blog, https://blog.paperspace.com/understanding-stylegan/
  25. A Style-Based Generator Architecture for Generative Adversarial Networks - The VITALab website, https://vitalab.github.io/article/2019/01/21/StyleGAN.html
  26. Deep Reinforcement Learning for Multi-Agent Systems: A Review of …, https://arxiv.org/pdf/1812.11794
  27. A Survey of Multi-Task Deep Reinforcement Learning - MDPI, https://www.mdpi.com/2079-9292/9/9/1363
  28. Graph MADDPG with RNN for multiagent cooperative environment - Frontiers, https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2023.1185169/pdf
  29. Deep Deterministic Policy Gradient Family — MARLlib v1.0.0 documentation, https://marllib.readthedocs.io/en/latest/algorithm/ddpg_family.html
  30. Deep Reinforcement Learning in Continuous Multi Agent Environments - Rohan Sawhney, http://www.rohansawhney.io/multi-agent-rl.pdf
  31. A Policy Gradient Algorithm to Alleviate the Multi-Agent Value Overestimation Problem in Complex Environments - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC10708657/
  32. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive …, https://arxiv.org/abs/1706.02275
  33. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments - arXiv, https://arxiv.org/pdf/1706.02275
  34. philtabor/Multi-Agent-Deep-Deterministic-Policy-Gradients - GitHub, https://github.com/philtabor/Multi-Agent-Deep-Deterministic-Policy-Gradients
  35. Modelling the Dynamic Joint Policy of Teammates with Attention Multi-agent DDPG - arXiv, https://arxiv.org/abs/1811.07029
  36. [로봇신문 선정] ’2019 해외 10대 로봇뉴스, https://www.irobotnews.com/news/articleView.html?idxno=19183
  37. ICRA 2019 : IEEE International Conference on Robotics and Automation - Accepted Papers, Deadline, Impact Factor & Score 2025 | Research.com, https://research.com/conference/icra-2019-3
  38. ICRA 2019 : IEEE International Conference on Robotics and Automation - Accepted Papers, Deadline, Impact Factor & Score 2025 | Research.com, https://research.com/conference/icra-2019-2
  39. ICRA 2019 | Dynamic Systems Lab | Prof. Angela Schoellig, https://www.dynsyslab.org/icra-2019/
  40. International Conference on Robotics and Automation, ICRA 2019, Montreal, QC, Canada, May 20-24, 2019 - researchr publication, https://researchr.org/publication/icra-2019
  41. ICRA Workshop | LSAF - GitHub Pages, https://uav-learning-icra.github.io/2019/
  42. icra19_workshop - Chair of Robotics and Systems Intelligence, https://www.ce.cit.tum.de/en/rsi/icra19-workshop/
  43. ICRA 2019 – Tensegrity Workshop 2022 - Muse - Union, https://muse.union.edu/tensegrity/icra-2019/
  44. Workshop IEEE – ICRA 2019 - Institute of Marine Engineering - Cnr-Inm, https://www.inm.cnr.it/2019/04/12/workshop-ieee-icra-2019-in-canada/
  45. Kavraki Group wins best paper award at ICRA 2019 | Computer …, https://csweb.rice.edu/news/kavraki-group-wins-best-paper-award-icra-2019
  46. Where Do We Go From Here? Debates on the Future of Robotics Research at ICRA 2019 [From the Field] - ResearchGate, https://www.researchgate.net/publication/335641913_Where_Do_We_Go_From_Here_Debates_on_the_Future_of_Robotics_Research_at_ICRA_2019_From_the_Field
  47. The 2019 International Conference on Robotics and Automation (ICRA) - Seita’s Place, https://danieltakeshi.github.io/2019/06/02/icra/