년 5월 AI 및 로봇공학 주요 연구 동향

년 5월 AI 및 로봇공학 주요 연구 동향

1. 서론: 2022년 5월, AI 및 로봇공학의 변곡점

1.1 2022년 초의 기술적 배경

2022년은 인공지능(AI) 기술이 연구 단계를 넘어 산업 전반에 걸쳐 실질적인 가치를 창출하며 그 채택이 가속화되던 시기였다. McKinsey의 보고서에 따르면, 기업들이 비즈니스 프로세스나 제품에 내재화하여 사용하는 평균적인 AI 역량의 수는 2018년 1.9개에서 2022년 3.8개로 두 배 이상 증가했다.1 이러한 역량에는 컴퓨터 비전, 자연어 텍스트 이해, 자연어 생성 등이 포함되며, 이는 AI가 더 이상 일부 기술 선도 기업의 전유물이 아닌, 보편적인 비즈니스 도구로 자리 잡고 있음을 명확히 보여준다. 특히 자연어 텍스트 이해 기술은 2018년에는 중간 순위에 머물렀으나 2022년에는 컴퓨터 비전 바로 다음으로 가장 널리 채택되는 기술로 부상하며, 언어 기반 AI의 중요성이 급격히 커지고 있음을 시사했다.1

이러한 양적 팽창과 더불어, 기술 발전의 방향성 또한 다각화되고 있었다. Gartner가 발표한 2022년 AI 하이프 사이클(Hype Cycle)은 당시의 기술 혁신을 네 가지 주요 범주로 분류했다: 데이터 중심 AI(Data-centric AI), 모델 중심 AI(Model-centric AI), 애플리케이션 중심 AI(Applications-centric AI), 그리고 인간 중심 AI(Human-centric AI).2 이는 AI 연구가 단순히 모델의 성능, 즉 정확도를 높이는 ’모델 중심’적 관점을 넘어, 고품질 데이터를 확보하고 관리하는 ’데이터 중심’적 접근, 실제 비즈니스 문제 해결에 초점을 맞추는 ’애플리케이션 중심’적 접근, 그리고 AI의 신뢰성, 위험 관리, 윤리를 다루는 ’인간 중심’적 접근으로 확장되고 있었음을 의미한다. 특히 인과관계 AI(Causal AI), 생성 AI(Generative AI), 책임 AI(Responsible AI)와 같은 개념들이 중요한 혁신 동력으로 부상하며, AI 기술의 성숙도가 한 단계 높아지고 있었음을 보여주었다.2

로봇공학 분야 역시 중대한 전환점을 맞이하고 있었다. COVID-19 팬데믹으로 촉발된 전 세계적인 노동력 부족 현상과 공급망의 불안정성은 자동화 기술 도입의 강력한 촉매제로 작용했다.3 국제로봇연맹(IFR)은 2022년 로봇 산업의 5대 트렌드 중 하나로 ’새로운 산업 분야로의 로봇 채택 확산’을 꼽았다.3 과거 자동화와 거리가 멀었던 전자상거래, 물류, 건설, 농업, 소매 및 요식업과 같은 분야에서 로봇 도입이 급증하기 시작했다. 이는 로봇이 전통적인 제조 공장을 넘어 인간의 일상과 더 밀접한 서비스 영역으로 확장되고 있음을 나타내는 중요한 신호였다. 또한, 아이콘 기반 프로그래밍이나 수동 가이드와 같은 사용자 친화적인 인터페이스의 발전은 로봇 도입의 복잡성을 낮추어 중소기업의 접근성을 높이는 데 기여했다.3

1.2 2022년 5월의 중요성: 생성 AI와 물리적 지능의 동시적 약진

본 보고서는 2022년 5월이라는 특정 시점을 AI 및 로봇공학 역사에서 중요한 변곡점으로 규정한다. 이 시기는 단순히 시간의 흐름 속 한 달이 아니라, 두 개의 거대한 기술적 흐름이 각자의 영역에서 임계점을 돌파하며 미래 기술 지형의 근본적인 변화를 예고한 시점이기 때문이다. 첫 번째 흐름은 Google I/O 2022를 통해 세상에 그 모습을 드러낸 대규모 언어 모델(LLM)과 텍스트-이미지 생성 모델의 폭발적인 발전이다. 두 번째 흐름은 시뮬레이션 기술과 적응형 제어 알고리즘의 발전에 힘입어, 로봇이 복잡하고 예측 불가능한 현실 세계와 상호작용하는 능력, 즉 물리적 지능(physical intelligence)이 한 단계 도약한 것이다.

2022년 5월에 발표된 연구들은 이후 같은 해 11월 ChatGPT의 등장으로 촉발된 전 세계적인 생성 AI 붐의 기술적, 사상적 토대를 마련했다.5 동시에, 로봇공학이 정형화된 환경에서의 ’단순 반복 작업’이라는 기존의 패러다임을 넘어, 비정형 환경에서 변화에 실시간으로 적응하며 임무를 수행하는 ’인지적, 적응적 작업’으로 나아가는 방향성을 명확하게 제시했다.

더 깊이 분석해 보면, 2022년 5월은 AI 연구의 두 가지 핵심 축, 즉 ’디지털 세계의 창조(생성 AI)’와 ’물리적 세계와의 상호작용(로봇공학)’이 표면적으로는 서로 다른 문제에 집중하면서도, 근본적으로는 동일한 기술적 기반에 의존하고 있음을 명백히 보여준 시점이다. Google의 Imagen과 PaLM은 인터넷 규모의 방대한 텍스트 및 이미지 데이터셋을 기반으로 학습된 거대 모델이다.6 마찬가지로, NVIDIA의 Factory나 버클리 대학의 A-RMA는 강화학습을 통해 고충실도 시뮬레이션 환경에서 생성된 수많은 시행착오 데이터로부터 최적의 행동 정책을 학습한다.8 두 접근 방식 모두 ’대규모 데이터’와 이를 처리하기 위한 ’막대한 계산(compute)’을 핵심 동력으로 삼는다. Imagen은 웹 데이터에서 시각적 개념과 언어적 묘사 사이의 복잡한 연관성을 학습하고, 로봇은 시뮬레이션에서 생성된 방대한 물리적 상호작용 데이터로부터 안정적이고 효율적인 운동 제어 법칙을 학습한다.

이러한 방법론적 수렴은 ’지능’이라는 추상적 개념을 구현하기 위한 경로가 디지털 영역과 물리적 영역에서 점차 하나로 모이고 있음을 시사한다. 이는 단순히 두 분야가 각자 발전하는 것을 넘어, 미래에는 두 분야가 서로 융합하여 더 큰 시너지를 창출할 가능성을 강력하게 예고하는 것이다. 예를 들어, 언어 모델이 인간의 자연어 명령을 이해하여 로봇이 수행할 고수준의 작업 계획을 수립하고 11, 로봇이 물리적 세계와 상호작용하며 수집한 데이터가 다시 언어 모델의 상식 추론(commonsense reasoning) 능력을 향상시키는 선순환 구조의 등장을 기대하게 만든다. 따라서 2022년 5월은 이러한 융합의 서막을 연, 기술사적으로 매우 중요한 시점이라 평가할 수 있다.

2. 인공지능: 생성 모델과 대규모 언어 모델의 도약

2022년 5월은 인공지능, 특히 생성 모델과 대규모 언어 모델 분야에서 기념비적인 발전이 집중적으로 발표된 시기였다. Google I/O를 중심으로 공개된 LaMDA 2와 PaLM은 대화형 AI와 추론 능력의 새로운 가능성을 제시했으며, 거의 동시에 발표된 Imagen은 텍스트-이미지 생성 기술을 새로운 차원으로 끌어올렸다. 이들 연구는 AI가 단순히 정보를 이해하고 분류하는 단계를 넘어, 인간과 유사한 방식으로 창조하고 추론하는 단계로 진입하고 있음을 알리는 신호탄이었다.

2.1 Google I/O 2022: 대화형 AI의 새로운 지평

2022년 5월 11일 개최된 Google I/O 개발자 컨퍼런스는 AI를 중심으로 한 Google의 미래 비전을 명확히 보여주는 자리였다. 특히, 대화형 AI 모델인 LaMDA 2의 공개와 이를 체험할 수 있는 AI Test Kitchen의 도입은 AI 기술의 발전 방향이 소수의 연구자들을 위한 폐쇄적인 환경에서 벗어나, 더 넓은 사용자 커뮤니티와의 상호작용을 통해 안전성과 유용성을 검증하는 개방적인 형태로 나아가고 있음을 보여주었다.

2.1.1 LaMDA 2 발표 및 AI Test Kitchen 공개

Google은 2021년에 처음 소개했던 LaMDA(Language Model for Dialogue Applications)의 후속 버전인 LaMDA 2를 공개했다.12 LaMDA 2의 핵심적인 개선점은 개방형 대화(open-ended conversation)를 보다 자연스럽고 일관성 있게 처리하는 능력에 있었다. 이전 모델들이 주로 단일 질의응답에 최적화되었던 것과 달리, LaMDA 2는 대화의 전체적인 맥락을 추적하고, 사용자가 대화 도중 주제를 전환하더라도 논리적인 흐름을 유지하는 능력이 향상되었다.13 Sundar Pichai CEO는 LaMDA 2가 사전에 명시적으로 훈련되지 않은 생소한 주제에 대해서도 독창적이고 “자연스러운 대화“를 형성할 수 있는 능력을 갖추었다고 강조하며, 마리아나 해구의 심해 풍경을 묘사하는 시연을 통해 그 가능성을 보여주었다.12

더 중요한 발표는 LaMDA 2의 기술을 대중이 직접 체험하고 피드백을 제공할 수 있도록 설계된 모바일 애플리케이션 ’AI Test Kitchen’의 공개였다.7 이는 AI 모델의 개발 과정에서 발생할 수 있는 편향, 부정확성, 유해성 등의 문제를 해결하기 위해 외부 커뮤니티의 참여를 공식화한 중요한 전략적 움직임이었다. Google은 수천 명의 내부 직원 테스트를 통해 LaMDA의 부정확하거나 공격적인 응답을 줄이는 데 상당한 진전을 이루었으며, AI Test Kitchen을 통해 이 과정을 학계, 연구자, 정책 입안자 등 더 넓은 그룹으로 확장하고자 했다.7

AI Test Kitchen은 초기 버전에서 세 가지 주요 데모 모드를 제공했다 7:

  1. Imagine It: 사용자가 특정 장소나 개념을 제시하면, LaMDA 2가 그에 대한 창의적이고 상상력이 풍부한 묘사를 생성하는 모드. 이는 모델의 창의적 생성 능력을 시험하기 위해 설계되었다.

  2. List It: 사용자가 복잡한 목표나 주제(예: ‘정원 가꾸기 시작하기’)를 제시하면, 이를 달성하기 위한 구체적인 하위 작업들의 목록으로 분해해주는 모드. 이는 모델의 문제 해결 및 계획 수립 능력을 보여준다.

  3. Talk About It: 특정 주제(초기 버전에서는 ‘개’)에 대해 대화를 시작하고, 사용자가 의도적으로 주제를 벗어나려 해도 모델이 대화를 다시 원래 주제로 되돌리는 능력을 시험하는 모드. 이는 대화의 일관성과 주제 유지 능력을 평가하기 위함이었다.

2.1.2 Pathways Language Model (PaLM) 시연

Google I/O 2022에서는 LaMDA 2와 더불어, 당시까지 개발된 언어 모델 중 가장 큰 규모인 5400억 개의 파라미터를 가진 Pathways Language Model(PaLM)의 놀라운 능력이 시연되었다.7 PaLM의 가장 핵심적인 기술적 특징은 ’연쇄적 사고 프롬프팅(chain-of-thought prompting)’이라는 새로운 기법을 활용했다는 점이다.7 기존의 프롬프팅 방식이 모델에게 질문을 던지고 최종 답변만을 요구했던 반면, 연쇄적 사고 프롬프팅은 복잡한 다단계 문제를 해결하는 과정을 일련의 중간 단계들로 나누어 설명하도록 유도한다. 예를 들어, 수학 응용 문제를 풀 때 최종 답만 제시하는 것이 아니라, 문제 해결에 필요한 각 단계의 논리적 전개 과정을 함께 생성하도록 하는 것이다.

이러한 접근 방식은 모델이 단순히 패턴을 암기하여 답을 찾는 것이 아니라, 문제의 구조를 이해하고 논리적으로 추론하는 과정을 모방하게 함으로써 추론의 정확도를 획기적으로 향상시켰다. 시연에서 PaLM은 이전 모델들이 어려움을 겪었던 복잡한 농담의 의미를 설명하거나, 여러 단계의 계산이 필요한 수학 응용 문제를 정확하게 풀어내는 등 고차원적인 추론 능력을 선보였다.7 이는 대규모 언어 모델이 단순한 언어 생성 도구를 넘어, 복잡한 문제 해결을 위한 강력한 추론 엔진으로 발전할 수 있는 가능성을 명확히 보여준 사례였다.

2.2 Imagen: 텍스트-이미지 생성의 광학적 사실주의 구현

Google I/O에서 대화형 AI의 미래가 제시되는 동안, Google의 또 다른 연구팀인 Brain Team은 2022년 5월 23일, 텍스트-이미지 생성 분야에 새로운 이정표를 세운 논문 “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding“을 통해 Imagen 모델을 발표했다.6 Imagen은 텍스트 설명으로부터 전례 없는 수준의 광학적 사실주의(photorealism)와 깊은 언어 이해도를 갖춘 이미지를 생성하는 확산 모델(diffusion model)로, 당시 경쟁 모델이었던 DALL-E 2를 여러 측면에서 능가하는 성능을 보여주었다.

2.2.1 핵심 방법론: 대형 언어 모델과 계단식 확산 모델의 결합

Imagen의 성공은 두 가지 핵심적인 설계 철학의 결합에 기인한다. 첫째, 복잡한 텍스트 프롬프트를 정확하게 이해하기 위해 이미지-텍스트 데이터가 아닌, 텍스트 전용 대규모 코퍼스로 사전 훈련된 거대 Transformer 언어 모델(T5-XXL)을 텍스트 인코더로 활용했다는 점이다.6 연구팀은 이미지 생성을 위한 확산 모델의 크기를 키우는 것보다, 텍스트를 이해하는 언어 모델의 크기를 키우는 것이 최종 결과물의 품질과 이미지-텍스트 정렬(alignment)에 훨씬 더 효과적이라는 놀라운 사실을 실험적으로 입증했다. 이는 텍스트-이미지 생성의 병목 현상이 ’어떻게 그리는가’보다 ’무엇을 그려야 하는지 정확히 이해하는가’에 있음을 시사하는 중요한 발견이었다.

둘째, 고해상도의 사실적인 이미지를 효율적으로 생성하기 위해 ‘계단식 확산 모델(Cascaded Diffusion Models)’ 아키텍처를 채택했다.6 이 접근법은 단번에 고해상도 이미지를 생성하려는 시도 대신, 점진적으로 해상도를 높여나가는 방식을 사용한다.

  1. 기본 모델(Base Model): T5-XXL 텍스트 인코더로부터 얻은 텍스트 임베딩을 조건으로 하여, 64 \times 64 픽셀 크기의 저해상도 이미지를 생성한다.

  2. 초해상도 모델(Super-Resolution Models): 이후 두 단계의 텍스트 조건부 초해상도 확산 모델을 순차적으로 적용한다. 첫 번째 모델은 64 \times 64 이미지를 256 \times 256으로 업샘플링하고, 두 번째 모델은 이를 다시 1024 \times 1024의 최종 고해상도 이미지로 업샘플링한다. 각 단계의 초해상도 모델은 저해상도 이미지와 함께 원본 텍스트 임베딩을 조건으로 받아, 이미지의 세부 묘사를 추가하면서도 전체적인 내용이 원본 텍스트와 일치하도록 보장한다.

2.2.2 기술적 혁신: Classifier-Free Guidance

Imagen의 높은 이미지 품질과 텍스트 충실도를 가능하게 한 핵심 기술 중 하나는 ‘분류기 없는 안내(Classifier-Free Guidance, CFG)’ 기법의 효과적인 활용이다.6 확산 모델의 생성 과정은 본질적으로 노이즈로부터 점차 원본 이미지를 복원해 나가는 과정이다. CFG는 이 복원 과정이 주어진 텍스트 조건에 더 충실하도록 ’안내’하는 역할을 한다.

이전의 ‘분류기 안내(Classifier Guidance)’ 방식은 생성 중인 이미지가 특정 클래스에 속할 확률을 높이기 위해 별도로 훈련된 이미지 분류기의 그래디언트를 사용했다.18 이는 추가적인 분류기 모델이 필요하고 훈련 과정이 복잡하다는 단점이 있었다. 반면, CFG는 확산 모델 자체를 훈련할 때 일정 확률로 텍스트 조건을 제거(예: 빈 토큰으로 대체)하여, 모델이 조건부 생성(p(x|c))과 무조건부 생성(p(x))을 모두 학습하도록 한다.19

추론(inference) 시, 모델은 각 노이즈 제거 단계에서 조건부 노이즈 예측값과 무조건부 노이즈 예측값을 모두 계산한다. 최종적으로 사용할 노이즈 예측값은 이 두 예측값을 가중치를 두어 혼합함으로써 얻어진다. 이 과정은 다음의 수식으로 간결하게 표현된다 16:

\hat{\epsilon}_\theta(x_t, c) = \epsilon_\theta(x_t, \emptyset) + w (\epsilon_\theta(x_t, c) - \epsilon_\theta(x_t, \emptyset))
여기서 \epsilon_\theta(x_t, c)는 텍스트 조건 c가 주어진 시점 t의 노이즈 예측값, \epsilon_\theta(x_t, \emptyset)는 조건이 없는(∅) 무조건부 노이즈 예측값이다. w는 안내 강도(guidance scale)를 조절하는 하이퍼파라미터로, w > 1일 경우 생성 과정은 조건부 예측 방향으로 더 강하게 유도된다. 즉, 무조건부 예측에서 조건부 예측 방향으로 향하는 벡터를 w배만큼 증폭시켜 적용하는 것이다. Imagen 연구팀은 여기에 더해, 매우 큰 w 값을 사용할 때 발생할 수 있는 샘플 품질 저하 문제를 해결하기 위해 동적 임계값(dynamic thresholding)이라는 새로운 샘플링 기법을 도입하여, 텍스트 프롬프트에 대한 충실도를 극대화하면서도 이미지의 사실성을 유지할 수 있었다.6

2.2.3 결과 및 평가

Imagen의 성능은 당시의 모든 텍스트-이미지 생성 모델을 압도했다. MS-COCO 벤치마크에서, Imagen은 해당 데이터셋으로 직접 훈련되지 않았음에도 불구하고 당시 최고 수준(state-of-the-art)의 FID(Fréchet Inception Distance) 점수인 7.27을 기록했다.6 FID 점수는 생성된 이미지의 품질과 다양성을 측정하는 지표로, 점수가 낮을수록 실제 이미지와 유사함을 의미한다.

더 나아가, 연구팀은 기존 벤치마크의 한계를 지적하며, 모델의 언어 이해도와 생성 능력을 더 깊이 있게 평가하기 위한 새로운 벤치마크 ’DrawBench’를 자체 개발했다. DrawBench는 색상, 수량, 공간 관계, 텍스트 렌더링 등 모델이 쉽게 혼동할 수 있는 까다로운 프롬프트들로 구성된다. 이 벤치마크를 이용한 인간 평가에서, 평가자들은 DALL-E 2, VQ-GAN+CLIP 등 당대의 경쟁 모델들과의 일대일 비교 시 이미지 품질과 텍스트-이미지 정렬 측면 모두에서 Imagen의 결과물을 압도적으로 선호했다.6

2.3 응용 연구: 의료 및 자율주행 분야의 진보

2022년 5월의 AI 연구는 거대 모델의 발전에만 국한되지 않았다. 특정 산업 분야의 구체적인 문제를 해결하기 위한 응용 연구들 역시 활발하게 발표되었다. 특히 의료 영상 분석과 자율주행차의 환경 인식 기술은 AI가 인간의 생명과 안전에 직접적으로 기여할 수 있는 잠재력을 명확히 보여주었다.

2.3.1 흑색종 피부암 자동 분류

2022년 5월 31일 학술지 ’AI’에 발표된 “Automatic Classification of Melanoma Skin Cancer with Deep Convolutional Neural Networks” 연구는 딥러닝, 특히 합성곱 신경망(CNN)을 활용하여 치명적인 피부암인 흑색종을 조기에 진단하는 가능성을 탐구했다.22 피부과 전문의의 육안 진단 및 조직 검사는 경험에 따라 정확도가 달라질 수 있으며 시간이 소요되는 반면, AI 기반 자동 분류 시스템은 진단 과정을 보조하고 객관성을 높일 수 있다.

연구팀은 7,146개의 피부 병변 이미지로 구성된 데이터셋을 사용하여 DenseNet201, MobileNetV2, ResNet50V2, VGG19 등 널리 알려진 여러 CNN 아키텍처의 성능을 비교 평가했다. 실험 결과, GoogleNet 아키텍처가 훈련 데이터셋에서 74.91%, 테스트 데이터셋에서 76.08%의 가장 높은 분류 정확도를 달성했다.22 이 수치는 AI 모델이 전문의의 진단을 보조하는 강력한 도구로 활용될 수 있음을 정량적으로 입증한 것으로, AI 기술이 의료 분야의 정확성과 효율성을 높이는 데 기여할 수 있음을 보여주는 중요한 사례이다.

2.3.2 자율주행차를 위한 날씨 탐지 시스템

자율주행차의 안전한 운행을 위해서는 주변 환경, 특히 시시각각 변하는 기상 조건을 정확하게 인식하는 것이 필수적이다. 같은 달 발표된 또 다른 연구에서는 ResNet-50 CNN 모델과 전이 학습(transfer learning) 기법을 활용하여, 자율주행차가 맑음, 흐림, 비, 눈 등 다양한 기상 조건을 높은 정확도로 분류하는 딥러닝 기반 프레임워크를 제안했다.22

이 모델은 탐지 정확도 98.48%, 정밀도 98.51%, 민감도 98.41%라는 매우 높은 성능을 기록했다. 이는 AI 기반 인식 시스템이 안개나 폭우와 같은 악천후 상황에서 센서 데이터의 불확실성이 증가할 때에도 신뢰할 수 있는 판단을 내리고, 이에 따라 차량의 주행 전략(예: 속도 감속, 안전거리 확보)을 능동적으로 조절하는 데 핵심적인 역할을 할 수 있음을 시사한다. 이 연구는 AI가 예측 불가능한 실제 도로 환경에서 자율주행차의 안전성과 의사결정 능력을 크게 향상시킬 수 있는 잠재력을 보여주었다.

이 시기의 AI 연구들을 종합적으로 분석하면, ’규모(scale)’와 ’안내(guidance)’라는 두 가지 핵심 키워드가 기술 발전의 중심에 있었음을 알 수 있다. PaLM과 Imagen의 사례는 파라미터 수와 학습 데이터의 규모를 확장하는 것이 곧 모델의 성능 향상으로 직결된다는 ’스케일링 법칙(Scaling Laws)’의 유효성을 다시 한번 증명했다.6 특히 Imagen 연구에서 텍스트 인코더의 규모가 이미지 품질에 더 큰 영향을 미친다는 발견은, 단순히 모델 전체를 키우는 것을 넘어 어떤 구성 요소의 규모를 확장하는 것이 더 효율적인지에 대한 중요한 단서를 제공했다.6

그러나 단순히 규모를 키우는 것만으로는 사용자가 원하는 정교한 결과를 얻을 수 없다. 여기서 ‘안내’ 기술의 중요성이 부각된다. Imagen의 놀라운 사실성은 Classifier-Free Guidance라는 정교한 ‘안내’ 기술 덕분에 가능했다. CFG는 모델이 학습한 방대하고 다차원적인 확률 분포 공간 내에서, 사용자가 텍스트 프롬프트를 통해 제시한 특정 조건에 부합하는 매우 좁은 영역으로 샘플링 과정을 효과적으로 유도하는 역할을 수행한다.16 마찬가지로, PaLM의 ‘연쇄적 사고 프롬프팅’ 역시 일종의 ‘안내’ 기술로 볼 수 있다. 모델에게 최종 답변만 요구하는 대신, 문제 해결 과정을 단계별로 생성하도록 유도함으로써 모델의 추론 경로를 올바른 방향으로 안내하고 결과의 정확성을 높인다.7

이러한 흐름은 AI 개발의 패러다임이 ’더 나은 아키텍처’를 설계하는 것에서 ’더 큰 모델을 더 잘 제어하고 안내’하는 방향으로 전환되고 있음을 시사한다. 즉, 2022년 5월은 AI가 단순히 데이터를 ’학습’하여 지식을 내재화하는 단계를 넘어, 내재된 지식을 바탕으로 사용자의 복잡하고 미묘한 의도를 이해하고 그에 맞춰 정교하게 결과를 ’생성’하고 ’추론’하는 단계로 본격적으로 진입했음을 알리는 신호탄이었다. ’규모’가 모델의 잠재력을 결정한다면, ’안내’는 그 잠재력을 사용자가 원하는 현실로 구현하는 핵심적인 열쇠였던 것이다.

3. 로봇공학: 시뮬레이션, 적응, 그리고 현실 세계로의 전이

2022년 5월, 로봇공학 분야에서는 인공지능의 발전과 궤를 같이하며 물리적 세계와의 상호작용 능력을 한 단계 끌어올리는 중요한 연구들이 발표되었다. 이 연구들은 공통적으로 ’현실 세계의 불확실성과 불완전성’이라는 근본적인 문제를 해결하는 데 초점을 맞추었다. 시뮬레이션에서 학습한 로봇이 실제 환경의 예측 불가능한 변화에 어떻게 적응할 것인가(A-RMA), 현실의 복잡한 물리 현상을 어떻게 더 정확하게 시뮬레이션할 것인가(Factory), 그리고 실제 산업 현장에서 로봇은 과연 경제적, 운영적 가치를 창출하는가(건설 로봇 연구)에 대한 깊이 있는 탐구가 이루어졌다.

3.1 A-RMA: 이족 보행 로봇을 위한 신속 운동 적응의 진화

3.1.1 배경: RMA의 개념과 한계

신속 운동 적응(Rapid Motor Adaptation, RMA)은 2021년 발표되어 로봇공학계에 큰 반향을 일으킨 기술로, 시뮬레이션에서만 훈련된 로봇이 한 번도 경험하지 못한 실제 환경(예: 미끄러운 지면, 부드러운 모래, 예상치 못한 화물 적재)에 수십 분의 1초 만에 실시간으로 적응하게 하는 획기적인 프레임워크다.23 RMA의 핵심 아이디어는 로봇의 제어 정책을 두 가지 주요 요소로 분리하는 것이다 10:

  1. 기본 정책(Base Policy): 로봇의 현재 상태와 함께, 환경의 물리적 특성(마찰 계수, 지면의 경사, 페이로드 질량 등)을 압축적으로 표현하는 저차원의 ‘외재적 요소(extrinsics)’ 벡터를 입력받아 최적의 모터 명령을 출력한다. 이 정책은 시뮬레이션 내에서 실제 환경 정보(privileged information)를 직접 제공받으며 강화학습을 통해 훈련된다.

  2. 적응 모듈(Adaptation Module): 실제 환경에서는 외재적 요소를 직접 측정할 수 없으므로, 로봇의 과거 움직임 이력(고유수용성 감각 데이터의 시퀀스)을 입력받아 이 외재적 요소를 ’추정’하는 역할을 한다. 이 모듈은 지도 학습(supervised learning) 방식으로 훈련된다.

이 구조 덕분에 로봇은 자신의 움직임에 대한 피드백을 통해 현재 자신이 처한 환경의 특성을 실시간으로 추론하고, 그에 맞는 최적의 행동을 기본 정책을 통해 수행할 수 있다. 그러나 기존 RMA는 주로 사족보행 로봇에 초점을 맞추었으며, 이족보행 로봇에 적용하기에는 몇 가지 근본적인 한계가 존재했다.

3.1.2 A-RMA의 제안 (arXiv:2205.15299)

2022년 5월, UC 버클리와 카네기 멜런 대학의 공동 연구팀은 “Adapting Rapid Motor Adaptation for Bipedal Robots“라는 논문을 통해 기존 RMA를 본질적으로 더 불안정하고 제어가 어려운 이족보행 로봇에 성공적으로 적용하기 위한 새로운 프레임워크인 ’A-RMA(Adapting RMA)’를 제안했다.9

연구팀은 RMA의 핵심적인 문제, 즉 ’적응 모듈’이 추정한 외재적 요소는 실제 값과 필연적으로 차이가 있으며, 완벽한 외재적 요소를 입력받는다는 가정 하에 훈련된 ’기본 정책’은 이러한 추정 오차에 취약하여 실제 환경에서 성능이 저하된다는 점을 지적했다. 이 ‘sim-to-real’ 갭을 극복하기 위해 A-RMA는 기존 RMA의 2단계 훈련 과정에 결정적인 세 번째 단계를 추가했다.

A-RMA의 3단계 훈련 과정은 다음과 같다 9:

  1. Phase 1 (기본 정책 훈련): 시뮬레이션 내에서 마찰, 페이로드 등 실제 환경 파라미터를 직접 입력받아 기본 정책(\pi_{\theta})을 강화학습으로 훈련한다. (RMA와 동일)

  2. Phase 2 (적응 모듈 훈련): 1단계에서 훈련된 기본 정책이 생성한 궤적 데이터를 이용해, 로봇의 과거 상태-행동 이력으로부터 환경 파라미터를 추정하도록 적응 모듈(\phi)을 지도 학습으로 훈련한다. (RMA와 동일)

  3. Phase 3 (기본 정책 미세조정): (A-RMA의 핵심) 2단계에서 훈련된, 필연적으로 불완전한 예측을 하는 적응 모듈(\phi)의 가중치는 고정한 채, 이 모듈이 추정한 외재적 요소를 입력받아 기본 정책(\pi_{\theta})을 강화학습(PPO)으로 다시 미세조정(fine-tuning)한다. 이 과정은 기본 정책이 적응 모듈의 불완전한 입력에 대해 강건해지도록 ’적응’시키는 역할을 한다.

또한, 연구팀은 이족보행 로봇의 경우 처음부터 무작위 탐색을 통해 강화학습을 진행하면 부자연스럽고 비효율적인 걸음걸이가 생성되는 문제를 해결하기 위해, Hybrid Zero Dynamics (HZD)와 같은 전통적인 제어 이론을 통해 생성된 안정적인 보행 궤적 라이브러리를 초기 훈련에 참조 동작으로 활용하는 ‘부트스트랩(bootstrap)’ 전략을 사용했다.9 이는 학습 초기에 안정적인 보행 패턴을 빠르게 습득하게 하고, 이후 점차 참조 동작에 대한 의존도를 줄여나가며 강화학습을 통해 더 다양하고 강건한 행동을 학습하도록 유도하는 효과적인 하이브리드 접근법이다.

3.2 Factory: 접촉 집약적 조립 작업을 위한 고속 시뮬레이션

3.2.1 배경: 로봇 조립의 난제

로봇 조립, 특히 너트와 볼트를 체결하거나 기어를 맞물리는 것과 같이 부품 간의 공차가 매우 작고 복잡한 접촉이 지속적으로 발생하는 ‘접촉 집약적(contact-rich)’ 작업은 로봇공학 분야의 가장 오래되고 어려운 문제 중 하나로 꼽힌다.8 이러한 작업을 위한 제어 정책을 개발하는 데 있어 시뮬레이션은 필수적이지만, 기존의 물리 엔진들은 복잡한 접촉 현상을 정확하고 빠르게 계산하는 데 한계가 있었다. 이로 인해 로봇 조립 분야의 연구는 시뮬레이션의 병목 현상으로 인해 다른 로봇 분야에 비해 발전이 더뎠다.

3.2.2 NVIDIA의 Factory 제안 (arXiv:2205.03532)

2022년 5월 7일, NVIDIA 연구팀은 이러한 난제를 해결하기 위한 획기적인 솔루션인 ’Factory’를 발표했다.8 Factory는 접촉 집약적 상호작용을 GPU 가속을 통해 빠르고 안정적으로 시뮬레이션하기 위해 설계된 새로운 물리 시뮬레이션 방법론 및 로봇 학습 도구 모음이다.

Factory의 핵심 기술은 다음과 같은 요소들의 혁신적인 결합에 있다 8:

  • 부호 거리 함수(Signed Distance Function, SDF) 기반 충돌 감지: 복잡한 기하학적 형태를 가진 물체들 사이의 충돌 및 접촉 지점을 매우 효율적으로 계산한다.

  • 접촉 감소(Contact Reduction): 수많은 잠재적 접촉 지점들 중에서 물리적으로 의미 있는 소수의 지점만을 선택하여 계산의 복잡도를 줄인다.

  • 가우스-자이델 솔버(Gauss-Seidel Solver): 병렬 처리에 유리한 반복적 해법을 사용하여 GPU 상에서 접촉 구속 조건을 빠르게 해결한다.

이러한 기술적 혁신을 통해 Factory는 놀라운 성능을 달성했다. 연구팀은 단일 A100 GPU를 사용하여 1,000개의 너트-볼트 조립 상호작용을 동시에 실시간으로 시뮬레이션하는 데 성공했다고 밝혔다.8 이는 기존의 최첨단 CPU 기반 시뮬레이터가 단 하나의 너트-볼트 조립을 실시간의 1/20 속도로 시뮬레이션했던 것과 비교하면 수만 배에 달하는 성능 향상이다.

Factory의 등장은 로봇 조립 분야의 연구 패러다임을 바꿀 만한 잠재력을 지닌다. NVIDIA의 Isaac Gym과 같은 GPU 가속 병렬 시뮬레이션 환경 내에서, 연구자들은 이제 수천 개의 가상 로봇을 동시에 훈련시키며 복잡한 조립 작업을 위한 강화학습 정책을 효율적으로 탐색할 수 있게 되었다. 이는 과거에는 계산 비용 문제로 사실상 불가능했던, 데이터 기반 학습을 통한 고난도 조작 기술 개발의 새로운 길을 연 것이다.

3.3 건설 로봇공학의 현장 적용 및 정량적 평가

AI와 로봇 기술이 실험실을 넘어 실제 산업 현장에서 어떤 영향을 미치고 있는지를 구체적인 데이터로 보여주는 연구 또한 2022년 5월에 발표되었다. 5월 31일, 국제 학술지 ’Construction Robotics’에 게재된 “Safety, quality, schedule, and cost impacts of ten construction robots” 연구는 실제 건설 현장에 투입된 로봇들의 성과를 체계적으로 분석하고 정량화했다.27

이 연구는 유럽, 아시아, 북미 및 남미에 위치한 11개 건설사가 12개의 실제 프로젝트에서 사용한 10종의 현장 건설 로봇(예: 자율 드릴링 로봇, 벽돌 쌓기 로봇 등)을 대상으로, **안전(Safety), 품질(Quality), 일정(Schedule), 비용(Cost)**이라는 네 가지 핵심 성과 지표(KPI)에 미치는 영향을 평가했다.

연구 결과, 로봇 도입은 전반적으로 상당한 긍정적 효과를 가져오는 것으로 나타났다. 주요 결과는 아래 표에 요약되어 있다.

3.3.1 건설 로봇 도입의 정량적 효과 분석

평가 항목 (Metric)평균 개선 효과 (Average Improvement)세부 내용 (Details)관련 Snippet
안전 (Safety)위험 작업 시간 72% 감소로봇이 인간을 대신하여 추락, 분진 등 위험에 노출되는 작업을 수행함으로써 현장의 안전성이 크게 향상됨.27
품질 (Quality)정확도 55% 향상로봇의 정밀하고 일관된 작업 수행으로 시공 품질이 개선되고, 이로 인해 재작업(rework)이 50% 이상 감소함.27
일정 (Schedule)공사 기간 평균 2.3배 단축반복적이고 힘든 작업을 자동화하여 전체 공사 기간을 획기적으로 단축시킴 (중앙값: 1.4배).27
비용 (Cost)총 비용 13% 절감10개 사례 중 6개에서 비용 절감 효과가 나타났으나, 4개 사례에서는 초기 투자 및 운영 비용으로 인해 총비용이 오히려 증가하여 도입 조건의 중요성을 시사함.27

이 연구는 로봇 기술이 건설 산업의 오랜 과제인 생산성, 안전성, 품질 문제를 해결할 수 있는 강력한 잠재력을 가지고 있음을 실제 데이터를 통해 입증했다. 특히, 비용 측면에서 모든 경우에 긍정적인 결과가 나타나지 않았다는 점은 로봇 도입이 성공하기 위해서는 기술 자체뿐만 아니라 프로젝트의 특성, 조직의 준비 상태, 작업 프로세스와의 통합 등 다양한 요소를 종합적으로 고려해야 함을 시사하는 중요한 지점이다.

2022년 5월에 발표된 이들 로봇공학 연구들은 표면적으로는 각기 다른 문제를 다루고 있지만, 근본적으로는 ’현실과의 불일치(reality gap)’라는 공통된 적을 각기 다른 차원에서 공략하고 있다. A-RMA는 시뮬레이션에서 학습된 이상적인 제어 정책과 실제 로봇이 마주하는 불완전한 정보 사이의 ‘제어 정책의 불일치’ 문제를 다룬다. 이를 해결하기 위해, A-RMA는 처음부터 ’불완전함’을 훈련 과정에 명시적으로 포함시켜, 정책 자체가 불확실성에 강건해지도록 학습시킨다.9 Factory는 기존 시뮬레이터가 현실의 복잡한 접촉 물리를 제대로 모사하지 못하는 ‘물리 시뮬레이션의 불일치’ 문제를 해결하고자 한다. 더 현실에 가까운 시뮬레이션은 결국 더 현실적인 행동 정책의 학습으로 이어진다는 믿음에 기반한다.8 마지막으로, 건설 로봇 연구는 로봇 도입이 이론적으로는 효율적일 것이라는 ’경제적/운영적 기대와의 불일치’를 실제 현장 데이터를 통해 검증한다. 일부 사례에서 비용이 오히려 증가했다는 결과는, 이 불일치가 항상 긍정적으로 해소되지는 않으며 기술 외적인 요인이 중요함을 보여준다.27

이 세 연구를 종합하면, 2022년 5월의 첨단 로봇 연구는 더 이상 이상적인 환경을 가정하는 단계를 넘어섰음을 알 수 있다. 대신, ‘불완전함’, ‘불확실성’, 그리고 ’경제성’과 같은 현실 세계의 제약 조건들을 연구의 핵심 변수로 상정하고, 이를 극복하기 위한 강건한(robust) 솔루션을 찾는 데 집중하고 있다. 이는 로봇 기술이 실험실의 통제된 환경을 벗어나, 예측 불가능하고 복잡한 실제 산업 현장에 성공적으로 안착하기 위해 반드시 거쳐야 할 필연적인 성숙의 과정이라 할 수 있다.

4. 종합 및 전망: 2022년 5월이 시사하는 AI와 로봇의 미래

2022년 5월에 집중적으로 발표된 AI 및 로봇공학 분야의 연구들은 각 분야의 독립적인 발전을 넘어, 더 큰 기술적 패러다임의 변화와 미래 방향성을 시사한다. 생성 모델의 폭발적인 발전과 물리적 지능의 도약은 ’지능’을 구현하는 방법론이 수렴하고 있음을 보여주었으며, 이는 곧 다가올 AI와 로봇의 융합 시대를 예고했다. 그러나 동시에, 기술이 현실 세계에 더 깊숙이 관여하게 되면서 해결해야 할 새로운 과제들 또한 명확해졌다.

4.1 방법론의 수렴: 데이터, 시뮬레이션, 스케일링

본 보고서의 제2장과 제3장에서 각각 다룬 인공지능과 로봇공학의 발전은 표면적으로는 디지털 세계와 물리적 세계라는 서로 다른 영역을 다루는 것처럼 보이지만, 그 기저에 깔린 핵심 방법론은 놀라울 정도로 유사하다. 이는 ‘데이터 기반 학습’, ‘고충실도 시뮬레이션’, 그리고 ’모델 및 계산의 스케일링’이라는 공통된 패러다임 아래 기술 발전이 수렴하고 있음을 명확히 보여준다.

Imagen과 PaLM이 웹 스케일의 방대한 텍스트와 이미지 데이터를 통해 언어와 시각 세계의 복잡한 관계를 학습했듯이 6, A-RMA와 Factory 기반의 로봇 제어 정책은 GPU 가속 시뮬레이션 환경에서 생성된 수십억, 수조 번의 가상 상호작용 데이터를 통해 최적의 행동 법칙을 학습한다.8 과거에는 인간 전문가가 설계한 규칙이나 모델에 의존했던 문제 해결 방식이, 이제는 대규모 데이터와 계산 능력을 바탕으로 시스템이 스스로 패턴과 법칙을 발견하는 방식으로 전환되고 있는 것이다.

이러한 방법론적 수렴은 ’지능’의 구현 방식이 특정 도메인(언어, 시각, 운동 제어 등)에 국한되지 않고, 일반화될 수 있는 가능성을 시사한다. 즉, 방대한 데이터로부터 유용한 표상(representation)을 학습하고, 이를 바탕으로 새로운 문제를 해결하는 근본 원리는 디지털 창작과 물리적 행동 모두에 동일하게 적용될 수 있다. 이는 AI와 로봇공학이 더 이상 별개의 학문이 아니라, ’지능형 에이전트’라는 더 큰 틀 안에서 상호 보완적으로 발전해 나갈 것임을 의미한다.

4.2 “Sim-to-Real“에서 “Text-to-Action“으로의 확장 가능성

2022년 5월의 기술적 성과들은 두 분야의 미래 융합 시나리오를 구체적으로 그려볼 수 있게 한다. 로봇공학 분야의 핵심 과제 중 하나인 ‘Sim-to-Real’, 즉 시뮬레이션에서 학습한 정책을 현실 세계로 성공적으로 이전하는 문제는 A-RMA와 같은 기술을 통해 상당한 진전을 이루었다.10 여기에 Google의 LaMDA 2와 PaLM이 보여준 깊은 자연어 이해 및 추론 능력이 결합된다면, 로봇 제어의 패러다임은 ’Sim-to-Real’을 넘어 ’Text-to-Action’으로 확장될 수 있다.

’Text-to-Action’은 인간이 “작업대 위에 있는 빨간색 렌치를 집어서 3번 볼트를 시계 방향으로 두 바퀴 조여라“와 같은 고수준의 자연어 명령을 내리면, 로봇이 이를 스스로 이해하고 일련의 구체적인 행동으로 변환하여 실행하는 것을 의미한다. 이 과정은 다음과 같이 분해될 수 있다.

  1. 이해 및 계획 (Understanding & Planning): LaMDA 2나 PaLM과 같은 대규모 언어 모델이 자연어 명령의 의미, 대상 객체, 목표 상태를 파악하고, 이를 달성하기 위한 중간 단계의 작업 계획(예: 1. 작업대로 이동, 2. 빨간색 렌치 인식, 3. 렌치 파지, 4. 3번 볼트로 이동, 5. 볼트 체결)을 수립한다. 실제로 Chalvatzaki 등의 연구에서 GPT-2와 같은 소규모 LLM을 이용해 장기 작업 계획을 수립한 초기 사례는 이러한 방향성의 가능성을 보여준다.11

  2. 실행 (Execution): 생성된 각 중간 단계의 작업은 A-RMA나 Factory에서 훈련된 것과 같은 저수준의 강건한 운동 제어 정책에 의해 실행된다. 예를 들어 ’렌치 파지’라는 중간 목표는 접촉에 강건한 조작 정책에 의해 수행되고, ’작업대로 이동’은 지형 변화에 적응할 수 있는 보행 정책에 의해 수행된다.

이러한 융합은 로봇을 특정 작업에만 맞춰 프로그래밍해야 했던 기존의 한계를 극복하고, 인간과 훨씬 더 유연하고 직관적으로 상호작용할 수 있는 범용 로봇의 등장을 앞당길 것이다.

4.3 남겨진 과제와 미래 연구 방향

2022년 5월의 눈부신 성과에도 불구하고, AI와 로봇 기술이 인류에게 보편적으로 유익한 기술로 자리 잡기까지는 해결해야 할 중요한 과제들이 남아있다.

인공지능 분야의 과제:

  • 사실성 및 신뢰성 (Factuality & Reliability): LaMDA 2와 같은 생성 모델은 때때로 부정확하거나 편향된, 심지어 유해한 정보를 생성할 수 있다. Google이 AI Test Kitchen을 통해 피드백을 수집하려 한 것 자체가 이 문제의 심각성을 인지하고 있음을 보여준다.15 생성된 정보의 사실성을 검증하고, 모델의 응답에 대한 신뢰도를 정량화하며, 유해한 콘텐츠 생성을 방지하는 기술은 앞으로도 핵심적인 연구 주제가 될 것이다.

  • 지속가능성 (Sustainability): PaLM과 같은 거대 모델을 훈련하고 운영하는 데에는 막대한 양의 에너지와 계산 자원이 소모된다. 이는 환경적 부담과 기술 접근성의 불평등을 야기할 수 있다.5 모델의 성능을 유지하면서도 크기와 에너지 효율을 개선하는 경량화 기술, 그리고 보다 지속 가능한 AI 개발 및 운영 방식에 대한 고민이 필요하다.

로봇공학 분야의 과제:

  • 상호운용성 및 표준화 (Interoperability & Standardization): 현재 로봇 시스템은 제조사별로 운영체제와 통신 프로토콜이 달라, 서로 다른 로봇들이 하나의 작업장에서 협력하기 어렵다. 이러한 상호운용성 부족은 로봇 기술의 광범위한 채택을 가로막는 주요 장벽 중 하나이다.4 산업 표준을 확립하고 개방형 아키텍처를 장려하는 노력이 필수적이다.

  • 안전 및 보안 (Safety & Security): 로봇이 공장, 병원, 가정 등 인간과 같은 공간에서 활동하게 되면서, 물리적 안전을 보장하는 기술의 중요성이 더욱 커지고 있다. 특히, 제어 불능 상태나 예상치 못한 충돌을 방지하기 위한 안전 제어 기법(예: Control Barrier Functions)에 대한 연구가 활발히 진행되고 있다.28 또한, 네트워크에 연결된 로봇이 해킹이나 사이버 공격의 대상이 될 경우 심각한 물리적 피해를 야기할 수 있으므로, 강력한 사이버 보안 대책 마련이 시급한 과제이다.4

결론적으로, 2022년 5월은 AI와 로봇공학이 각각의 영역에서 놀라운 기술적 도약을 이루었을 뿐만 아니라, 두 분야의 미래가 어떻게 서로 얽히고 융합될 것인지에 대한 청사진을 제시한 결정적인 시기였다. 당시 발표된 연구들은 ’규모’와 ’데이터’를 통해 지능의 새로운 가능성을 열었고, ’시뮬레이션’과 ’적응’을 통해 현실 세계의 장벽을 넘어서기 시작했다. 앞으로 남겨진 과제들을 해결해 나가는 과정에서, 이 시기에 제시된 아이디어와 방법론들은 미래 AI와 로봇공학 연구가 나아갈 방향을 밝히는 중요한 등대 역할을 할 것이다.

5. 참고 자료

  1. The state of AI in 2022—and a half decade in review - McKinsey, https://www.mckinsey.com/~/media/mckinsey/business%20functions/quantumblack/our%20insights/the%20state%20of%20ai%20in%202022%20and%20a%20half%20decade%20in%20review/the-state-of-ai-in-2022-and-a-half-decade-in-review.pdf
  2. What’s New in Artificial Intelligence from the 2022 Gartner Hype Cycle™, https://www.gartner.com/en/articles/what-s-new-in-artificial-intelligence-from-the-2022-gartner-hype-cycle
  3. Top 5 Robot Trends 2022 - International Federation of Robotics, https://ifr.org/ifr-press-releases/news/top-5-robot-trends-2022
  4. 5 Robotics Trends in 2022 | RoboticsTomorrow, https://www.roboticstomorrow.com/story/2022/03/5-robotics-trends-in-2022/18448/
  5. AI boom - Wikipedia, https://en.wikipedia.org/wiki/AI_boom
  6. louisfb01/best_AI_papers_2022: A curated list of the latest … - GitHub, https://github.com/louisfb01/best_AI_papers_2022
  7. Google I/O: AI Test kitchen, LaMDA2 and other key AI announcements - The Indian Express, https://indianexpress.com/article/technology/tech-news-technology/google-i-o-ai-test-kitchen-lamda2-and-other-key-ai-announcements-7912789/
  8. Robotics May 2022 - arXiv, http://arxiv.org/list/cs.RO/2022-05?skip=50&show=25
  9. Adapting Rapid Motor Adaptation for Bipedal Robots - Hybrid Robotics, https://hybrid-robotics.berkeley.edu/publications/IROS2022_AdaptingRMA_Biped.pdf
  10. Adapting Rapid Motor Adaptation for Bipedal Robots - Ashish Kumar, https://ashish-kmr.github.io/a-rma/
  11. Editorial: Rising stars in field robotics: 2022 - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC10900065/
  12. LaMDA - Wikipedia, https://en.wikipedia.org/wiki/LaMDA
  13. Google Demos New Conversational AI Model and Opens AI Test Kitchen - Voicebot.ai, https://voicebot.ai/2022/05/12/google-demos-new-conversational-ai-model-and-opens-ai-test-kitchen/
  14. Google I/O 2022 Brings LaMDA 2; What Is It? | Cashify News, https://www.cashify.in/news/google-i-o-2022-brings-lamda-2-what-is-it
  15. Join us in the AI Test Kitchen - The Keyword, https://blog.google/technology/ai/join-us-in-the-ai-test-kitchen/
  16. Overview of Classifier-Free Guidance (CFG) | AI Tech Blog, https://www.doptsw.com/posts/post_2024-09-17_05c95f
  17. Classifier-free Guidance with Adaptive Scaling - arXiv, https://arxiv.org/html/2502.10574v1
  18. How does classifier-free guidance differ from classifier guidance? - Milvus, https://milvus.io/ai-quick-reference/how-does-classifierfree-guidance-differ-from-classifier-guidance
  19. Classifier-Free Diffusion Guidance - OpenReview, https://openreview.net/pdf?id=qw8AKxfYbI
  20. Conditional Image Generation with Classifier-Free Guidance - Peter Holderrieth, http://www.peterholderrieth.com/blog/2023/Classifier-Free-Guidance-For-Diffusion-Models/
  21. Classifier-Free Guidance in LLMs: How It Works | Runpod Blog, https://www.runpod.io/blog/classifier-free-guidance-llms
  22. Top 61 AI papers published in 2022 - SciSpace, https://scispace.com/journals/ai-1sd006z9/2022
  23. RMA: Rapid Motor Adaptation for Legged Robots - Ashish Kumar, https://ashish-kmr.github.io/rma-legged-robots/
  24. New AI strategy enables robots to rapidly adapt to real-world environments, https://engineering.berkeley.edu/news/2021/07/rapid-motor-adaptation-enables-robots-to-navigate-real-world/
  25. Rapid Motor Adaptation for Robotic Manipulator Arms - arXiv, https://arxiv.org/html/2312.04670v2
  26. Robotics May 2022 - arXiv, http://arxiv.org/list/cs.RO/2022-05?skip=250&show=25
  27. Top 27 Construction robotics papers published in 2022 - SciSpace, https://scispace.com/journals/construction-robotics-10vs5bwp/2022
  28. Top 64 IEEE Robotics & Automation Magazine papers published in 2022 - SciSpace, https://scispace.com/journals/ieee-robotics-automation-magazine-3tb5fosd/2022