년 5월 AI 및 로봇 연구 동향
1. 서론: 2024년 5월, AI 혁신의 변곡점
2024년 5월은 인공지능(AI) 역사상 중요한 변곡점으로 기록될 것이다. OpenAI와 Google이 거의 동시에 발표한 차세대 AI 모델들은 기존의 텍스트 중심 상호작용의 한계를 넘어, 인간과 유사한 속도로 실시간 음성, 시각 정보를 이해하고 소통하는 ‘옴니-모달리티(Omni-modality)’ 시대의 개막을 알렸다. 이는 단순한 기술적 성능 향상을 넘어, 인간-컴퓨터 상호작용(HCI)의 근본적인 패러다임을 전환시키는 잠재력을 내포한다. 동시에, 로보틱스 분야에서는 대규모 데이터를 기반으로 한 범용 로봇 기술(Generalist Robots)의 가능성이 ICRA 2024와 같은 최고 권위의 학회를 통해 입증되었으며, 생명 과학 분야에서는 AlphaFold 3가 AI를 활용한 과학적 발견의 새로운 지평을 열었다.1 본 보고서는 이러한 핵심적 발전들을 기술적 깊이와 산업적 맥락 속에서 심층 분석하고, 이들이 AI 및 로보틱스 분야의 미래에 미칠 영향을 전망하고자 한다.3
본 보고서에서 다룰 핵심 주제는 다음과 같다.
- 실시간 옴니-모달 AI 에이전트의 등장: GPT-4o와 Project Astra를 중심으로 한 기술적 혁신을 분석한다.
- 거대 모델의 효율성과 접근성: Gemini 1.5 Flash가 제시하는 경량화 및 비용 효율화 전략을 탐구한다.
- 로봇 학습의 패러다임 전환: ’Open X-Embodiment’가 이끄는 데이터 기반 범용 로봇으로의 전환을 조명한다.
- 자율 시스템의 정교화: STORM과 Gaitor 등 특정 영역에서의 제어 및 학습 알고리즘 심화를 다룬다.
- AI 기반 과학적 발견의 가속화: AlphaFold 3가 생명 과학에 미치는 혁명적 영향을 평가한다.
- 프론티어 AI의 안전성 및 거버넌스 성숙: Model Spec과 Frontier Safety Framework를 통한 산업계의 자율 규제 노력을 검토한다.
2. 차세대 멀티모달 AI의 등장: GPT-4o와 Gemini
2.1 OpenAI GPT-4o: 실시간 옴니-모달리티의 기술적 구현과 의미
2.1.1 기술적 분석
OpenAI가 2024년 5월 13일에 발표한 GPT-4o(“o“는 “omni“를 의미)의 가장 핵심적인 기술적 혁신은 텍스트, 오디오, 이미지, 비디오 등 다양한 양식의 입력을 단일 신경망으로 처리하는 ‘End-to-End’ 통합 아키텍처에 있다.4 이전 세대의 음성 모드는 음성을 텍스트로 변환하는 모델(Speech-to-Text), 텍스트를 처리하는 거대 언어 모델(LLM), 그리고 텍스트를 다시 음성으로 변환하는 모델(Text-to-Speech)로 구성된 3단계 파이프라인 구조를 가졌다.4 이 파이프라인 방식은 각 변환 단계에서 정보의 손실을 필연적으로 수반했다. 예를 들어, 음성의 톤, 여러 화자의 목소리, 배경 소음, 감정적 뉘앙스와 같은 비언어적 정보는 텍스트로 변환되는 과정에서 대부분 소실되었다.
GPT-4o는 이러한 한계를 극복하기 위해 모든 양식을 동일한 신경망 내에서 통합적으로 처리한다.4 그 결과, 모델은 평균 320ms, 최소 232ms라는 인간의 대화 반응 속도와 유사한 수준의 지연 시간을 달성했다.4 이는 단순한 속도 개선을 넘어, 모델이 톤의 변화, 웃음, 노래와 같은 비언어적 정보를 직접 관찰하고, 이를 바탕으로 감정이 실린 음성을 생성할 수 있게 되었음을 의미한다. 즉, 정보의 전달자를 넘어 상호작용의 참여자로서 기능할 수 있는 기술적 토대를 마련한 것이다.
2.1.2 주요 데모 및 역량
OpenAI가 공개한 데모들은 GPT-4o의 혁신적인 역량을 명확히 보여주었다. 두 사람이 각각 다른 언어로 말하는 것을 실시간으로 통역하고, 스마트폰 카메라로 비춰진 수학 문제를 보고 풀이 과정을 음성으로 지도하며, 사용자의 숨소리를 감지하여 감정 상태를 추론하고 그에 맞는 톤으로 대화하는 모습은 GPT-4o가 단순한 정보 처리 도구를 넘어 인간과 상호작용하는 ’에이전트’로서의 잠재력을 가지고 있음을 시사한다.7 이러한 능력은 교육, 접근성 향상, 실시간 협업 도구 등 다양한 분야에서 새로운 차원의 애플리케이션 등장을 예고한다.
더욱이, GPT-4o는 GPT-4 Turbo 수준의 텍스트 및 코드 처리 성능을 유지하면서도 API 사용 비용을 50% 절감하고 속도는 2배 향상시켰다.4 또한, 이전에는 유료 사용자에게만 제공되던 GPT-4급 모델을 무료 사용자에게도 개방함으로써, 고성능 멀티모달 AI의 대중화를 가속화하고 개발자 생태계를 확장하려는 강력한 의지를 보였다.4
2.2 Google I/O 2024: Gemini 생태계의 전략적 확장
OpenAI의 발표 직후, Google은 연례 개발자 회의 I/O 2024를 통해 Gemini 모델을 중심으로 한 포괄적인 AI 생태계 확장 전략을 공개했다. 이는 단일 모델의 성능 경쟁을 넘어, 다양한 요구사항에 맞는 모델 라인업과 자사 제품군과의 깊은 통합을 통해 AI 시장의 주도권을 확보하려는 전략적 움직임으로 해석된다.
2.2.1 Gemini 1.5 Flash: 속도와 효율성의 최적화
Gemini 1.5 Flash는 Google이 제시한 AI 모델 다각화 전략의 핵심이다. 이 모델은 더 큰 모델인 Gemini 1.5 Pro의 방대한 지식과 핵심 능력을 더 작고 효율적인 모델로 이전하는 ‘지식 증류(Knowledge Distillation)’ 기법을 통해 개발되었다.10 이 과정에서 모델은 교사 모델(Pro)의 출력 확률 분포(soft targets)를 학습함으로써, 적은 파라미터로도 교사 모델과 유사한 성능을 내도록 훈련된다.
또한, 아키텍처 수준에서는 어텐션(attention)과 피드포워드(feed-forward) 구성 요소의 병렬 계산을 통해 추론 속도를 극대화하고, 온라인 증류(online distillation) 기법을 적용하여 훈련 효율성을 높였다.11 그 결과 Gemini 1.5 Flash는 Pro 모델과 동일한 100만 토큰의 방대한 컨텍스트 창을 지원하면서도, 훨씬 빠른 속도와 낮은 비용으로 대규모, 고처리량 작업(high-volume tasks)을 처리할 수 있게 되었다.11
Gemini 1.5 Flash의 등장은 AI 모델 개발의 패러다임이 단순히 ’가장 크고 강력한 모델’을 만드는 것에서 벗어나, ’특정 작업과 비즈니스 요구에 가장 효율적인 모델’을 제공하는 방향으로 다각화되고 있음을 보여준다. 이는 AI 기술이 연구 단계를 넘어 실제 산업 애플리케이션에 광범위하게 통합되기 위한 필수적인 진화 과정이다.
2.2.2 Project Astra: 실시간 기억 및 추론 에이전트의 비전
Project Astra는 Google DeepMind가 제시하는 미래 AI 비서의 청사진이다.12 이 프로젝트는 Gemini 모델(특히 Gemini 2.5 Pro 기반으로 추정됨)을 기반으로, 동기화된 비디오, 오디오, 텍스트 데이터를 함께 학습하여 실시간으로 다중 양식을 융합하고 추론하는 것을 목표로 한다.14
Project Astra의 기술적 핵심은 사용자와의 상호작용과 시각적 관찰 내용을 기록하는 ‘에피소드 기억(Episodic Memory)’, 사실과 사용자 선호를 저장하는 ‘의미 기억(Semantic Memory)’, 그리고 진행 중인 작업 상태를 추적하는 ‘절차 기억(Procedural Memory)’ 등으로 구성된 ’문맥적 기억 그래프(Contextual Memory Graph)’에 있다.14 이 기억 구조를 통해 Astra는 단순히 현재의 입력에만 반응하는 것을 넘어, 과거의 대화와 맥락을 기억하고 이를 바탕으로 사용자의 의도를 예측하며, 심지어 질문받기 전에 선제적으로 도움을 제공하는 ’Proactive AI’가 될 수 있다.15
GPT-4o가 ’인간과 같이 자연스러운 실시간 상호작용’에 초점을 맞추었다면, Project Astra는 한 걸음 더 나아가 ‘사용자의 상황과 과거를 기억하여 다음 행동을 예측하고 돕는’ 개인화된 비서의 비전을 제시한다. 이는 장기적으로 AI가 사용자의 삶과 주변 환경에 깊숙이 통합되어 보이지 않게 작동하는 ‘앰비언트 컴퓨팅(Ambient Computing)’ 시대의 핵심 요소가 될 잠재력을 보여준다.
2.2.3 AI Overviews: 검색의 재정의
Google 검색에 전면적으로 도입된 AI Overviews는 사용자의 복잡한 질의에 대해 AI가 여러 웹 소스를 종합하여 생성형 요약 답변을 제공하는 기능이다.17 이는 Google의 맞춤형 Gemini 모델을 기반으로 하며, 특히 여러 단계의 추론이 필요한 ‘다단계 추론(Multi-step reasoning)’ 능력을 통해 “보스턴에서 골동품 가게를 둘러보고 점심으로 먹을 만한 채식 식당을 찾아줘“와 같은 복합적인 작업을 한 번에 처리할 수 있다.12
AI Overviews의 등장은 지난 20년간 검색 엔진을 지배해 온 ‘10개의 파란 링크’ 패러다임에 근본적인 변화를 가져온다. 이는 검색 엔진 최적화(SEO) 산업에 중대한 영향을 미친다. 기존의 키워드 기반 순위 경쟁을 넘어, AI에 의해 신뢰할 수 있는 정보 소스로 채택되기 위한 콘텐츠 전략이 중요해졌다. 여기에는 질문-답변(Q&A) 형식의 명확한 콘텐츠 구조화, 특정 주제에 대한 포괄적인 정보를 제공하는 토픽 페이지 구축, 그리고 AI가 자주 참조하는 Reddit이나 Quora와 같은 커뮤니티 플랫폼에서의 전문성 확보 등이 포함된다.17
반면, 사용자가 검색 결과 페이지에서 바로 요약된 답변을 얻게 됨에 따라 개별 웹사이트로 유입되는 트래픽이 감소할 수 있다는 우려도 제기된다. 한 연구에 따르면, 이커머스 검색어의 80% 경우에서 AI Overviews에 인용된 소스가 유기적 검색 결과 상위에 랭크되지 않았다는 분석도 있다.19 이는 검색 가시성을 확보하는 규칙이 바뀌고 있음을 시사한다. 또한, AI가 생성하는 답변의 정확성, 잠재적 편향성, 그리고 잘못된 정보(예: 피자에 접착제를 넣으라는 답변) 생성 문제는 Google이 해결해야 할 중요한 과제로 부상했다.17
2.3 심층 분석 및 통찰
2024년 5월 OpenAI와 Google의 발표는 단순히 두 개의 새로운 AI 모델 출시 이상의 의미를 지닌다. 이는 AI 기술의 근본적인 진화 방향과 시장의 경쟁 구도 변화를 명확히 보여주는 중요한 사건이다.
첫째, 기술적 패러다임이 ’파이프라인’에서 ‘End-to-End’ 통합 모델로 전환되면서 AI와의 상호작용에 질적인 변화가 일어나고 있다. 과거의 멀티모달 AI는 각 양식을 처리하는 별개의 모델들을 순차적으로 연결하는 파이프라인 구조를 가졌다.4 이 구조는 각 처리 단계에서 필연적으로 정보 손실을 유발했다. 예를 들어, 음성 인식(ASR) 모델은 텍스트 정보만 추출하고 음성의 떨림, 억양, 감정 상태와 같은 풍부한 메타 정보는 버렸다. LLM은 텍스트만 처리하므로 사용자가 보고 있는 시각적 맥락을 전혀 이해하지 못했다. GPT-4o와 Project Astra는 이 파이프라인을 단일 거대 신경망으로 통합함으로써, 모든 입력(음성, 영상, 텍스트)이 동일한 고차원 ‘표상 공간(Representation Space)’ 내에서 함께 처리되도록 만들었다.4 그 결과, 모델은 음성의 미세한 떨림을 ’불안함’으로, 사용자가 가리키는 특정 시각적 단서를 ’긴급함’으로 직접 연관지어 추론할 수 있게 된다. 이는 단순한 정보 전달을 넘어, 인간의 커뮤니케이션처럼 맥락과 뉘앙스를 포괄적으로 이해하는, 질적으로 완전히 다른 차원의 상호작용을 가능하게 한다. 이것이 바로 ’실시간 옴니-모달리티’의 진정한 본질이다.
둘째, AI 시장의 경쟁 구도가 ‘최고 성능 모델’ 경쟁에서 ‘생태계’ 경쟁으로 명확히 전환되고 있다. OpenAI는 GPT-4o의 API 비용을 절반으로 낮추고 무료 사용자에게도 개방함으로써 모델 자체의 접근성을 대폭 확대했다.4 이는 모델의 성능 우위를 넘어, 더 많은 개발자와 사용자를 자사 플랫폼으로 끌어들여 강력한 애플리케이션 생태계를 구축하려는 ’플랫폼 전략’의 일환이다. 반면, Google은 Gemini 1.5 Pro(고성능), Flash(고효율), Nano(온디바이스) 등 다양한 요구에 맞는 모델 라인업을 구축하고 12, 이를 검색(AI Overviews), 안드로이드, 워크스페이스 등 자사가 보유한 거대한 제품 생태계에 깊숙이 통합하는 전략을 취하고 있다.15 Project Astra는 이 모든 제품과 서비스를 아우르는 통합된 ’지능형 에이전트’의 최종 비전을 보여준다. 따라서 2024년 5월의 발표들은 단순히 두 모델의 성능 비교를 넘어선다. 이는 OpenAI의 ‘모델 중심 개방형 생태계’ 전략과 Google의 ‘제품 중심 통합형 생태계’ 전략 간의 본격적인 경쟁이 시작되었음을 알리는 신호탄이다. 미래 AI 시장의 승자는 단순히 가장 똑똑한 모델을 가진 회사가 아니라, 가장 강력하고 유용한 생태계를 구축하는 회사가 될 가능성이 높다.
3. 2024년 주요 학술대회 핵심 동향 분석
2024년 5월은 산업계의 발표뿐만 아니라, AI 및 로보틱스 분야의 최신 연구 동향을 가늠할 수 있는 최고 권위의 학술대회 결과가 집중된 시기이기도 했다. 특히 ICLR(International Conference on Learning Representations)과 ICRA(International Conference on Robotics and Automation)에서 발표된 연구들은 현장의 기술적 흐름을 명확히 보여주었다.
3.1 ICLR 2024: 딥러닝 기초 연구의 최전선
ICLR은 표현 학습(Representation Learning) 분야의 최고 학회로, 딥러닝의 근간이 되는 기초 연구의 방향성을 제시한다. 2024년 5월에 집계된 ICLR 2024의 가장 영향력 있는 논문 목록은 현재 딥러닝 연구의 핵심 조류를 명확히 보여준다.21
첫째, 고성능 멀티모달리티 연구가 두드러졌다. 영향력 1위를 차지한 ’MiniGPT-4’는 정교한 LLM을 활용하여 비전-언어 이해 능력을 효율적으로 향상시키는 방법을 제시했는데, 이는 GPT-4o와 같은 산업계의 옴니-모달리티 흐름과 정확히 궤를 같이 한다.22
둘째, 생성 모델의 고도화가 지속되고 있다. ‘SDXL’(2위)은 고해상도 이미지 합성 기술을 한 단계 끌어올렸으며, ‘MVDream’(8위), ‘AnimateDiff’(9위), ‘DreamGaussian’(10위) 등은 텍스트로부터 일관성 있는 3D 콘텐츠나 애니메이션을 생성하는 기술이 빠르게 발전하고 있음을 보여준다.22 이는 메타버스와 디지털 콘텐츠 제작 산업에 큰 영향을 미칠 잠재력을 가진다.
셋째, LLM의 효율성 및 능력 확장에 대한 연구가 활발했다. ‘FlashAttention-2’(3위)는 GPU의 병렬 처리 구조를 깊이 이해하고 작업 분할을 최적화하여 어텐션 메커니즘의 연산 속도를 획기적으로 개선하는 핵심 기반 기술을 제시했다. 또한, LLM에게 스스로 코드를 디버깅하도록 가르치거나(‘Self-Debug’, 4위), 외부 도구(API)를 능숙하게 사용하도록 훈련시키는(‘ToolLLM’, 6위) 연구들은 LLM을 단순한 언어 모델을 넘어, 실제 세계의 복잡한 문제를 자율적으로 해결하는 ’에이전트’로 발전시키려는 노력을 반영한다.22
3.1.1 Table 1: 2024년 5월 기준 ICLR 2024 가장 영향력 있는 논문 TOP 10
| 순위 | 논문 제목 | 저자(대표) | 핵심 기여 및 방법론 |
|---|---|---|---|
| 1 | MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models | Deyao Zhu et al. | 정교한 LLM(Vicuna)과 시각 인코더를 단일 프로젝션 레이어로 연결하여, 적은 파라미터로 뛰어난 비전-언어 생성 능력을 달성함. |
| 2 | SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis | DUSTIN PODELL et al. | 텍스트-이미지 합성을 위한 잠재 확산 모델(Latent Diffusion Model)인 Stable Diffusion XL(SDXL)을 제시하여 고해상도 이미지 생성 품질을 개선함. |
| 3 | FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning | Tri Dao | GPU의 스레드 블록과 워프 간 작업 분할을 최적화하여 불필요한 메모리 접근을 줄이고, 어텐션 연산의 속도를 획기적으로 향상시킴. |
| 4 | Teaching Large Language Models to Self-Debug | Xinyun Chen et al. | LLM이 생성한 코드의 오류를 스스로 찾아 수정하도록 하는 ‘Self-Debug’ 프레임워크를 제안하여 복잡한 프로그래밍 작업의 정확도를 높임. |
| 5 | WizardCoder: Empowering Code Large Language Models with Evol-Instruct | ZIYANG LUO et al. | ‘Evol-Instruct’ 방법을 코드 생성 분야에 적용하여 명령어의 복잡성과 다양성을 점진적으로 높여가며 Code LLM을 훈련시키는 새로운 접근법 제시. |
| 6 | ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs | YUJIA QIN et al. | LLM이 실제 세계의 다양한 API(16,000개 이상)를 효과적으로 사용할 수 있도록 데이터 구축, 모델 훈련, 평가를 포함하는 범용 프레임워크를 제안함. |
| 7 | Let’s Verify Step By Step | HUNTER LIGHTMAN et al. | 복잡한 수학 문제 해결 시, 최종 결과만 감독하는 것(outcome supervision)보다 풀이 과정 각 단계를 감독하는 것(process supervision)이 모델 성능 향상에 훨씬 효과적임을 입증함. |
| 8 | MVDream: Multi-view Diffusion for 3D Generation | YICHUN SHI et al. | 주어진 텍스트 프롬프트로부터 일관성 있는 다중 시점(multi-view) 이미지를 생성할 수 있는 확산 모델을 제안하여 3D 콘텐츠 생성의 기반을 마련함. |
| 9 | AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models Without Specific Tuning | YUWEI GUO et al. | 기존에 훈련된 개인화된 Text-to-Image 모델에 별도의 튜닝 없이 애니메이션 효과를 적용할 수 있는 실용적인 프레임워크를 제시함. |
| 10 | DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation | Jiaxiang Tang et al. | 효율성과 품질을 동시에 달성하는 새로운 3D 콘텐츠 생성 프레임워크 ’DreamGaussian’을 제안함. |
3.2 ICRA 2024: 로봇 학습과 자율성의 패러다임 전환
로보틱스 분야 최고 권위 학회인 ICRA 2024에서는 로봇 학습과 자율성에 대한 근본적인 패러다임 전환을 예고하는 중요한 연구들이 주목받았다.
3.2.1 최우수 컨퍼런스 논문: “Open X-Embodiment: Robotic Learning Datasets and RT-X Models”
이 연구의 가장 큰 기여는 전 세계 20개 이상의 연구 기관이 협력하여, 22종의 서로 다른 로봇 팔에서 수집된 500가지 이상의 기술과 100만 개 이상의 로봇 행동 궤적(trajectory) 데이터를 통합한 전례 없는 규모의 ‘Open X-Embodiment’ 데이터셋을 구축한 것이다.23 연구팀은 이 방대하고 이질적인(heterogeneous) 데이터셋을 사용하여, 특정 로봇이나 환경에 국한되지 않는 범용 조작 기술(general-purpose manipulation skills)을 학습하는 ‘RT-X’ 모델(Robotics Transformer)을 훈련시켰다.25
이 연구의 기술적 의미는 지대하다. 이는 로보틱스 분야가 컴퓨터 비전 분야의 ’ImageNet’과 같은 대규모 표준 데이터셋을 구축하고, 이를 기반으로 한 ’로봇 파운데이션 모델’을 만들려는 시도의 결정체이기 때문이다. 개별 로봇을 위한 맞춤형 프로그래밍과 시뮬레이션 기반 학습의 시대를 넘어, 다양한 실제 로봇들의 경험 데이터로부터 일반화된 조작 능력을 학습하는 새로운 패러다임의 가능성을 입증했다.23
3.2.2 기타 주요 수상 논문
ICRA 2024에서는 다양한 분야에서 주목할 만한 연구들이 수상했다.
- 무인 항공기 부문 최우수 논문: “Time-Optimal Gate-Traversing Planner for Autonomous Drone Racing“은 드론 레이싱에서 게이트의 형태와 크기 등 공간적 제약을 완전히 활용하여 시간 최적 경로를 생성하는 플래너를 제안했다. 이는 기존의 단순한 웨이포인트 통과 방식보다 훨씬 공격적이고 빠른 비행을 가능하게 하여, 고속 자율 비행 기술의 한계를 넓혔다.26
- 로봇 비전 부문 최우수 논문: “VLFM: Vision-Language Frontier Maps for Semantic Navigation“은 로봇이 환경을 탐색할 때 시각 정보와 언어 정보를 결합한 ’의미론적 경계 지도(Semantic Frontier Maps)’를 생성하는 기술을 제시했다. 이를 통해 로봇은 “의자가 있는 곳으로 가“와 같은 추상적이고 의미론적인 명령을 이해하고 수행할 수 있게 된다.26
- 자동화 부문 최우수 논문: “Goal Masked Diffusion Policies for Unified Navigation and Exploration“은 생성 모델의 일종인 확산 모델(Diffusion Models)을 활용하여, 로봇의 목표 지점 항법(navigation)과 미지의 환경 탐사(exploration)라는 두 가지 상이한 목표를 단일 정책(single policy)으로 통합하는 방법을 제안하여 로봇의 행동 유연성을 높였다.26
3.3 심층 분석 및 통찰
ICRA 2024의 수상 결과, 특히 최우수 논문상은 로보틱스 분야의 연구 무게중심이 ’알고리즘 중심’에서 ’데이터 중심’으로 이동하고 있음을 상징적으로 보여준다. 전통적인 로보틱스 연구는 정교한 물리 모델링, 동역학 계산, 최적 제어 알고리즘 개발에 집중해왔다. 이러한 접근법은 특정 작업과 통제된 환경에서는 매우 높은 성능을 보이지만, 새로운 작업이나 예상치 못한 환경 변화에 직면했을 때 쉽게 실패하는 ’취약성(brittleness)’을 내재하고 있었다.
‘Open X-Embodiment’ 연구는 이러한 전통적 접근법과 정반대의 철학을 보여준다.23 이 연구의 핵심 혁신은 새로운 제어 알고리즘이 아니라, 전례 없는 규모와 다양성을 가진 ‘데이터셋’ 그 자체에 있다. 이 데이터셋을 통해 훈련된 RT-X 모델은 특정 로봇의 동역학 모델을 명시적으로 알지 못하더라도, 수많은 로봇들의 다양한 움직임 데이터 속에서 일반화된 ’조작의 물리적 패턴’을 스스로 학습한다. 이는 거대 언어 모델이 문법 규칙을 명시적으로 배우는 것이 아니라, 방대한 텍스트 데이터에서 언어적 패턴을 통계적으로 학습하는 것과 매우 유사한 원리이다.
따라서 이 연구의 성공은 로보틱스 분야의 핵심 과제가 ’더 정교하고 나은 알고리즘’을 설계하는 것에서 ’더 크고, 더 다양하며, 더 높은 품질의 데이터를 어떻게 수집하고 효과적으로 활용할 것인가’로 전환되고 있음을 명확히 보여준다. 이는 향후 로봇 기술 발전의 방향과 연구 자금의 흐름을 근본적으로 바꿀 수 있는 중대한 패러다임의 전환이다.
4. 로보틱스 응용 분야별 주요 연구 성과
학술대회의 거시적 동향과 더불어, 2024년 5월에는 자율 이동, 의료, 외골격 등 다양한 응용 분야에서 로봇 기술의 정교화를 보여주는 구체적인 연구 성과들이 발표되었다.
4.1 자율 이동 및 보행 로봇 기술
4.1.1 STORM (Self-configurable and Transformable Omni-Directional Robotic Modules)
STORM은 여러 로봇 모듈이 협력하여 다양한 형태를 구성하는 자가 재구성(self-reconfigurable) 이동 로봇 시스템으로, 특히 모듈 간 자율 도킹 및 정렬 작업을 목표로 한다.28 이 시스템의 제어 아키텍처는 두 가지 병렬적인 방식으로 구성된 하이브리드 전략을 채택한 것이 특징이다.
목표물에 근접한 최종 도킹 단계에서는, 시스템의 안정성을 수학적으로 증명할 수 있는 ’리아푸노프 함수 기반 정밀 제어기(Lyapunov function-based precision controller)’를 사용하여 도킹 메커니즘을 오차 없이 정밀하게 정렬한다.30 반면, 목표물과 멀리 떨어져 있는 원거리 이동 단계에서는 ’최적화 기반 경로 계획 알고리즘(Optimization-based path planning algorithm)’을 사용한다. 이 알고리즘은 로봇이 가진 두 가지 이동 모드, 즉 빠른 직선 주행에 유리한 바퀴 모드와 험지 주파에 유리한 트랙 모드 간의 전환 시점을 동적으로 결정하고, 전체 이동 시간을 최소화하는 최적의 경로를 탐색한다.28 이는 로봇의 작업 단계를 ’원거리 고속 이동’과 ’근거리 정밀 작업’으로 명확히 구분하고, 각 단계의 목표에 최적화된 서로 다른 제어 전략을 지능적으로 결합한 고도화된 제어 시스템의 좋은 예시이다.
4.1.2 Gaitor: Learning a Unified Representation Across Gaits for Real-World Quadruped Locomotion
Gaitor는 4족 보행 로봇이 동물의 움직임처럼 다양한 보행 방식(예: 빠른 속도의 트롯(trot), 안정적인 크롤(crawl))을 상황에 맞게 부드럽게 전환할 수 있도록 하는 새로운 학습 방법론을 제시한다.33 이 연구는 VAE(Variational Autoencoder)라는 생성 모델을 사용하여, 다양한 보행 시연 데이터로부터 핵심적인 동역학적 특징들을 추출하고, 이를 해석 가능하고 제어하기 쉬운 저차원(2D) 잠재 공간(latent space)에 투영한다.35
로봇은 이 압축된 잠재 공간 상에서 목표 지점까지의 경로를 계획함으로써, 여러 보행 방식 사이를 연속적으로 보간(interpolate)하는 움직임을 생성한다. 이 과정에서 훈련 데이터에는 명시적으로 포함되지 않았던 새로운 중간 형태의 보행(intermediary gaits)이 자연스럽게 나타나며, 이는 매우 자연스럽고 효율적인 보행 전환을 가능하게 한다.35 또한, 지형의 높이 정보를 입력받는 지형 인코더를 결합하여, 울퉁불퉁한 지형을 지날 때 발의 스윙 궤적과 같은 특성을 적응적으로 조절한다.34 이는 미리 정의된 이산적인 기술(discrete skills)들 사이를 딱딱하게 전환하는 기존 방식에서 벗어나, 데이터로부터 기술 간의 연속적이고 유기적인 관계를 학습하는 진일보한 접근법이다.
4.2 의료 및 바이오-메카트로닉스 로보틱스
2024년 5월에는 의료 및 재활 분야에서 로봇 기술의 접근성과 정밀도를 높이는 다양한 연구들이 발표되었다.
- 개방형 수술 로봇 플랫폼: 심방세동과 같은 부정맥 치료를 위한 카테터 절제술에 사용되는 ’CardioXplorer’는 3자유도 원격 조종 로봇 플랫폼으로, 모든 소스 코드와 하드웨어 설계가 공개되어 있다.28 이는 수억 원에 달하는 고가의 독점적 수술 로봇 시스템에 대한 의존도를 낮추고, 전 세계의 연구자들이나 스타트업이 기술 개선에 참여할 수 있는 길을 열어준다. 이러한 개방형 혁신은 수술 로봇 기술의 발전 속도를 가속화하고 비용을 절감하는 데 중요한 역할을 할 것으로 기대된다.
- 최소 침습 수술 로봇: 동심원 튜브(concentric tube) 구조를 이용하여 좁고 구불구불한 경로를 따라 들어갈 수 있는 조종 가능한 드릴링 로봇을 이용한 척추 고정술 연구는, 로봇이 인체의 더 복잡하고 접근하기 어려운 부위에서 정밀한 최소 침습 수술을 수행할 수 있는 가능성을 보여준다.33
- 증강 외골격 로봇: 배낭 운반과 같이 특정 작업을 보조하기 위한 수동형 외골격 로봇의 최적 설계를 찾는 연구도 발표되었다. 이 연구는 16가지 가능한 운동학적 구성(관절의 자유도 조합)에 대해 근골격 시뮬레이션을 수행하고, 인간의 자연스러운 움직임을 가장 적게 방해하면서도 보조 효과가 큰 최적의 구성을 정량적으로 선택하는 체계적인 프레임워크를 제시했다.28 이는 경험에 의존하던 외골격 설계를 데이터 기반의 공학적 최적화 문제로 전환시키는 중요한 시도이다.
4.3 심층 분석 및 통찰
로보틱스 제어 및 학습 분야의 최근 연구들은 ’단일 최적화(monolithic optimization)’에서 ‘계층적/하이브리드(hierarchical/hybrid)’ 구조로 진화하는 뚜렷한 경향을 보인다. 초기 로봇 제어 연구는 주로 단일 목표(예: 최단 경로, 최소 에너지)를 전역적으로 최적화하는 데 집중했다. 하지만 실제 세계의 문제는 여러 상충될 수 있는 목표를 동시에 고려해야 하는 복합적인 경우가 대부분이다.
STORM 시스템은 이러한 진화를 명확히 보여준다. ’최대한 빠르게 이동하는 것’과 ’오차 없이 정확하게 도킹하는 것’은 서로 다른 제어 목표를 요구한다. STORM은 이 문제를 해결하기 위해, 두 개의 완전히 다른 제어기, 즉 원거리 이동을 위한 최적화 기반 플래너와 근거리 정렬을 위한 리아푸노프 기반 제어기를 개발하고, 상황에 맞게 이 둘을 전환하는 하이브리드 방식을 채택했다.30 이는 단일 제어기로 모든 상황을 해결하려는 시도보다 훨씬 효율적이고 강건하다.
Gaitor 역시 계층적 구조를 가진다. 저수준(low-level)에서는 VAE가 학습한 잠재 공간이 로봇이 물리적으로 실행 가능한 안정적인 움직임의 범위를 정의하는 역할을 한다. 그리고 고수준(high-level)에서는 이 잠재 공간 내에서 플래너가 더 추상적인 목표(예: 특정 보행으로 전환, 장애물 회피)를 달성하기 위한 최적의 행동 순서(경로)를 탐색한다.35
이러한 경향은 복잡한 문제를 해결하기 위해, 문제를 여러 계층이나 단계로 분해하고 각 부분에 가장 적합한 전문화된 솔루션을 결합하는 것이 효과적이라는 공학적 원리를 반영한다. 이는 미래의 복잡한 자율 시스템이 모든 것을 처리하는 거대한 단일 신경망(monolithic neural network)보다는, 여러 전문화된 모듈이 유기적으로 협력하는 계층적(hierarchical) 또는 하이브리드 구조를 가질 가능성이 높음을 시사한다.
5. AI 기반 과학적 발견과 프론티어 모델의 안전성
2024년 5월의 AI 발전은 응용 기술의 확장을 넘어, 기초 과학 연구의 방법론을 근본적으로 바꾸고 동시에 이러한 강력한 기술을 어떻게 안전하게 통제할 것인가에 대한 사회적 논의를 심화시켰다.
5.1 AlphaFold 3: 생명 과학 연구의 새로운 시대
Google DeepMind와 Isomorphic Labs가 공동으로 개발한 AlphaFold 3는 AI가 과학적 발견의 도구를 넘어, 발견 그 자체의 엔진이 될 수 있음을 보여준 기념비적인 성과다.36
5.1.1 기술적 혁신
AlphaFold 3는 단백질의 3차원 구조 예측에 머물렀던 이전 버전의 한계를 뛰어넘어, 생명 현상의 거의 모든 분자, 즉 단백질, DNA, RNA와 같은 거대 분자들과 약물 분자와 같은 작은 분자인 리간드(ligand), 그리고 이온 간의 상호작용 구조까지 예측할 수 있게 되었다.36 이 놀라운 발전은 두 가지 핵심 기술의 결합으로 가능했다. 첫째, AlphaFold 2의 핵심이었던 ‘Evoformer’ 모듈을 개선하여 더 넓은 범위의 분자 정보를 처리할 수 있도록 했다. 둘째, AI 이미지 생성기에 널리 사용되는 ’확산 네트워크(Diffusion Network)’를 구조 예측 과정에 도입했다. 이 네트워크는 원자들의 초기 무작위 분포 상태에서 시작하여, 점진적으로 노이즈를 제거해나가며 물리적으로 가장 안정적이고 정확한 최종 3차원 분자 복합체 구조를 생성한다.36 이 방식은 전체 분자 복합체를 하나의 통합된 시스템으로 간주하고 전체적으로(holistically) 모델링함으로써, 개별 분자들을 따로 예측한 후 결합하는 기존 방식보다 훨씬 높은 정확도를 달성했다.
5.1.2 과학적 중요성
AlphaFold 3가 가지는 과학적 중요성은 신약 개발 과정을 혁명적으로 바꿀 수 있는 잠재력에 있다. 약물 분자(리간드)가 질병을 유발하는 표적 단백질에 어떻게, 그리고 얼마나 강하게 결합하는지를 컴퓨터상에서 매우 높은 정확도로 예측할 수 있게 됨으로써, 신약 후보 물질을 발굴하고 최적화하는 데 드는 막대한 시간과 비용을 획기적으로 줄일 수 있다.36 또한, 인체의 면역 반응에 핵심적인 역할을 하는 항체가 특정 항원 단백질에 결합하는 방식을 예측하는 능력은 새로운 항체 치료제나 백신 개발에 결정적인 기여를 할 수 있다.
이러한 영향력은 신약 개발에만 국한되지 않는다. 유전 정보를 담고 있는 DNA와 상호작용하는 단백질의 구조를 이해하는 것은 유전체학 연구를 가속화하고, 특정 효소의 작동 방식을 모델링하는 것은 플라스틱을 분해하거나 새로운 바이오 연료를 만드는 합성 생물학 및 신소재 개발 연구에 새로운 길을 열어줄 수 있다.1
5.2 프론티어 AI의 거버넌스 프레임워크
AI 기술의 능력이 기하급수적으로 발전함에 따라, 그 잠재적 위험을 통제하고 사회적 책임을 다하기 위한 거버넌스 체계 구축의 중요성 또한 커지고 있다. 2024년 5월, AI 개발을 선도하는 두 기업은 이러한 노력의 일환으로 정교한 내부 안전 프레임워크를 공개했다.
5.2.1 OpenAI의 ‘Model Spec’
2024년 5월 8일, OpenAI는 자사의 AI 모델이 따라야 할 행동 원칙과 가이드라인을 명시한 ‘Model Spec’ 초안을 공개했다.38 이는 모델의 행동을 보다 일관성 있고 예측 가능하게 만들려는 체계적인 시도이다. Model Spec은 세 가지 계층으로 구성된다.
- 목표(Objectives): “인류에게 이로울 것”, “사용자 목표 달성을 도울 것“과 같은 최상위의 광범위한 원칙.
- 규칙(Rules): “관련 법률을 준수할 것”, “창작자의 권리를 존중할 것”, “유해한 정보(information hazards)를 제공하지 말 것“과 같이 구체적이고 강제적인 지침.
- 기본 행동(Default behaviors): 목표와 규칙이 서로 충돌할 때 어떤 것을 우선시할지에 대한 가이드라인. 예를 들어, 사용자가 불법적인 행위에 대한 정보를 요청할 경우, ’사용자 목표 달성’이라는 목표보다 ’법률 준수’라는 규칙이 우선 적용되어 요청을 거부해야 한다.
5.2.2 Google의 ‘Frontier Safety Framework’
Google DeepMind 또한 최신 ’프론티어 안전 프레임워크(Frontier Safety Framework)’를 발표하며, 진화하는 AI 위험에 대한 대응 체계를 강화했다.3 이 프레임워크는 특히 새롭게 부상하는 위험을 식별하고 관리하는 데 중점을 둔다. 예를 들어, AI가 사용자의 신념이나 행동을 체계적으로 바꾸는 데 악용될 수 있는 ‘유해한 조작(Harmful Manipulation)’ 능력을 새로운 위험 범주로 정의하고 이를 평가하는 절차를 도입했다. 또한, 모델이 특정 위험 능력 수준(Critical Capability Level, CCL)에 도달하기 전에 선제적으로 안전 조치를 취하고, 모델이 개발자의 통제를 벗어나 독자적으로 행동할 가능성이 있는 ‘정렬 실패(Misalignment)’ 시나리오에 대한 구체적인 대응 프로토콜을 포함하고 있다.
5.3 심층 분석 및 통찰
2024년 5월의 주요 발표들은 AI의 발전이 ’능력의 확장’과 ’통제의 필요성’이라는 두 축을 중심으로 함께 가속화되는 양상을 뚜렷하게 보여준다. 한편에서는 AlphaFold 3와 GPT-4o처럼 인류에게 막대한 이익을 가져다줄 잠재력을 가진, 경이로운 수준의 AI ‘능력’ 확장이 이루어졌다. 이 기술들은 과학 연구, 의료, 교육 등 사회 전반에 긍정적인 변화를 약속한다.
바로 그와 동시에, 이러한 강력한 기술이 오용되거나 통제 불능 상태에 빠질 경우의 위험 또한 기하급수적으로 증가한다. 예를 들어, AlphaFold 3의 분자 상호작용 예측 기술이 새로운 생물학 무기 개발에 악용될 가능성이나, GPT-4o의 정교한 실시간 상호작용 능력이 사회 공학적 공격이나 대규모 허위 정보 유포에 사용될 위험을 상상할 수 있다.
이러한 배경 속에서 OpenAI와 Google이 거의 동시에 정교하고 체계적인 안전 및 거버넌스 프레임워크를 발표한 것은 결코 우연이 아니다.38 이는 AI 개발의 선두 주자들이 기술 개발의 속도만큼이나, 혹은 그 이상으로 기술 통제와 안전의 중요성을 절실히 인식하고 있음을 보여주는 명백한 증거이다. 따라서 미래 AI 기술의 발전은 단순히 더 똑똑하고 유능한 모델을 만드는 기술적 경쟁을 넘어, ’그렇게 강력해진 능력을 어떻게 하면 안전하고 유익하게 통제할 것인가’라는 사회적, 윤리적 문제를 해결하는 능력까지 포함하는 복합적인 경쟁이 될 것이다. 2024년 5월의 사건들은 기술적 혁신과 윤리적 책임이 결코 분리될 수 없는, 동전의 양면과 같은 관계임을 명확히 보여주었다.
6. 결론: 종합적 분석 및 미래 전망
6.1 종합
2024년 5월은 인공지능이 실험실의 연구 단계를 넘어 인간의 감각 및 소통 방식에 더 가까워지고, 물리 세계와 직접적으로 상호작용하는 ’체화된 지능(Embodied Intelligence)’으로 나아가는 중요한 이정표를 세운 시기로 평가할 수 있다. GPT-4o와 Project Astra가 제시한 실시간 옴니-모달 상호작용은 AI를 우리의 ’디지털 동반자’로 만들 잠재력을 보여주었고, ICRA 2024에서 주목받은 Open X-Embodiment와 Gaitor 같은 연구는 AI를 우리의 ’물리적 동반자’로 만들 가능성을 열었다. 이 두 가지 거대한 흐름, 즉 디지털 세계에서의 상호작용 심화와 물리 세계로의 능력 확장은 결국 하나의 지점으로 수렴할 것이다. 이 두 흐름의 융합은 미래에 인간이 일하고, 학습하며, 소통하는 방식을 근본적으로 변화시킬 것이다.
6.2 미래 전망
이러한 분석을 바탕으로 다음과 같은 미래를 전망할 수 있다.
- 범용 AI 에이전트로의 진화: 현재의 기술 발전 속도는 단기적으로 다양한 디지털 및 물리적 작업을 자율적으로 계획하고 수행하는 ’범용 AI 에이전트’의 등장을 예고한다. 이는 개인과 기업의 생산성을 극대화하는 긍정적 측면과 함께, 지식 노동을 포함한 광범위한 일자리 대체와 같은 심각한 사회적 과제를 동시에 제기할 것이다.
- 데이터 병목 현상과 로보틱스: 로보틱스 분야는 ’Open X-Embodiment’와 같은 선구적인 노력에도 불구하고, 여전히 고품질의 대규모 상호작용 데이터를 확보하는 것이 기술 발전의 가장 큰 병목으로 작용할 것이다. 방대한 시뮬레이션 환경에서 정책을 사전 훈련하고, 소량의 실제 세계 데이터로 미세 조정하는 하이브리드 접근법이 로봇 학습의 핵심 전략이 될 것이다.
- 안전과 거버넌스의 제도화: ’Model Spec’이나 ’Frontier Safety Framework’과 같은 기업 내부의 자율적 가이드라인은 향후 법적 구속력을 갖는 국가적 규제와 국제적 표준으로 발전해 나갈 가능성이 높다. AI 기술의 발전 속도와 사회적 수용성 사이의 간극을 줄이기 위해, 기술의 투명성을 높이고 책임 소재를 명확히 하는 거버넌스 체계 구축이 국제 사회의 핵심 과제가 될 것이다.
결론적으로, 2024년 5월의 혁신들은 인공지능 기술이 인류에게 가져다줄 엄청난 기회와 함께, 그에 상응하는 깊은 책임감을 요구하고 있다. 기술의 발전 방향을 결정하는 것은 결국 인간이며, 앞으로의 선택이 AI와 인류의 미래를 결정하게 될 것이다.
7. 참고 자료
- Science in the age of AI - Royal Society, https://royalsociety.org/-/media/policy/projects/science-in-the-age-of-ai/science-in-the-age-of-ai-report.pdf
- World Summit AI, https://worldsummit.ai/
- Responsible AI: Our 2024 report and ongoing work - Google Blog, https://blog.google/technology/ai/responsible-ai-2024-report-ongoing-work/
- Hello GPT-4o - OpenAI, https://openai.com/index/hello-gpt-4o/
- GPT-4o System Card | OpenAI, https://cdn.openai.com/gpt-4o-system-card.pdf
- Deduct OpenAI GPT-4o’s Neural Network Architecture - YouTube, https://www.youtube.com/watch?v=irYyK-CqcVI
- OpenAI May 2024 Event Announcements Recap - JazzComputing, https://www.jazzcomputing.com/blog/openai-may-2024-event-announcements-recap
- GPT-4o: The Comprehensive Guide and Explanation - Roboflow Blog, https://blog.roboflow.com/gpt-4o-vision-use-cases/
- GPT-4 - Wikipedia, https://en.wikipedia.org/wiki/GPT-4
- Multimodality with Gemini-1.5-Flash: Technical Details and Use Cases - Medium, https://medium.com/google-cloud/multimodality-with-gemini-1-5-flash-technical-details-and-use-cases-84e8440625b6
- Scaling Up Malware Analysis with Gemini 1.5 Flash | Google Cloud Blog, https://cloud.google.com/blog/topics/threat-intelligence/scaling-up-malware-analysis-with-gemini
- 6 Biggest AI announcements from Google I/O 2024 | Torchbox, https://torchbox.com/charity/blog/6-biggest-ai-announcements-from-google-io-2024/
- Google Gemini 1.5 Flash - Relevance AI, https://relevanceai.com/llm-models/utilize-google-gemini-1-5-flash-for-fast-ai-solutions
- Project Astra: The Deep Tech Behind Google’s Real-Time AI Agent - Medium, https://medium.com/@back2om/project-astra-the-deep-tech-behind-googles-real-time-ai-agent-34098516d355
- Google Released Project Astra with Real Time AI for Camera & Screen, https://www.globaltechcouncil.org/ai/project-astra-with-real-time-ai-for-camera-screen/
- Project Astra - Google DeepMind, https://deepmind.google/models/project-astra/
- Google’s May 2024 AI Overviews Update: What to Know About the Latest Search Evolution, https://impactseo.co/resources/seo-tips/may-2024-ai-overviews-update/
- Generative AI in Search: Let Google do the searching for you, https://blog.google/products/search/generative-ai-google-search-may-2024/
- May 2024 Google algorithm and search industry updates - Impression Digital, https://www.impressiondigital.com/blog/may-2024-google-algorithm-and-search-industry-updates/
- Google I/O 2024 recap: Making AI accessible and helpful for every developer, https://developers.googleblog.com/en/google-io-2024-recap-making-ai-accessible-and-helpful-for-every-developer/
- 2024 Conference - ICLR 2026, https://iclr.cc/Conferences/2024
- Most Influential ICLR Papers (2024-05 Version) – Resources | Paper …, https://www.paperdigest.org/2024/05/most-influential-iclr-papers-2024-05/
- ICRA 2024 Best Paper - Henrik I Christensen, https://hichristensen.com/post/icra-2024-best-paper/
- IEEE ICRA Best Paper Award 2024, https://www.dlr.de/en/rm/latest/news/2024/ieee-icra-best-paper-award-2024
- IEEE ICRA 2024 Awards • Henrik I Christensen - Credential.net, https://www.credential.net/1f9af845-fd44-465e-98ee-b5aca49b5f10
- Awards and Finalists - 2024 IEEE International Conference on Robotics and Automation (ICRA 2024), https://2024.ieee-icra.org/awards-and-finalists/
- Hugh Liu receives best paper award at ICRA 2024 - University of Toronto Robotics Institute, https://robotics.utoronto.ca/news/hugh-liu-receives-best-paper-award-at-icra-2024/
- Robotics, Volume 13, Issue 5 (May 2024) – 17 articles - MDPI, https://www.mdpi.com/2218-6581/13/5
- Shumin Feng’s research while affiliated with Virginia Tech and other places, https://www.researchgate.net/scientific-contributions/Shumin-Feng-2194964336
- Autonomous Alignment and Docking Control for a Self-Reconfigurable Modular Mobile Robotic System - MDPI, https://www.mdpi.com/2218-6581/13/5/81
- (PDF) Autonomous Alignment and Docking Control for a Self-Reconfigurable Modular Mobile Robotic System - ResearchGate, https://www.researchgate.net/publication/380778847_Autonomous_Alignment_and_Docking_Control_for_a_Self-Reconfigurable_Modular_Mobile_Robotic_System
- Special Issue : Motion Trajectory Prediction for Mobile Robots - MDPI, https://www.mdpi.com/journal/robotics/special_issues/trajectory_prediction
- Robotics May 2024 - arXiv, https://arxiv.org/list/cs.RO/2024-05?skip=500&show=100
- Gaitor: Learning a Unified Representation Across Gaits for Real-World Quadruped Locomotion | Request PDF - ResearchGate, https://www.researchgate.net/publication/381006703_Gaitor_Learning_a_Unified_Representation_Across_Gaits_for_Real-World_Quadruped_Locomotion
- Gaitor: Learning a Unified Representation Across Gaits for Real-World Quadruped Locomotion - arXiv, https://arxiv.org/html/2405.19452v2
- AlphaFold - Google DeepMind, https://deepmind.google/science/alphafold/
- Research - Google AI, https://ai.google/research/
- Introducing the Model Spec | OpenAI, https://openai.com/index/introducing-the-model-spec/
- Strengthening our Frontier Safety Framework - Google DeepMind, https://deepmind.google/discover/blog/strengthening-our-frontier-safety-framework/