년 3월 AI 및 로봇 연구 동향
1. 서론: 2023년 3월, AI 패러다임 전환의 서막
2023년 3월은 인공지능(AI) 역사에서 단순한 기술 발표의 시기를 넘어, 기술적 특이점(technological singularity)에 대한 논의와 사회적 합의 형성의 필요성이 동시에 폭발적으로 제기된 중대한 변곡점으로 기록된다. 이 시기는 거대 언어 모델(Large Language Model, LLM)의 능력이 임계점을 돌파하며 인간 고유의 영역으로 여겨졌던 전문 지식과 추론 능력을 선보였고 1, 동시에 물리 세계와 상호작용하는 ’체화된 AI(Embodied AI)’의 청사진이 구체적으로 제시된 시점이다.3
본 보고서는 2023년 3월에 발표된 주요 연구들을 중심으로 다음의 핵심 질문에 대한 심층적 분석을 제공하고자 한다. 첫째, GPT-4는 이전 세대 모델과 비교하여 기술적으로 어떤 도약을 이루었으며, 그 성능의 이면에 존재하는 한계와 안전성 문제는 무엇인가? 둘째, PaLM-E가 제시한 ’체화된 멀티모달 언어 모델’은 로봇공학의 패러다임을 어떻게 변화시킬 잠재력을 가지는가? 셋째, 이러한 급진적 기술 발전이 촉발한 사회적, 윤리적 논쟁의 핵심은 무엇이며, 규제 논의는 어떤 방향으로 전개되었는가?
이를 위해 본 보고서는 먼저 GPT-4 기술 보고서와 PaLM-E 논문을 중심으로 한 기술적 심층 분석을 수행한다. 이어서 ‘AI 실험 일시 중단’ 공개서한과 각국 정부의 규제 동향을 통해 사회적 성찰을 조명한다. 마지막으로 인간-로봇 상호작용(HRI) 및 컴퓨터 비전(CVPR) 등 주요 학회의 연구 동향을 통해 학계의 흐름을 짚어보고, 이 모든 현상의 상호 연관성을 분석하여 종합적인 결론을 도출한다.
2. 거대 언어 모델의 진화 - GPT-4 기술 보고서 심층 분석
2.1 멀티모달 아키텍처와 예측 가능한 스케일링
GPT-4는 근본적으로 ’다음 토큰 예측(next token prediction)’을 목표로 방대한 데이터에 대해 사전 훈련된 Transformer 기반 모델이다.1 Transformer 아키텍처의 핵심은 Scaled Dot-Product Attention 메커니즘으로, 입력 시퀀스 내의 관계를 효율적으로 학습한다. 이 메커니즘은 쿼리(Query, Q), 키(Key, K), 밸류(Value, V)라는 세 가지 벡터 표현을 사용하여 각 토큰의 중요도를 계산하며, 그 수학적 표현은 다음과 같다.6
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
여기서 d_k는 키 벡터의 차원을 의미하며, 이 값의 제곱근으로 나누는 스케일링 과정은 모델 훈련 중 그래디언트 소실(vanishing gradients) 문제를 완화하여 안정적인 학습을 보장하는 데 중요한 역할을 한다.7
GPT-4의 가장 큰 기술적 도약 중 하나는 텍스트와 이미지를 동시에 입력으로 처리하는 멀티모달(multimodal) 능력을 갖춘 점이다.1 이는 시각적 데이터를 텍스트 토큰과 동일한 고차원 벡터 공간으로 변환하는 인코더를 통해 구현된다. 변환된 이미지 임베딩은 텍스트 토큰 임베딩과 함께 Transformer의 셀프 어텐션 레이어에 입력되어, 두 양식이 통합적으로 처리된다.9 이 통합 아키텍처 덕분에 GPT-4는 다이어그램이 포함된 시험 문제를 풀거나, 여러 패널로 구성된 이미지의 유머를 설명하는 등 이전 모델에서는 불가능했던 복합적인 추론 작업을 수행할 수 있게 되었다.2
OpenAI는 GPT-4 개발의 핵심 성공 요인으로 ‘예측 가능한 스케일링(Predictable Scaling)’ 방법론을 강조했다.5 이는 최종 모델을 훈련하는 데 필요한 컴퓨팅 자원의 1/1,000 이하를 사용하여 훈련된 소규모 프로토타입 모델의 성능으로부터, 최종 대규모 모델의 손실(loss) 값과 핵심 성능 지표를 매우 정확하게 예측하는 기술이다.5 이 방법론은 막대한 자원이 소요되는 LLM 훈련 과정의 불확실성과 시행착오를 극적으로 줄였을 뿐만 아니라, 모델이 특정 규모에 도달했을 때 발현될 수 있는 잠재적 위험 능력을 사전에 예측하고 대비하는 안전성 확보의 핵심적인 도구로 작용했다.8
한편, OpenAI는 경쟁 환경과 안전 문제를 이유로 모델의 크기, 파라미터 수, 훈련 데이터셋 구성 등 구체적인 아키텍처 정보를 공개하지 않았다.2 그러나 다수의 업계 분석가들은 GPT-4가 약 1.8조 개의 파라미터를 가진 16개의 ’전문가 모델(expert models)’로 구성된 Mixture-of-Experts (MoE) 아키텍처를 채택했을 것으로 추정한다.2 MoE 구조는 추론 시 모든 파라미터를 활성화하는 대신, 입력된 프롬프트의 내용에 따라 가장 관련 있는 일부 전문가 모델(예: 2개)만을 선택적으로 활성화한다. 이를 통해 전체 모델의 방대한 지식과 능력을 유지하면서도 추론에 필요한 계산 비용을 크게 절감하여 효율성을 극대화한다.12
2.2 주요 성능 벤치마크 분석: GPT-3.5와의 비교를 중심으로
GPT-4는 다양한 전문 및 학술 벤치마크에서 이전 세대 모델인 GPT-3.5를 압도하고 인간 전문가 수준의 성능을 입증했다.1 가장 상징적인 성과는 미국 통합 변호사 시험(Uniform Bar Exam)에서 상위 10% 수준의 점수를 기록한 것이다. 이는 하위 10%에 머물렀던 GPT-3.5의 성과와 비교했을 때 괄목할 만한 질적 도약을 보여준다.2
두 모델 간의 성능 격차는 여러 표준화된 시험에서 일관되게 나타났다. 아래 표는 주요 시험 벤치마크에서의 성능을 비교한 것으로, GPT-4가 단순한 점수 향상을 넘어 다양한 고등 인지 능력이 필요한 영역에서 안정적으로 높은 성능을 달성했음을 명확히 보여준다.
Table 1: GPT-4 vs. GPT-3.5 주요 시험 벤치마크 성능 비교
| 벤치마크 | GPT-4 (추정 백분위) | GPT-3.5 (추정 백분위) | 소스 |
|---|---|---|---|
| 통합 변호사 시험 (Uniform Bar Exam) | ~90th | ~10th | 2 |
| LSAT | ~88th | ~40th | 2 |
| SAT Math | ~89th | ~70th | 13 |
| SAT Evidence-Based Reading & Writing | ~93rd | ~87th | 8 |
이러한 성능 향상은 특정 시험에 국한되지 않았다. 코딩 능력 평가 벤치마크인 HumanEval에서 GPT-4는 67.0%의 정답률을 기록하여 GPT-3.5의 48.1%를 크게 상회했다.8 또한, MMLU(Massive Multitask Language Understanding) 벤치마크에서는 평가된 26개 언어 중 24개에서 기존 최고 성능(SOTA) 모델을 능가하며 뛰어난 다국어 처리 능력을 입증했다.11 전반적으로 GPT-4는 이전 모델보다 훨씬 더 미묘하고 복잡한 지시를 정확하게 이해하고, 보다 창의적이고 신뢰도 높은 결과물을 생성하는 능력이 크게 향상되었다.8
2.3 기술적 한계와 안전성 강화 조치
혁신적인 성능에도 불구하고, GPT-4는 여전히 거대 언어 모델이 가진 근본적인 한계점들을 내포하고 있다.
- 환각 (Hallucinations): 모델이 사실과 다르거나 맥락에 맞지 않는 정보를 그럴듯하게 생성하는 문제이다. OpenAI는 내부 평가에서 GPT-4가 GPT-3.5 대비 환각 현상을 19%에서 40%까지 줄였다고 밝혔으나, 이 문제는 여전히 존재한다.13 특히 의료나 법률과 같은 고위험(high-stakes) 분야에서 환각은 치명적인 결과를 초래할 수 있다.11
- 정적 지식 (Static Knowledge): GPT-4는 훈련 데이터가 수집된 특정 시점(knowledge cutoff) 이후의 사건이나 정보를 알지 못한다. 따라서 최신 정보에 대한 질문에 답변할 수 없다는 한계가 있다.11
- 편향 (Bias): 모델은 방대한 훈련 데이터에 내재된 사회적, 문화적 편견을 학습하고 이를 재현하거나 증폭시킬 위험이 있다. 이는 소수자 및 소외 계층에 대한 불공정한 결과를 낳을 수 있다.2
- 추상적 추론의 한계: 시각적 추상 추론 능력을 평가하는 ConceptARC 벤치마크에서 GPT-4는 33% 미만의 낮은 점수를 기록했다. 이는 인간이 91% 이상의 점수를 기록한 것과 대조적으로, 특정 유형의 추상적이고 상징적인 추론 능력에는 여전히 명백한 한계가 있음을 보여준다.2
OpenAI는 이러한 한계를 완화하고 모델의 안전성과 정렬(alignment)을 강화하기 위해 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)을 핵심적인 도구로 활용했다.2 RLHF는 크게 세 단계로 진행된다. 첫째, 인간 작업자가 작성한 양질의 프롬프트-응답 쌍으로 모델을 지도 학습 방식으로 미세조정(Supervised Fine-Tuning, SFT)한다. 둘째, 동일한 프롬프트에 대해 모델이 생성한 여러 응답을 인간이 선호도에 따라 순위를 매기게 하고, 이 데이터를 사용하여 인간의 선호를 예측하는 별도의 ’보상 모델(Reward Model)’을 훈련한다. 셋째, 이 보상 모델이 주는 점수를 최대화하도록 강화학습 알고리즘(예: Proximal Policy Optimization, PPO)을 사용하여 언어 모델의 정책(policy)을 업데이트한다.16 이 과정에서 사용되는 정책 업데이트의 목표 함수는 다음과 같이 표현될 수 있다.16
\text{objective}(\phi) = \mathbb{E}_{(x,y) \sim D_{\pi_\phi^{\text{RL}}}} [r_\theta(x,y)] - \beta \mathbb{D}_{\text{KL}}(\pi_\phi^{\text{RL}}(y|x) \vert\vert \pi^{\text{SFT}}(y|x))
여기서 r_\theta는 보상 모델의 예측값, \pi_\phi^{\text{RL}}은 학습 대상인 강화학습 정책, \pi^{\text{SFT}}는 초기 지도학습 모델을 나타낸다. 두 번째 항인 \beta \mathbb{D}_{\text{KL}}은 두 정책 분포 간의 KL 발산(KL-divergence)에 대한 페널티로, 정책이 초기 SFT 모델에서 너무 멀리 벗어나지 않도록 규제하여 응답의 일관성을 유지하고 보상 모델의 허점을 악용하는 것을 방지하는 역할을 한다.
RLHF 외에도 OpenAI는 다양한 안전성 확보 노력을 기울였다. 유해 콘텐츠 생성 요청에 대한 거부율을 GPT-3.5 대비 82% 향상시켰으며 13, 위험 화학물질 합성법과 같은 고위험 영역의 취약점을 찾기 위해 외부 전문가들로 구성된 레드팀(red team)을 통한 광범위한 적대적 테스팅을 수행했다.2 또한, 모델의 능력, 한계, 그리고 위험 완화 조치를 상세히 기술한 ’시스템 카드(System Card)’를 기술 보고서와 함께 발간하여 투명성을 높이고 책임 있는 사용을 유도하고자 노력했다.14
이러한 기술적 발전과 그에 따른 사회적 반응은 중요한 함의를 가진다. GPT-4 기술 보고서가 3월 15일에 발표되고 1, 불과 일주일 뒤인 3월 22일에 GPT-4보다 강력한 AI의 훈련 중단을 요구하는 공개서한이 발표된 것은 19 전례 없는 현상이다. 특정 기술의 발표가 이처럼 즉각적으로 저명인사들이 참여하는 글로벌 행동 촉구로 이어진 것은 AI 기술 발전의 속도가 사회적 논의와 규제 형성의 속도를 압도하기 시작했음을 보여주는 상징적 사건이다. 이는 AI 기술이 더 이상 연구실 내의 주제가 아니라, 그 영향력이 사회 전반에 즉각적인 파급력을 미치는 문명사적 의제로 부상했음을 의미한다.
또한, GPT-4는 변호사 시험 통과와 같은 인간 전문가 수준의 역량을 보여주면서도 2 환각 문제를 완전히 해결하지 못했다는 점에서 14 새로운 차원의 위험을 창출한다. 모델의 성능이 낮을 때는 사용자가 오류를 비교적 쉽게 식별할 수 있지만, 성능이 높아질수록 ’권위 있게 들리는 오정보’에 현혹될 위험이 기하급수적으로 커진다. 전문가 수준의 지식을 보이는 모델이 생성한 그럴듯한 거짓말은 비전문가가 판별하기 매우 어렵다. 이는 성능 향상이 곧 안전성 향상으로 직결되지 않는다는 역설을 보여주며, ’신뢰할 수 있는 AI’를 구축하는 것이 기술의 핵심 과제임을 시사한다.
3. 로봇공학의 새로운 지평 - PaLM-E와 체화된 멀티모달 언어 모델
3.1 핵심 개념: ’체화된 언어 모델’과 ‘멀티모달 문장’
2023년 3월, 구글 리서치는 PaLM-E(Pathways Language model Embodied)를 발표하며 로봇공학의 새로운 패러다임을 제시했다. PaLM-E의 핵심 아이디어는 사전 훈련된 거대 언어 모델(PaLM)을 ’체화(Embodied)’시키는 데 있다.4 ’체화된 언어 모델(Embodied Language Model)’이란, 기존 LLM처럼 추상적인 텍스트 데이터만을 처리하는 것을 넘어, 로봇이 실제 세계에서 수집하는 센서 데이터(예: 카메라 이미지, 관절 각도 등 연속적인 값)를 모델의 입력으로 직접 통합하는 것을 의미한다.3 이 접근법을 통해 언어 모델은 ’책상’이라는 단어와 실제 카메라에 보이는 책상의 시각적 픽셀 정보 사이의 연결고리를 형성하게 된다. 즉, 언어가 물리적 세계의 지각(percepts)과 직접적으로 연결(grounding)되어, 환경에 기반한 실질적인 추론을 수행할 수 있게 되는 것이다.20
이러한 체화된 입력을 처리하기 위해 PaLM-E는 ’멀티모달 문장(Multimodal Sentences)’이라는 독특한 데이터 형식을 사용한다.4 이는 일반적인 텍스트 시퀀스 중간에 이미지나 다른 센서 데이터로부터 추출된 임베딩 벡터가 텍스트 토큰처럼 자연스럽게 삽입되는 구조다. 예를 들어, 사용자의 명령은 “
<img_1>에 보이는 빨간 블록을 <img_2>에 보이는 파란 컵으로 옮겨줘“와 같은 형태로 모델에 전달될 수 있다.4 모델은 이처럼 텍스트와 시각 정보가 혼합된 시퀀스를 기반으로 다음 토큰을 예측하는 방식으로 작동하며, 그 결과물은 질문에 대한 답변이거나 로봇이 순차적으로 수행해야 할 행동 계획을 담은 텍스트가 될 수 있다.22
3.2 기술적 접근 방식과 로봇 제어 적용 사례
PaLM-E의 아키텍처는 사전 훈련된 LLM(PaLM)을 기반으로, 다양한 종류의 센서 데이터를 LLM의 임베딩 공간과 동일한 차원의 벡터로 변환하는 여러 인코더를 추가하는 방식으로 구성된다. 예를 들어, 이미지 입력은 Vision Transformer(ViT)와 같은 모델을 통해 벡터 시퀀스로 변환된다.22 이 인코더들과 LLM은 로봇 조작 계획, 시각 질문 답변(VQA) 등 다양한 체화된 작업을 수행하도록 종단간(end-to-end) 방식으로 함께 훈련된다.3 훈련 과정에서의 손실 함수는 일반적인 자기회귀 언어 모델과 마찬가지로, 모델이 예측해야 할 목표 텍스트 토큰에 대한 교차 엔트로피 손실(Cross-Entropy Loss)을 사용한다.22
PaLM-E는 로봇 제어 시스템에서 고수준의 계획자(high-level planner) 역할을 수행한다. 전체 제어 메커니즘은 다음과 같은 단계로 이루어진다.
- 사용자는 “서랍에서 과자 좀 가져다줘“와 같은 자연어 명령을 내린다.20
- 이 명령 텍스트와 로봇 카메라가 현재 보고 있는 장면 이미지(
)가 결합되어 멀티모달 문장 형태로 PaLM-E에 입력된다.
- PaLM-E는 이 입력을 바탕으로 “1. 서랍으로 이동한다. 2. 서랍을 연다. 3. 과자를 집는다. 4. 사용자에게 돌아온다.“와 같은 일련의 행동 계획을 텍스트로 생성한다.4
- 생성된 각 텍스트 단계(예: “서랍을 연다”)는 RT-1과 같은 저수준 정책(low-level policy)에 의해 실제 로봇의 모터 제어 신호로 변환되어 물리적으로 실행된다.22
이러한 접근 방식은 로봇이 복잡하고 장기적인 작업을 자율적으로 계획하고 수행할 수 있게 하며, PaLM-E의 핵심 역량은 아래 표와 같이 요약될 수 있다.
Table 2: PaLM-E의 주요 특징 및 적용 분야 요약
| 특징 | 설명 | 적용 분야 | 소스 |
|---|---|---|---|
| 체화된 추론 | 로봇의 센서 데이터를 LLM에 직접 통합하여 물리 세계에 대한 이해를 기반으로 추론 | 순차적 로봇 조작 계획, 시각적 질문 답변, 장면 캡셔닝 | 3 |
| 긍정적 전이 학습 | 인터넷 스케일의 방대한 시각-언어 데이터 학습이 로봇의 물리적 과제 수행 능력을 향상시킴 | 데이터 효율적인 로봇 학습, 새로운 물체/상황에 대한 일반화 | 4 |
| 다중 로봇/작업 일반화 | 단일 모델로 여러 종류의 로봇과 다양한 작업을 수행 (Generalist Model) | 테이블 위 물체 조작, 주방 환경에서의 이동 및 조작 | 4 |
| 긴 호흡의 계획 수립 | 복잡하고 여러 단계로 이루어진 작업을 자율적으로 계획하고 실행 | “블록을 색깔별로 모서리에 정렬해“와 같은 복합 과제 수행 | 20 |
3.3 지식 전이(Knowledge Transfer)의 의의와 향후 과제
PaLM-E 연구에서 가장 중요한 발견 중 하나는 ‘긍정적 전이(Positive Transfer)’ 현상이다.4 이는 로봇 작업 관련 데이터와 함께 방대한 양의 일반적인 시각-언어 데이터(예: 웹상의 이미지와 캡션)를 함께 학습시켰을 때, 로봇 작업 데이터만으로 학습한 모델보다 성능이 유의미하게 향상되는 것을 의미한다.4 이 결과는 LLM이 웹 데이터로부터 학습한 세상에 대한 일반적이고 추상적인 지식(예: ’서랍’은 ‘열 수 있는’ 물체이며, ’손잡이’를 당겨야 한다는 개념)이 로봇이 구체적인 물리적 작업을 학습하는 데 직접적으로 도움이 된다는 것을 실증적으로 보여준다.
PaLM-E는 로봇공학에 획기적인 발전을 가져왔지만, 동시에 해결해야 할 과제도 명확히 존재한다. LLM의 고질적인 문제인 환각(hallucination)은 로봇이 예측 불가능하거나 위험한 행동을 수행하게 만들 수 있는 심각한 안전 문제로 이어진다.25 또한, 실제 세계의 무한한 변수와 끊임없이 변하는 동적인 환경에 강건하게 대처할 수 있는 일반화 능력과 안전성을 확보하는 것은 여전히 중요한 연구 주제로 남아있다.25
PaLM-E가 보여준 ‘긍정적 전이’ 현상은 로봇공학의 근본적인 패러다임을 바꿀 잠재력을 내포한다. 전통적인 로봇 학습은 특정 작업을 위해 값비싸고 수집하기 어려운 대규모의 실제 물리적 상호작용 데이터를 필요로 했다. 하지만 PaLM-E는 로봇이 ’인터넷을 읽는 것’만으로도 물리 세계를 더 잘 이해하고 작업을 더 효율적으로 학습할 수 있음을 증명했다. 이는 추상적인 기호(언어) 처리 능력과 물리적 세계에서의 행동(로봇 제어) 능력이 분리된 것이 아니라, 거대 모델 내에서 상호 강화될 수 있음을 시사한다. 미래의 로봇 훈련은 물리 데이터 수집의 한계를 대규모 언어/비전 모델이 가진 방대한 사전 지식으로 보완하는 하이브리드 형태로 발전할 것이며, 이는 로봇 개발에 필요한 비용과 시간을 획기적으로 단축시키는 계기가 될 수 있다.
4. AI 발전의 속도와 방향성에 대한 사회적 성찰
4.1 ‘거대 AI 실험 일시 중단’ 공개서한의 주요 쟁점
2023년 3월 22일, 비영리 단체인 Future of Life Institute는 일론 머스크, 요슈아 벤지오 등 기술 및 학계의 저명인사 3만여 명이 서명한 공개서한을 발표하며 전 세계적인 주목을 받았다.19 이 서한은 GPT-4보다 강력한 AI 시스템의 훈련을 최소 6개월간 즉시 중단할 것을 모든 AI 연구소에 촉구하는 파격적인 내용을 담고 있었다.19
서한은 통제 불가능한 AI 개발 경쟁이 인류 문명에 심각하고 실존적인 위험을 초래할 수 있다고 강력히 경고했다. 구체적으로 제기된 위험은 다음과 같다.19
- 정보 생태계 오염: AI가 생성하는 선전(propaganda)과 허위 정보가 정보 채널을 범람시켜 사회적 신뢰를 붕괴시킬 위험.
- 대규모 실직: 인간에게 만족감을 주는 창의적인 직업을 포함한 모든 종류의 일자리가 자동화되어 경제 및 사회 구조를 뒤흔들 위험.
- 통제력 상실: 궁극적으로 인간을 지능적으로 능가하는 비인간 지성(nonhuman minds)이 등장하여 인류를 대체하고, 문명에 대한 통제력을 상실할 위험.
서한은 단순히 ’일시 중지’를 요구하는 데 그치지 않고, 이 기간 동안 AI 거버넌스 시스템을 시급히 개발하고 구현할 것을 주장했다. 구체적인 요구 사항으로는 AI를 전담하는 새로운 규제 기관 설립, 고성능 AI 시스템 및 대규모 컴퓨팅 자원에 대한 감독 및 추적 체계 마련, 실제와 합성을 구별하기 위한 출처 확인 및 워터마킹 시스템 도입, 그리고 강력한 독립적 감사 및 인증 생태계 구축 등이 포함되었다.19
4.2 각국 정부의 규제 동향: 영국 AI 백서를 중심으로
공개서한이 발표된 지 불과 일주일 뒤인 3월 29일, 영국 정부는 “AI 규제: 혁신 친화적 접근(A pro-innovation approach to AI regulation)“이라는 제목의 백서를 발간했다.26 이 백서는 서한이 제기한 심각한 경고와는 대조적으로, AI가 가져올 막대한 기회를 극대화하는 데 초점을 맞춘 규제 철학을 제시했다.
영국 정부는 AI 기술 전반을 아우르는 포괄적인 단일 법률을 제정하는 대신, 기존의 분야별 규제 기관(예: 보건, 금융, 교통)이 각자의 전문 영역 내에서 AI를 관리하도록 하는 맥락 기반(context-based)의 유연한 접근 방식을 제안했다. 이 접근 방식을 뒷받침하기 위해 백서는 모든 규제 기관이 공통적으로 준수해야 할 5가지 핵심 원칙을 제시했다.26
- 안전, 보안 및 견고성 (Safety, security and robustness)
- 적절한 투명성 및 설명 가능성 (Appropriate transparency and explainability)
- 공정성 (Fairness)
- 책임 및 거버넌스 (Accountability and governance)
- 경쟁 및 구제 가능성 (Contestability and redress)
이 백서는 신약 개발 가속화, 질병 진단의 정확성 향상, 농업 생산성 증대 등 AI 기술이 가져올 긍정적인 잠재력을 적극적으로 장려하면서 26, 잠재적 위험은 각 산업 분야의 특수성을 고려하여 유연하게 관리하겠다는 의도를 명확히 보여주었다.
2023년 3월 마지막 주에 연이어 발표된 ‘일시 중단’ 서한과 ’영국 AI 백서’는 AI 거버넌스에 대한 두 가지 근본적으로 다른 철학적 접근을 극명하게 드러낸다. 서한은 ’사전 예방 원칙(precautionary principle)’에 입각하여, 잠재적 위험이 완전히 이해되고 관리될 수 있을 때까지 개발 속도를 늦추어야 한다는 입장을 대변한다. 반면, 영국 백서는 ’혁신 허용 원칙(permissionless innovation)’에 가까운 철학을 바탕으로, 혁신을 저해하지 않는 선에서 최소한의 규제를 적용하여 기술 발전을 장려하자는 입장을 취한다. 이 두 문서의 동시 등장은 AI의 미래를 둘러싼 글로벌 논쟁의 핵심적인 대립 구도를 형성했으며, 2023년 3월이 기술적 발전뿐만 아니라 이 기술을 어떻게 사회적으로 통제하고 수용할 것인가에 대한 거대 담론이 본격적으로 시작된 시점임을 알리는 신호탄이 되었다.
5. 분야별 주요 연구 동향 및 학술 발표
5.1 인간-로봇 상호작용(HRI): HRI 2023 최우수 기술 논문 분석
2023년 3월 스웨덴 스톡홀름에서 개최된 인간-로봇 상호작용(HRI) 분야 최고 권위 학회인 HRI 2023에서, 예일대학교 연구팀이 발표한 논문 “Interactive Policy Shaping for Human-Robot Collaboration with Transparent Matrix Overlays“가 최우수 기술 논문상(Best Technical Paper Award)을 수상했다.27
이 연구의 핵심 방법론은 ‘투명한 매트릭스 오버레이(Transparent Matrix Overlays, TMO)’ 시스템이다. 이는 강화학습을 통해 사전에 훈련된 로봇의 정책(policy)을 인간 협업자가 실행 시점(at execution time)에 자연어 명령을 통해 유연하게 수정할 수 있는 새로운 상호작용 프레임워크를 제안한다.29 예를 들어, 로봇과 함께 요리하는 상황에서 사용자가 “건강한 아침 식사를 만들자” 또는 “유제품은 사용하지 마“와 같은 고수준의 언어적 지시를 내리면, TMO 시스템은 이 지시를 ‘if-this-then-that’ 형태의 상징적 규칙으로 변환한다. 이 규칙들은 기존에 학습된 로봇의 행동 가치 함수(Q-value matrix) 위에 ’오버레이’처럼 덧씌워져 특정 행동(예: 건강한 재료 선택)의 가치를 일시적으로 높이거나 다른 행동(예: 유제품 사용)의 가치를 낮춘다. 이 과정을 통해 로봇은 정책 자체를 재훈련하는 시간 소모적인 과정 없이도 사용자의 새로운 선호도에 맞춰 즉각적으로 행동을 수정하게 된다.29
TMO는 기존의 로봇 정책 수정 방식과 명확한 차별점을 가진다. 기존 방식들은 주로 훈련 과정에서 인간의 피드백을 반영하여 정책을 영구적으로 변경하거나 17, 특정 위험 행동을 원천적으로 차단하는 ’쉴드(shield)’를 적용하는 데 초점을 맞췄다.30 반면 TMO는 이미 훈련이 완료된 정책을 대상으로, 실행 시점에, 영구적인 변경 없이, 여러 제약 조건을 조합(composable)하여 상호작용적으로 수정할 수 있다는 점에서 실제 인간-로봇 협업(HRC) 환경에 훨씬 더 실용적이고 유연한 해법을 제시한다.29
5.2 컴퓨터 비전(CVPR 동향): 이미지와 언어의 융합
2023년 6월 캐나다 밴쿠버에서 개최된 컴퓨터 비전 분야 최고 학회인 CVPR(Computer Vision and Pattern Recognition)에서는 3월을 전후하여 제출된 논문들을 통해 해당 시점의 핵심 연구 트렌드를 엿볼 수 있었다.31 여러 트렌드 중 특히 주목할 만한 두 가지는 다음과 같다.
- 현실 구현 (Render the real): 3D 재구성, 이미지 및 비디오 생성, 인간의 자세 및 동작 추정 등 컴퓨터 비전 기술을 활용하여 디지털 세계를 실제와 최대한 유사하게 만들거나 실제 세계를 정밀하게 이해하려는 연구가 주를 이루었다. 이는 증강/가상현실(AR/VR) 및 자율주행 생태계 구축과 같은 응용 분야의 수요와 밀접하게 연관된다.31
- 이미지-언어 융합 (Converge image and language): 생성형 AI의 폭발적인 성장과 함께, 이미지와 언어라는 서로 다른 양식(modality)을 결합하여 더 정교하고 복합적인 작업을 수행하는 멀티모달 모델에 대한 연구가 핵심 조류로 부상했다.31 텍스트 설명으로부터 고품질 이미지를 생성하거나, 이미지에 대한 복잡한 질문에 답하는 등의 기술이 여기에 포함된다.
이러한 학술적 흐름은 2023년 3월에 발표된 상용 모델들과 직접적인 연관성을 보여준다. GPT-4의 멀티모달 능력과 PaLM-E의 시각-언어 기반 로봇 제어는 바로 ’이미지-언어 융합’이라는 학계의 오랜 연구가 상업적 임계점을 돌파한 대표적인 사례이다. 마이크로소프트가 CVPR 2023에서 발표한 “Image as a Foreign Language“와 같은 연구는 이미지를 ’외국어’처럼 취급하여 텍스트와 동일한 Transformer 아키텍처 내에서 처리하는 기초 모델을 제시하며 이러한 흐름을 학술적으로 뒷받침했다.34
2023년 3월의 기술 동향은 거대 기업이 주도하는 상용 모델(GPT-4, PaLM-E)과 학계의 기초 연구(HRI, CVPR)가 서로의 필요를 채워주는 공생 관계에 있음을 명확히 보여준다. PaLM-E가 ’언어로 로봇을 제어한다’는 거대한 비전을 제시했다면, HRI 2023 최우수 논문은 ’어떻게 하면 그 제어를 더 유연하고 인간 친화적으로 만들 것인가’라는 구체적이고 실용적인 해법을 제시하며 그 비전을 보완한다. 마찬가지로, CVPR에서 활발히 논의된 이미지-언어 융합 연구는 GPT-4와 같은 멀티모달 모델이 탄생할 수 있었던 기술적 자양분 역할을 했다. 이는 AI 생태계가 상용화와 기초 연구의 선순환 구조를 통해 빠르게 발전하고 있음을 시사하며, 학문적 성과가 곧바로 차세대 제품의 핵심 기능으로 연결되는 빠른 기술 전파 속도를 보여준다.
6. 결론: 기술적 특이점과 사회적 합의의 교차점
2023년 3월은 AI의 발전 역사에서 두 가지 중요한 변곡점이 교차한 시기로 평가될 수 있다. 첫째는 GPT-4와 PaLM-E를 통해 AI의 능력이 추상적 지능의 영역을 넘어 물리적 세계와의 상호작용으로 확장될 수 있음을 증명한 ’기술적 변곡점’이다. 둘째는 ‘AI 실험 중단’ 서한과 각국 정부의 규제 논의 본격화를 통해 AI의 발전 방향과 속도에 대한 ’사회적 합의’의 필요성이 전면에 부상한 ’사회적 변곡점’이다.
이 시기는 AI 기술의 발전 속도가 사회적, 법적, 윤리적 논의의 속도를 현저히 앞지르기 시작했음을 명백히 보여주었다. 특히 ‘움직이고 말하는’ 체화된 AI의 등장은 우리가 단순히 알고리즘의 효율성이나 성능을 넘어, 그 목적과 통제 방식, 그리고 인간과의 궁극적인 공존 방식을 근본적으로 성찰해야 하는 중대한 과제에 직면하게 되었음을 시사한다.
따라서 향후 AI 및 로봇공학 연구는 성능 극대화라는 단일 목표를 넘어, 투명성, 설명 가능성, 강건성, 그리고 인간과의 상호작용적 정렬(interactive alignment)과 같은 주제에 더 많은 비중을 두어야 한다. 기술 개발자, 정책 입안자, 그리고 시민 사회가 함께 참여하는 개방적인 논의의 장을 통해 기술 발전의 속도와 사회적 수용성 사이의 균형을 맞추고, 신뢰할 수 있는 AI 생태계를 구축하기 위한 공동의 노력이 시급하다. 이는 2023년 3월이 우리에게 남긴 가장 중요한 교훈이다.
7. 참고 자료
- [PDF] GPT-4 Technical Report - Semantic Scholar, https://www.semanticscholar.org/paper/GPT-4-Technical-Report-Achiam-Adler/163b4d6a79a5b19af88b8585456363340d9efd04
- GPT-4 - Wikipedia, https://en.wikipedia.org/wiki/GPT-4
- [2303.03378] PaLM-E: An Embodied Multimodal Language Model - arXiv, https://arxiv.org/abs/2303.03378
- PaLM-E: An embodied multimodal language model - Google Research, https://research.google/blog/palm-e-an-embodied-multimodal-language-model/
- [2303.08774] GPT-4 Technical Report - arXiv, https://arxiv.org/abs/2303.08774
- How to Implement Scaled Dot-Product Attention from Scratch in TensorFlow and Keras, https://machinelearningmastery.com/how-to-implement-scaled-dot-product-attention-from-scratch-in-tensorflow-and-keras/
- In Depth Understanding of Attention Mechanism (Part II) - Scaled Dot-Product Attention and Example | by FunCry | Medium, https://medium.com/@funcry/in-depth-understanding-of-attention-mechanism-part-ii-scaled-dot-product-attention-and-its-7743804e610e
- GPT-4 | OpenAI, https://openai.com/index/gpt-4-research/
- How GPT-4 Technical Report Transformed AI Development | Galileo, https://galileo.ai/blog/openai-gpt-4-technical-report
- What’s new in GPT-4: Architecture and Capabilities - Medium, https://medium.com/@amol-wagh/whats-new-in-gpt-4-an-overview-of-the-gpt-4-architecture-and-capabilities-of-next-generation-ai-900c445d5ffe
- Review of “OpenAI (2023), GPT‑4 Technical Report” [4 March 2024], https://etcjournal.com/2025/07/29/review-of-openai-2023-gpt%E2%80%914-technical-report-4-march-2024/
- OpenAI GPT-4: Architecture, Interfaces, Pricing, Alternative - Obot AI, https://www.acorn.io/resources/learning-center/openai/
- GPT-4 Release: Briefing on Model Improvements and Limitations | Morrison Foerster, https://www.mofo.com/resources/insights/230315-gpt-4-release-deep-dive-briefing-improvements
- Peer review of GPT-4 technical report and systems card - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC10795998/
- GPT-4 vs 4o vs 4 Turbo Performance Differences - Galileo AI, https://galileo.ai/blog/gpt-4-vs-gpt-4o-vs-gpt-4-turbo
- Reinforcement learning from human feedback - Wikipedia, https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
- What Is Reinforcement Learning From Human Feedback (RLHF)? - IBM, https://www.ibm.com/think/topics/rlhf
- Reinforcement Learning from Experience Feedback: Application to Economic Policy in: IMF Working Papers Volume 2024 Issue 114 (2024), https://www.elibrary.imf.org/view/journals/001/2024/114/article-A001-en.xml
- Pause Giant AI Experiments: An Open Letter - Future of Life Institute, https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- PaLM-E: An Embodied Multimodal Language Model, https://palm-e.github.io/
- arXiv:2303.03378v1 [cs.LG] 6 Mar 2023 - PaLM-E, https://palm-e.github.io/assets/palm-e.pdf
- Paper Review: PaLM-E: An Embodied Multimodal Language Model - Andrey Lukyanenko, https://andlukyane.com/blog/paper-review-palme
- PaLM-E An Embodied Multimodal Language Model Review - gracefullight.dev, https://gracefullight.dev/2025/08/24/palm-e-review/
- Google’s PaLM-E – a step towards artificial general intelligence (AGI)? - Future Timeline, https://futuretimeline.net/blog/2023/03/9-google-palm-e-artificial-general-intelligence-agi.htm
- PaLM-E: An Embodied Multimodal Language Model | Request PDF - ResearchGate, https://www.researchgate.net/publication/369035918_PaLM-E_An_Embodied_Multimodal_Language_Model
- A pro-innovation approach to AI regulation - GOV.UK, https://www.gov.uk/government/publications/ai-regulation-a-pro-innovation-approach/white-paper
- March 2023 News | Social Robotics Lab, https://scazlab.yale.edu/news/2023-03
- Paper about Transparent Matrix Overlays wins Best Technical Paper at HRI’23!, https://interactive-machines.gitlab.io/2023/04/02/papers.html
- Interactive Policy Shaping for Human-Robot Collaboration with …, https://scazlab.yale.edu/sites/default/files/files/HRI_2023___Chefbot.pdf
- Interactive Policy Shaping for Human-Robot Collaboration with Transparent Matrix Overlays, https://www.researchgate.net/publication/366901988_Interactive_Policy_Shaping_for_Human-Robot_Collaboration_with_Transparent_Matrix_Overlays
- CVPR 2023 Reveals Top Five Computer Vision Trends, https://media.icml.cc/Conferences/CVPR2023/CVPR_Top_Trends_Final.pdf
- CVF Open Access - The Computer Vision Foundation, https://openaccess.thecvf.com/
- CVPR Reveals Top Five Trends in Computer Vision, https://cvpr.thecvf.com/Conferences/2023/TopTrends
- Microsoft at CVPR 2023: Pushing the boundaries of computer vision, https://www.microsoft.com/en-us/research/blog/microsoft-at-cvpr-2023-pushing-the-boundaries-of-computer-vision/