년 2분기 AI 및 로봇 연구 동향

년 2분기 AI 및 로봇 연구 동향

1. 서론: 2008년, AI 및 로봇 공학 연구의 변곡점

2008년 2분기는 인공지능(AI)과 로봇 공학 연구가 중요한 변곡점을 맞이한 시기였다. 이 시기에는 대규모 데이터 처리 능력의 향상, 계산 효율성의 증대, 그리고 데이터로부터 직접 표현(representation)을 학습하는 방식으로의 패러다임 전환을 예고하는 기념비적인 연구들이 발표되었다. 본 보고서는 이 시기에 개최된 세계 최고 수준의 학회들—ICRA, AAMAS, CVPR, ICML—에서 발표된 핵심 연구들을 심층적으로 분석하여, 당시의 기술적 성취가 현재의 AI 및 로봇 공학 기술 지형을 어떻게 형성했는지 조명한다.1

2008년 5월부터 7월에 걸쳐 로봇 공학(ICRA), 자율 에이전트 및 다개체 시스템(AAMAS), 컴퓨터 비전(CVPR), 기계 학습(ICML) 분야의 핵심 학회가 연이어 개최되었다. 이들 학회는 각 분야의 최신 연구 성과가 집결되는 장으로서, 본 보고서의 분석 대상이 되는 핵심 논문들의 발표 무대가 되었다.2 본 보고서는 1장 로봇 공학, 2장 컴퓨터 비전, 3장 AI 학습 패러다임으로 구성된다. 각 장에서는 해당 분야의 패러다임을 바꾼 핵심 논문들을 선정하여 그 기술적 배경, 핵심 방법론, 실험적 성과, 그리고 학술적 및 산업적 영향을 심도 있게 분석한다.

표 1: 2008년 2분기 주요 AI/로봇 공학 학회 요약

학회명 (약어)전체 명칭개최 기간개최 장소주요 연구 분야관련 자료
AAMAS 20087th Int. Conf. on Autonomous Agents and Multiagent Systems2008년 5월 12-16일Estoril, Portugal자율 에이전트, 다개체 시스템, 게임 이론, 로보틱스2
ICRA 2008IEEE International Conference on Robotics and Automation2008년 5월 19-23일Pasadena, CA, USA로봇 비전, SLAM, 다개체 시스템, 제어, 자동화1
CVPR 2008IEEE Conference on Computer Vision and Pattern Recognition2008년 6월 23-28일Anchorage, AK, USA객체 탐지, 3D 복원, 이미지 분할, 패턴 인식8
ICML 200825th International Conference on Machine Learning2008년 7월 5-9일Helsinki, Finland심층 학습, 자연어 처리, 비지도 학습, 강화 학습4

2. 로봇 공학의 진화 - 대규모 자율성과 분산 협력

2.1 외형 기반 SLAM의 대두: FAB-MAP

2008년 이전의 SLAM(동시적 위치 추정 및 지도 작성) 기술은 주로 레이저 센서나 스테레오 카메라를 이용한 기하학적 정보 기반의 미터법 지도(metric map) 작성에 집중했다. 이러한 접근법은 환경의 구조적 특징이 명확한 소규모 환경에서는 성공적이었으나, 수십, 수백 킬로미터에 달하는 대규모 환경이나 시각적으로 유사한 장소가 반복되는(perceptual aliasing) 환경에서는 누적 오차와 계산 복잡도로 인해 한계를 보였다.11

핵심 연구: “Accelerated Appearance-Only SLAM” (Cummins & Newman, ICRA 2008)

이 연구는 ’로봇이 기하학적으로 어디에 있는가?’라는 질문 대신 ’이 장소를 이전에 본 적이 있는가?’라는 근본적인 질문에 집중했다. 이는 SLAM 문제를 미터법 공간(metric space)에서 외형 공간(appearance space)으로 전환하는 패러다임의 변화를 의미했다.14

  • 방법론 1 - Bag-of-Words (BoW) 표현: 이미지에서 SURF와 같은 지역 특징점(local feature)들을 추출하고, 사전에 구축된 시각 단어 사전(visual vocabulary)을 이용해 양자화한다. 이를 통해 각 이미지는 시각 단어들의 빈도수 히스토그램, 즉 ‘Bag-of-Words’ 벡터로 표현된다. 이 방식은 이미지의 기하학적 구조를 버리는 대신, 외형적 내용에만 집중하여 계산 효율성과 강인성을 확보했다.13

  • 방법론 2 - 확률론적 프레임워크: 장소 인식을 재귀적 베이즈 추정(Recursive Bayes Estimation) 문제로 공식화했다. 현재 관측(Z^k)이 주어졌을 때, 특정 장소(L_i)에 있을 확률은 이전의 믿음(prior)과 현재 관측의 가능도(likelihood)의 곱에 비례한다는 원리를 사용한다.14
    p(L_i \vert Z^k) = \frac{p(Z^k \vert L_i, Z^{k-1})p(L_i \vert Z^{k-1})}{p(Z^k \vert Z^{k-1})}

  • 방법론 3 - Chow-Liu Tree: BoW 모델의 순진한 가정(naive assumption), 즉 모든 시각 단어가 조건부 독립이라는 가정을 완화하기 위해 Chow-Liu Tree를 도입했다. 이는 시각 단어들 간의 상호 의존성을 트리 구조로 모델링하여, 보다 정확한 관측 가능도(p(Z^k \vert L_i))를 계산할 수 있게 했다. 이로써 “하늘“이라는 단어가 보이면 “구름“이라는 단어가 나타날 확률이 높아지는 것과 같은 상관관계를 모델에 반영할 수 있었다.13

  • 실험 및 의의: 이 시스템은 1,000km에 달하는 전례 없는 규모의 데이터셋에서 실시간으로 루프 폐쇄(loop closure)를 성공적으로 수행함을 보였다. 이는 외형 기반 SLAM이 대규모, 장기간 자율 주행의 핵심 기술이 될 수 있음을 입증한 기념비적인 성과였다.14 이 연구는 ICRA 2008 Best Vision Paper Finalist에 선정되며 그 중요성을 인정받았다.19

이 연구의 가장 심오한 기여는 SLAM 문제에 대한 철학적 전환에 있다. 기존 연구들이 정확한 기하학적 지도를 만드는 데 집중하며 필연적으로 누적 오차 문제에 직면했던 반면, FAB-MAP은 “미터법 위치 없이(without reference to metric position)” SLAM을 수행한다고 명시적으로 밝히며 ’정확한 좌표’라는 목표 대신 ’장소 재인식(place recognition)’이라는 더 근본적이고 강인한 목표에 집중했다.14 이러한 접근은 SLAM 문제를 두 단계로 분리하는 계기가 되었다. 첫째, 외형 기반으로 위상학적 지도(topological map)를 만들고 루프를 탐지하며(FAB-MAP), 둘째, 탐지된 루프 정보를 이용해 기하학적 지도의 오차를 보정하는 것이다. 이는 SLAM의 ’정확성’과 ’확장성’이라는 두 목표를 달성하기 위해 문제를 분해하고 정복(divide and conquer)하는 새로운 길을 제시했으며, 후속 연구인 RatSLAM과의 융합 연구에서도 그 가능성을 입증했다.20

또한, FAB-MAP의 성공은 로봇 공학, 특히 자율 주행 분야에서 강인한 인식을 위해 데이터로부터 불확실성을 학습하는 통계적 모델링의 중요성을 각인시켰다. BoW 모델과 확률적 추론을 핵심으로 하는 이 시스템은 로봇이 세상을 점, 선, 면과 같은 기하학적 요소가 아닌, 시각 단어의 ’분포’와 ’확률’이라는 통계적 렌즈로 바라보게 만들었다.13 이러한 통계적 표현은 조명 변화, 시점 변화, 동적 객체 등 실제 환경의 불확실성에 본질적으로 강인하다. 기하학적 모델은 하나의 선이 가려지면 실패할 수 있지만, 통계적 모델은 일부 시각 단어가 사라져도 전체적인 분포를 통해 장소를 인식할 수 있다. 이는 훗날 딥러닝 기반의 종단간(end-to-end) 인식 모델이 등장하는 사상적 기반이 되었다.

2.2 분산 커버리지 제어를 위한 합의 학습

여러 대의 로봇 또는 센서가 협력하여 특정 영역을 효과적으로 감시하거나 탐사하는 ’커버리지 제어’는 다개체 로봇 시스템의 핵심 응용 분야이다. 중앙 집중식 제어는 단일 고장점(single point of failure)에 취약하고 통신 병목 현상을 유발하므로, 각 로봇이 지역적 정보만을 이용해 전역적인 목표를 달성하는 분산 제어(decentralized control) 기법이 요구되었다.

핵심 연구: “Consensus Learning for Distributed Coverage Control” (Schwager, Slotine, & Rus, ICRA 2008)

이 연구는 다개체 로봇 시스템이 미지의 환경 정보를 분산적으로 학습하고, 이를 기반으로 최적의 커버리지 대형을 형성하는 통합 프레임워크를 제시했다. 이 논문은 ICRA 2008 Best Conference Paper Finalist에 선정되며 그 중요성을 인정받았다.19

  • 방법론 1 - Voronoi 기반 커버리지: 로봇들의 위치를 기준으로 전체 영역을 Voronoi 다각형으로 분할한다. 각 로봇은 자신이 담당하는 Voronoi 셀의 무게 중심(centroid)으로 이동하도록 제어된다. 이는 전체 영역에 대한 커버리지 품질을 나타내는 전역 비용 함수(locational cost function)를 최소화하는 분산 구배 하강법(distributed gradient descent)으로 해석될 수 있다.22
  • 방법론 2 - 합의(Consensus) 알고리즘: 환경 정보(예: 특정 지역의 중요도)가 미지인 경우, 로봇들은 각자의 센서로 측정한 값을 이웃 로봇들과 교환하며 전체 정보에 대한 합의를 이룬다. 이는 각 로봇이 전체 시스템의 평균적인 정보 값을 점근적으로 추정하게 하는 과정이다.23 이 합의 과정을 통해 모든 로봇이 환경에 대한 일관된 ’믿음’을 공유하게 된다.
  • 방법론 3 - 학습과 제어의 결합: ’합의’를 통해 학습된 환경 정보를 Voronoi 기반 커버리지 제어 법칙에 실시간으로 반영한다. 즉, 로봇들은 환경을 탐사하며 “중요한 곳“이 어디인지에 대해 서로 의견을 모으고(합의 학습), 그 합의된 결과에 따라 “중요한 곳“에 더 많이 분포하도록 스스로 위치를 조정한다(커버리지 제어).

이 연구는 전통적인 로봇 제어 이론과 분산 컴퓨팅 분야의 핵심 아이디어를 하나의 제어 법칙 안에서 통합함으로써 다개체 로봇 시스템 연구에 새로운 방향을 제시했다. 커버리지 제어가 전통적인 로봇 제어 및 최적화 이론에 뿌리를 둔 반면, 합의 알고리즘은 분산 컴퓨팅 및 네트워크 시스템 분야에서 발전한 기술이다.24 이들의 융합은 로봇을 개별적인 동역학 시스템으로만 보는 것을 넘어, 통신 네트워크로 연결된 ’분산 계산 노드’로 간주하기 시작했음을 의미한다. 이는 로봇 시스템의 문제를 ‘물리적 제어’ 문제와 ‘정보 처리’ 문제의 결합으로 접근하는 현대적 관점의 효시가 되었다.

더 나아가, 이 연구는 진정한 의미의 ’적응형 자율 시스템’을 구현했다. 관련 연구인 “ladybug exploration” 전략에서 로봇이 환경 정보가 적을 때는 공격적으로 탐험하고 정보가 쌓이면 점차 최적 위치로 수렴하는 ‘적응형’ 행동을 보이는 것처럼 22, 이 연구의 로봇들도 환경에 대한 사전 지식 없이 시작하여 실시간으로 정보를 수집하고 ’학습’하여 자신의 행동을 수정한다. 이는 정적인 환경 모델을 가정하고 최적의 제어 입력을 계산하던 기존 방식에서 벗어나, 불확실하고 동적인 실제 환경과 상호작용하며 스스로 성능을 개선해나가는 시스템을 구현한 것이다. 이 연구는 ’학습’이 단순히 데이터를 분류하는 것을 넘어, 물리적 에이전트의 실시간 행동 결정에 직접적으로 통합될 수 있음을 보여주었다.

3. 컴퓨터 비전의 도약 - 최적화 기반 인식 및 복원

3.1 슬라이딩 윈도우를 넘어서: 효율적 부윈도우 탐색(ESS)

2008년 당시 객체 탐지(Object Detection)의 표준 패러다임은 ‘슬라이딩 윈도우(Sliding Window)’ 방식이었다. 이는 이미지 내의 모든 가능한 위치와 크기의 사각 윈도우를 잘라내어, 각 윈도우마다 분류기(classifier)를 적용해 객체의 존재 여부를 판단하는 무차별 대입(brute-force) 방식이었다. 이 방법은 개념적으로 간단하지만, 이미지 크기가 n \times n일 때 O(n^4)에 달하는 엄청난 계산량을 요구하여 실시간 적용이 거의 불가능했다.25

핵심 연구: “Beyond Sliding Windows: Object Localization by Efficient Subwindow Search” (Lampert, Blaschko, & Hofmann, CVPR 2008)

이 연구는 CVPR 2008 최우수 논문상(Best Paper Award)을 수상했으며, 객체 탐지를 무차별 탐색 문제가 아닌 ‘최적화’ 문제로 재정의했다.28

  • 핵심 아이디어: 이미지 내에서 분류기 점수를 최대화하는 ‘최적의’ 사각 윈도우를 찾는 문제를 분기 한정법(Branch-and-Bound)이라는 최적화 기법으로 해결했다. 이는 모든 윈도우를 평가하는 대신, 가능성이 없는 영역은 탐색에서 조기에 제외(pruning)함으로써 계산 효율을 극대화하는 전략이다.25
  • 수학적 공식화:
  1. 품질 함수(Quality Function) f(R): 사각 윈도우 R에 대한 분류기의 점수. 목표는 \arg\max_R f(R)을 찾는 것이다.
  2. 상한 경계 함수(Upper Bound Function) \hat{f}(\mathcal{R}): 윈도우들의 ‘집합’ \mathcal{R}에 대해, 그 집합 내 어떤 윈도우도 \hat{f}(\mathcal{R})보다 높은 점수를 가질 수 없도록 정의된 함수. 즉, \forall R \in \mathcal{R}, f(R) \leq \hat{f}(\mathcal{R})를 만족한다.
  3. 알고리즘: 전체 이미지를 포함하는 윈도우 집합에서 시작하여, 우선순위 큐를 사용해 가장 높은 상한 경계(\hat{f})를 가진 윈도우 집합을 선택하고 분할하는 과정을 반복한다. 현재까지 찾은 최적 윈도우의 실제 점수(f)가 큐에 남아있는 모든 윈도우 집합의 상한 경계(\hat{f})보다 크거나 같아지면 탐색을 종료하며, 이때 찾은 윈도우가 전역 최적해(global optimum)임을 보장한다.25
  • 의의: ESS는 슬라이딩 윈도우와 동일한 전역 최적해를 보장하면서도, 계산량을 평균적으로 O(n^2) 이하로 획기적으로 줄였다.25 이로 인해 이전에는 너무 느려서 위치 측정에 사용하기 어려웠던 공간 피라미드 커널(spatial pyramid kernel)을 사용하는 SVM과 같은 강력한 분류기를 객체 탐지에 적용할 수 있게 되었다.25

이 연구가 제시한 가장 중요한 변화는 객체 탐지 문제를 ‘탐색’ 문제에서 ‘최적화’ 문제로 바라보는 관점의 전환이다. 슬라이딩 윈도우가 탐색 공간의 모든 지점을 평가하는 방식이었다면, ESS는 탐색 공간의 구조와 품질 함수의 속성을 이용하여 최적해를 직접 찾아가는 최적화 기법을 적용했다.27 이 관점의 전환은 단순히 더 빠른 컴퓨터나 더 효율적인 분류기에 의존하는 대신, 문제 자체의 수학적 구조를 분석하여 알고리즘의 복잡도 자체를 낮추는 접근법의 중요성을 부각시켰으며, 이후 등장하는 많은 효율적인 비전 알고리즘들의 사상적 토대가 되었다.

또한, ESS는 분류기(Classifier)와 탐색기(Search)의 발전을 분리하여 촉진하는 계기를 마련했다. 슬라이딩 윈도우 방식에서는 분류기의 속도와 탐색 속도가 강하게 결합되어, 복잡하고 정확한 분류기를 쓰면 탐색이 너무 느려지는 트레이드오프가 존재했다.25 ESS는 효율적인 탐색 방법을 제공함으로써, 연구자들이 탐색 속도에 대한 부담을 덜고 분류기 자체의 성능(정확도)을 높이는 데 더 집중할 수 있는 환경을 만들었다. 이러한 ’분리’는 기술 발전의 촉매제가 되어, 분류기 연구는 더 정교한 모델 구조를 탐구하는 방향으로, 탐색 연구는 ESS를 개선하거나 다른 형태의 영역으로 확장하는 방향으로 독립적으로 발전할 수 있었다.30 이는 딥러닝 시대에 제안 기반(proposal-based) 객체 탐지기가 등장하기 전까지 객체 탐지 연구의 두 축을 형성했다.

3.2 고차 평활도를 이용한 전역 스테레오 복원

스테레오 비전은 두 대의 카메라로 촬영한 이미지 쌍으로부터 깊이 정보를 추출하여 3차원 장면을 복원하는 기술이다. 당시 그래프 컷(Graph Cuts)과 같은 전역 최적화 기법이 도입되면서 큰 발전을 이루었지만, 대부분의 방법은 1차 평활도(first-order smoothness) 사전확률(prior)을 사용했다. 이는 장면이 정면과 평행한 평면들로 구성되어 있다고 가정하는 것과 같아, 실제 세계의 완만한 곡면이나 기울어진 평면을 제대로 표현하지 못하는 한계가 있었다.32

핵심 연구: “Global Stereo Reconstruction under Second-Order Smoothness Priors” (Woodford et al., CVPR 2008)

이 연구 역시 CVPR 2008 최우수 논문상(Best Paper Award)을 공동 수상했으며, 보다 현실적인 3D 모델을 위해 2차 평활도 사전확률을 전역 최적화 프레임워크에 성공적으로 통합했다.28

  • 방법론 1 - 2차 평활도 사전확률: 1차 평활도가 인접한 픽셀 간의 깊이(disparity) 차이에 페널티를 주는 반면, 2차 평활도는 인접한 세 픽셀의 깊이 값으로 계산되는 ‘이산적인 2차 미분(discrete second derivative)’ 값에 페널티를 부과한다. 이는 깊이의 변화율(기울기)이 부드럽게 변하도록 장려하여, 평면뿐만 아니라 곡면도 잘 표현할 수 있게 한다.32 수학적으로는 세 픽셀 p, q, r의 깊이 D에 대해 다음과 같이 정의된다:
    S({p,q,r}, D) = \vert D(p) - 2D(q) + D(r) \vert

  • 방법론 2 - 삼중 클리크(Triple Cliques)와 비준모듈성(Non-submodularity): 2차 평활도 항은 에너지 함수에서 세 개의 변수(픽셀)가 상호작용하는 ’삼중 클리크’를 형성한다. 이러한 고차항(higher-order term)은 에너지 함수를 비준모듈성으로 만들어, 표준 그래프 컷 알고리즘으로는 최적해를 찾을 수 없게 만든다. 이것이 2차 평활도 도입의 가장 큰 기술적 장벽이었다.32

  • 방법론 3 - QPBO를 이용한 최적화: 연구팀은 이 비준모듈성 에너지 함수를 최적화하기 위해 QPBO(Quadratic Pseudo-Boolean Optimization) 알고리즘을 활용한 알파-확장(α-expansion) 기법을 개발했다. QPBO는 비준모듈성 함수에 대해서도 부분적으로 최적해를 찾을 수 있으며, 반복적인 퓨전 무브(fusion move)를 통해 에너지 함수를 점진적으로 최소화해 나간다. 이 혁신적인 최적화 전략 덕분에 가시성(visibility) 제약과 2차 평활도 제약을 동시에 고려하는 것이 최초로 가능해졌다.32

이 논문의 진정한 기여는 더 나은 물리적 모델(2차 평활도)을 제안한 것을 넘어, 그 모델을 풀 수 있는 강력한 최적화 도구(QPBO의 활용)를 함께 제시했다는 점에 있다. 연구자들은 1차 평활도가 현실 세계를 잘 모델링하지 못한다는 것을 오래전부터 알고 있었지만, 진짜 문제는 그 ’더 나은 모델’이 야기하는 ’최적화의 난제’였다.32 이 연구는 컴퓨터 비전 분야에서 ’모델링’과 ’추론(Inference)/최적화’는 분리될 수 없는 동전의 양면이며, 한쪽의 발전이 다른 쪽의 발전을 견인한다는 중요한 선례를 남겼다.

또한, 이 연구는 ’전역 최적화’의 실용적 적용 범위를 확장했다. 그래프 컷과 같은 ‘전역적’ 방법은 지역적(local) 방법에 비해 폐색(occlusion)이나 텍스처가 부족한 영역에서 훨씬 강인한 성능을 보였지만, 다룰 수 있는 에너지 함수의 형태에 제약이 있었다.32 QPBO를 통해 다룰 수 있는 에너지 함수의 종류를 비준모듈성 함수까지 확장함으로써, “어떤 문제든 에너지 최소화로 공식화할 수만 있다면, 강력한 최적화 도구를 통해 풀 수 있다“는 믿음을 학계에 심어주었다. 이는 단순히 스테레오 복원의 성능을 높인 것을 넘어, 마르코프 랜덤 필드(MRF)나 조건부 랜덤 필드(CRF)를 사용하는 다양한 컴퓨터 비전 문제에서 더 복잡하고 현실적인 고차 상호작용을 모델링할 수 있는 길을 열었다.

4. AI 학습 패러다임의 전환 - 심층 학습과 전략적 추론

4.1 자연어 처리를 위한 통합 심층 신경망 아키텍처

2008년의 자연어 처리(NLP)는 각 과제(품사 판별, 개체명 인식 등)에 맞춰 수작업으로 특징을 설계하는 ’특징 공학(feature engineering)’에 크게 의존했다. 이러한 시스템들은 특정 과제에는 높은 성능을 보였지만, 확장성이 부족하고, 다른 과제에 적용하기 어려우며, 특징을 추출하는 사전 단계의 오류가 후속 단계로 전파되는 문제가 있었다.35

핵심 연구: “A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning” (Collobert & Weston, ICML 2008)

이 논문은 10년 후인 2018년에 ’Test of Time Award’를 수상하며 그 기념비적인 영향력을 인정받았다.37 이 연구는 특징 공학을 배제하고, 대규모 비지도 데이터를 이용해 단어의 의미적 표현을 학습하여 여러 NLP 과제를 하나의 심층 신경망으로 해결하는 혁신적인 패러다임을 제시했다.

  • 방법론 1 - 단어 임베딩 (Word Embeddings): 단어를 고차원의 이산적인 기호(one-hot vector)가 아닌, 저차원의 연속적인 밀집 벡터(dense vector)로 표현했다. 이 ’단어 임베딩’은 신경망의 첫 번째 층(Lookup Table)에서 학습되며, 문맥적으로 유사한 단어들이 벡터 공간에서 가깝게 위치하도록 한다. 이는 단어의 의미를 벡터 자체에 내재시키는 효과를 가져왔다.35
  • 방법론 2 - 합성곱 신경망 (CNN) 아키텍처: 문장을 단어 임베딩의 시퀀스로 간주하고, 여기에 합성곱 신경망(CNN)을 적용하여 지역적인 문맥 정보(n-gram과 유사)를 추출했다. 이는 문장의 순서와 구조 정보를 효과적으로 포착하는 방법이었다.35
  • 방법론 3 - 다중 과제 학습 (Multitask Learning): 품사 판별(POS), 구문 분석(Chunking), 개체명 인식(NER), 의미역 결정(SRL) 등 여러 NLP 과제를 위한 출력층을 공유된 단일 네트워크 위에 구축하고, 모든 과제를 ‘동시에’ 학습시켰다. 이를 통해 한 과제의 학습이 다른 과제에 유용한 공유 표현(shared representation)을 학습하는 데 도움을 주어 전반적인 성능을 향상시켰다.35
  • 방법론 4 - 대규모 반지도 학습 (Semi-supervised Learning): 레이블이 없는 방대한 텍스트(Wikipedia)를 이용해 언어 모델(Language Model)을 학습시키고, 이 과정을 다른 지도 학습 과제들과 함께 수행했다. 이는 비지도 데이터로부터 학습된 풍부한 언어적 지식이 지도 학습 과제의 성능을 크게 향상시키는, 효과적인 반지도 학습의 형태였다.35

이 연구는 NLP 문제 해결의 중심축을 ’인간의 지능으로 특징을 설계하는 것’에서 ’기계가 데이터로부터 특징을 학습하게 하는 것’으로 옮겨놓은 선언문과 같았다. “hand-engineered features“를 피하는 것을 명시적인 목표로 삼고, 대신 대규모 데이터로부터 ’내부 표현(internal representations)’을 시스템이 스스로 ’학습’하도록 했다.35 이는 훗날 Word2Vec, GloVe, 그리고 BERT와 같은 사전 훈련된 언어 모델(Pre-trained Language Models)이 NLP의 표준이 되는 길을 연, 패러다임 전환의 신호탄이었다.

또한, 이 연구는 10년 뒤 AI 분야를 지배하게 될 두 가지 핵심 사상—전이 학습과 통합 모델—의 가능성을 최초로 입증한 선구적인 작업이었다. 비지도 데이터로 학습한 언어 모델의 ’지식’을 여러 지도 학습 과제에 활용한 것은 현대 딥러닝의 핵심 개념인 ’전이 학습’의 초기 형태이다.35 즉, 대규모 데이터로 일반적인 지식을 먼저 학습하고(pre-training), 이를 특정 과제에 맞게 미세 조정(fine-tuning)하는 방식의 원형을 보여준다. 여러 과제를 하나의 ’통합 아키텍처(unified architecture)’로 해결하려는 시도는 GPT, T5와 같은 현대의 ’기반 모델(Foundation Model)’의 철학과 맞닿아 있다.35 Collobert와 Weston의 연구는 기술적 구현을 넘어 AI 연구의 방향성 자체를 제시했다.

4.2 다개체 협력을 위한 부울 게임

다개체 시스템(Multi-agent Systems)에서 에이전트 간의 협력을 모델링하고 분석하기 위해 게임 이론이 널리 사용된다. 하지만 전통적인 게임 이론 모델은 에이전트의 수에 따라 표현의 크기가 기하급수적으로 증가하는 문제가 있어, 복잡한 상호작용을 간결하게 표현할 수 있는 새로운 프레임워크가 필요했다.41

핵심 연구: “Cooperative Boolean Games” (Dunne et al., AAMAS 2008)

이 연구는 AAMAS 2008에서 발표되었으며, 에이전트의 목표와 행동을 명제 논리(propositional logic)를 기반으로 표현하는 ’협력 부울 게임(Cooperative Boolean Games, CBG)’이라는 새로운 프레임워크를 제안했다.41 이 연구는 AAMAS 2008 Best Paper Award 후보에 올랐다.43

  • 방법론 1 - 게임의 형식적 정의: CBG는 에이전트 집합 A, 부울 변수 집합 \Phi, 비용 함수 c, 그리고 각 에이전트 i의 목표 \gamma_i와 제어 변수 \Phi_i로 구성된다.41
    G = \langle A, \Phi, c, \gamma_1,..., \gamma_n, \Phi_1,..., \Phi_n \rangle
    각 에이전트는 자신에게 할당된 부울 변수(\Phi_i)의 진리값을 결정함으로써 ’행동’하며, 목표(\gamma_i)는 명제 논리식으로 표현된다.

  • 방법론 2 - 효용 함수 및 선호도: 에이전트의 효용(utility)은 목표 달성 여부와 비용 최소화라는 두 가지 목표를 계층적으로 반영하도록 설계되었다. 목표를 달성하는 것이 최우선이며, 그 다음으로 자신의 비용을 최소화하는 것을 선호한다.41
    u_i(\xi) = \begin{cases} 1 + \mu - c_i(\xi) & \text{if } \xi \models \gamma_i \\ -c_i(\xi) & \text{otherwise} \end{cases}
    여기서 \xi는 변수들의 진리값 할당(valuation)이고, \mu는 총 가능한 비용이다.

  • 방법론 3 - 해결 개념(Solution Concepts): 이 프레임워크 하에서, 어떤 연합(coalition)도 연합을 이탈하여 자신들의 구성원 모두에게 더 나은 결과를 가져다 줄 수 없는 안정적인 상태인 ’코어(The Core)’와 같은 협력 게임 이론의 핵심 해결 개념을 분석하고, 그 존재 여부를 판별하는 문제의 계산 복잡도를 규명했다.42

이 프레임워크의 핵심은 ’표현의 경제성’에 있다. 전통적인 협력 게임이 가능한 모든 연합의 가치를 명시적으로 나열해야 해서 표현이 비대했던 반면, CBG는 에이전트의 목표를 논리식으로, 행동을 변수 제어로 표현했다.41 이는 복잡한 조건부 협력 관계(예: ‘A가 행동 X를 하고 B가 행동 Y를 해야만 C의 목표가 달성된다’)를 간결한 논리식으로 압축하여 표현할 수 있게 한다. 이 ’압축적 표현’은 단순히 저장 공간을 절약하는 것을 넘어, 다개체 시스템의 분석 가능성을 확장시켰다. 논리 추론 도구(SAT solver 등)를 사용하여 게임의 결과나 안정적인 연합 구조를 분석할 수 있는 길을 열었기 때문이다. 이는 게임 이론을 AI의 핵심 분야인 지식 표현 및 추론(Knowledge Representation and Reasoning)과 연결하는 중요한 다리 역할을 했다.

또한, CBG는 목표 지향적 에이전트의 전략적 상호작용을 더 현실적으로 모델링한다. 효용 함수가 ’목표 달성’을 ’비용 최소화’보다 우선시하는 계층적 구조를 가짐으로써, 단순히 숫자상의 보상을 최대화하는 것을 넘어 명확한 ’목표’를 가진 합리적 에이전트의 의사결정 과정을 모델링한다.41 에이전트들은 자신의 목표를 달성하기 위해 협력해야 하지만(상호 의존성), 동시에 비용을 줄이고 싶어 하므로(개인적 합리성), 누구와 어떻게 협력할지에 대한 전략적 딜레마에 빠진다. 이 프레임워크는 자율주행차들의 교차로 통과 협상, 스마트 그리드에서의 에너지 거래 등 ’목표’와 ’비용’이 명확히 정의되는 현실 세계의 복잡한 다개체 협력 문제를 형식적으로 분석하고 예측할 수 있는 강력한 이론적 도구를 제공했다.

5. 결론: 2008년의 유산과 미래 기술에의 함의

본 보고서에서 분석한 2008년 2분기의 핵심 연구들은 공통적으로 ‘확장성(Scalability)’, ‘효율성(Efficiency)’, 그리고 ‘학습 기반 표현(Learned Representation)’ 이라는 키워드로 수렴한다. 로봇 공학은 FAB-MAP을 통해 물리적 공간의 한계를 넘어 대규모 환경으로 작동 범위를 ’확장’했다. 컴퓨터 비전은 ESS와 QPBO 최적화를 통해 기존 방식의 계산적 ’비효율’을 극복하고 더 현실적인 모델을 실용화했다. 기계 학습과 AI는 Collobert & Weston의 연구를 통해 인간이 설계한 특징에서 데이터로부터 ’학습된 표현’으로, AAMAS의 부울 게임 연구를 통해 복잡한 상호작용을 간결하게 ’표현’하는 방식으로 패러다임을 전환했다.

이 시기의 연구들은 각자의 분야에서 독립적으로 발전하면서도, 서로에게 영감을 주며 AI 및 로봇 공학 전반의 발전을 이끌었다. 컴퓨터 비전의 효율적인 인식 알고리즘은 로봇이 실시간으로 환경을 이해하는 능력을 향상시키는 데 기여했고, 기계 학습에서 시작된 학습 기반 표현의 아이디어는 훗날 로봇 비전과 음성 인식 등 다른 분야에도 막대한 영향을 미쳤다.

2008년의 이 연구들은 단순한 과거의 유산이 아니다. FAB-MAP의 외형 기반 접근법은 현재의 시각적 장소 인식(Visual Place Recognition) 기술의 직접적인 조상이며, ESS의 최적화 기반 탐색 아이디어는 효율적인 딥러닝 모델 설계에 영감을 준다. Collobert & Weston의 아키텍처는 현대 거대 언어 모델(LLM)의 철학적 원형이며, 부울 게임의 아이디어는 설명 가능한 AI(XAI)와 다개체 강화학습의 보상 설계에 활용될 수 있다. 2008년은 미래를 향한 씨앗이 뿌려진 중요한 시기였으며, 그 유산은 오늘날의 AI 기술 속에 깊이 내재되어 있다.

표 2: 주요 분석 논문 핵심 기여 비교

논문 (분야)핵심 문제제안된 방법론기술적 혁신학문적/산업적 의의
FAB-MAP (로봇 공학)대규모 환경에서의 SLAM 확장성 및 강인성 부족외형 기반 SLAM, BoW, 확률론적 추론(Chow-Liu Tree)미터법 지도에서 위상학적/외형적 지도로의 패러다임 전환장기/대규모 자율 주행 및 시각적 장소 인식 기술의 초석
ESS (컴퓨터 비전)슬라이딩 윈도우 방식의 엄청난 계산 비효율성분기 한정법(Branch-and-Bound)을 이용한 최적 부윈도우 탐색탐색 문제를 최적화 문제로 재정의하여 전역 최적해를 효율적으로 탐색강력하지만 느린 분류기를 객체 탐지에 활용 가능하게 하여 인식 성능 향상 견인
Unified NLP Arch. (AI/ML)NLP의 과제별 특징 공학 의존성 및 파편화단어 임베딩, CNN, 다중 과제 학습을 결합한 통합 신경망데이터로부터 특징을 자동 학습하는 종단간(End-to-End) 학습 패러다임 제시현대 NLP의 표준이 된 사전 훈련 언어 모델(PLM)의 개념적 원형
Cooperative Boolean Games (AI/MAS)다개체 협력의 간결하고 표현력 있는 모델링 부재명제 논리 기반의 목표/행동 표현을 사용한 새로운 게임 프레임워크게임 이론과 기호적 AI(지식 표현)의 융합복잡한 목표와 비용을 가진 에이전트 간의 전략적 상호작용을 형식적으로 분석하는 도구 제공

6. 참고 자료

  1. 2008 IEEE International Conference on Robotics and Automation, ICRA 2008, May 19-23, 2008, Pasadena, California, USA - researchr publication, https://researchr.org/publication/icra%3A2008
  2. AAMAS’2008: Proceedings of the 7th International Conference on Autonomous - Google Books, https://books.google.com/books/about/AAMAS_2008.html?id=HbMzOAAACAAJ
  3. Computer Vision and Pattern Recognition - CVPR 2008, http://www.sigmod.org/publications/dblp/db/conf/cvpr/index.html
  4. icml2008@helsinki.fi – ICML 2008, the 25th International Conference on Machine Learning, https://icml.cc/Conferences/2008/
  5. Efficient visual servoing with the ABCshift tracking algorithm, https://research.birmingham.ac.uk/en/publications/efficient-visual-servoing-with-the-abcshift-tracking-algorithm
  6. AAMAS 2008: Estoril, Portugal - SIGMOD, https://sigmod.org/publications/dblp/db/conf/atal/aamas2008ind.html
  7. Proceedings - IEEE International Conference on Robotics and Automation 2008: Foreword, https://www.researchgate.net/publication/295432733_Proceedings_-_IEEE_International_Conference_on_Robotics_and_Automation_2008_Foreword
  8. COMPUTER VISION AND PATTERN RECOGNITION. IEEE CONFERENCE. 2008. (12 VOLS) CVPR 2008 - proceedings.com, https://www.proceedings.com/03309.html
  9. 2008 IEEE Conference on Computer Vision and Pattern Recognition, https://www.computer.org/csdl/proceedings/cvpr/2008/12OmNA0MYZb
    1. ICML 2008: Helsinki, Finland - ACM SigMod, http://www.sigmod.org/publications/dblp/db/conf/icml/icml2008.html
  10. An overview of visual SLAM, http://tis.hrbeu.edu.cn/en/oa/darticle.aspx?type=view&id=20160606
  11. Postprint - DiVA portal, http://oru.diva-portal.org/smash/get/diva2:391763/FULLTEXT01.pdf
  12. Invited Applications Paper FAB-MAP: Appearance-Based Place Recognition and Mapping using a Learned Visual Vocabulary Model, https://icml.cc/Conferences/2010/papers/906.pdf
  13. Highly Scalable Appearance-Only SLAM – FAB-MAP 2.0, https://ori.ox.ac.uk/media/5782/fabmap-20-rss-2009.pdf
  14. Appearance-only SLAM at large scale with FAB-MAP 2.0 - ResearchGate, https://www.researchgate.net/publication/220121824_Appearance-only_SLAM_at_large_scale_with_FAB-MAP_20
  15. FAB-MAP 2.0 - Highly Scalable Appearance-Only SLAM - Robotics, https://www.roboticsproceedings.org/rss05/p39.pdf
  16. Online and Incremental Appearance-based SLAM in Highly Dynamic Environments, http://haselab.info/calculation/img/pdf/03_IJRR_self_postOnWebsite.pdf
  17. FAB-MAP + RatSLAM: Appearance-Based SLAM for Multiple Times of Day, http://vigir.missouri.edu/~gdesouza/Research/Conference_CDs/IEEE_ICRA_2010/data/papers/1819.pdf
  18. ICRA 2008 Conference and RAS Awards, https://ewh.ieee.org/soc/ras/conf/fullysponsored/icra/2008/awards.html
  19. This may be the author’s version of a work that was submitted/accepted for publication in the following source: Maddern, Will, - QUT ePrints, https://eprints.qut.edu.au/32854/1/c32854.pdf
  20. FAB-MAP + RatSLAM: Appearance-based SLAM for multiple times of day - ResearchGate, https://www.researchgate.net/publication/224156052_FAB-MAP_RatSLAM_Appearance-based_SLAM_for_multiple_times_of_day
  21. (PDF) A ladybug exploration strategy for distributed adaptive …, https://www.researchgate.net/publication/221075807_A_ladybug_exploration_strategy_for_distributed_adaptive_coverage_control
  22. Search Sciweavers | Sciweavers, https://www.sciweavers.org/sci2search/AGILE+Rate+Control+for+IEEE+802.11+Networks?year=2008&type=publications&conf=icra
  23. Convergence Speed in Distributed Consensus and Averaging | SIAM Review, https://epubs.siam.org/doi/10.1137/110837462
  24. Beyond Sliding Windows: Object Localization by … - Google Research, https://research.google.com/pubs/archive/34843.pdf
  25. Beyond sliding windows: Object localization by efficient subwindow search - ResearchGate, https://www.researchgate.net/publication/224323280_Beyond_sliding_windows_Object_localization_by_efficient_subwindow_search
  26. Efficient Subwindow Search: A Branch and Bound Framework for Object Localization - Lirias, https://lirias.kuleuven.be/retrieve/023ded86-a0fc-4144-ae13-4629af9834b9
  27. CVPR Paper Awards - IEEE Computer Society Technical Committee on Pattern Analysis and Machine Intelligence, https://tc.computer.org/tcpami/awards/cvpr-paper-awards/
  28. CVPR Best Paper Award - IEEE Computer Society Technical Committee on Pattern Analysis and Machine Intelligence, https://tc.computer.org/tcpami/2022/08/22/cvpr-best-paper-award/
  29. Efficient algorithms for subwindow search in object detection and localization, https://www.researchgate.net/publication/221364597_Efficient_algorithms_for_subwindow_search_in_object_detection_and_localization
  30. Efficient Region Search for Object Detection - University of Texas at Austin, https://vision.cs.utexas.edu/projects/ers/vijayanarasimhan_grauman_cvpr2011b.pdf
  31. Global Stereo Reconstruction under Second-Order Smoothness Priors - ResearchGate, https://www.researchgate.net/publication/38015393_Global_Stereo_Reconstruction_under_Second-Order_Smoothness_Priors
  32. Keynotes - The 36th British Machine Vision Conference 2025, https://bmvc2025.bmva.org/programme/keynotes/
  33. 3D reconstruction method based on second-order semiglobal stereo matching and fast point positioning Delaunay triangulation - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC8789135/
  34. A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning - Ronan Collobert, https://ronan.collobert.com/pub/matos/2008_nlp_icml.pdf
  35. Natural Language Processing (Almost) from Scratch - Journal of Machine Learning Research, https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf
  36. Award-winning classic papers in ML and NLP - Desh Raj, https://desh2608.github.io/2018-08-30-classic-papers/
  37. ICML 2018 Awards, https://icml.cc/Conferences/2018/Awards
  38. A unified architecture for natural language processing: Deep neural networks with multitask learning - ResearchGate, https://www.researchgate.net/publication/221345848_A_unified_architecture_for_natural_language_processing_Deep_neural_networks_with_multitask_learning
  39. A Unified Architecture For Natural Language Processing | PDF | Semantics - Scribd, https://www.scribd.com/document/246450721/A-Unified-Architecture-for-Natural-Language-Processing
  40. Cooperative Boolean Games - IFAAMAS, https://www.ifaamas.org/Proceedings/aamas08/proceedings/pdf/paper/AAMAS08_0051.pdf
  41. (PDF) Cooperative Boolean Games - ResearchGate, https://www.researchgate.net/publication/221456291_Cooperative_Boolean_Games
  42. AAMAS 2008 - IFAAMAS, https://www.ifaamas.org/Proceedings/aamas2008/proceedings/introduction.htm
  43. Liverpool wins AAMAS Best Paper Award for 2nd Year Running, https://cgi.csc.liv.ac.uk/~trp/Latest_News/Entries/2009/5/18_Liverpool_wins_AAMAS_Best_Paper_Award_for_2nd_Year_Running.html
  44. Dependency in Cooperative Boolean Games - ORBilu: Detailed Reference - University of Luxembourg, https://orbilu.uni.lu/handle/10993/24955