1261.2 행동 제어의 역사적 발전 과정

1. 초기 로봇 제어: 프로그래밍된 순차 실행 (1950년대–1960년대)

로봇 행동 제어의 역사는 산업용 로봇의 태동기로 거슬러 올라간다. 1954년 Devol이 최초의 프로그래머블 매니퓰레이터에 대한 특허를 출원하고, 1961년 Unimation사가 Unimate를 General Motors 공장에 설치한 것이 산업용 로봇의 시초이다. 이 시기의 로봇 행동 제어는 사전에 프로그래밍된 고정 경로를 순차적으로 실행하는 수준에 머물렀으며, 환경 변화에 대한 적응 능력은 부재하였다.

초기 산업용 로봇의 제어 방식은 티칭 펜던트(teaching pendant)를 통한 경유점(via point) 기록과 재생(playback)이었다. 이는 엄밀한 의미에서의 행동 제어라기보다는 단순한 동작 재생(motion replay)에 해당하며, 센서 피드백에 기반한 적응적 행동 전환의 개념이 아직 등장하지 않은 단계였다.

2. 인공지능과 심의적 패러다임의 도입 (1960년대–1970년대)

2.1 Shakey 프로젝트

Stanford Research Institute(SRI)에서 개발된 Shakey(1966–1972)는 인공지능 기반 행동 제어를 구현한 최초의 이동 로봇이다(Nilsson, 1984). Shakey는 TV 카메라와 거리 센서를 통해 환경을 인식하고, 내부 세계 모델(world model)을 구성한 후, STRIPS(Stanford Research Institute Problem Solver) 계획기를 사용하여 행동 순서를 자동 생성하였다.

STRIPS는 다음과 같이 형식화된다. 행동(operator) $o$ 는 전제 조건(precondition) $P(o)$ , 추가 목록(add list) $A(o)$ , 삭제 목록(delete list) $D(o)$ 의 삼중항으로 정의된다:

$o = (P(o), A(o), D(o))$

초기 상태 $s_0$ 에서 목표 상태 $s_g$ 에 도달하기 위한 행동 순서 $\langle o_1, o_2, \ldots, o_n \rangle$ 을 탐색하는 것이 계획 문제의 핵심이다.

이 심의적 패러다임(deliberative paradigm)은 복잡한 임무에 대한 체계적 해법을 제공하였으나, 계획 수립에 소요되는 연산 시간이 실시간 환경 변화에 대응하기에는 과도하다는 근본적 한계를 드러내었다.

2.2 SMPA 아키텍처

Shakey 이후 1970년대에 걸쳐 감지-모델링-계획-실행(Sense-Model-Plan-Act, SMPA) 순차 처리 구조가 로봇 행동 제어의 표준 패러다임으로 자리잡았다. 이 구조에서 로봇은 다음의 순환적 단계를 수행한다:

감지(Sense): 센서를 통해 환경 데이터를 수집한다.
모델링(Model): 수집된 데이터로 내부 세계 모델을 갱신한다.
계획(Plan): 세계 모델 위에서 목표 달성을 위한 행동 순서를 생성한다.
실행(Act): 생성된 계획에 따라 행동을 실행한다.

SMPA의 근본적 문제는 이 네 단계가 순차적으로 실행되므로, 전체 주기 시간(cycle time)이 각 단계의 합산 시간에 의해 결정된다는 점이다. 특히 계획 수립 단계의 연산 복잡도가 상태 공간의 크기에 따라 지수적으로 증가할 수 있어(PSPACE-complete), 동적 환경에서의 실시간 대응이 본질적으로 어려웠다.

3. 반응적 패러다임의 등장 (1980년대)

3.1 Brooks의 포섭 구조

1986년 Brooks는 “A Robust Layered Control System for a Mobile Robot“에서 SMPA 패러다임에 대한 근본적 비판을 제기하고, 포섭 구조(Subsumption Architecture)를 제안하였다. Brooks의 핵심 주장은 다음과 같다:

세계 모델의 명시적 구성은 불필요하다(“The world is its own best model”).
지능적 행동은 단순한 행동 모듈의 상호작용으로부터 창발(emergence)한다.
중앙 집중식 계획 수립은 실세계 로봇에 부적합하다.

포섭 구조에서는 복수의 행동 계층(behavior layer)이 동시에 작동하며, 각 계층은 센서 입력에서 액추에이터 출력으로의 직접적 매핑을 구현한다. 상위 계층은 하위 계층의 입력을 억제(suppress)하거나 출력을 저해(inhibit)함으로써, 상위 행동이 하위 행동에 우선하는 구조를 형성한다.

Brooks의 MIT AI Lab에서 제작된 Allen(1986), Herbert(1988), Genghis(1989) 등의 이동 로봇은 포섭 구조의 유효성을 실증적으로 보여주었다.

3.2 Braitenberg 차량과 행동의 창발

Braitenberg(1984)의 사고 실험(thought experiment)은 반응적 행동의 이론적 기반을 제공하였다. Braitenberg 차량(Braitenberg Vehicle)은 극히 단순한 센서-모터 연결만으로도 공격, 회피, 탐색 등의 복잡해 보이는 행동을 구현할 수 있음을 보여주었다. 이는 복잡한 행동이 반드시 복잡한 내부 메커니즘을 요구하지 않는다는 것을 시사하며, 행동 기반 로봇공학의 철학적 기초를 형성하였다.

3.3 Arkin의 운동 스키마

Arkin(1989)은 운동 스키마(Motor Schema) 이론을 제안하였다. 이 접근에서 각 행동은 벡터장(vector field)으로 표현되며, 복수의 행동 출력은 벡터 합산(vector summation)을 통해 융합된다. 이는 포섭 구조의 경쟁적 행동 선택과 대비되는 협력적 행동 융합(cooperative behavior fusion) 방식이다.

4. 하이브리드 패러다임의 대두 (1990년대)

4.1 계층 아키텍처

1990년대에 들어 심의적 패러다임과 반응적 패러다임의 장점을 결합하려는 하이브리드 접근이 주류를 형성하였다. Gat(1998)은 로봇 행동 제어를 위한 3계층 구조(three-layer architecture)를 제안하였다:

계층	명칭	기능	시간 척도
최상위	심의 계층(Deliberator)	임무 계획, 전략적 추론	초~분
중간	실행 계층(Sequencer)	행동 순서 관리, 상태 전이	밀리초~초
최하위	반응 계층(Controller)	센서-액추에이터 루프	밀리초 이하

이 구조에서 실행 계층은 심의 계층으로부터 전달받은 추상적 계획을 구체적 행동 순서로 변환하고, 반응 계층의 행동 모듈을 활성화하거나 비활성화한다. 실행 계층은 현대적 행동 제어 프레임워크에서 유한 상태 기계나 행동 트리의 형태로 구현된다.

4.2 ATLANTIS와 기타 하이브리드 시스템

Gat의 ATLANTIS(1992), Simmons의 TCA(Task Control Architecture, 1994), Firby의 RAP(Reactive Action Packages, 1989) 등은 하이브리드 패러다임의 초기 구현 사례이다. 이들은 공통적으로 반응적 행동 실행과 심의적 계획 수립을 분리하되, 양자를 연결하는 실행 관리 계층을 도입하였다.

5. 형식적 행동 모델의 발전 (2000년대–2010년대)

5.1 유한 상태 기계의 적용

유한 상태 기계(Finite State Machine, FSM)는 가장 직관적인 행동 전환 모델로서, 로봇 행동 제어에 광범위하게 적용되어 왔다. ROS1 생태계에서는 SMACH(Bohren & Cousins, 2010)가 파이썬 기반의 계층적 FSM 구현을 제공하여 많은 연구 및 산업 프로젝트에서 활용되었다.

그러나 FSM은 상태 수가 증가함에 따라 상태 폭발(state explosion) 문제에 직면하며, 행동의 재사용성과 모듈성이 제한적이라는 한계를 드러내었다.

5.2 행동 트리의 도입

행동 트리(Behavior Tree, BT)는 원래 게임 인공지능 분야에서 논플레이어 캐릭터(Non-Player Character, NPC)의 행동 제어를 위해 개발되었다(Isla, 2005). 이후 Marzinotto et al.(2014)과 Colledanchise & Ögren(2018)에 의해 로봇공학 분야에 체계적으로 도입되었다.

행동 트리는 FSM 대비 다음과 같은 구조적 이점을 제공한다:

모듈성: 하위 트리(subtree)를 독립적으로 설계하고 재사용할 수 있다.
반응성: 주기적 틱(tick)에 의해 조건이 지속적으로 재평가된다.
확장성: 노드 추가가 기존 구조에 대한 수정을 최소화한다.

Nav2(Navigation 2) 스택에서 BehaviorTree.CPP가 핵심 행동 조율 모듈로 채택됨으로써, 행동 트리는 ROS2 생태계에서 사실상의 표준(de facto standard) 행동 제어 모델이 되었다.

6. 현대적 동향과 ROS2 통합 (2010년대–현재)

6.1 ROS의 영향

ROS(Robot Operating System)의 등장(Quigley et al., 2009)은 로봇 행동 제어의 표준화와 재사용에 결정적 영향을 미쳤다. ROS1의 actionlib은 장시간 실행 행동의 관리를 위한 표준 인터페이스를 처음으로 제공하였으며, 이를 기반으로 MoveIt, move_base 등의 행동 제어 프레임워크가 발전하였다.

ROS2는 DDS 미들웨어의 도입, 생명 주기 노드(lifecycle node)의 표준화, 그리고 액션 프로토콜의 재설계를 통해 행동 제어의 신뢰성과 산업적 적용 가능성을 한 단계 향상시켰다.

6.2 학습 기반 행동 정책

최근에는 심층 강화학습(Deep Reinforcement Learning, DRL)을 통해 행동 정책(behavior policy)을 데이터로부터 학습하는 접근이 활발히 연구되고 있다. Levine et al.(2016), Gu et al.(2017) 등의 연구는 로봇 매니퓰레이션 및 보행 제어에서의 학습 기반 행동 생성을 실증하였다. 그러나 학습 기반 접근은 안전성 보장, 해석 가능성(interpretability), 그리고 실세계 전이(sim-to-real transfer)의 측면에서 여전히 과제가 남아 있으며, 현재로서는 전통적 행동 제어 구조와의 결합이 실용적 해법으로 인식되고 있다.

참고 문헌

Nilsson, N. J. (1984). “Shakey the Robot.” Technical Note 323, SRI International.
Brooks, R. A. (1986). “A Robust Layered Control System for a Mobile Robot.” IEEE Journal on Robotics and Automation, 2(1), 14–23.
Braitenberg, V. (1984). Vehicles: Experiments in Synthetic Psychology. MIT Press.
Arkin, R. C. (1989). “Motor Schema-Based Mobile Robot Navigation.” International Journal of Robotics Research, 8(4), 92–112.
Gat, E. (1998). “On Three-Layer Architectures.” In Artificial Intelligence and Mobile Robots, MIT Press, 195–210.
Bohren, J., & Cousins, S. (2010). “The SMACH High-Level Executive.” IEEE Robotics & Automation Magazine, 17(4), 18–20.
Colledanchise, M., & Ögren, P. (2018). Behavior Trees in Robotics and AI: An Introduction. CRC Press.
Quigley, M., et al. (2009). “ROS: An Open-Source Robot Operating System.” ICRA Workshop on Open Source Software.