1291.86 행동 트리의 학습 기반 구성 연구

1. 개요

행동 트리(Behavior Tree, BT)의 학습 기반 구성(learning-based composition) 연구는 기계 학습(machine learning) 기법을 활용하여 행동 트리의 구조와 파라미터를 자동으로 학습하는 학술 분야이다. 수작업 설계나 형식 합성과 달리, 학습 기반 접근법은 환경과의 상호작용이나 시범 데이터로부터 행동 트리를 구성하며, 사전에 완전한 도메인 모델이 없는 상황에서도 적응적 행동 제어를 실현할 수 있다. 본 절에서는 주요 학습 기반 구성 방법론과 연구 성과를 기술한다.

2. 강화 학습 기반 행동 트리 구성

2.1 구조와 파라미터의 동시 학습

Colledanchise, Parasuraman, Ögren(2019)은 Learning of Behavior Trees for Autonomous Agents에서 강화 학습(Reinforcement Learning, RL)을 통해 행동 트리의 구조와 파라미터를 동시에 학습하는 프레임워크를 제안하였다.

이 프레임워크에서 학습 에이전트는 행동 트리를 정책(policy)으로 사용하며, 환경과의 상호작용을 통해 보상 신호(reward signal)를 수집한다. 학습 과정은 두 수준으로 분리된다:

구조 학습(Structure Learning): 행동 트리의 노드 구성(어떤 노드를 어디에 배치할 것인가)을 탐색한다. 이는 이산 최적화(discrete optimization) 문제로 정식화되며, 정책 탐색(policy search) 또는 진화 전략(evolutionary strategy)으로 해결한다.
파라미터 학습(Parameter Learning): 주어진 구조 하에서 각 행동 노드의 세부 파라미터(임계값, 속도, 방향 등)를 최적화한다. 이는 연속 최적화(continuous optimization) 문제로 정식화되며, 정책 경사법(policy gradient method) 등의 기법으로 해결한다.

학습 목적 함수는 다음과 같이 정의된다:

$J(\mathcal{T}) = \mathbb{E}\left[\sum_{t=0}^{T} \gamma^t r_t \mid \mathcal{T}\right]$

여기서 $\mathcal{T}$ 는 행동 트리, $r_t$ 는 시간 $t$ 에서의 보상, $\gamma$ 는 감가율(discount factor)이다.

2.2 안전 제약 하의 학습

학습 과정에서 안전 제약(safety constraint)을 위반하지 않도록 하는 것은 실세계 로봇 시스템에서 핵심적인 요구 사항이다. 제약 마르코프 결정 과정(Constrained Markov Decision Process, CMDP) 프레임워크를 적용하여, 보상 최대화와 안전 제약 충족을 동시에 만족하는 행동 트리를 학습할 수 있다:

$\max_{\mathcal{T}} J(\mathcal{T}) \quad \text{subject to} \quad C_i(\mathcal{T}) \leq d_i, \quad i = 1, \ldots, m$

여기서 $C_i(\mathcal{T})$ 는 $i$ 번째 안전 제약의 비용 함수, $d_i$ 는 허용 임계값이다.

3. 시연 학습 기반 행동 트리 구성

3.1 시범 데이터로부터의 행동 트리 추출

French, Jasper, Mangelson, Howe(2019)는 Learning Behavior Trees from Demonstration에서 시연 학습(Learning from Demonstration, LfD) 기법을 행동 트리 구성에 적용하였다. 이 접근법에서 전문가(expert)가 임무를 수행하는 과정을 기록한 시범 데이터(demonstration data)로부터 행동 트리를 자동으로 추출한다.

시범 데이터는 상태-행동 쌍의 시퀀스로 표현된다:

$\mathcal{D} = \{(s_1, a_1), (s_2, a_2), \ldots, (s_T, a_T)\}$

이 데이터로부터 행동 트리를 추출하는 과정은 다음의 단계로 진행된다:

행동 분할(Action Segmentation): 시범 데이터를 의미적으로 구분되는 행동 단위(behavioral segment)로 분할한다.
조건 추론(Condition Inference): 각 행동이 실행되는 조건을 상태 특징(state feature)으로부터 추론한다.
트리 구성(Tree Construction): 분할된 행동과 추론된 조건을 행동 트리의 노드로 조합하여 트리 구조를 구성한다.

이 방법론의 장점은 비전문가도 시범 행동을 제공함으로써 복잡한 로봇 행동을 직관적으로 프로그래밍할 수 있다는 점이다.

3.2 대화형 시연 학습

대화형 시연 학습(interactive learning from demonstration)에서는 학습 에이전트가 불확실한 상황에서 전문가에게 질의(query)를 통해 추가적인 시범을 요청한다. 이는 능동 학습(active learning)의 패러다임을 시연 학습에 적용한 것으로, 소량의 시범 데이터로도 고품질의 행동 트리를 구성할 수 있게 한다.

4. 계획과 학습의 하이브리드 접근법

4.1 단계 구성 방법론

Styrud, Iovino, Norrlöf, Björkelund, Smith(2022)는 Combining Planning and Learning of Behavior Trees for Robotic Assembly에서 태스크 플래닝과 강화 학습을 결합한 2단계 행동 트리 구성 방법론을 제안하였다.

제1단계: 계획 기반 골격 생성. 태스크 플래너가 도메인 모델과 목표 명세로부터 행동 트리의 골격 구조(skeletal structure)를 생성한다. 이 단계에서 행동의 순서와 제어 흐름의 대략적 구조가 결정된다.

제2단계: 학습 기반 파라미터 최적화. 강화 학습 에이전트가 시뮬레이션 또는 실세계 환경에서의 상호작용을 통해 각 행동 노드의 세부 파라미터를 최적화한다. 예를 들어, 파지 행동(grasp action)의 접근 방향, 힘 제어 파라미터, 속도 프로파일 등이 학습을 통해 조정된다.

이 접근법은 계획 알고리즘의 구조적 정확성과 강화 학습의 파라미터 최적화 능력을 결합하여, 단일 접근법만으로는 달성하기 어려운 수준의 성능을 실현한다.

5. 전이 학습 기반 행동 트리 적응

전이 학습(transfer learning)을 활용하여, 하나의 임무에서 학습된 행동 트리를 유사한 다른 임무로 전이하는 연구도 진행되고 있다. 행동 트리의 모듈적 구조는 전이 학습에 유리한 특성을 제공한다. 서브트리 단위로 행동을 캡슐화할 수 있으므로, 원본 임무에서 학습된 서브트리를 새로운 임무의 행동 트리에 직접 삽입하거나 미세 조정(fine-tuning)할 수 있다.

전이 학습의 효과는 다음의 관점에서 평가된다:

점프 스타트 성능(Jump-start Performance): 전이된 행동 트리의 초기 성능이 무작위 초기화 대비 향상되는 정도
학습 시간 단축(Time-to-Threshold): 목표 성능에 도달하기까지의 학습 시간 감소량
최종 성능 향상(Asymptotic Performance): 충분한 학습 후 달성되는 최종 성능의 개선 정도

6. 학습 기반 구성 연구의 과제

학습 기반 행동 트리 구성 연구는 다음과 같은 과제를 안고 있다:

샘플 효율성(Sample Efficiency): 강화 학습의 낮은 샘플 효율성은 실세계 로봇에서의 직접 학습을 어렵게 한다. 모델 기반 강화 학습(model-based RL)이나 시뮬레이션-실세계 전이(sim-to-real transfer)를 통한 해결이 연구되고 있다.
학습 결과의 해석 가능성(Interpretability): 학습을 통해 생성된 행동 트리가 인간에게 이해 가능한 구조를 유지하도록 하는 것이 중요하다. 행동 트리의 본래 장점인 가독성과 모듈성이 학습 과정에서 훼손되지 않도록 하는 정규화(regularization) 기법의 개발이 필요하다.
비정상 환경 적응(Non-stationary Environment Adaptation): 환경이 시간에 따라 변화하는 비정상 환경(non-stationary environment)에서 학습된 행동 트리를 지속적으로 적응시키는 평생 학습(lifelong learning) 프레임워크의 개발이 과제로 남아 있다.
다중 에이전트 학습(Multi-agent Learning): 다수의 로봇이 협력적으로 행동 트리를 학습하는 다중 에이전트 강화 학습 프레임워크의 확장이 새로운 연구 방향으로 주목받고 있다.

참고 문헌

Colledanchise, M., Parasuraman, R., & Ögren, P. (2019). Learning of Behavior Trees for Autonomous Agents. IEEE Transactions on Games, 11(2), 183–189.
French, R., Jasper, A., Mangelson, J., & Howe, R. (2019). Learning Behavior Trees from Demonstration. IEEE International Conference on Robotics and Automation (ICRA).
Styrud, J., Iovino, M., Norrlöf, M., Björkelund, A., & Smith, C. (2022). Combining Planning and Learning of Behavior Trees for Robotic Assembly. IEEE International Conference on Robotics and Automation (ICRA).
Iovino, M., Scukins, E., Styrud, J., Ögren, P., & Smith, C. (2022). A Survey of Behavior Trees in Robotics and AI. Robotics and Autonomous Systems, 154, 104096.

버전: 2026-04-01