397.76 LLM 기반 스킬(Skill) 연결과 과업 분해

1. 서론

로봇 시스템은 다양한 기본 스킬(Primitive Skill)의 집합으로 구성되며, 복잡한 임무는 이러한 기본 스킬들의 적절한 조합과 순서화를 통해 수행된다. 대규모 언어 모델(LLM)은 방대한 텍스트 코퍼스에서 학습한 절차적 지식(Procedural Knowledge)과 상식 추론(Common-Sense Reasoning) 능력을 활용하여, 고수준 임무를 하위 과업(Sub-task)으로 분해하고, 각 하위 과업에 적합한 스킬을 연결(Chaining)하는 역할을 수행할 수 있다. 본 절에서는 LLM 기반 스킬 연결과 과업 분해의 이론적 기반, 핵심 아키텍처, 그리고 구현 전략을 체계적으로 기술한다.

2. 스킬과 과업 분해의 형식적 정의

2.1 로봇 스킬의 형식화

로봇 스킬(Robot Skill)은 특정 하위 과업을 수행하기 위한 자율적 행동 단위(Autonomous Behavior Unit)이다. 각 스킬 $s_k$ 는 다음의 튜플로 형식화된다.

$s_k = \langle \text{name}_k, \text{Pre}_k, \text{Eff}_k, \text{Params}_k, \pi_k \rangle$

여기서 각 요소의 의미는 다음과 같다.

요소	기호	설명
스킬 이름	$\text{name}_k$	스킬의 고유 식별자 (예: pick, place, navigate)
전제 조건	$\text{Pre}_k$	스킬 실행을 위해 충족되어야 하는 상태 조건의 집합
효과	$\text{Eff}_k$	스킬 실행 후 변화되는 상태의 집합
파라미터	$\text{Params}_k$	스킬의 입력 파라미터 (대상 객체, 목표 위치 등)
정책	$\pi_k$	스킬을 실행하는 저수준 제어 정책

스킬 라이브러리(Skill Library)는 로봇이 보유한 모든 스킬의 집합 $\mathcal{S} = \{s_1, s_2, \ldots, s_K\}$ 로 정의된다.

2.2 과업 분해의 계층적 구조

과업 분해(Task Decomposition)는 고수준 임무 $M$ 을 실행 가능한 하위 과업의 순서 있는 집합으로 변환하는 과정이다. 형식적으로, 과업 분해 함수 $\text{Decompose}$ 는 다음과 같이 정의된다.

$\text{Decompose}(M) = \langle g_1, g_2, \ldots, g_m \rangle$

여기서 각 하위 과업 $g_i$ 는 하나 이상의 스킬로 구현될 수 있다. 과업 분해는 재귀적(Recursive)으로 수행될 수 있으며, 이 경우 계층적 과업 트리(Hierarchical Task Tree)가 형성된다.

$M \to \{g_1, g_2, \ldots, g_m\} \to \{s_{1,1}, s_{1,2}, \ldots, s_{m,n_m}\}$

이러한 계층적 분해 구조는 계층적 작업 네트워크(HTN) 계획의 개념과 유사하다. LLM은 HTN의 도메인 전문가가 수동으로 정의하던 분해 규칙(Decomposition Rule)을 자연어 이해 능력을 통해 자동으로 추론하는 역할을 수행한다.

3. LLM 기반 스킬 연결 아키텍처

3.1 순차적 스킬 연결 (Sequential Skill Chaining)

순차적 스킬 연결은 LLM이 스킬을 하나씩 순서대로 선택하고 연결하는 가장 기본적인 패러다임이다.

$\pi = \langle s_{\sigma(1)}, s_{\sigma(2)}, \ldots, s_{\sigma(n)} \rangle$

여기서 $\sigma$ 는 스킬 라이브러리 $\mathcal{S}$ 에서의 스킬 선택 및 순서 함수이다. 각 단계에서 LLM은 현재 상태 $s_t$ , 임무 지시 $\mathcal{L}$ , 그리고 이전에 실행된 스킬의 이력 $h_t$ 를 입력으로 받아 다음 스킬을 선택한다.

$s_{\sigma(t+1)} = \arg\max_{s \in \mathcal{S}} P_{\text{LLM}}(s \mid \mathcal{L}, s_t, h_t)$

이 과정에서 핵심적인 도전은 연쇄 효과(Cascading Effect)이다. 초기 스킬 선택의 오류가 후속 스킬 전체에 전파되므로, 각 단계에서의 정확한 상태 추정과 스킬 선택이 중요하다.

3.2 계층적 스킬 연결 (Hierarchical Skill Chaining)

계층적 스킬 연결은 LLM이 먼저 임무를 추상적 하위 과업으로 분해하고, 각 하위 과업을 다시 구체적 스킬로 매핑하는 2단계 접근법이다.

1단계: 과업 분해

$\{g_1, g_2, \ldots, g_m\} = f_{\text{LLM}}^{\text{decompose}}(\mathcal{L}, \mathcal{C}_{\text{env}})$

2단계: 스킬 매핑

$\pi_i = f_{\text{LLM}}^{\text{ground}}(g_i, \mathcal{S}, s_t)$

이 접근법은 추상화의 이점을 활용하여 각 단계에서의 복잡도를 감소시킨다. Ahn et al. (2022)의 SayCan과 Huang et al. (2022a)의 Zero-Shot Planner가 이러한 패러다임의 대표적 사례이다.

3.3 적응형 스킬 연결 (Adaptive Skill Chaining)

적응형 스킬 연결은 스킬 실행 결과에 따라 후속 스킬 선택을 동적으로 조정하는 폐루프(Closed-Loop) 접근법이다.

$s_{\sigma(t+1)} = f_{\text{LLM}}(\mathcal{L}, s_t, h_t, o_t, r_t)$

여기서 $o_t$ 는 현재 관측(Observation), $r_t$ 는 이전 스킬의 실행 결과(성공/실패/부분 완료)이다. 이 접근법은 환경의 예측 불가능한 변화에 대한 적응 능력을 제공한다.

Inner Monologue (Huang et al., 2022b) 프레임워크는 인식 결과, 실행 결과, 인간 피드백 등 다중 소스의 정보를 LLM에 피드백하여 적응형 스킬 연결을 구현한다.

4. LLM 기반 과업 분해 전략

4.1 하향식 분해 (Top-Down Decomposition)

하향식 분해는 전체 임무를 점진적으로 세분화(Refinement)하는 전략이다. LLM은 자연어 임무 기술로부터 먼저 거시적 단계를 식별하고, 각 단계를 미시적 행동으로 구체화한다.

임무: "식탁을 정리하라"
  ├─ 1단계: 접시 치우기
  │    ├─ 접시를 집기 → pick(plate)
  │    └─ 싱크대에 놓기 → place(plate, sink)
  ├─ 2단계: 컵 치우기
  │    ├─ 컵을 집기 → pick(cup)
  │    └─ 싱크대에 놓기 → place(cup, sink)
  └─ 3단계: 식탁 닦기
       └─ 수건으로 닦기 → wipe(table, towel)

하향식 분해의 장점은 전체 임무 구조에 대한 일관성(Consistency)을 유지할 수 있다는 것이다. 그러나 분해 초기 단계에서의 오류가 하위 단계로 전파되는 위험이 존재한다.

4.2 상향식 분해 (Bottom-Up Composition)

상향식 분해는 가용한 스킬의 조합으로 달성 가능한 상태 변화를 분석하여, 이들의 적절한 조합으로 임무를 달성하는 전략이다. LLM은 스킬 라이브러리의 전제 조건과 효과를 분석하여, 목표 상태에 도달하는 스킬 시퀀스를 역방향으로 추론한다.

$s_{\text{goal}} \xleftarrow{\text{Eff}_{k_n}} s_{n-1} \xleftarrow{\text{Eff}_{k_{n-1}}} \cdots \xleftarrow{\text{Eff}_{k_1}} s_{\text{init}}$

4.3 재귀적 분해 (Recursive Decomposition)

재귀적 분해는 하향식과 상향식을 결합한 접근법으로, LLM이 각 하위 과업의 복잡도를 판단하여 충분히 단순할 때까지 재귀적으로 분해를 수행한다.

$\text{Decompose}(g) = \begin{cases} \{s_k\}, & \text{if } g \text{가 단일 스킬로 실행 가능} \\ \bigcup_{i=1}^{l} \text{Decompose}(g_i), & \text{otherwise} \end{cases}$

이 접근법은 과업의 복잡도에 적응적으로 분해 깊이를 조절할 수 있으며, 과도한 분해(Over-decomposition)나 부족한 분해(Under-decomposition)의 위험을 완화한다.

5. 스킬 연결의 검증과 교정

5.1 전제 조건-효과 일관성 검증

스킬 연결의 유효성을 보장하기 위해서는 인접한 스킬 간의 전제 조건-효과 일관성(Precondition-Effect Consistency)을 검증해야 한다. 스킬 시퀀스 $\langle s_i, s_{i+1} \rangle$ 에 대해 다음 조건이 충족되어야 한다.

$\text{Eff}(s_i, s_t) \models \text{Pre}(s_{i+1})$

즉, 스킬 $s_i$ 의 실행 후 상태가 후속 스킬 $s_{i+1}$ 의 전제 조건을 충족해야 한다. LLM 단독으로는 이 검증이 정확히 수행되지 않을 수 있으므로, 형식적 검증기(Formal Verifier)와의 결합이 권장된다.

5.2 시뮬레이션 기반 검증

생성된 스킬 시퀀스를 시뮬레이션 환경에서 사전 실행하여 실행 가능성을 검증한다. 시뮬레이션 결과 실패가 감지되면, 실패 상태와 원인을 LLM에 제공하여 대안적 스킬 시퀀스를 생성하도록 유도한다.

$\text{if } \text{simulate}(\pi) = \text{fail at } s_i \text{ then } \pi' = f_{\text{LLM}}(\mathcal{L}, \pi, s_i, \text{fail\_reason})$

5.3 자기 검증 (Self-Verification)

LLM 자체에 생성된 계획의 검증 역할을 부여하는 자기 검증(Self-Verification) 기법도 연구되고 있다. 별도의 검증 프롬프트를 통해 LLM이 자신이 생성한 스킬 시퀀스의 합리성을 평가하도록 한다.

[검증 프롬프트]
다음 스킬 시퀀스가 주어진 임무를 올바르게 수행하는지 검토하라.
각 스킬의 전제 조건이 이전 스킬의 효과에 의해 충족되는지 확인하라.

이러한 자기 검증은 단일 추론 경로의 오류를 검출하는 데 효과적이나, LLM의 체계적 편향(Systematic Bias)에 의한 오류는 감지하기 어렵다는 한계가 있다.

6. 실제 구현 사례

6.1 SayCan의 가용성 기반 스킬 연결

SayCan (Ahn et al., 2022)은 Google Research에서 개발한 시스템으로, 실제 이동 매니퓰레이터(Mobile Manipulator) 로봇에서 LLM 기반 스킬 연결을 구현하였다. 551개의 기본 스킬(주로 pick, place, navigate 변형)을 가용성 함수로 접지하여, 자연어 지시에 대해 73%의 계획 성공률, 실제 실행에서 47%의 성공률을 달성하였다.

6.2 Voyager의 자기 생장형 스킬 라이브러리

Voyager (Wang et al., 2023b)는 LLM을 활용하여 스킬 라이브러리를 점진적으로 확장하는 자기 생장형(Self-Growing) 에이전트이다. 새로운 과업을 접할 때마다 LLM이 새로운 스킬(코드 형태)을 생성하고 검증하여 라이브러리에 추가한다. 이 접근법은 사전 정의된 스킬 집합의 한계를 극복하고, 에이전트의 능력을 점진적으로 확장할 수 있게 한다.

6.3 PROGPROMPT의 프로그래밍 구조 활용

PROGPROMPT (Singh et al., 2023)는 프로그래밍 언어의 구조(조건문, 반복문, 함수 정의)를 프롬프트에 활용하여 과업 분해의 정확도를 향상시키는 프레임워크이다. 스킬을 함수 시그니처(Function Signature)로 표현하고, LLM이 이를 조합하여 프로그램 형태의 계획을 생성하도록 유도한다.

7. 현재의 한계와 향후 방향

7.1 스킬 실행 불확실성

LLM 기반 스킬 연결은 각 스킬의 실행이 결정론적으로 성공한다고 가정하는 경우가 많으나, 실제 로봇 환경에서는 스킬 실행의 성공이 확률적이다. 스킬 실행 불확실성을 LLM의 계획 생성 과정에 통합하는 것이 향후 연구의 중요한 방향이다.

7.2 장기 의존성 처리

과업 분해의 깊이가 깊어질수록 하위 과업 간의 장기 의존성(Long-Range Dependency)을 정확히 추적하는 것이 어려워진다. LLM의 문맥 창(Context Window) 제한은 이 문제를 더욱 악화시킨다. 외부 메모리(External Memory) 또는 계층적 요약(Hierarchical Summarization) 기법이 이 한계를 완화하는 데 활용될 수 있다.

7.3 스킬 발견과 자동 생성

사전 정의된 스킬 라이브러리에 의존하지 않고, LLM이 새로운 스킬을 자동으로 발견(Discovery)하고 생성하는 능력의 확보가 향후 핵심 과제이다. Voyager의 접근법은 이 방향의 초기 시도이며, 안전성 보장된 새로운 스킬의 자동 생성이 장기적 연구 목표로 제시되고 있다.

8. 요약

LLM 기반 스킬 연결과 과업 분해는 복잡한 로봇 임무를 실행 가능한 기본 행동의 시퀀스로 변환하는 핵심 기술이다. 순차적, 계층적, 적응형 스킬 연결 아키텍처는 각기 다른 수준의 유연성과 강건성을 제공하며, 하향식, 상향식, 재귀적 분해 전략은 다양한 과업 구조에 적용될 수 있다. 전제 조건-효과 일관성 검증, 시뮬레이션 기반 검증, 자기 검증 등의 교정 메커니즘은 LLM이 생성한 스킬 시퀀스의 신뢰성을 향상시키는 데 기여한다. 스킬 실행 불확실성의 통합, 장기 의존성 처리, 그리고 자동 스킬 발견과 생성은 향후 연구의 핵심 과제로 남아 있다.

참고 문헌

Ahn, M., Brohan, A., Brown, N., Chebotar, Y., Cortes, O., David, B., Finn, C., et al. (2022). “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.” arXiv preprint arXiv:2204.01691.
Huang, W., Abbeel, P., Pathak, D., and Mordatch, I. (2022a). “Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents.” Proceedings of the International Conference on Machine Learning (ICML).
Huang, W., Xia, F., Xiao, T., Chan, H., Liang, J., Florence, P., et al. (2022b). “Inner Monologue: Embodied Reasoning through Planning with Language Models.” Proceedings of the Conference on Robot Learning (CoRL).
Singh, I., Blukis, V., Mousavian, A., Goyal, A., Xu, D., Tremblay, J., et al. (2023). “ProgPrompt: Generating Situated Robot Task Plans using Large Language Models.” Proceedings of the IEEE International Conference on Robotics and Automation (ICRA).
Wang, G., Xie, Y., Jiang, Y., Mandlekar, A., Xiao, C., Zhu, Y., et al. (2023b). “Voyager: An Open-Ended Embodied Agent with Large Language Models.” arXiv preprint arXiv:2305.16291.

version: 1.0