396.84 LLM 기반 임무 생성 및 변환

1. 임무 생성 및 변환의 개념적 구분

LLM 기반 임무 생성(mission generation)과 임무 변환(mission transformation)은 자연어 임무 해석의 확장된 기능으로서, 단순한 해석을 넘어 새로운 임무를 능동적으로 생성하거나 기존 임무를 다른 형식·맥락·조건으로 변환하는 능력을 포괄한다. 두 개념의 차이를 명확히 구분하면 다음과 같다.

임무 생성(Mission Generation): 상위 수준의 목표(goal)나 제약 조건이 주어졌을 때, LLM이 해당 목표를 달성하기 위한 구체적인 과업 시퀀스, 행동 계획, 또는 완전한 임무 명세를 자동으로 생성하는 과정이다. 이 과정에서 LLM은 도메인 지식(domain knowledge)을 활용하여 사용자가 명시하지 않은 중간 단계나 전제 조건을 추론한다.

임무 변환(Mission Transformation): 이미 존재하는 임무 명세를 다른 형식(예: PDDL에서 행동 트리로), 다른 로봇 플랫폼(예: 지상 로봇에서 드론으로), 다른 환경 조건(예: 실내에서 실외로), 또는 변경된 제약 조건에 맞추어 변환하는 과정이다.

형식적으로 이 두 개념은 다음과 같이 정의할 수 있다.

\text{생성}: f_{\text{gen}}(g, \mathcal{C}, \mathcal{E}) \rightarrow M

\text{변환}: f_{\text{trans}}(M_{\text{src}}, \Delta\mathcal{C}, \Delta\mathcal{E}) \rightarrow M_{\text{tgt}}

여기서 g는 목표, \mathcal{C}는 제약 조건, \mathcal{E}는 환경 정보, M은 임무 명세, M_{\text{src}}M_{\text{tgt}}는 각각 원본/변환 임무, \Delta\mathcal{C}\Delta\mathcal{E}는 변경된 조건이다.

2. LLM 기반 임무 생성 기법

2.1 목표 지향적 과업 시퀀스 생성

LLM 기반 임무 생성의 가장 기본적인 형태는 사용자가 제시한 고수준 목표를 달성하기 위한 하위 과업 시퀀스를 자동으로 생성하는 것이다. 이 과정은 계층적 작업 네트워크(Hierarchical Task Network, HTN)의 과업 분해(task decomposition)와 유사하나, LLM이 분해 규칙(decomposition rule)을 별도의 도메인 모델 없이 내재된 언어적 지식으로부터 추론한다는 점에서 차별화된다.

예를 들어, “주방을 정리하라“라는 고수준 목표에 대해 LLM은 다음과 같은 과업 시퀀스를 생성할 수 있다.

  1. 식탁 위의 접시를 수거한다.
  2. 접시를 개수대로 이동한다.
  3. 쓰레기를 분류하여 쓰레기통에 넣는다.
  4. 조리대 표면을 닦는다.
  5. 바닥에 떨어진 물품을 수거한다.

이때 LLM은 “주방 정리“에 대한 상식적 지식(commonsense knowledge)을 활용하여 사용자가 명시하지 않은 세부 과업을 추론한다.

2.2 Inner Monologue: 사고 연쇄(Chain-of-Thought) 기반 생성

Huang et al.(2023)이 제안한 Inner Monologue는 LLM이 내적 사고 과정(inner monologue)을 명시적으로 생성하면서 로봇 행동 계획을 수립하는 접근법이다. 이 방법에서 LLM은 다음과 같은 다중 모달 피드백 루프를 통해 과업을 점진적으로 생성한다.

[LLM 내적 사고]
현재 상태: 로봇이 주방 입구에 위치, 식탁 위에 3개의 접시가 있음
목표: 주방 정리
계획 1단계: 먼저 식탁으로 이동하여 접시를 집어야 한다.
→ 행동: navigate_to(식탁)

[환경 피드백]
로봇이 식탁에 도착하였다. 접시 3개가 시야에 보인다.

[LLM 내적 사고]
현재 상태: 식탁 앞에 위치, 접시 3개 확인
다음 단계: 접시를 하나씩 집어서 개수대로 옮겨야 한다.
→ 행동: pick_up(접시_1)

이 접근법의 핵심은 LLM이 매 단계마다 환경의 피드백을 수신하고, 이를 반영하여 다음 과업을 적응적으로 생성한다는 것이다.

2.3 계획-비평(Plan-and-Critique) 프레임워크

LLM 기반 임무 생성의 신뢰성을 향상시키기 위한 접근법으로 계획-비평(Plan-and-Critique) 프레임워크가 제안되었다. 이 프레임워크에서는 두 개의 LLM 에이전트(또는 동일 LLM의 두 가지 역할)가 상호작용한다.

  • 계획 에이전트(Planner Agent): 주어진 목표에 대한 임무 계획을 생성한다.
  • 비평 에이전트(Critic Agent): 생성된 계획의 실현 가능성, 완전성, 안전성을 평가하고 개선 사항을 제안한다.

이 과정은 다음과 같이 반복적으로 수행된다.

M^{(0)} = \text{Planner}(g, \mathcal{C})

M^{(k+1)} = \text{Planner}(g, \mathcal{C}, \text{Critic}(M^{(k)}))

수렴 조건 \|\text{Critic}(M^{(k)})\| < \epsilon이 충족될 때까지 반복하며, 이를 통해 초기 계획의 오류와 불완전성을 점진적으로 개선한다.

2.4 PDDL 자동 생성

LLM을 활용하여 PDDL(Planning Domain Definition Language)의 도메인 정의(domain definition)나 문제 정의(problem definition)를 자동으로 생성하는 접근법이 활발히 연구되고 있다(Liu et al., 2023). 이 접근법에서 LLM은 다음의 PDDL 구성 요소를 생성한다.

  • 술어(Predicates): 세계 상태를 기술하는 논리적 술어 (예: (on block1 table), (holding robot block2))
  • 행동 스키마(Action Schema): 로봇의 원시 행동과 그 전제 조건(precondition), 효과(effect)
  • 초기 상태(Initial State): 임무 시작 시의 세계 상태
  • 목표 상태(Goal State): 달성하여야 하는 최종 상태

LLM이 생성한 PDDL은 기존의 자동 계획기(예: Fast Downward, LAMA)에 입력되어 최적 행동 시퀀스를 산출한다. 이 접근법의 장점은 LLM의 유연한 자연어 처리 능력과 형식 계획기의 최적성 보장을 결합할 수 있다는 것이다.

\text{자연어} \xrightarrow{f_{\text{LLM}}} (\text{PDDL Domain}, \text{PDDL Problem}) \xrightarrow{\text{Planner}} \text{최적 행동 시퀀스}

3. LLM 기반 임무 변환 기법

3.1 표현 형식 간 변환

임무의 표현 형식(representation format) 간 변환은 서로 다른 임무 관리 체계 간의 상호 운용성을 확보하는 데 필요하다. LLM은 다음과 같은 형식 간 변환을 수행할 수 있다.

원본 형식대상 형식활용 시나리오
자연어PDDL비전문가 사용자의 임무 생성
자연어행동 트리 XMLBT 기반 임무 관리 시스템 연동
자연어Python 코드ROS2 기반 시스템 직접 실행
PDDL행동 트리형식 계획 결과의 BT 기반 실행
상태 머신행동 트리레거시 시스템의 현대화
JSON 임무 명세ROS2 Action 호출 시퀀스상용 플릿 관리 시스템 연동

형식 간 변환에서 LLM의 역할은 원본 형식의 의미 구조(semantic structure)를 이해하고, 이를 대상 형식의 구문 규칙(syntactic rule)에 맞추어 재구성하는 것이다.

3.2 플랫폼 간 변환

동일한 임무를 서로 다른 로봇 플랫폼에서 수행하도록 변환하는 것은 이기종(heterogeneous) 로봇 시스템 운용에서 필수적이다. 예를 들어, “건물 외벽을 검사하라“는 임무를 드론과 벽면 등반 로봇에 각각 적합한 형태로 변환하는 경우를 고려하자.

드론용 변환:

  • 외벽을 따라 일정 거리를 유지하며 비행하는 경로 생성
  • 카메라 각도를 외벽 방향으로 고정
  • 고도를 점진적으로 변화시키며 층별 촬영

벽면 등반 로봇용 변환:

  • 외벽에 부착하여 수직·수평 이동 경로 생성
  • 근접 센서를 활용한 균열 탐지
  • 정기적 부착 안정성 확인

LLM은 각 플랫폼의 물리적 능력과 제약 조건을 프롬프트를 통해 인지하고, 이에 맞춰 임무의 구체적 행동 시퀀스를 변환한다.

3.3 환경 조건 변환

동일한 유형의 임무를 다른 환경 조건에 적응시키는 변환도 중요한 기능이다. 이 변환의 유형은 다음과 같다.

  • 실내 → 실외 변환: GPS 기반 위치 추정으로의 전환, 풍속 고려, 방수 제약 추가
  • 주간 → 야간 변환: 적외선 센서 활성화, 조명 장치 운용, 시각 기반 알고리즘의 대체
  • 정상 → 비상 변환: 안전 우선순위 상향, 비상 경로 적용, 위험 구역 회피 추가
  • 단일 로봇 → 다중 로봇 변환: 과업 분할, 로봇 간 조율 로직 추가, 통신 프로토콜 설정

형식적으로, 환경 조건 변환은 다음과 같이 표현된다.

M_{\text{tgt}} = f_{\text{LLM}}(M_{\text{src}}, \Delta\mathcal{E}, R_{\text{tgt}})

여기서 \Delta\mathcal{E}는 변경된 환경 조건, R_{\text{tgt}}는 대상 로봇 플랫폼의 능력 명세이다.

3.4 임무 추상화 수준 변환

임무의 추상화 수준(level of abstraction) 간 변환도 LLM이 수행할 수 있는 중요한 기능이다.

상향 변환(Abstraction, Bottom-Up):
구체적인 하위 과업 시퀀스로부터 상위 수준의 임무 요약을 생성한다. 이는 임무 로그의 자동 요약, 운영자에 대한 상태 보고 등에 활용된다.

M_{\text{abstract}} = f_{\text{LLM}}^{\uparrow}(\{t_1, t_2, \ldots, t_n\})

하향 변환(Refinement, Top-Down):
추상적인 고수준 임무를 구체적인 하위 과업 시퀀스로 세분화한다. 이는 HTN 기반 과업 분해와 유사하다.

\{t_1, t_2, \ldots, t_n\} = f_{\text{LLM}}^{\downarrow}(M_{\text{abstract}}, \mathcal{C}, \mathcal{E})

4. 폐루프(Closed-Loop) 임무 생성·변환 시스템

4.1 피드백 기반 반복적 개선

LLM 기반 임무 생성·변환의 실용적 시스템에서는 개방 루프(open-loop) 방식이 아닌 폐루프(closed-loop) 방식이 채택된다. 폐루프 시스템의 구조는 다음과 같다.

사용자 목표 입력
    ↓
LLM 임무 생성/변환
    ↓
형식 검증 모듈 ──→ [오류 발견 시] ──→ LLM 에 오류 피드백 ──→ 재생성
    ↓ (통과)
시뮬레이터 검증 ──→ [실패 시] ──→ 실패 원인 분석 ──→ LLM에 피드백 ──→ 재생성
    ↓ (통과)
실제 로봇 실행
    ↓
실행 결과 피드백 ──→ [실패 시] ──→ 환경 상태 갱신 ──→ LLM에 피드백 ──→ 재생성
    ↓ (성공)
임무 완료

이 구조에서 핵심적인 피드백 유형은 다음과 같다.

  1. 구문 피드백(Syntactic Feedback): 생성된 임무 표현의 형식적 오류 (예: JSON 파싱 오류, PDDL 구문 오류)
  2. 의미 피드백(Semantic Feedback): 논리적 불일치, 충족 불가능한 제약 조건, 순환 의존성 등
  3. 시뮬레이션 피드백(Simulation Feedback): 시뮬레이터에서의 실행 실패 원인, 충돌 감지, 도달 불가능 위치 등
  4. 실행 피드백(Execution Feedback): 실제 로봇 실행 시의 성공/실패 결과, 예상외 환경 변화 등

4.2 자기 반성(Self-Reflection) 메커니즘

Shinn et al.(2023)이 제안한 Reflexion은 LLM이 스스로의 이전 실패를 분석하고, 이를 기반으로 개선된 출력을 생성하는 자기 반성(self-reflection) 메커니즘이다. 로봇 임무 생성에 적용하면, LLM이 이전 생성 결과의 실패 원인을 자연어로 분석하고, 이 분석 결과를 다음 생성 시의 추가 프롬프트로 활용한다.

M^{(k+1)} = f_{\text{LLM}}\left(g, \mathcal{C}, \text{Reflect}\left(M^{(k)}, \text{Result}(M^{(k)})\right)\right)

여기서 \text{Reflect}(\cdot)는 이전 임무와 그 실행 결과에 대한 LLM의 자기 반성 출력이다.

5. 다중 로봇 임무의 생성과 분배

LLM은 다중 로봇 시스템에서 과업의 생성과 동시에 로봇 간 분배를 수행하는 데 활용될 수 있다. 이 과정에서 LLM은 다음의 요소를 고려한다.

  • 로봇별 능력(Capability): 각 로봇이 수행 가능한 과업의 유형
  • 로봇별 위치(Location): 현재 위치와 과업 수행 장소까지의 거리
  • 로봇별 자원 상태(Resource State): 배터리 잔량, 장비 상태 등
  • 과업 간 의존성(Task Dependencies): 선행 관계, 동시 실행 요구 등

다중 로봇 임무 생성 문제는 과업 할당 최적화(Task Assignment Optimization) 문제와 결합되며, LLM은 초기 해(initial solution)를 생성하고, 최적화 알고리즘이 이를 정제(refinement)하는 하이브리드 접근법이 효과적이다.

(\mathbf{M}, \mathbf{X})_{\text{initial}} = f_{\text{LLM}}(g, \mathcal{C}, \mathcal{R})

(\mathbf{M}, \mathbf{X})^* = \text{Optimize}((\mathbf{M}, \mathbf{X})_{\text{initial}}, \mathcal{C})

여기서 \mathbf{M}은 생성된 과업의 집합, \mathbf{X}는 로봇-과업 할당 행렬, \mathcal{R}은 로봇 집합이다.

6. 임무 생성·변환의 검증 체계

6.1 형식 검증과의 결합

LLM이 생성한 임무의 정확성을 보장하기 위하여, 형식 검증(formal verification) 기법과의 결합이 연구되고 있다. 시간 논리(temporal logic) 기반 검증기를 활용하여, 생성된 임무가 안전 속성(safety property)과 활성 속성(liveness property)을 만족하는지 자동으로 검증할 수 있다.

선형 시간 논리(Linear Temporal Logic, LTL) 속성 \phi에 대한 검증은 다음과 같이 수행된다.

M \models \phi \quad \Leftrightarrow \quad \text{모든 실행 경로가 } \phi \text{를 만족함}

LLM이 LTL 속성을 직접 생성하기 어려운 경우, LLM이 자연어 안전 요구사항을 LTL 식으로 변환하는 중간 단계를 도입할 수 있다.

6.2 시뮬레이션 기반 검증

생성된 임무를 실제 로봇에 배포하기 전에 시뮬레이션 환경에서 검증하는 것은 필수적이다. Gazebo, Isaac Sim, Webots 등의 로봇 시뮬레이터와 LLM 기반 임무 생성 시스템을 연동하여, 생성된 임무의 실행 가능성을 사전에 확인할 수 있다.

시뮬레이션 기반 검증의 주요 평가 항목은 다음과 같다.

평가 항목설명
물리적 실현 가능성로봇의 운동학적·동역학적 한계 내에서 실행 가능한지 여부
충돌 회피장애물이나 다른 로봇과의 충돌 없이 수행 가능한지 여부
시간 제약 충족주어진 시간 제한 내에 임무를 완수할 수 있는지 여부
목표 달성임무 수행 후 목표 상태가 달성되는지 여부
에너지 소비배터리 용량 내에서 임무를 완수할 수 있는지 여부

7. 참고 문헌

  • Huang, W., Xia, F., Xiao, T., et al. (2023). “Inner Monologue: Embodied Reasoning through Planning with Language Models.” Proceedings of the Conference on Robot Learning (CoRL).
  • Liu, B., Jiang, Y., Zhang, X., et al. (2023). “LLM+P: Empowering Large Language Models with Optimal Planning Proficiency.” arXiv preprint arXiv:2304.11477.
  • Shinn, N., Cassano, F., Gopinath, A., et al. (2023). “Reflexion: Language Agents with Verbal Reinforcement Learning.” Advances in Neural Information Processing Systems (NeurIPS).
  • Vemprala, S., Bonatti, R., Buber, A., & Kapoor, A. (2024). “ChatGPT for Robotics: Design Principles and Model Abilities.” IEEE Access, 12, 55682–55696.
  • Wake, N., Kanehira, A., Sasabuchi, K., et al. (2023). “ChatGPT Empowered Long-Step Robot Control in Various Environments: A Case Application.” IEEE Access, 11, 95060–95078.

본 절은 로봇공학 서적 Version 0.1에 해당하며, LLM 기반 로봇 임무 생성·변환 기술의 급속한 발전에 따라 지속적으로 갱신될 예정이다.