397.74 대규모 언어 모델(LLM) 기반 자연어 임무 생성

1. 서론

대규모 언어 모델(Large Language Model, LLM)의 등장은 로봇 임무 계획의 패러다임에 근본적인 변화를 촉발하고 있다. 전통적인 임무 계획 시스템은 PDDL, LTL 등의 형식 언어(Formal Language)로 임무를 명세해야 하므로, 도메인 전문가의 개입이 필수적이었다. LLM 기반 자연어 임무 생성(Natural Language Mission Generation)은 인간이 자연어(Natural Language)로 기술한 고수준 지시를 형식적 임무 명세 또는 실행 가능한 행동 시퀀스(Action Sequence)로 자동 변환함으로써, 비전문가도 복잡한 로봇 임무를 직관적으로 정의할 수 있는 가능성을 열었다. 본 절에서는 LLM 기반 자연어 임무 생성의 기본 원리, 아키텍처, 핵심 기법, 그리고 현재의 한계를 체계적으로 기술한다.

2. LLM 기반 임무 생성의 기본 원리

2.1 자연어에서 형식 명세로의 변환

LLM 기반 임무 생성의 핵심 과정은 자연어 지시(Natural Language Instruction) $\mathcal{L}$ 을 형식적 임무 명세(Formal Mission Specification) $\phi$ 또는 행동 계획(Action Plan) $\pi$ 로 변환하는 것이다. 이 과정을 형식적으로 표현하면 다음과 같다.

$f_{\text{LLM}} : \mathcal{L} \times \mathcal{C} \to \phi \quad \text{또는} \quad f_{\text{LLM}} : \mathcal{L} \times \mathcal{C} \to \pi$

여기서 $\mathcal{C}$ 는 환경 상태, 로봇 능력, 가용 행동 등의 맥락 정보(Context Information)이다. 이 변환 과정에는 다음의 세 가지 핵심 과제가 내포되어 있다.

언어적 모호성 해소(Disambiguation): 자연어의 다의성, 함축, 생략 등을 해결하여 명확한 의미를 추출해야 한다.
접지(Grounding): 자연어의 추상적 개념을 물리적 세계의 구체적 객체, 위치, 행동에 매핑해야 한다.
실행 가능성 보장(Executability Guarantee): 생성된 계획이 로봇의 물리적 제약과 환경 조건을 충족해야 한다.

2.2 LLM의 로봇 도메인 적용 패러다임

LLM을 로봇 임무 생성에 적용하는 패러다임은 다음과 같이 분류할 수 있다.

패러다임	설명	대표 연구
직접 코드 생성	LLM이 로봇 제어 코드를 직접 생성	Code as Policies (Liang et al., 2023)
과업 계획 생성	LLM이 고수준 과업 시퀀스를 생성	SayCan (Ahn et al., 2022)
형식 명세 변환	자연어를 LTL, PDDL 등으로 변환	Lang2LTL (Pan et al., 2023)
대화형 계획	사용자와의 대화를 통해 점진적 계획 수립	Inner Monologue (Huang et al., 2022b)

3. 핵심 아키텍처와 프레임워크

3.1 SayCan: 접지 기반 과업 계획

SayCan (Ahn et al., 2022)은 LLM의 세계 지식(World Knowledge)과 로봇의 행동 가용성(Affordance)을 결합하는 선구적 프레임워크이다. SayCan의 핵심 아이디어는 LLM이 과업의 의미적 적합성(Semantic Suitability)을 평가하고, 별도의 가치 함수(Value Function)가 행동의 실행 가능성을 평가하여, 양자의 곱으로 최종 행동을 선택하는 것이다.

$a^* = \arg\max_{a \in \mathcal{A}} \underbrace{P_{\text{LLM}}(a \mid \mathcal{L}, h)}_{\text{의미적 적합성}} \times \underbrace{V_{\text{affordance}}(a \mid s)}_{\text{실행 가능성}}$

여기서 $P_{\text{LLM}}(a \mid \mathcal{L}, h)$ 는 자연어 지시 $\mathcal{L}$ 과 이력 $h$ 에 대한 LLM의 행동 $a$ 선택 확률, $V_{\text{affordance}}(a \mid s)$ 는 현재 상태 $s$ 에서 행동 $a$ 의 실행 가용성(Affordance) 가치이다. 이 접근법은 LLM의 환각(Hallucination) 문제를 물리적 접지를 통해 완화한다.

3.2 Code as Policies: 코드 생성 기반 정책

Code as Policies (Liang et al., 2023)는 LLM을 활용하여 로봇 정책을 프로그래밍 코드로 직접 생성하는 프레임워크이다. 자연어 지시를 입력으로 받아, 로봇 인식 API와 제어 API를 호출하는 Python 코드를 생성한다.

이 접근법의 장점은 다음과 같다.

구성성(Compositionality): 프로그래밍 언어의 제어 구조(조건문, 반복문, 함수 호출)를 활용하여 복잡한 행동 조합을 표현할 수 있다.
파라미터화(Parameterization): 수치적 파라미터(위치 좌표, 속도, 각도 등)를 코드 내에 직접 명시할 수 있다.
재사용성(Reusability): 생성된 코드를 라이브러리로 축적하여 유사 임무에 재활용할 수 있다.

그러나 생성된 코드의 안전성 검증(Safety Verification)이 보장되지 않으며, 실행 시 예상치 못한 오류가 발생할 수 있다는 한계가 존재한다.

3.3 Lang2LTL: 자연어에서 형식 논리로의 변환

Lang2LTL (Pan et al., 2023)은 자연어 지시를 선형 시제 논리(LTL) 수식으로 변환하는 프레임워크이다. 이 접근법은 자연어 처리와 형식 검증(Formal Verification)의 장점을 결합한다.

변환 과정은 다음의 단계로 구성된다.

명제 접지(Proposition Grounding): 자연어에서 언급된 장소, 객체, 사건 등을 환경 모델의 원자 명제(Atomic Proposition)로 매핑한다.
구조 추출(Structure Extraction): 자연어의 시간적, 논리적 구조를 분석하여 LTL 연산자 조합을 결정한다.
수식 합성(Formula Synthesis): 접지된 명제와 추출된 구조를 결합하여 완전한 LTL 수식을 생성한다.

예를 들어, “먼저 A 지점을 방문한 후 B 지점으로 이동하고, C 지점은 항상 피하라“는 자연어 지시는 다음의 LTL 수식으로 변환된다.

$\phi = (\lnot C \, \mathcal{U} \, A) \land \square \lnot C \land \Diamond (A \land \Diamond B)$

3.4 Inner Monologue: 대화형 피드백 계획

Inner Monologue (Huang et al., 2022b)는 LLM이 로봇의 인식 결과, 행동 실행 결과, 인간의 피드백 등 다중 소스(Multi-Source)의 내부 독백(Inner Monologue)을 통합하여 계획을 점진적으로 수정하는 프레임워크이다.

이 프레임워크는 폐루프(Closed-Loop) 계획 구조를 형성한다.

$\pi_{t+1} = f_{\text{LLM}}(\mathcal{L}, \pi_t, o_t, r_t)$

여기서 $o_t$ 는 시각 $t$ 에서의 인식 관측(Perception Observation), $r_t$ 는 행동 실행 결과 또는 인간 피드백이다. 이러한 폐루프 구조는 LLM의 단일 추론 오류를 후속 단계에서 교정할 수 있게 한다.

4. 자연어 임무 생성의 핵심 기법

4.1 프롬프트 구성 전략

LLM 기반 임무 생성의 성능은 프롬프트(Prompt) 설계에 크게 의존한다. 로봇 도메인에 특화된 프롬프트 구성 요소는 다음과 같다.

구성 요소	역할	예시
시스템 프롬프트	로봇의 역할과 능력 정의	“너는 6자유도 로봇 팔이다”
환경 기술	현재 환경 상태의 텍스트 표현	“테이블 위에 빨간 컵과 파란 상자가 있다”
가용 행동 목록	로봇이 수행 가능한 기본 행동	pick(obj), place(obj, loc), navigate(loc)
시범 예제	입출력 쌍의 예시	“빨간 컵을 집어라” → pick(red_cup)
제약 조건	안전 및 물리적 제약	“유리 물체를 다른 물체 위에 놓지 마라”

효과적인 프롬프트 설계를 위해서는 체인 오브 소트(Chain-of-Thought, CoT) 프롬프팅 기법이 활용된다 (Wei et al., 2022). CoT 프롬프팅은 LLM이 중간 추론 과정을 명시적으로 생성하도록 유도하여, 복잡한 임무의 계획 정확도를 향상시킨다.

4.2 행동 접지 (Action Grounding)

LLM이 생성한 추상적 행동 기술을 로봇의 구체적 기능(Skill)으로 매핑하는 행동 접지 과정이 필수적이다. 행동 접지의 주요 방법론은 다음과 같다.

4.2.1 스킬 라이브러리 매칭

사전 정의된 스킬 라이브러리(Skill Library) $\mathcal{S} = \{s_1, s_2, \ldots, s_K\}$ 에서 LLM이 생성한 행동 기술 $a_{\text{NL}}$ 과 의미적으로 가장 유사한 스킬을 선택한다.

$s^* = \arg\max_{s \in \mathcal{S}} \text{sim}(\text{emb}(a_{\text{NL}}), \text{emb}(s))$

여기서 $\text{emb}(\cdot)$ 는 텍스트 임베딩 함수, $\text{sim}(\cdot, \cdot)$ 은 코사인 유사도(Cosine Similarity) 등의 유사도 함수이다.

4.2.2 가용성 함수 기반 접지

SayCan에서 제안된 가용성 함수(Affordance Function) 기반 접지는 현재 환경 상태에서 각 스킬의 실행 가능성을 평가하여, 의미적으로 적합하면서 물리적으로도 실행 가능한 행동을 선택한다. 가용성 함수는 일반적으로 사전 학습된 가치 함수(Value Function) 또는 성공 예측 모델(Success Prediction Model)로 구현된다.

4.3 계획 검증 및 교정

LLM이 생성한 계획은 환각(Hallucination), 물리적 비현실성, 안전 위반 등의 오류를 포함할 수 있다. 이를 해결하기 위한 검증 및 교정(Verification and Correction) 메커니즘은 다음과 같다.

4.3.1 형식 검증 기반 교정

LLM이 생성한 계획을 형식 검증기(Formal Verifier)로 검증하고, 위반되는 속성(Property)을 피드백으로 제공하여 계획을 교정한다.

$\text{if } \pi \not\models \phi \text{ then } \pi' = f_{\text{LLM}}(\mathcal{L}, \pi, \text{CE})$

여기서 $\text{CE}$ 는 반례(Counterexample)이다. 이 과정은 계획이 모든 형식적 속성을 충족할 때까지 반복된다.

4.3.2 시뮬레이션 기반 검증

생성된 계획을 시뮬레이션 환경에서 사전 실행(Pre-execution)하여 물리적 실행 가능성을 검증한다. 시뮬레이션 실패 시, 실패 원인과 상태 정보를 LLM에 피드백하여 계획을 수정한다.

4.3.3 자기 반성 (Self-Reflection)

Reflexion (Shinn et al., 2023) 기법은 LLM이 자신의 이전 시도와 실패 원인을 분석하여 계획을 자기 교정(Self-Correction)하는 방법이다. 에피소드적 메모리(Episodic Memory)에 과거 실패 경험을 저장하고, 이를 후속 계획 생성 시 참조한다.

5. 현재의 한계와 과제

5.1 환각 문제 (Hallucination)

LLM은 학습 데이터에 기반한 통계적 패턴을 따르므로, 물리적으로 불가능하거나 존재하지 않는 행동을 생성하는 환각 문제가 발생할 수 있다. 로봇 도메인에서의 환각은 물리적 안전 위험으로 직결될 수 있어 특별한 주의가 요구된다.

5.2 장기 수평 계획의 한계

현재의 LLM은 긴 시간 수평(Long Horizon)의 임무 계획에서 일관성이 저하되는 경향이 있다. 행동 수가 증가할수록 누적 오류(Accumulated Error)가 증대되며, 과업 간 종속성(Dependency)의 정확한 추적이 어려워진다.

5.3 실시간 적응의 어려움

LLM의 추론 지연(Inference Latency)은 실시간 임무 재계획에 병목이 될 수 있다. 대규모 모델의 경우 단일 추론에 수 초 이상이 소요될 수 있으며, 이는 동적 환경에서의 신속한 대응을 제약한다. 경량화된 소형 언어 모델(Small Language Model, SLM)의 활용 또는 에지 컴퓨팅(Edge Computing) 환경에서의 배포가 해결 방안으로 연구되고 있다.

5.4 안전성 보장의 어려움

LLM이 생성한 계획의 안전성을 사전에 형식적으로 보장하는 것은 현재 기술 수준에서 매우 어렵다. 형식 검증과의 결합, 안전 모니터(Safety Monitor)의 적용, 그리고 인간 감독(Human Oversight) 메커니즘의 통합이 이 문제를 완화하기 위한 접근법으로 연구되고 있다 (Ren et al., 2023).

6. 요약

LLM 기반 자연어 임무 생성은 로봇 임무 계획의 접근성(Accessibility)을 획기적으로 향상시키는 기술이다. SayCan, Code as Policies, Lang2LTL, Inner Monologue 등의 프레임워크는 LLM의 언어 이해 능력을 로봇의 물리적 능력과 결합하는 다양한 전략을 제시하였다. 그러나 환각 문제, 장기 수평 계획의 일관성 저하, 실시간 적응의 어려움, 안전성 보장의 한계 등은 향후 해결해야 할 핵심 과제로 남아 있다. 형식 검증, 시뮬레이션 기반 검증, 자기 반성 메커니즘 등의 교정 기법이 이러한 한계를 완화하는 데 기여할 수 있으며, LLM과 기존 형식적 계획 기법의 체계적 통합이 향후 연구의 핵심 방향이 될 것이다.

참고 문헌

Ahn, M., Brohan, A., Brown, N., Chebotar, Y., Cortes, O., David, B., Finn, C., Fu, C., Gopalakrishnan, K., Hausman, K., et al. (2022). “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.” arXiv preprint arXiv:2204.01691.
Huang, W., Xia, F., Xiao, T., Chan, H., Liang, J., Florence, P., Zeng, A., Tompson, J., Mordatch, I., Chebotar, Y., et al. (2022b). “Inner Monologue: Embodied Reasoning through Planning with Language Models.” Proceedings of the Conference on Robot Learning (CoRL).
Liang, J., Huang, W., Xia, F., Xu, P., Hausman, K., Ichter, B., Florence, P., and Zeng, A. (2023). “Code as Policies: Language Model Programs for Embodied Control.” Proceedings of the IEEE International Conference on Robotics and Automation (ICRA).
Pan, J., Chou, G., and Berenson, D. (2023). “Data-Driven Abstractions for Robots with Stochastic Dynamics.” Proceedings of Robotics: Science and Systems (RSS).
Ren, A. Z., Dixit, A., Bodrova, A., Singh, S., Tu, S., Brown, N., Xu, P., Takayama, L., Xia, F., Varley, J., et al. (2023). “Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners.” Proceedings of the Conference on Robot Learning (CoRL).
Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., and Yao, S. (2023). “Reflexion: Language Agents with Verbal Reinforcement Learning.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q. V., and Zhou, D. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).

version: 1.0