396.83 대규모 언어 모델(LLM) 기반 자연어 임무 해석

396.83 대규모 언어 모델(LLM) 기반 자연어 임무 해석

1. 자연어 임무 해석의 동기와 배경

로봇 임무 관리 시스템에서 임무의 명세(specification)는 전통적으로 형식 언어(formal language), 도메인 특화 언어(Domain-Specific Language, DSL), 또는 그래픽 기반 인터페이스(예: 행동 트리, 상태 머신 편집기)를 통해 이루어져 왔다. 그러나 이러한 형식적 명세 방법은 비전문가 사용자에게 높은 학습 비용을 요구하며, 로봇 시스템 전문가가 아닌 최종 사용자(end-user)가 직관적으로 임무를 정의하고 수정하는 데 장벽이 된다.

대규모 언어 모델(Large Language Model, LLM)의 급속한 발전은 자연어(natural language)를 매개로 한 로봇 임무 명세의 가능성을 열었다. LLM은 인간의 자연어 지시를 이해하고, 이를 로봇이 실행 가능한 형식으로 변환하는 중간 해석기(intermediate interpreter)의 역할을 수행할 수 있다. 이는 인간-로봇 인터페이스(HRI)의 접근성을 혁신적으로 향상시키는 잠재력을 갖는다(Ahn et al., 2022; Brohan et al., 2023).

2. LLM을 활용한 자연어 임무 해석의 구조

2.1 자연어에서 형식 임무 표현으로의 변환 파이프라인

LLM 기반 자연어 임무 해석의 일반적인 파이프라인은 다음과 같은 단계로 구성된다.

사용자 자연어 입력
    ↓
LLM 기반 의미 해석(Semantic Parsing)
    ↓
구조화된 임무 표현(Structured Mission Representation)
    ↓
실행 가능성 검증(Feasibility Verification)
    ↓
로봇 실행 명령 생성(Executable Command Generation)
    ↓
로봇 임무 실행(Mission Execution)

각 단계의 역할과 기술적 요소는 다음과 같다.

1단계: 사용자 자연어 입력
사용자는 구어체 또는 문어체의 자연어로 임무를 기술한다. 예를 들어, “빨간색 상자를 테이블 위에서 가져와서 선반의 두 번째 칸에 놓아라“와 같은 지시가 해당된다.

2단계: LLM 기반 의미 해석
LLM이 자연어 지시에서 핵심 의미 요소(semantic elements)를 추출한다. 이 과정에서 추출되는 요소는 다음과 같다.

  • 행동 동사(Action Verb): 수행할 과업의 유형 (가져오다, 놓다, 이동하다 등)
  • 대상 객체(Target Object): 과업의 대상 (빨간색 상자)
  • 장소 참조(Location Reference): 과업 수행 위치 (테이블 위, 선반 두 번째 칸)
  • 제약 조건(Constraints): 순서, 조건, 제한 사항
  • 컨텍스트(Context): 환경적 전제 조건

형식적으로, 자연어 지시 u로부터 구조화된 임무 표현 \hat{m}으로의 매핑을 LLM의 함수 f_{\text{LLM}}이 수행한다.

\hat{m} = f_{\text{LLM}}(u \mid \theta, C)

여기서 \theta는 LLM의 매개변수, C는 프롬프트(prompt)에 포함된 문맥 정보(로봇 능력 명세, 환경 정보 등)이다.

3단계: 구조화된 임무 표현
해석된 의미 요소는 로봇 임무 관리 시스템이 처리할 수 있는 구조화된 형식으로 변환된다. 대표적인 출력 형식은 다음과 같다.

  • PDDL(Planning Domain Definition Language): 형식 계획 문제의 표준 기술 언어
  • JSON/YAML 기반 과업 명세: 과업의 매개변수와 제약 조건을 구조화하여 표현
  • 프로그래밍 언어 코드: Python, C++ 등의 로봇 제어 코드
  • 행동 트리 스크립트: 행동 트리의 구조적 표현

2.2 프롬프트 엔지니어링(Prompt Engineering)의 역할

LLM 기반 자연어 임무 해석의 정확도와 신뢰성은 프롬프트 설계에 크게 의존한다. 로봇 임무 해석에 특화된 프롬프트는 다음의 핵심 구성 요소를 포함하여야 한다.

  1. 로봇 능력 명세(Robot Capability Specification): 로봇이 수행 가능한 원시 행동(primitive action)의 목록과 각 행동의 매개변수를 명시한다.
  2. 환경 정보(Environment Description): 로봇이 활동하는 환경의 객체 목록, 공간 정보, 현재 상태를 기술한다.
  3. 출력 형식 제약(Output Format Constraint): LLM의 출력이 특정 구조화된 형식(예: JSON, PDDL)을 따르도록 지정한다.
  4. 예시(Few-Shot Examples): 입력-출력 쌍의 예시를 제공하여 LLM의 해석 정확도를 높인다.
  5. 안전 제약(Safety Constraints): 생성된 과업이 안전 규칙을 위반하지 않도록 제약 조건을 명시한다.

프롬프트 구성의 형식적 표현은 다음과 같다.

C = \{C_{\text{cap}}, C_{\text{env}}, C_{\text{fmt}}, C_{\text{ex}}, C_{\text{safe}}\}

여기서 각 C_*는 능력, 환경, 형식, 예시, 안전에 대한 프롬프트 구성 요소이다.

3. 주요 LLM 기반 자연어 임무 해석 접근법

3.1 SayCan: 기반 모델과 가치 함수의 결합

Ahn et al.(2022)이 제안한 SayCan은 LLM의 언어 이해 능력과 학습된 로봇 기술(skill)의 가치 함수(value function)를 결합하여 실현 가능한 임무 계획을 생성하는 접근법이다. SayCan의 핵심 아이디어는 다음과 같다.

LLM이 제안한 과업이 현재 환경에서 실행 가능한지를 로봇 기술의 가치 함수로 평가(grounding)한다. 형식적으로, 자연어 지시 i가 주어졌을 때, 과업 a의 선택 확률은 다음과 같이 산출된다.

P(a \mid i, s) \propto P_{\text{LLM}}(a \mid i) \cdot V_{\text{skill}}(a \mid s)

여기서 P_{\text{LLM}}(a \mid i)는 LLM이 평가한 과업 a의 언어적 적합도, V_{\text{skill}}(a \mid s)는 현재 상태 s에서의 과업 a의 실행 가능성 점수(affordance)이다.

이 접근법의 핵심 기여는 LLM이 현실 세계에 대한 물리적 지식이 부족하더라도, 학습된 가치 함수가 물리적 실현 가능성을 보정(grounding)함으로써 실행 가능한 과업 시퀀스를 생성할 수 있다는 것이다.

3.2 Code as Policies: LLM의 코드 생성 기반 접근

Liang et al.(2023)이 제안한 Code as Policies(CaP)는 LLM이 자연어 지시를 로봇 제어 코드(Python 등)로 직접 변환하는 접근법이다. 이 방법의 장점은 다음과 같다.

  • 조합적 일반화(Compositional Generalization): 프로그래밍 언어의 조합적 특성을 활용하여, 학습 데이터에 없었던 새로운 과업 조합을 생성할 수 있다.
  • 즉시 실행 가능: 생성된 코드가 로봇의 API를 직접 호출하므로, 별도의 변환 과정 없이 즉시 실행할 수 있다.
  • 세밀한 제어: 반복문, 조건문 등의 프로그래밍 구문을 통해 복잡한 행동 흐름을 표현할 수 있다.

CaP의 프롬프트에는 로봇 API의 함수 시그니처(function signature)와 예시 코드가 포함되며, LLM은 이를 참조하여 새로운 자연어 지시에 대한 제어 코드를 생성한다.

3.3 ProgPrompt: 프로그래밍 프롬프트 기반 접근

Singh et al.(2023)의 ProgPrompt는 LLM에 환경을 프로그래밍적으로 기술된 형태의 프롬프트를 제공하여, 자연어 지시를 로봇 행동 프로그램으로 변환하는 방법이다. 이 접근법은 환경의 상태를 딕셔너리(dictionary) 형태로, 로봇의 가용 행동을 함수 목록으로 프롬프트에 명시한다.

3.4 LLM + PDDL 통합 접근

LLM을 PDDL(Planning Domain Definition Language) 기반 자동 계획(automated planning)과 결합하는 접근법도 활발히 연구되고 있다. 이 접근에서 LLM은 자연어 지시를 PDDL의 목표 상태(goal state)나 문제 정의(problem definition)로 변환하고, 기존의 자동 계획기(planner)가 해당 목표를 달성하는 행동 시퀀스를 생성한다.

\text{자연어 지시} \xrightarrow{f_{\text{LLM}}} \text{PDDL 목표 상태} \xrightarrow{\text{Planner}} \text{행동 시퀀스}

이 접근법의 장점은 LLM의 강점(자연어 이해)과 형식 계획기의 강점(최적성 보장, 완전성)을 결합할 수 있다는 것이다. 반면, PDDL 도메인 모델의 사전 정의가 필요하다는 점이 한계로 작용한다.

4. 기반 문제(Grounding Problem)와 대응 전략

4.1 기반 문제의 정의

LLM 기반 자연어 임무 해석에서 핵심적 도전 과제는 기반 문제(grounding problem)이다. LLM은 텍스트 데이터로부터 학습된 언어적 지식을 보유하나, 이러한 지식이 실제 물리 세계의 상태, 로봇의 물리적 능력, 환경의 공간적 구조와 반드시 일치하지는 않는다.

기반 문제는 다음의 세 가지 차원에서 나타난다.

기반 차원문제 내용예시
물리적 기반(Physical Grounding)LLM이 물리적 실현 가능성을 고려하지 못함“컵을 천장에 놓아라” 생성
공간적 기반(Spatial Grounding)LLM이 현재 환경의 공간 배치를 정확히 파악하지 못함존재하지 않는 객체 참조
시간적 기반(Temporal Grounding)LLM이 과업의 시간적 순서와 동시 실행 가능성을 오인함물리적으로 불가능한 동시 작업 지시

4.2 기반 문제에 대한 대응 전략

기반 문제를 해소하기 위한 주요 전략은 다음과 같다.

1. 실현 가능성 점수(Affordance Score) 기반 보정
SayCan에서 도입된 방법으로, 학습된 로봇 기술의 가치 함수를 통해 LLM이 제안한 과업의 실행 가능성을 평가하고, 실행 불가능한 과업을 필터링한다.

2. 시각 언어 모델(Vision-Language Model, VLM) 활용
카메라 영상을 직접 입력으로 수용하는 VLM을 활용하여, 현재 환경의 시각적 상태와 자연어 지시를 동시에 처리한다. 이를 통해 공간적 기반 문제를 완화할 수 있다.

\hat{m} = f_{\text{VLM}}(u, I \mid \theta)

여기서 I는 로봇 카메라로부터의 영상 입력이다.

3. 환경 상태 피드백(Environment State Feedback)
로봇의 인식 시스템이 파악한 현재 환경 상태를 LLM의 프롬프트에 실시간으로 반영한다. 이를 통해 LLM이 현재 존재하는 객체와 로봇의 상태를 인지한 상태에서 과업을 생성할 수 있다.

4. 실행 후 검증(Post-Execution Verification)
LLM이 생성한 과업을 실행한 후, 그 결과를 다시 LLM에 피드백하여 성공 여부를 판단하고, 실패 시 수정된 과업을 재생성하는 폐루프(closed-loop) 구조를 구성한다.

5. 안전성과 신뢰성 고려

LLM 기반 자연어 임무 해석의 실용적 배치에서 안전성(safety)과 신뢰성(reliability)은 가장 중요한 고려 사항이다.

5.1 안전 제약의 보장

LLM이 생성한 임무가 안전 규칙을 위반하지 않도록 보장하기 위한 다중 계층 안전 체계가 필요하다.

  1. 프롬프트 수준 안전: 프롬프트에 명시적 안전 규칙을 포함하여, LLM이 안전 규칙을 위반하는 과업을 생성하지 않도록 유도한다.
  2. 구문 수준 검증(Syntactic Verification): 생성된 구조화된 임무 표현이 문법적으로 올바른지 검증한다.
  3. 의미 수준 검증(Semantic Verification): 생성된 과업이 물리적 제약, 안전 규칙, 환경 조건과 일치하는지 검증한다.
  4. 런타임 안전 감시(Runtime Safety Monitor): 임무 실행 중 안전 위반이 감지되면 즉시 실행을 중단하는 안전 감시 모듈을 병행 운용한다.

5.2 환각(Hallucination) 문제

LLM의 환각(hallucination) 현상, 즉 사실과 다른 정보를 그럴듯하게 생성하는 문제는 로봇 임무 관리에서 심각한 위험 요인이 된다. 존재하지 않는 객체를 참조하거나, 불가능한 행동을 지시하는 환각은 로봇의 오동작이나 안전 사고로 이어질 수 있다.

환각 문제에 대한 대응 방안은 다음과 같다.

  • 지식 검색 증강 생성(Retrieval-Augmented Generation, RAG): 로봇 환경의 실제 데이터베이스를 참조하여 LLM의 응답을 보정한다.
  • 출력 검증 모듈: LLM의 출력에 포함된 객체, 위치, 행동이 현재 환경의 상태 데이터베이스에 존재하는지 자동으로 검증한다.
  • 불확실성 추정: LLM 출력의 신뢰도(confidence)를 추정하여, 신뢰도가 낮은 출력에 대해서는 사용자 확인을 요청한다.

6. 계산 비용과 실시간성

LLM의 추론(inference)에는 상당한 계산 비용이 수반된다. 대형 LLM(GPT-4, Gemini 등)의 경우 클라우드 API 호출에 수백 밀리초에서 수 초의 지연 시간이 발생하며, 이는 실시간 임무 관리에서 병목이 될 수 있다.

이에 대한 대응 전략은 다음과 같다.

전략설명특성
경량 모델(Distilled Model) 활용대형 LLM을 소형 모델로 증류(distillation)하여 온-디바이스 실행지연 시간 감소, 성능 일부 하락
캐싱(Caching)자주 사용되는 지시의 해석 결과를 캐싱하여 재사용반복적 임무에 효과적
계층적 호출(Hierarchical Invocation)상위 수준 계획에만 LLM 활용, 하위 실행은 기존 알고리즘 사용호출 빈도 감소
엣지 배포(Edge Deployment)경량 LLM을 로봇 온보드 컴퓨터에 배포통신 불필요, 제한된 모델 크기

7. 평가 지표와 벤치마크

LLM 기반 자연어 임무 해석 시스템의 성능 평가에 사용되는 주요 지표는 다음과 같다.

  1. 과업 성공률(Task Success Rate): 자연어 지시에 대해 생성된 로봇 행동이 지시된 과업을 성공적으로 완수하는 비율
  2. 의미 정확도(Semantic Accuracy): 자연어 해석 결과가 사용자 의도와 일치하는 정도
  3. 실행 가능성(Executability): 생성된 과업이 현재 환경에서 물리적으로 실행 가능한 비율
  4. 지연 시간(Latency): 자연어 입력부터 로봇 행동 개시까지의 소요 시간
  5. 일반화 능력(Generalization): 학습 데이터에 포함되지 않은 새로운 지시에 대한 처리 능력

대표적인 벤치마크로는 ALFRED(Shridhar et al., 2020), BEHAVIOR-1K(Li et al., 2023), RoboTHOR(Deitke et al., 2020) 등이 있으며, 이들은 시뮬레이션 환경에서 자연어 지시의 해석과 실행 능력을 종합적으로 평가한다.

8. 참고 문헌

  • Ahn, M., Brohan, A., Brown, N., et al. (2022). “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances.” Proceedings of the Conference on Robot Learning (CoRL).
  • Brohan, A., Brown, N., Carbajal, J., et al. (2023). “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.” arXiv preprint arXiv:2307.15818.
  • Liang, J., Huang, W., Xia, F., et al. (2023). “Code as Policies: Language Model Programs for Embodied Control.” IEEE International Conference on Robotics and Automation (ICRA).
  • Singh, I., Blukis, V., Mousavian, A., et al. (2023). “ProgPrompt: Generating Situated Robot Task Plans using Large Language Models.” IEEE International Conference on Robotics and Automation (ICRA).
  • Shridhar, M., Thomason, J., Gordon, D., et al. (2020). “ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

본 절은 로봇공학 서적 Version 0.1에 해당하며, LLM 기술의 급속한 발전에 따라 지속적으로 갱신될 예정이다.