397.75 제로샷(Zero-Shot) 추론과 임무 계획의 결합

1. 서론

제로샷(Zero-Shot) 추론은 사전에 특정 과업에 대한 명시적 학습 데이터 없이도 대규모 언어 모델(LLM)이 새로운 과업을 수행하는 능력을 지칭한다. 전통적인 로봇 임무 계획 시스템은 각 도메인에 특화된 모델, 규칙, 또는 학습 데이터를 요구하며, 새로운 도메인이나 과업으로의 전이(Transfer)가 어렵다는 한계를 가진다. 제로샷 추론과 임무 계획의 결합은 이러한 한계를 극복하고, 사전 학습(Pre-training) 과정에서 축적된 광범위한 세계 지식(World Knowledge)을 활용하여 미경험 임무에 대한 계획을 즉시 생성할 수 있는 가능성을 제시한다. 본 절에서는 제로샷 추론의 이론적 기반, 임무 계획과의 결합 메커니즘, 그리고 성능 향상을 위한 보완 전략을 체계적으로 기술한다.

2. 제로샷 추론의 이론적 기반

2.1 제로샷 학습의 정의

제로샷 학습(Zero-Shot Learning)은 학습 단계에서 접하지 않은 클래스(Class) 또는 과업(Task)에 대해 추론하는 능력을 의미한다. 형식적으로, 학습 과업 집합 $\mathcal{T}_{\text{train}} = \{T_1, T_2, \ldots, T_m\}$ 에 대해 학습된 모델 $f_\theta$ 가 미경험 과업 $T_{\text{new}} \notin \mathcal{T}_{\text{train}}$ 에 대해 합리적인 출력을 생성하는 경우, 이를 제로샷 추론이라 한다.

$f_\theta : (\mathcal{X}_{\text{new}}, \mathcal{D}_{\text{new}}) \to \mathcal{Y}_{\text{new}}$

여기서 $\mathcal{X}_{\text{new}}$ 는 새로운 과업의 입력 공간, $\mathcal{D}_{\text{new}}$ 는 과업 기술(Task Description), $\mathcal{Y}_{\text{new}}$ 는 출력 공간이다. LLM의 맥락에서 과업 기술 $\mathcal{D}_{\text{new}}$ 는 자연어 프롬프트로 제공된다.

2.2 LLM의 제로샷 능력의 원천

LLM의 제로샷 능력은 다음의 요소에 기인한다.

2.2.1 대규모 사전 학습 (Large-Scale Pre-training)

LLM은 수조(兆) 토큰 규모의 텍스트 코퍼스에서 다음 토큰 예측(Next Token Prediction) 과업을 통해 사전 학습된다. 이 과정에서 모델은 언어적 패턴뿐 아니라, 텍스트에 내재된 세계 지식, 인과 관계(Causal Relation), 절차적 지식(Procedural Knowledge)을 암묵적으로 학습한다.

2.2.2 지시 추종 학습 (Instruction Following)

지시 추종 미세 조정(Instruction Tuning)을 통해 LLM은 자연어 지시를 해석하고 이에 따라 행동하는 능력을 획득한다. Ouyang et al. (2022)은 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)을 통해 지시 추종 능력이 크게 향상됨을 보고하였다.

2.2.3 문맥 내 학습 (In-Context Learning)

제로샷 추론의 확장으로서, LLM은 프롬프트 내에 제공된 예시(Example)로부터 패턴을 추출하여 새로운 입력에 적용하는 문맥 내 학습(In-Context Learning, ICL) 능력을 가진다 (Brown et al., 2020). 임무 계획에서 이 능력은 소수의 시범 예제(Few-Shot Demonstration)를 통해 계획 생성 품질을 향상시키는 데 활용된다.

2.3 제로샷 추론의 유형

로봇 임무 계획에서의 제로샷 추론은 다음과 같이 분류할 수 있다.

유형	설명	예시
과업 제로샷	미경험 과업 유형에 대한 계획 생성	학습 시 접하지 않은 조립 작업의 계획
도메인 제로샷	미경험 도메인 환경에 대한 계획 생성	실내 로봇이 야외 환경에서의 임무 수행
로봇 제로샷	미경험 로봇 플랫폼에 대한 계획 생성	매니퓰레이터용 계획을 이동 로봇에 적용
구성 제로샷	기존 능력의 새로운 조합에 대한 계획 생성	개별적으로 알려진 스킬의 미경험 조합

3. 제로샷 추론 기반 임무 계획 아키텍처

3.1 직접 제로샷 계획 생성

가장 단순한 형태의 제로샷 임무 계획은 LLM에 자연어 임무 기술과 환경 정보를 제공하고, 행동 시퀀스를 직접 생성하는 것이다.

$\pi = f_{\text{LLM}}^{\text{zero-shot}}(\mathcal{L}, \mathcal{C}_{\text{env}}, \mathcal{C}_{\text{robot}})$

여기서 $\mathcal{L}$ 은 자연어 임무 지시, $\mathcal{C}_{\text{env}}$ 는 환경 상태 기술, $\mathcal{C}_{\text{robot}}$ 은 로봇 능력 기술이다. 이 접근법은 구현이 간단하나, 물리적 접지(Physical Grounding)의 부재로 인해 실행 불가능한 계획이 생성될 위험이 높다.

3.2 접지 보강 제로샷 계획

접지 보강(Grounding-Augmented) 제로샷 계획은 LLM의 추론 결과를 물리적 세계의 제약과 결합한다. 이 아키텍처는 다음의 구성 요소를 포함한다.

LLM 추론 모듈: 자연어 지시로부터 고수준 과업 구조를 추출한다.
접지 모듈(Grounding Module): LLM이 생성한 추상적 행동을 로봇의 구체적 스킬로 매핑한다.
검증 모듈(Verification Module): 접지된 계획의 물리적 실행 가능성을 검증한다.
피드백 루프(Feedback Loop): 검증 실패 시 LLM에 수정 요청을 전달한다.

Huang et al. (2022a)의 연구에서는 LLM이 생성한 고수준 과업 계획을 사전 학습된 행동 정책(Action Policy)과 결합하여, 제로샷 환경에서의 임무 수행 성공률을 향상시켰다.

3.3 사고 연쇄 강화 제로샷 계획

사고 연쇄(Chain-of-Thought, CoT) 프롬프팅은 LLM이 최종 답변에 도달하기 전에 중간 추론 단계를 명시적으로 생성하도록 유도하는 기법이다 (Wei et al., 2022). 제로샷 CoT (zero-shot CoT)는 “단계별로 생각하라(Let’s think step by step)“와 같은 단순한 프롬프트 추가만으로 LLM의 추론 능력을 향상시킬 수 있음이 입증되었다 (Kojima et al., 2022).

임무 계획에서 CoT의 적용은 LLM이 임무를 하위 과업으로 분해하고, 각 하위 과업의 전제 조건(Precondition)과 효과(Effect)를 추론하며, 과업 간 종속성(Dependency)을 체계적으로 분석하도록 유도한다.

$\text{CoT}: \mathcal{L} \xrightarrow{\text{분해}} \{g_1, g_2, \ldots, g_m\} \xrightarrow{\text{순서화}} \pi = \langle a_1, a_2, \ldots, a_n \rangle$

3.4 검색 보강 생성 (Retrieval-Augmented Generation, RAG)

검색 보강 생성(RAG) 기법은 LLM의 제로샷 능력을 외부 지식 기반(Knowledge Base)에서 검색한 관련 정보로 강화한다 (Lewis et al., 2020). 로봇 임무 계획에서 RAG는 다음과 같이 적용된다.

$\pi = f_{\text{LLM}}(\mathcal{L}, \mathcal{C}, \text{Retrieve}(\mathcal{L}, \mathcal{K}))$

여기서 $\mathcal{K}$ 는 외부 지식 기반(로봇 매뉴얼, 과거 임무 기록, 도메인 규칙 등)이고, $\text{Retrieve}(\mathcal{L}, \mathcal{K})$ 는 임무 지시 $\mathcal{L}$ 과 가장 관련성이 높은 문서를 검색하는 함수이다. 이 접근법은 LLM이 사전 학습 과정에서 접하지 못한 도메인 특화 지식을 활용할 수 있게 한다.

4. 제로샷 임무 계획의 핵심 과제

4.1 물리적 추론의 한계

LLM은 텍스트 기반 학습을 수행하므로, 3차원 공간 추론(Spatial Reasoning), 물리적 인과 관계(Physical Causality), 객체 역학(Object Dynamics) 등의 물리적 추론 능력이 구조적으로 제한된다. 예를 들어, “무거운 상자를 가벼운 선반 위에 올릴 수 있는가?“와 같은 물리적 실행 가능성 판단에서 LLM은 빈번하게 오류를 범한다.

이 한계를 완화하기 위한 접근법은 다음과 같다.

물리 시뮬레이터 통합: 생성된 계획을 물리 엔진(Physics Engine)에서 사전 시뮬레이션하여 물리적 실행 가능성을 검증한다.
비전-언어 모델(VLM) 활용: 시각적 정보를 통해 환경의 물리적 속성을 추론하고, 이를 계획에 반영한다.
물리 상식 주입: 물리 법칙 관련 지식을 프롬프트에 명시적으로 포함하여 LLM의 물리적 추론을 보강한다.

4.2 구성적 일반화 (Compositional Generalization)

구성적 일반화는 기존에 학습한 구성 요소들을 새로운 방식으로 조합하여 미경험 과업을 수행하는 능력이다. LLM은 개별 스킬에 대한 지식은 보유하고 있으나, 이들의 새로운 조합에 대한 계획 생성에서 일관성이 저하될 수 있다.

Lake and Baroni (2018)의 연구에 따르면, 신경망 모델은 체계적 구성성(Systematic Compositionality)에서 인간에 비해 현저히 저조한 성능을 보인다. 이 한계를 완화하기 위해 구조화된 프롬프팅(Structured Prompting), 재귀적 분해(Recursive Decomposition), 그리고 형식 문법(Formal Grammar) 기반 출력 제어 등의 기법이 연구되고 있다.

4.3 신뢰도 추정 (Confidence Estimation)

제로샷 계획의 실용적 배포를 위해서는 LLM이 생성한 계획의 신뢰도(Confidence)를 추정하는 메커니즘이 필수적이다. 신뢰도가 낮은 계획에 대해서는 인간 감독자의 검토를 요청하거나, 보수적 대안(Conservative Alternative)을 채택해야 한다.

LLM의 신뢰도 추정 방법은 다음과 같다.

4.3.1 토큰 확률 기반 신뢰도

LLM이 출력한 각 토큰의 조건부 확률을 활용하여 전체 계획의 신뢰도를 추정한다.

$\text{Conf}(\pi) = \exp\left(\frac{1}{|\pi|} \sum_{i=1}^{|\pi|} \log P(t_i \mid t_{<i})\right)$

여기서 $P(t_i \mid t_{<i})$ 는 $i$ 번째 토큰의 조건부 확률이다. 이 지표는 자기 일관성(Self-Consistency) 기법과 결합하여 보다 신뢰성 있는 추정이 가능하다.

4.3.2 자기 일관성 (Self-Consistency) 기반 신뢰도

동일한 입력에 대해 복수의 독립적 샘플링을 수행하고, 결과의 일관성을 통해 신뢰도를 추정한다 (Wang et al., 2023).

$\text{Conf}_{\text{SC}}(\pi) = \frac{|\{i : \pi_i = \pi_{\text{maj}}\}|}{N_{\text{samples}}}$

여기서 $\pi_{\text{maj}}$ 는 다수결(Majority Vote)에 의한 계획, $N_{\text{samples}}$ 는 총 샘플 수이다.

4.3.3 불확실성 인식 도움 요청

Ren et al. (2023)은 LLM 계획기가 자신의 불확실성을 인식하고, 필요 시 인간에게 도움을 요청하는 프레임워크를 제안하였다. 이 접근법은 LLM의 내적 신뢰도 추정과 외적 검증을 결합하여, 자율 계획과 인간 감독의 균형을 달성한다.

5. 성능 평가와 벤치마크

5.1 제로샷 임무 계획 평가 지표

제로샷 임무 계획의 성능 평가에는 다음의 특화된 지표가 활용된다.

지표	정의	의미
과업 성공률(Task Success Rate)	제로샷으로 생성된 계획의 임무 달성 비율	기본적 실행 능력
행동 정확도(Action Accuracy)	생성된 행동 시퀀스와 정답 시퀀스의 일치도	계획 정밀도
실행 가능 비율(Executability Rate)	물리적으로 실행 가능한 계획의 비율	접지 품질
일반화 격차(Generalization Gap)	훈련 도메인 대비 미경험 도메인에서의 성능 저하	전이 능력

5.2 대표 벤치마크

제로샷 임무 계획의 능력을 평가하기 위한 대표적인 벤치마크는 다음과 같다.

ALFRED: 자연어 지시를 가상 가정 환경에서 실행하는 벤치마크로, 미경험 환경과 과업에 대한 일반화 성능을 평가한다 (Shridhar et al., 2020).
VirtualHome: 일상 과업의 자연어 기술로부터 행동 프로그램(Activity Program)을 생성하는 벤치마크이다 (Puig et al., 2018).
BEHAVIOR: 1,000개 이상의 일상 과업을 포함하는 대규모 구현형 에이전트(Embodied Agent) 벤치마크이다 (Srivastava et al., 2022).
PlanBench: PDDL 도메인에서 LLM의 계획 능력을 체계적으로 평가하기 위한 특화 벤치마크이다 (Valmeekam et al., 2023).

6. 요약

제로샷 추론과 임무 계획의 결합은 도메인 특화 학습 데이터 없이 새로운 임무에 대한 계획을 생성할 수 있다는 점에서 임무 계획의 범용성(Generality)과 확장성을 크게 향상시킨다. LLM의 사전 학습된 세계 지식, 지시 추종 능력, 그리고 문맥 내 학습 능력은 이러한 제로샷 계획의 근간을 형성한다. 그러나 물리적 추론의 한계, 구성적 일반화의 부족, 신뢰도 추정의 어려움 등은 현재 해결해야 할 핵심 과제이다. 접지 보강 아키텍처, 사고 연쇄 프롬프팅, 검색 보강 생성, 시뮬레이션 기반 검증 등의 보완 전략이 이러한 한계를 완화하는 데 기여하며, 형식적 검증과의 통합을 통해 안전하고 신뢰성 있는 제로샷 임무 계획 시스템의 구현이 가능해질 것으로 전망된다.

참고 문헌

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., et al. (2020). “Language Models are Few-Shot Learners.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).
Huang, W., Abbeel, P., Pathak, D., and Mordatch, I. (2022a). “Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents.” Proceedings of the International Conference on Machine Learning (ICML).
Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., and Iwasawa, Y. (2022). “Large Language Models are Zero-Shot Reasoners.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).
Lake, B. M. and Baroni, M. (2018). “Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks.” Proceedings of the International Conference on Machine Learning (ICML).
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., et al. (2020). “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., et al. (2022). “Training language models to follow instructions with human feedback.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).
Puig, X., Ra, K., Boben, M., Li, J., Wang, T., Fidler, S., and Torralba, A. (2018). “VirtualHome: Simulating Household Activities via Programs.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Ren, A. Z., Dixit, A., Bodrova, A., Singh, S., Tu, S., Brown, N., et al. (2023). “Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners.” Proceedings of the Conference on Robot Learning (CoRL).
Shridhar, M., Thomason, J., Gordon, D., Bisk, Y., Han, W., Mottaghi, R., et al. (2020). “ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Srivastava, S., Li, C., Lingelbach, M., Martín-Martín, R., Xia, F., Vainio, K. E., et al. (2022). “BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments.” Proceedings of the Conference on Robot Learning (CoRL).
Valmeekam, K., Marquez, M., Sreedharan, S., and Kambhampati, S. (2023). “PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).
Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., and Zhou, D. (2023). “Self-Consistency Improves Chain of Thought Reasoning in Language Models.” Proceedings of the International Conference on Learning Representations (ICLR).
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q. V., and Zhou, D. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).

version: 1.0