강화 학습 기반 행동 결정과의 비교 (Comparison with Reinforcement Learning-Based Decision Making)

강화 학습 기반 행동 결정과의 비교 (Comparison with Reinforcement Learning-Based Decision Making)

1. 개요

강화 학습(Reinforcement Learning, RL)은 보상 신호를 통해 최적 정책을 학습하는 방법으로, 하드코딩과 자율 계획에 이은 또 다른 행동 결정 패러다임이다.

2. 패러다임 비교

특성	하드코딩	자율 계획	강화 학습
지식 소스	개발자	도메인 모델 (PDDL)	경험 데이터
행동 결정	규칙 조회	상태 공간 탐색	정책 네트워크
학습 필요	없음	없음	필수 (대규모 데이터)
새 환경 적응	코드 수정	도메인 수정	재학습
실행 시간	$O(1)$	$O(\text{exp})$	$O(1)$ (추론)
최적성 보장	없음	가능	수렴 보장 (이론적)
해석 가능성	높음	보통	낮음
안전 보장	가능	부분적	어려움

3. RL의 장점

도메인 모델 없이도 최적 정책 학습 가능
연속 상태/행동 공간에서의 의사 결정
장기적 보상 최적화

4. RL의 한계

대규모 학습 데이터와 시뮬레이션 필요
안전 보장 어려움
정책의 해석 불가능성
sim-to-real 전이 문제

5. 참고 문헌

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.

버전	날짜	변경 사항
v0.1	2026-04-05	초안 작성