강화 학습 기반 행동 결정과의 비교 (Comparison with Reinforcement Learning-Based Decision Making)
1. 개요
강화 학습(Reinforcement Learning, RL)은 보상 신호를 통해 최적 정책을 학습하는 방법으로, 하드코딩과 자율 계획에 이은 또 다른 행동 결정 패러다임이다.
2. 패러다임 비교
| 특성 | 하드코딩 | 자율 계획 | 강화 학습 |
| 지식 소스 | 개발자 | 도메인 모델 (PDDL) | 경험 데이터 |
| 행동 결정 | 규칙 조회 | 상태 공간 탐색 | 정책 네트워크 |
| 학습 필요 | 없음 | 없음 | 필수 (대규모 데이터) |
| 새 환경 적응 | 코드 수정 | 도메인 수정 | 재학습 |
| 실행 시간 | O(1) | O(\text{exp}) | O(1) (추론) |
| 최적성 보장 | 없음 | 가능 | 수렴 보장 (이론적) |
| 해석 가능성 | 높음 | 보통 | 낮음 |
| 안전 보장 | 가능 | 부분적 | 어려움 |
3. RL의 장점
- 도메인 모델 없이도 최적 정책 학습 가능
- 연속 상태/행동 공간에서의 의사 결정
- 장기적 보상 최적화
4. RL의 한계
- 대규모 학습 데이터와 시뮬레이션 필요
- 안전 보장 어려움
- 정책의 해석 불가능성
- sim-to-real 전이 문제
5. 참고 문헌
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
- Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.
| 버전 | 날짜 | 변경 사항 |
| v0.1 | 2026-04-05 | 초안 작성 |