강화 학습 기반 행동 결정과의 비교 (Comparison with Reinforcement Learning-Based Decision Making)

강화 학습 기반 행동 결정과의 비교 (Comparison with Reinforcement Learning-Based Decision Making)

1. 개요

강화 학습(Reinforcement Learning, RL)은 보상 신호를 통해 최적 정책을 학습하는 방법으로, 하드코딩과 자율 계획에 이은 또 다른 행동 결정 패러다임이다.

2. 패러다임 비교

특성하드코딩자율 계획강화 학습
지식 소스개발자도메인 모델 (PDDL)경험 데이터
행동 결정규칙 조회상태 공간 탐색정책 네트워크
학습 필요없음없음필수 (대규모 데이터)
새 환경 적응코드 수정도메인 수정재학습
실행 시간O(1)O(\text{exp})O(1) (추론)
최적성 보장없음가능수렴 보장 (이론적)
해석 가능성높음보통낮음
안전 보장가능부분적어려움

3. RL의 장점

  • 도메인 모델 없이도 최적 정책 학습 가능
  • 연속 상태/행동 공간에서의 의사 결정
  • 장기적 보상 최적화

4. RL의 한계

  • 대규모 학습 데이터와 시뮬레이션 필요
  • 안전 보장 어려움
  • 정책의 해석 불가능성
  • sim-to-real 전이 문제

5. 참고 문헌

  • Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
  • Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.

버전날짜변경 사항
v0.12026-04-05초안 작성