1261.81 강화학습 기반 행동 정책과 통신 인터페이스