강화 학습 기반 제어는 시스템의 동적 모델을 모르더라도 환경과의 상호작용을 통해 최적의 제어 정책을 학습하는 기법이다. 에이전트가 주어진 환경에서 행동을 수행한 후, 보상을 통해 학습하여 최적의 제어 전략을 수립한다. 이는 복잡하고 예측이 어려운 비선형 시스템이나 고차원의 상태 공간을 다루는 데 강점을 가진다. 대표적으로 자율주행, 로봇 제어 등에 응용된다.