深度强化学习是机器学习的一个分支,它能帮助您针对复杂系统(如机器人和自主系统)实现控制器和决策系统。借助深度强化学习,您可以实现深度神经网络,这类网络使用从仿真系统或物理系统动态生成的数据进行训练,从而学习复杂行为。与其他机器学习方法不同,深度强化学习不需要预定义的标注或未标注的训练数据集。通常,您只需要一个表示环境的仿真模型。
使用 matlab®、simulink® 和 reinforcement learning toolbox™,您可以顺利完成设计和部署决策系统的整个工作流。您可以:
- 通过简单的控制系统、自主系统和机器人和调度问题示例,实现深度强化学习快速入门
- 在常见强化学习算法间快速切换、进行评估和比较,只需对代码稍加改动即可实现
- 在 matlab 或 simulink 中对环境建模
- 使用深度神经网络,根据图像、视频和传感器数据定义复杂的深度强化学习策略
- 使用本地核或云并行运行多个仿真,加快完成策略训练
- 将深度强化学习策略部署到嵌入式设备
深度强化学习智能体
深度强化学习智能体由深度神经网络策略和算法构成,其中策略用于将输入状态映射到输出动作,算法负责更新此策略。常见算法包括深度 q 网络 (dqn)、深度确定性策略梯度 (ddpg)、软执行器评价器 (sac) 和近端策略优化 (ppo)。算法会基于从环境中采集的观测值和奖励来更新策略,以最大化预期的长期奖励。
reinforcement learning toolbox 可帮助您以编程方式或交互方式(使用强化学习设计器)创建深度强化学习智能体。您可以从现成的热门算法中选择,也可以使用已有模板和示例实现自定义算法。
了解更多
使用 matlab 和 simulink 进行环境建模
深度强化学习算法训练是一个动态过程,因为智能体需要与周边环境进行交互。对于机器人和自主系统等应用形式,使用实际硬件执行此类训练不仅代价高昂,还可能面临危险。因此,人们倾向于采用通过仿真生成数据的虚拟环境模型来进行深度强化学习。
您可以使用 matlab 和 simulink 构建环境模型,以描述系统动态、智能体的动作对系统动态产生的影响,以及用于评估所执行动作的优度的奖励。这些模型在本质上可以是连续的或离散的,能够以不同的保真度表示系统。此外,您可以通过并行仿真来加快训练。在某些情况下,您可以重用现有的 matlab 和 simulink 系统模型,只需稍加改动即可将其用于深度强化学习。
了解更多
示例和参考应用
要实现深度强化学习入门,您可以先针对简单问题(例如倒立摆平衡、网格世界导航以及车杆系统平衡)训练策略。您还可以为自动驾驶汽车设计自适应巡航控制系统和车道保持辅助系统。深度强化学习也可以用于机器人应用(如轨迹规划)和教学行为(如移动)。