reinforcement learning toolbox 提供了一个 app、多个函数和一个 simulink 模块,可与 dqn、ppo、sac 和 ddpg 等强化学习算法结合使用来进行策略训练。您可以使用这些策略为复杂应用(如资源分配、机器人和自主系统)实现控制器和决策算法。
借助该工具箱,您可以使用深度神经网络或查找表来表示策略和价值函数,并使用 matlab 或 simulink 创建环境模型,通过与环境交互来训练策略和函数。您可以评估该工具箱中提供的单智能体或多智能体强化学习算法,也可以开发自己的算法。您可以使用超参数设置进行试验,监控训练进度,并通过 app 以交互方式或编程方式仿真经过训练的智能体。为了提高训练性能,可以在多个 cpu、gpu、计算机集群和云上并行运行仿真(需要 parallel computing toolbox 和 matlab parallel server)。
通过 onnx™ 模型格式,可以从 tensorflow™ keras 和 pytorch 等深度学习框架导入现有策略(需要 deep learning toolbox)。您可以生成优化的 c、c 和 cuda® 代码,以便将经过训练的策略部署到微控制器和 gpu。该工具箱包括参考示例,可帮助您快速入门。
强化学习智能体
使用 dqn、ppo 和 sac 等常见算法创建无模型和基于模型的强化学习智能体。或者,使用提供的模板开发您自己的自定义算法。使用 rl agent 模块将您的智能体集成到 simulink 中。
奖励信号
创建奖励信号,衡量智能体实现目标的成功度。根据 model predictive control toolbox 或 simulink design optimization 中定义的控制设定自动生成奖励函数。
分布式计算
使用 parallel computing toolbox 和 matlab parallel server 借助多核计算机、云资源或计算集群加快训练速度。利用 gpu 加速梯度计算和预测等操作。
代码生成和部署
根据经过训练的策略自动生成 c/c 和 cuda 代码以部署到嵌入式设备。使用 matlab compiler 和 matlab production server 将经过训练的策略通过独立应用程序、c/c 共享库以及其他方式部署到生产系统中。
产品资源:
“5g 是一项关键基础架构,我们必须保护它免遭恶意攻击。reinforcement learning toolbox 使我们能够快速评估 5g 漏洞并确定缓解方法。”
ambrose kam,洛克希德·马丁公司