reinforcement learning toolbox™ 提供了一个 app、多个函数和一个 simulink® 模块,可与 dqn、ppo、sac 和 ddpg 等强化学习算法结合使用来进行策略训练。您可以使用这些策略为复杂应用(如资源分配、机器人和自主系统)实现控制器和决策算法。
借助该工具箱,您可以使用深度神经网络或查找表来表示策略和价值函数,并使用 matlab® 或 simulink 创建环境模型,通过与环境交互来训练策略和函数。您可以评估该工具箱中提供的单智能体或多智能体强化学习算法,也可以开发自己的算法。您可以使用超参数设置进行试验,监控训练进度,并通过 app 以交互方式或编程方式仿真经过训练的智能体。为了提高训练性能,可以在多个 cpu、gpu、计算机集群和云上并行运行仿真(需要 parallel computing toolbox™ 和 matlab parallel server™)。
通过 onnx™ 模型格式,可以从 tensorflow™ keras 和 pytorch 等深度学习框架导入已有策略(需要 deep learning toolbox™)。您可以生成优化的 c、c 和 cuda® 代码,以便将经过训练的策略部署到微控制器和 gpu。该工具箱包括参考示例,可帮助您快速入门。
开始:
强化学习智能体
在 matlab 和 simulink 中创建和配置强化学习智能体来训练策略。可以使用内置的强化学习算法,也可以开发自定义算法。
使用深度神经网络表示策略和价值函数
对具有大型状态-动作空间的复杂系统,使用来自 deep learning toolbox 的层以编程方式定义深度神经网络策略,或使用深度网络设计器以交互方式定义深度神经网络策略。也可以使用该工具箱建议的默认网络架构。使用模仿学习来初始化策略,以加快训练速度。导入和导出 onnx 模型以实现与其他深度学习框架的互操作性。
simulink 中的单智能体和多智能体强化学习
在 simulink 中使用 rl agent 模块来创建和训练强化学习智能体在 simulink 中使用 rl agent 模块的多个实例同时训练多个智能体(多智能体强化学习)。
环境建模
创建 matlab 和 simulink 环境模型。描述系统动态并为训练智能体提供观测值和奖励信号。
simulink 和 simscape 环境
使用 simulink 和 simscape™ 创建环境模型。在模型中指定观测值、动作和奖励信号。
加速训练
使用 gpu、云和分布式计算资源加快训练速度。
gpu 加速
使用高性能 nvidia® gpu 加速深度神经网络训练和推断。结合使用 matlab 和 parallel computing toolbox,支持大多数启用 cuda 的 nvidia gpu()。
代码生成和部署
将经过训练的策略部署到嵌入式设备或与各种生产系统集成。
代码生成
使用 gpu coder™ 从 matlab 代码(表示经过训练的策略)生成优化的 cuda 代码。使用 matlab coder™ 生成 c/c 代码以部署策略。
matlab compiler 支持
使用 matlab compiler™ 和 matlab compiler sdk™,将经过训练的策略部署为独立应用程序、c/c 共享库、microsoft® .net 程序集、java® 类和 python® 程序包。
参考示例
为机器人、自动驾驶、标定、调度和其他应用设计控制器和决策算法。
快速入门
了解如何为单摆倒置、网格世界导航、倒单摆系统平衡和一般马尔可夫决策过程求解等问题开发强化学习策略。
产品资源:
强化学习系列视频
观看系列视频,进一步了解强化学习。