仿真、测试机器学习与深度学习模型并将其部署到边缘设备和嵌入式系统。为完整的 ai 应用生成代码,包括预处理和后处理算法。
借助 matlab® 和 simulink®,您可以:
- 生成优化的 c/c 和 cuda 代码以部署到 cpu 和 gpu
- 生成可综合的 verilog 和 vhdl 代码以部署到 fpga 和 soc
- 使用硬件优化的深度学习库(包括 onednn、arm compute library 和 tensorrt)加速推断
- 将预训练的 tensorflow lite (tflite) 模型集成到部署到硬件的应用中
- 使用超参数调节、量化和网络剪枝工具,压缩 ai 模型以在资源受限的硬件上进行推断
“从数据注释到选择、训练、测试和微调深度学习模型,matlab 拥有我们所需的全部工具。尽管我们的 gpu 使用经验有限,gpu coder 仍然帮助我们很快地将实现部署到了 nvidia gpu。”
valerio imbriolo,drass group
cpu 和微控制器
使用 matlab coder™ 和 simulink coder™ 通过经训练的机器学习和深度学习模型生成可移植的优化 c/c 代码。还可以选择在生成的代码中包含对针对深度学习推断进行了优化的供应商特定库的调用,如 onednn 和 arm® compute library。
gpu
使用 gpu coder™ 为经过训练的深度学习网络生成优化的 cuda® 代码。将预处理和后处理以及您的网络整合在一起作为完整的算法部署到桌面、服务器和嵌入式 gpu。使用 nvidia® cuda 库(如 tensorrt™ 和 cudnn)最大限度地提高性能。
fpga 和 soc
使用 deep learning hdl toolbox™ 在 fpga 和 soc 上进行深度学习网络的原型构建和实现。使用为流行的 fpga 开发工具包预置的比特流对深度学习处理器和数据移动 ip 核进行编程。使用 hdl coder™ 生成自定义深度学习处理器 ip 核和比特流。
ai 模型压缩
通过超参数调节以及权重、偏置和激活的量化降低机器学习和深度学习模型的内存要求。通过对不重要的层连接进行剪枝来最小化深度神经网络的大小。