博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
如何让手机快速运行AI应用?这有份TVM优化教程
阅读量:6658 次
发布时间:2019-06-25

本文共 547 字,大约阅读时间需要 1 分钟。

本文来自AI新媒体量子位(QbitAI)

在移动设备上部署深度神经网络的需求正在快速增加。

和桌面平台类似,GPU也能在移动平台加速推理速度、降低能耗。但问题是,大多数现有深度学习框架并不能很好的支持移动GPU。

为什么会这样?因为移动GPU和桌面GPU在架构上存在差异。

所以想要利用移动GPU,还得进行专门的优化。这种额外的工作,最终导致的结果就是大多数深度学习框架都对移动GPU的支持不足。

TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核,并且进行端到端的编译。

基于Mali-T860 MP4的测试结果表明,与Arm Compute Library相比,上面这个方法在VGG-16上快1.4倍,在MobileNet上快2.2倍。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

在郑怜悯发表的这篇文章中,他还从GPU架构、卷积为例的优化等方面进行了更为详细的阐述。我们在这里就不详细复述。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

这篇文章的原文地址:http://tvmlang.org/2018/01/16/opt-mali-gpu.html

关于TVM和NNVM,量子位之前也有报道:

关于郑怜悯同学的研究,还有另一个好玩的事情:

本文作者:允中 摘录编译
原文发布时间:2018-01-21 

转载地址:http://fehto.baihongyu.com/

你可能感兴趣的文章
远程代码的调试--移动端代码调试(火狐工具)
查看>>
我的友情链接
查看>>
猎头爆料2013各大互联网公司年终奖及薪资架构
查看>>
VCS双机由于ID冲突导致启动失败
查看>>
数据库中状态表的设计
查看>>
shell 循环
查看>>
I Have A Dream !
查看>>
运维学python之爬虫基础篇(一)开篇
查看>>
IIS优化-解决IIS访问速度慢问题
查看>>
Ubuntu安装rpm文件
查看>>
ASA远程×××
查看>>
常用各种形状的鼠标
查看>>
Java Top 100热门问答(Stackoverflow)
查看>>
Centos中ftp源代的码安装与测试
查看>>
习惯可以改,前提是主动找目标
查看>>
SQL Server 2017 AlwaysOn on Linux 配置和维护(1)
查看>>
EditPlus配置C#运行环境
查看>>
登录与注册
查看>>
我的友情链接
查看>>
JavaScrip array相关操作总结
查看>>