为什么tensorflow 越跑越慢训练用GPU比CPU更慢了

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>CPU >>为什么tensorflow 越跑越慢训练用GPU比CPU更慢了

为什么tensorflow 越跑越慢训练用GPU比CPU更慢了

来源：蜘蛛抓取(WebSpider) 时间：2017-08-02 09:44 标签： tensorflow训练速度慢

后使用快捷导航没有帐号？
查看: 266|回复: 4
有GPU版本吗？CPU跑的好慢，今天的代码跑了两小时
高级会员, 积分 537, 距离下一级还需 463 积分
论坛徽章:9
有GPU版本吗？CPU跑的好慢，今天的代码跑了两小时
注册会员, 积分 104, 距离下一级还需 96 积分
论坛徽章:1
不错了，主要这次老师设置的CNN的卷积层数太多，这个非常消耗计算能力，可以适当降低卷积层数和滤波器大小。根据自己电脑配置安装GPU版tensorflow，目前版本CUDA 9.0，tensorflow支持到1.6.
中级会员, 积分 217, 距离下一级还需 283 积分
论坛徽章:12
GPU确实比CPU快很多倍
新手上路, 积分 42, 距离下一级还需 8 积分
论坛徽章:1
深度学习的训练过程本来就要用GPU来跑的吧，英伟达的
论坛徽章:47
可以，有GPU版本的tensorflow，安装完调用同样的代码能感受到速度的明显提升。
金牌会员, 积分 1040, 距离下一级还需 1960 积分
论坛徽章:11
看来还是要装gpu版本的tensorflow了。
新手上路, 积分 7, 距离下一级还需 43 积分
论坛徽章:2
我得也是，cpu版本运行的比较慢而且耗资源，应该使用GPU版的tensorflow会有改善
中级会员, 积分 322, 距离下一级还需 178 积分
论坛徽章:11
可以，有GPU版本的tensorflow，安装完调用同样的代码能感受到速度的明显提升。
我跑NeuralNER为啥用gpu比cpu还慢？
新手上路, 积分 21, 距离下一级还需 29 积分
论坛徽章:11
看你电脑配置，N卡是可以装GPU版本的
dataguru.cn All Right Reserved.为什么opencv用GPU实现比用CPU实现的慢_百度知道
为什么opencv用GPU实现比用CPU实现的慢
我有更好的答案
在cmake的时候后加上-DHAVE_CUDA=1这个需要在cmake的时候修改的。。。应该是用的2.4.9吧。有一个HAVE_CUDA的变量
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。问耕编译整理
量子位出品 | 公众号 QbitAI
作者Max Woolf毕业于卡内基梅隆大学，曾是苹果公司的软件工程师
我一直在用Keras和TensorFlow搞一些深度学习的个人项目。然而用亚马逊和谷歌的云服务可不是免费的，从成本方面考虑，我尝试使用更便宜的CPU实例，而不是GPU实例来节省资金。没有想到的是，这只让我的模型训练只慢了一点点。
于是我决定进一步研究一番。
Google Compute Engine（GCE）上GPU实例的价格为0.745美元/小时（0.7美元/小时的GPU+0.045美元/小时的n1-standard-1实例）。几个月前，谷歌推出基于英特尔Skylake架构、最高有64个vCPU（虚拟CPU）的CPU实例。
更重要的是，这些可以应用在Preemptible CPU实例（一种更便宜、更经济的经济虚拟机服务）中，这种服务最多可以在GCE上存在24小时，而且可以随时终止服务，费用只有标准实例的20%。具有64个vCPU和57.6GB RAM的preemptible n1-highcpu-64实例，价格为0.509美元/小时，约为GPU实例价格的三分之二。
如果使用64个vCPU的模型训练，与使用GPU训练速度相当（哪怕略慢），那么使用CPU显然从成本考虑更加划算。不过这个结论是基于深度学习软件和GCE平台硬件运行效率达到100%，如果效率没这么高，可以通过减少vCPU的数量来降低成本。
所以，使用CPU而不是GPU来进行深度学习训练，到底可不可行？
我之前就有真实情况下深度学习的性能测试脚本、Docker容器环境以及TensorFlow vs. CNTK对比测试的结论。只需要一些小调整，就可以通过设置CLI参数，让脚本用于CPU和GPU实例。我还重建了Docker容器，以支持最新的TensorFlow 1.2.1；还创建了一个CPU版本的容器，以安装适用于CPU的TensorFlow库。
使用CPU时，如果使用pip安装并且在TensorFlow里训练模型，你会在控制台中看到这样的警告：
为了解决这些警告，并对SSE4.2/AVX/FMA进行优化，我们从源代码编译了TensorFlow，并创建了第三个Docker容器。在新容器中训练模型时，大多数警告都不再出现，而且确实提高了训练速度。
这样，我们就可以使用Google Cloud Engine开始测试三大案例：
一个Tesla K80 GPU实例
一个64 Skylake vCPU实例，其中TensorFlow通过pip安装，以及8/16/32个vCPU的测试
一个65 Skylake vCPU实例，其中TensorFlow使用CPU指令编译（cmp），以及8/16/32个vCPU的测试
对于每个模型架构和软/硬件配置，下面的结论都使用GPU实例训练时间作为基准进行对比换算，因为在所有的情况下，GPU应该是训练速度最快的方案。
让我们从MNIST手写数字数据集+通用的多层感知器（MLP）架构开始，使用密集的全连接层。训练时间越少越好。水平虚线是GPU的成绩，虚线以上代表比GPU表现更差。
在这个环节的测试中，GPU是所有平台配置中最快的。除此之外我发现，32个vCPU和64个vCPU之间的性能非常相似，编译的TensorFlow库确实能大幅提高训练速度，但只变现在8和16个vCPU的情况下。也许vCPU之间协调沟通的开销，抵消了更多vCPU的性能优势；也许是这些开销与编译TensorFlow的CPU指令不同。
由于不同vCPU数量的训练速度之间差异很小，因此可以肯定缩减数量能带来成本优势。因为GCE实例的成本是按照比例分摊的（这与亚马逊EC2不同），所以可以更简单的计算成本。
如上图所示，降低CPU数量对这个问题来说成本效益更高。
接着，我们使用相同的数据集，用卷积神经网络（CNN）进行数字分类：
在CNN中，GPU的速度是CPU的两倍以上，而且从成本效率上看，64个vCPU甚至高于GPU，而且64个vCPU的训练时间比32个vCPU还长。
继续，我们在CNN方向上更深一步，基于CIFAR-10图像分类数据集，使用一个使用深度covnet+多层感知器构建图像分类器模型（类似于VGG-16架构）。
与简单CNN测试的情况类似，不过在这种情况下，所有使用已编译TensorFlow库的CPU都表现更好。
接下来是fasttext算法，用来在IMDb的评论数据库中分辨评论是正面还是负面，在文本分类领域比其他方法都快。
在这个环节中，GPU比CPU快得多。数量较少的CPU配置，没带来太大的优势，要知道正式的fasttext实现视为大量使用CPU设计的，并且能够很好的进行并行处理。
双向长短期记忆（LSTM）架构对于处理诸如IMDb评论之类的文本数据非常有用，但是在我之前的测试文章里，有Hacker News的评论指出，TensorFlow在GPU上使用了LSTM的低效实现，所以也许差异将会更加显著。
等等，什么？双向LSTM的GPU训练比任何CPU配置都慢两倍以上？哇哦（公平地说，基准测试使用Keras LSTM默认的implementation=0，这对CPU更好；而在GPU上使用implementation=2更好，但不应该导致这么大的差异）
最后，LSTM文本生成尼采的著作与其他测试类似，但没有对GPU造成严重打击。
事实证明，使用64个vCPU不利于深度学习，因为当前的软/硬件架构无法充分利用这么多处理器，通常效果与32个vCPU性能相同（甚至更差）。
综合训练速度和成本两方面考虑，用16个vCPU+编译的TensorFlow训练模型似乎是赢家。编译过的TensorFlow库能带来30%-40%的性能提升。考虑到这种差异，谷歌不提供具有这些CPU加速功能的预编译版本TensorFlow还是令人吃惊的。
这里所说成本优势，只有在使用谷歌云Preemptible实例的情况下才有意义，Google Compute Engine上的高CPU实例要贵5倍，完全可以消弭成本优势。规模经济万岁！
使用云CPU训练的一个主要前提是，你没那么迫切的需要一个训练好的模型。在专业案例中，时间可能是最昂贵的成本；而对于个人用户而言，让模型兀自训练一整晚也没什么，而且是一个从成本效益方面非常非常好的选择。
这次测试的所有脚本，都可以在GitHub里找到，地址：
https://github.com/minimaxir/deep-learning-cpu-gpu-benchmark
另外还可以查看用于处理日志的R/ggplot2代码，以及在R Notebook中的可视化展现，其中有关于这次测试的更详细数据信息。地址：
http://minimaxir.com/notebooks/deep-learning-cpu-gpu/
量子位读者5群开放申请，对人工智能感兴趣的朋友，可以添加量子位小助手的微信qbitbot2，申请入群，一起研讨人工智能。
另外，量子位大咖云集的自动驾驶技术群，仅接纳研究自动驾驶相关领域的在校学生或一线工程师。申请方式：添加qbitbot2为好友，备注“自动驾驶”申请加入~
量子位正在招募编辑/记者等岗位，工作地点在北京中关村。相关细节，请在公众号对话界面，回复：“招聘”。
扫码强行关注『量子位』
追踪人工智能领域最劲内容
文章转载自网络，作者观点不代表本网站立场，如需处理请联系客服
量子位其它文章
夏乙栗子发自凹非寺量子位出品 | 公众号 QbitAI无人驾驶出租车，距离硅谷人民已近在咫尺。昨天，负责出租车管理的美国加州公共事业委员会（PUC）发布提案，准备授权运输公司开展试点项目，让公众搭乘自动驾驶的出租车。根据加州PUC起草的监管文件，最初无人驾驶的出
允中整合编辑量子位出品 | 公众号 QbitAI在机场，通过安检往往耗时很久，尤其是高峰时段。现在，首都机场正尝试用新系统，改善安检通道的效率。上个月底，首都机场T2航站楼，启用了一条全新的智能安检系统，这个系统由自动传输、信息、人脸识别、自助验证等模块组成。
Root 假装发自凹非寺量子位出品 | 公众号 QbitAI一个设计师拿到简(mo)单(hu)需求的日常。帮我做个海报吧。我要个浪漫的场景，两个人在海边走，有日落，海浪，远山那种。“上辈子伤天害理，这辈子来做设计”Source：人类关怀计划If有一款神器，可以根据文本生成图像
Root 编译自 OpenAI量子位出品 | 公众号 QbitAI一直以来，在典型的强化学习研究里，常拿怀旧小游戏训练算法。可算法的训练和测试环境都是同一个，这就会让那些本身带有超参数和靠死记硬背的算法获得不错的结果。为了解决这个问题，OpenAI办了一个迁移学习的比赛，让大家
夏乙栗子发自凹非寺量子位出品 | 公众号 QbitAIYann LeCun，深度学习三巨头之一。最近，这位AI领域的传奇大牛，接受了另一位大牛吴恩达的视频专访。在这次对话中，LeCun回顾了卷积神经网络、反向传播的历史，以及他如何从一个默默无闻的“法国小孩”，一步步走到今天
前不久，猿辅导超过百度和微软，登顶著名的微软MSMARCO（Microsoft MAchine Reading COmprehension）机器阅读理解测试排行。猿辅导在竞赛中使用的系统来自名为MARS（Multi-Attention ReaderS）的模型。这个模型采用层叠式的注意力机制，在多候选文档采样出多个候选答案区
原作：Thomas Simonini墙化栗子编译自 FreeCodeCamp量子位出品 | 公众号 QbitAI强化学习是机器学习里面非常重要的一个派别。智能体 (agent) 会不断执行一些操作，通过结果来学习，在不同的环境中分别应该采取怎样的行动。在一系列教学文章里，我们可以了解不同的架构，
安妮编译自 Spectrum.ieee量子位出品 | 公众号 QbitAI这是一次迄今为止最大规模的机器人“面相”调查。机器人该长什么样子？不同的机器人脸部长相，会给人类怎样不同的感受呢？在刚结束的ACM/IEEE国际人机交互大会上，来自华盛顿大学的Alisa Kalegina等人发表了一篇名
李杉李林发自凹非寺量子位出品 | 公众号 QbitAI“Google不应该成为一家战争公司。”一封联名信在Google内部流传着，已经有3100多人在上面签了名，其中包括数十名高级工程师，抗议该公司为五角大楼提供人工智能力量。他们想要通过这封联名信，向Google CEO劈柴哥（Su
Root 假装发自凹非寺量子位出品 | 公众号 QbitAI寻找外星人的历史由来已久。像1960年物理学家弗里曼·戴森提出的寻找戴森球，以及天文学家尝试从恒星的光变曲线中寻找不可解释的特殊天体等方法，都没有啥定性的结果。戴森球是假设外星人会充分利用恒星能源的终极解决
林鳞编译自 Google Research Blog量子位出品 | 公众号 QbitAI深度学习在移动端部署的挑战仍在。虽然深度学习在图像分类、检测等任务上颇具优势，但提升模型精度对能耗和存储空间的要求很高，移动设备通常难以达到要求。别怕。昨天，谷歌发布了新一代移动架构MobileNet
GMIC大会是目前全球规模最大、最具影响力的移动互联网行业会议之一，被认为是创新领域的风向标。作为长城会的旗舰平台，GMIC见证了中国移动互联网发展的10年。截至目前，GMIC大会已成功覆盖全球四大洲10个国家和地区，包括全球人口前五大国家和全球主要的几个创新中心。
李杉李林编译整理量子位出品 | 公众号 QbitAIGoogle搜索与AI业务分家事件中，有一个问题始终没有令人信服的答案：原来的搜索及AI部门负责人、Google高级副总裁约翰·詹南德雷亚（John Giannandrea）干什么去了？答案今天浮出水面：他，被苹果挖走了。苹果周二表示，约
李根发自凹非寺量子位报道 | 公众号 QbitAI没错，寒武纪新一轮融资已经完成。量子位从多个不同渠道独家获悉，这家AI芯片领域全球首个独角兽初创公司，再次获得资本助力，近期完成新一轮融资。相比上一轮10亿美元估值相比，如今寒武纪在不到一年的时间里，估值翻番达到
太空栗发自凹非寺量子位出品 | 公众号 QbitAI正确示范来自雏蜂在蜜蜂种群的生存受到严重威胁的地球，许多团队都在奋力研发蜜蜂机器人。如今，哈佛的Robobee上天入水，沃尔玛用于授粉的机器蜜蜂也已申请专利。不过，让机械蜂在火星上飞舞的想法，或许可以算是一股清流
Root 编译自 DeepMind量子位出品 | 公众号 QbitAI还记得小时候从家到学校的那段路怎么走吗？那会儿你可能还不知道什么是地图，也没有导航软件。但那条路的画面都在脑子里刻着。茂密的竹林，很多蛇出没的小山丘，还有泥鳅抓不完的池塘。这就是我们从小对空间世界感
允中发自凹非寺量子位报道 | 公众号 QbitAI图Simple，无人卡车亦Simple！今日(4月3日)，无人驾驶公司图森未来举行媒体开放日，分享了无人驾驶货运的最新进展。都有哪些新进展？无人集卡车队港内测试图森未来首先公开了无人集卡车队港内测试，这是全球范围内的首个公开
林鳞编译整理量子位出品 | 公众号 QbitAI在Uber致死事件发生的13天后，昨天，加州车管所（DMV）出台了更严格的无人车路测新政。在这份4月2日执行生效的新文件中规定，DMV有权为无人车的测试和部署发布许可。每个新提交的功能和应用都要经过大规模的检查。在确认这
李根发自凹非寺量子位报道 | 公众号 QbitAI很多人早已忘记，联想最初的名字叫“中国科学院计算技术研究所新技术发展公司”。3月29日，杨元庆在中科院计算机所谈起，感慨重回梦想开始的地方，自己却早已白了鬓发。联想出发地联想董事长兼CEO为一群高校年轻人而来。他们
李根发自凹非寺量子位报道 | 公众号 QbitAI第一个中国高校AI人才国际培养计划，今天在北京大学正式启动。主办方包含了教育部中外人文交流中心、创新工场AI工程院和北京大学。全国49所高校，共计106名教师，成为首期学员。图灵奖得主John E. Hopcroft、深度学习的开创在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。
问题对人有帮助，内容完整，我也想知道答案
问题没有实际价值，缺少关键内容，没有改进余地
CPU: i7-4710HQ显卡：GTX850m内存：8G操作系统：Win10装了 CUDA8.0，cuDNN6.0，tensorflow-gpu-1.4.0
配置了必要的PATH环境变量之外没做其它配置了。
用同样的TensorFlow代码跑同一个BPNN，用CPU只花了32秒完成，用GPU却执行了140+秒。为什么我的TensorFlow加了GPU优化之后反而更慢了？是不是我参数没配置好？
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
第二天上网Google了一番，有的说是可能网络太小，效率瓶颈卡在了CPU与GPU数据传输上。
对此我做了一波实验，原来的BPNN只有双隐层，节点数分别是15,5，我把改成了4隐层，每层节点数都是2000之后，对单次训练进行了时间统计。
实验出来这时GPU单次训练只花了30~50 ms左右，而CPU的平均耗时是500ms，由此可以断定一个结论：网络结构比较小的时候，效率瓶颈在CPU与GPU数据传输，这个时候只用cpu会更快。网络结构比较庞大的时候，gpu的提速就比较明显了。
分享到微博？
关闭理由：
删除理由：
忽略理由：
推广（招聘、广告、SEO 等）方面的内容
与已有问题重复（请编辑该提问指向已有相同问题）
答非所问，不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因（请补充说明）
我要该，理由是：
在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。基于云CPU和云GPU的TensorFlow,谁更省钱?|训练|CPU|成本_新浪网
基于云CPU和云GPU的TensorFlow,谁更省钱?
基于云CPU和云GPU的TensorFlow,谁更省钱?
【IT168 技术】我一直在Keras和TensorFlow上进行一些个人的深度学习项目，但是使用和等云服务进行深度学习的训练并不是免费的，作为个人项目的研究，我会额外关注开支，降低成本。因为CPU实例比GPU实例更加便宜，而且经过实际操作，我发现在这两者中，我的训练模型姿势慢了一点。因为我深入研究了这两种类型实例的定价机制，来以了解CPU是否更适合我的需求。Google Compute Engine上的起价为0.745美元/小时。几个月前，Google 在现代英特尔 CPU架构上 CPU实例多达64个vCPU 。更重要的是，它们也可以用在可，这些在GCE上可存在24小时，可以在任何时候终止，但是花费大约是标准实例价格的20%。具有64个vCPU和57.6GB RAM的可抢占n1-highcpu-64实例以及使用Skylake CPU的额外费用为0.509美元/小时，约为GPU实例成本的2/3。如果64个vCPU的模型训练速度与GPU相当(甚至稍微慢一点)，那么使用CPU会更具成本效益。这是假设深度学习软件和GCE平台硬件以100%的效率运行，如果不是100%，那么通过缩减vCPU的数量和成本可能会更加经济实惠。由于GPU是针对深度学习硬件的刀片解决方案，所以没有深度学习库的基准。得益于Google economies of scale，可抢占实例的存在使得成本出现了巨大的差异，所以相比于使用GPU，使用CPU来进行深度学习模型训练更具经济效益。建立我已经有了真实世界的深度学习用例、Docker容器环境的基准测试脚本，以及来自TensorFlow与CNTK文章的结果日志。通过设置CLI参数，可以对CPU和GPU实例做一些小的调整。我还重新构建了Docker容器以支持最新版本的TensorFlow(1.2.1)，并创建了一个CPU版本的容器，该容器安装了CPU-appropriate TensorFlow库。有一个明显的CPU特定的TensorFlow行为，如果从pip(如和教程推荐的)开始安装并开始在TensorFlow中训练模型，则会在控制台中看到以下警告：为了解决这些警告，并从 / / 优化中受益，我们，并创建了来完成这个任务。在新容器中训练模型时，警告不再显示，而且提高了速度，减少了训练时间。因此，我们可以使用Google Compute Engine测试三个主要案例：Tesla K80 GPU实例。64个Skylake vCPU实例，其中TensorFlow是通过pip安装的(以及8/16/32 vCPU的测试)。64 Skylake vCPU实例，TensorFlow使用CPU指令来编译，(+ 8/16/32 vCPU)结果针对每种模型架构和软/硬件配置，我计算了相对于GPU实例训练的总训练时间，以运行提供的测试脚本的模型训练。在所有情况下，GPU 应该是最快的训练配置，并且具有更多处理器的系统应该比具有更少处理器的系统训练更快。让我们开始手写加上常见的多层感知器(MLP)架构，以及密集的全连接层。训练时间越短越好。水平虚线下的所有配置都比GPU好; 虚线以上的所有配置都比GPU差。在这里，GPU是所有平台配置中最快的，但这其中还有一些很有趣的现象，例如32 vCPUs 和 64 vCPUs之间的性能相似，在编译TensorFlow库时，比8vCPUs和16 vCPUs的训练速度显著提升。也许在vCPUs之间有过多的协商信息，从而消除了更多vCPUs的性能优势，也许这些开销与编译TensorFlow的CPU指令不同。最后，它是一个黑盒，这就是为什么我喜欢黑盒基准测试所有硬件配置而不是理论制作。由于不同vCPU计数的训练速度之间的差异是最小的，因此通过缩小vCPU确实具有优势。对于每种模型架构和配置，我计算相对于GPU实例训练成本的规范化训练成本。因为GCE实例成本是按比例分配的(与Amazon EC2不同)，所以我们可以简单地通过将实验运行的总秒数乘以实例的成本(每秒)来计算实验成本。理想情况下，我们想要最小化成本。越低越好，较低的CPU数量对于这个问题来说更具成本效益。现在，让我们看一下卷积神经网络(CNN)数字分类方法相同的数据集：GPU比CNN上任何CPU的速度都要快两倍，但成本结构却相同，除了64 vCPU 的成本比GPU更低。32 vCPU的训练速度要比64vCP快。让我们深入了解CNNs，看看cifar - 10图像分类数据集，以及利用deep covnet + a multilayer perceptron和理想图像分类的模型(类似于vgg16架构)。与简单的CNN案例中的类似行为相比，在这个实例中，所有的cpu在编译后的TensorFlow库中执行得更好。在IMDb reviews dataset上使用的fasttext算法可以判断一个评论是积极的还是消极的，与其他方法相比，它的分类速度非常快。在这种情况下，GPU比CPU要快得多。降低CPU数量的好处并不那么明显。尽管作为一个备用方案，正式的fasttext实现是为大量CPU设计的，并且可以更好地处理并行化。Bidirectional long-short-term memory(LSTM)架构非常适合处理像IMDb评论这样的文本数据，但是在我之前的基准测试文章之后，注意到TensorFlow在GPU上使用了LSTM的低效实现，所以差异会更加显着。等等，什么?双向LSTMs的GPU训练是CPU配置的两倍。 (公平地说，基准使用Keras LSTM default of implementation=0，CPU表现更好更好，而LSTM default of implementation=2，GPU表现更好，但是双方之间的差距不会很大。)最后，Nietzsche著作的LSTM文本生成遵循与其他体系结构相似的模式，但是没有对GPU的巨大冲击。结论事实证明，64vcpu在深度学习的应用中并不具备经济效益，当前的软硬件架构并不能充分利用它们，所以使得64 vCPU总是和32vCPU性能相似，甚至还会更糟。在训练速度和成本方面，使用16vCPUs + compiled TensorFlow的训练模型似乎表现更好。编译后的TensorFlow库有30% - 40%的速度提升是一个意外的惊喜。我很惊讶谷歌竟然没有提供一个预编译版本的TensorFlow。这里所显示的成本优势，仅在可抢占的情况下是不可能的。谷歌计算引擎的普通高CPU实例的成本大约为5x，因此完全消除了成本效益。使用云CPU训练方法的一个主要隐含假设是，你不需要ASAP的训练模式。在专业的用例中，可能太浪费时间了，但是在个人用例中，一个人可能一晚上就离开模型训练，这是一个极具成本效益的好选择。
特别声明：以上文章内容仅代表作者本人观点，不代表新浪看点观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪看点联系。

为什么tensorflow 越跑越慢训练用GPU比CPU更慢了

我要回帖

更多关于 tensorflow训练速度慢的文章

随机推荐

为什么tensorflow 越跑越慢训练用GPU比CPU更慢了

我要回帖

更多关于 tensorflow训练速度慢 的文章

随机推荐

更多关于 tensorflow训练速度慢的文章