GPU 差,为什么不提高 CPU 的显卡浮点运算能力排行

为何 CPU 浮点运算能力比 GPU 差,为何不提高 CPU 浮点运算能力为何 CPU 浮点运算能力比 GPU 差,为何不提高 CPU 浮点运算能力彼得的工百家号问:为什么 CPU 的浮点运算能力比 GPU 差,为什么不提高 CPU 的浮点运算能力?来自真格学网用户 yanggang531的回答:首先,「速度区别主要是来自于架构上的区别」是一个表面化的解释。对,架构是不同。但是这种不同是目前各个厂家选择的现状,还是由于本质的原因决定的?CPU 能不能增加核?GPU 那张图为什么不需要 cache?首先,CPU 能不能像 GPU 那样去掉 cache?不行。GPU 能去掉 cache 关键在于两个因素:数据的特殊性(高度对齐,pipeline 处理,不符合局部化假设,很少回写数据)、高速度的总线。对于后一个问题,CPU 受制于落后的数据总线标准,理论上这是可以改观的。对于前一个问题,从理论上就很难解决。因为 CPU 要提供通用性,就不能限制处理数据的种类。这也是 GPGPU 永远无法取代 CPU 的原因。其次,CPU 能不能增加很多核?不行。首先 cache 占掉了面积。其次,CPU 为了维护 cache 的一致性,要增加每个核的复杂度。还有,为了更好的利用 cache 和处理非对齐以及需要大量回写的数据,CPU 需要复杂的优化(分支预测、out-of-order 执行、以及部分模拟 GPU 的 vectorization 指令和长流水线)。所以一个 CPU 核的复杂度要比 GPU 高的多,进而成本就更高(并不是说蚀刻的成本高,而是复杂度降低了成片率,所以最终成本会高)。所以 CPU 不能像 GPU 那样增加核。至于控制能力,GPU 的现状是差于 CPU,但是并不是本质问题。而像递归这样的控制,并不适合高度对齐和 pipeline 处理的数据,本质上还是数据问题。文章来源:真格学网本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。彼得的工百家号最近更新:简介:走过拼过努力过,为了美好生活作者最新文章相关文章Nvidia GPU的浮点计算能力(FP64/FP32/FP16)
转自:http://weibo.com/ttarticle/p/show?id=
其实说到浮点计算能力,首先得区分不同精度的浮点数,虽然Linpack测试里只关心双精度的浮点计算能力,但在其他领域,有时候反而会更加关注单精度甚至是半精度的浮点计算能力。
半精度、单精度、双精度这些概念是在IEEE 754标准里定义的,浮点计数是利用浮动小数点的方式使用不同长度的二进制来表示一个数字,与之对应的是定点数。同样的长度下浮点数能表达的数字范围相比定点数更大,但浮点数并不能精确表达所有实数,而只能采用更加接近的不同精度来表达。单精度的浮点数中采用4个字节也就是32位二进制来表达一个数字,双精度浮点数采用8个字节也就是64bits来表达,当然半精度浮点数也就是采用16bits了。因为采用不同位数的浮点数的表达精度不一样,所以造成的计算误差也不一样,对于需要处理的数字范围大而且需要精确计算的科学计算来说,就要求采用双精度浮点数,而对于常见的多媒体和图形处理计算,32位的单精度浮点计算已经足够了,对于要求精度更低的机器学习等一些应用来说,半精度16位浮点数就可以甚至8位浮点数就已经够用了。
CPU和GPU最大的不同在于内部计算单元数量的差异以及处理方式的不同,CPU内部的核心数较少而且设计上更倾向于顺序串行处理数据,GPU则因为只需要支持相对单一的数据类型和计算方式,所以计算单元较小但数量更多而且更倾向于并行处理数据。一个简单的比较是现在的Intel CPU最多也就支持24核但GPU则动不动就支持几千个核了。
对于浮点计算来说,CPU可以同时支持不同精度的浮点运算,但在GPU里针对单精度和双精度就需要各自独立的计算单元,一般在GPU里支持单精度运算的Single Precision ALU称之为FP32 core或简称core,而把用作双精度运算的Double Precision ALU称之为DP unit或者FP64 core,在Nvidia不同架构不同型号的GPU之间,这两者数量的比例差异很大。
在第三代的Kepler架构里,FP64单元和FP32单元的比例是1:3或者1:24
第四代的Maxwell架构里,这个比例下降到了只有1:32
第五代的Pascal架构里,这个比例又提高到了1:2,但低端型号里仍然保持为1:32
这种比例在这些GPU的架构图表现也非常明显,比如下面Tesla P100采用的GP100架构图中,用黄色标记的DP Unit和绿色的Core比例很明显就是1:2,所以P100的单精度性能和双精度性能也相差了一倍。
GPU的浮点计算理论峰值能力测试跟CPU的计算方式基本一样,
理论峰值 = GPU芯片数量*GPU Boost主频*核心数量*单个时钟周期内能处理的浮点计算次数,
只不过在GPU里单精度和双精度的浮点计算能力需要分开计算,以最新的Tesla P100为例:
双精度理论峰值 = FP64 Cores * GPU Boost Clock * 2 = 1792 *1.48GHz*2 = 5.3 TFlops
单精度理论峰值 = FP32 cores * GPU Boost Clock * 2 = 3584 * 1.58GHz * 2 =
10.6 TFlops
因为P100还支持在一个FP32里同时进行2次FP16的半精度浮点计算,所以对于半精度的理论峰值更是单精度浮点数计算能力的两倍也就是达到21.2TFlops 。
Nvidia的Tesla P100基本也代表了如今GPU的最强性能,双精度5.3TFlops的计算能力也确实能秒掉采用Intel最高端E7 v4 CPU的四路X86服务器了,虽然这个理论峰值计算里面采用的GPU核心频率是Boost后的主频,相比一般计算CPU理论峰值计算能力时采用的基本主频来说并不太公平,但即使去掉Boost后提升的11%性能,单个Tesla P100的浮点计算能力也还是超过当前最高端的4路E7 v4服务器的3TFlops 了。
Tesla P100是Tesla系列里面最新的产品,相比前两代采用Kepler架构的K40和Maxwell架构的M40两款产品来说,P100不仅在单精度浮点计算性能超过前两代产品,双精度浮点性能相比Kepler更有3倍多的提升,相比Maxwell就更是高到不知道哪里去了。这三者详细的参数对比可以看下表
Nvidia的GPU产品主要分成3个系列产品,分别面向不同的应用类型和用户群体,这三个系列产品分别是:
1.主要面向3D游戏应用的GeForce系列,几个高端型号分别是GTX1080、Titan X和GTX980,分别采用最新的Pascal架构和Maxwell架构,因为面向游戏玩家,对双精度计算能力没有需求,所以双精度计算单元只有单精度计算单元的1/32,但同时也因为受众群体较大,出货量也大,单价相比采用相同架构的Tesla系列产品要便宜很多,也经常被用于机器学习
2.面向专业图形工作站应用的Quadro系列,主要是针对CAD、3DMaxs、Maya这一类的设计软件做过驱动层的优化,因为针对专业用户人群,出货量少,所以采用相同架构的Quadro售价比GeForce高出许多,也很少有人会拿它去用作别的用途
3.专用GPU加速计算的Tesla系列,Tesla本是第一代产品的架构名称,后来演变成了这个系列产品的名称了,最新的第五代架构名为Pascal,对应的产品型号就是前面提到的P100。而采用前两代架构Kepler和Maxwell的产品目前也还在销售,分别对应K系列和M系列的产品,目前市面上常见的也就是K40/K80、M4/M40/M60等几个型号。K系列更适合用作HPC科学计算,M系列则更适合机器学习用途。
另外Nvidia还有一个专门针对虚拟化环境应用的GRID GPU产品,目前只有K1和K2两个型号,同样采用Kepler架构,实现了GPU的硬件虚拟化,可以让多个用户共享使用同一张GPU卡,适用于对3D性能有要求的VDI或云环境下多租户的GPU加速计算场景。K1上集成了4颗入门级的Kepler GPU,支持的CUDA核心数量较少只有768核,但提供更大的总显存容量16GB,K2则集成了2颗高端的Kepler GPU,支持3072个CUDA核心数,显存容量虽然较少只有8GB但因为采用GDDR5相比K1的DDR3提供更高的带宽能力。
以两者中性能更好的K2来看,使用了2颗Kepler GK104 的GPU芯片,每个GK104的GPU内含1536个FP32 CUDA Core和64个FP64
Units (24:1)
单精度浮点数 理论峰值 = 2 GPU * 1536 FP32 Core * 2 * 745MHz
= 4.58TFlops
双精度浮点数 理论峰值 = 2 GPU * 64 FP64 core * 2 * 745MHz = 0.19TFlops
没有更多推荐了,19815 条评论分享收藏感谢收起CPU 的浮点运算能力比 GPU 差,为什么不提高 CPU 的浮点运算能力呢
问:为什么
的浮点运算能力比
差,为什么不提高 CPU 的浮点运算能力?
& 「速度区别主要是来自于架构上的区别」是一个表面化的解释。对,架构是不同。但是这种不同是目前各个厂家选择的现状,还是由于本质的原因决定的?CPU 能不能增加核?GPU 那张图为什么不需要 cache?
首先,CPU 能不能像 GPU 那样去掉 cache?不行。GPU 能去掉 cache 关键在于两个因素:数据的特殊性(高度对齐,peline 处理,不符合局部化假设,很少回写数据)、高速度的总线。对于后一个问题,CPU 受制于落后的数据总线标准,理论上这是可以改观的。对于前一个问题,从理论上就很难解决。因为 CPU 要提供通用性,就不能限制处理数据的种类。这也是 GPGPU 永远无法取代 CPU 的原因。
其次,CPU 能不能增加很多核?不行。首先 cache 占掉了面积。其次,CPU 为了维护 cache 的一致性,要增加每个核的复杂度。还有,为了更好的利用 cache 和处理非对齐以及需要大量回写的数据,CPU 需要复杂的优化(分支预测、out-of-order 执行、以及部分模拟 GPU 的 vectorizaon 指令和长流水线)。所以一个 CPU 核的复杂度要比 GPU 高的多,进而成本就更高(并不是说蚀刻的成本高,而是复杂度降低了成片率,所以最终成本会高)。所以 CPU 不能像 GPU 那样增加核。
至于控制能力,GPU 的现状是差于 CPU,但是并不是本质问题。而像递归这样的控制,并不适合高度对齐和 pipeline 处理的数据,本质上还是数据问题。
原文标题:为什么 CPU 的浮点运算能力比 GPU 差,为什么不提高 CPU 的浮点运算能力?
文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。
发布评论请先
一台服务器、一台电脑、一台手机最重要的电子零部件是什么?没错,就是CPU处理器。它主要负责数据计算、....
今日,鲁大师公布了2018年上半年的PC硬件排行榜,包括CPU处理器、显卡、内存、硬盘、主板五大领域....
32核心64线程的AMD新旗舰线程撕裂者ThreadRipper 2990X即将登场,那么在核心线程....
Layout是一件过程时而愉快时而痛苦,而结果却绝对享受的事情。对于一个用心Layout的人,到最后....
近年所有的目光都集中在了Nvidia上,因为它的显卡和GPU在很多方面都有巨大的市场需求:如游戏,数....
利用深度学习进行主动脉真假腔分割有赖于大量手动标注的主动脉图像来训练深度学习网络,计算量大,且对计算....
 HT300系列门禁控制器,是依据GA/T394-2002(《出入口控制系统技术要求》)标准要求设计....
沈阳市第一家“缤果盒子”便利店开在沈阳市政务服务中心。顾客可以通过微信扫码关注“缤果盒子”,打开便利....
首先从软件方面进行处理。在主控PLC进行了同步操作,强制通讯数据字DW13的第14位,结果通讯仍然没....
由于入围的CPU种类太多,而且指令集繁杂,这种几乎是“零门槛”的政府采购,对于中国CPU未必能有多大....
在超级循环中,分别调用了func1~func5这5个函数,他们的栈需求分别是10K、5K、9K、8K....
华为终端AR&VR产品线总裁李腾跃出席会议并发表了主题为《大时代,大机遇,大挑战》的演讲。他表示:“....
英特尔当地时间星期四表示,它计划收购小型芯片厂商eASIC。这一交易将有助于英特尔降低对CPU的依赖....
实时系统是这样的一种计算系统:当事件发生后,它必须在确定的时间范围内做出响应。在实时系统中,产生正确....
与传统的物体检测不一样,本次比赛需要参赛队伍检测同一个物体。在无人机跟随应用中,无人机需要准确地检测....
完成一个大的硬件工程,需要考虑的事情很多。所以,这对工程师的要求就高了些。且看下面是一个很牛叉的硬件....
首先所有推崇RISC-V的文章都在说RISC-V架构简单,功耗面积低,这其实跟以前夸MIPS没什么不....
我们的手机、主机以及笔记本电脑这样的数字设备已经变得如此成熟,以至于它们进化成为我们的一部分,而不只....
使用Z370主板的用户们是否注意到,你的BIOS在7月份纷纷更新了?
过去一年多,AMD依靠全新的Zen CPU架构,在桌面、笔记本、企业数据中心等各个市场全面冲击Int....
定制芯片运行效率高,但存在开发成本高、不能很好地完成其他任务的问题,Altera芯片的目标是在两者之....
逐像素、逐顶点光照差异性主要体现在对于非精细模型,在执行逐顶点光照时,由于点距较大,在进行颜色线性插....
7月13日早间消息,Intel今日宣布推出新款至强E-2100处理器(Xeon E-2100),这是....
10nm工艺最快也得明年才能大规模量产,Intel眼下只能不断优化14nm,但是别看数字上不如台积电....
英特尔刚刚发布的了面向入门级工作站的至强(Xeon)E-2100 系列六核 CPU 。与最新的桌面级....
改善性能可以改进代码的写法或算法,这就要结合实际问题,各显神通了。
2020年全球人工智能市场规模约1190亿人民币,未来10年,人工智能将会是一个2000亿美元的市场....
近日,北京华大九天软件有限公司(“华大九天”)与阿里巴巴旗下杭州中天微系统有限公司(“中天微”)联合....
本文档的主要内容详细介绍的是全志A33CPU封装库
除了CPU和GPU,三星还拿到了Arm的Artisan physical IP授权,包括全套的内存编....
在更新腾讯游戏《绝地求生刺激战场》激情一夏新版本后,不少使用搭载GPU Turbo图形加速技术的华为....
首先,通过实施应用虚拟化、桌面虚拟化、GPU虚拟化,安全打通研发与办公网连接,解决了研发网用户浏览互....
作为目前世界上运行速度最快的超级计算机,Summit在距其初次亮相数周后就已经凭借其迅猛的性能为各个....
PVRStudio ——一款2018年全新的工具,它是一个功能齐全的IDE,世界上第一款移动/嵌入式....
随着通用处理器(CPU)的摩尔定律已入暮年,从美国的微软、亚马逊到中国的BAT、华为,几乎所有的互联....
 CPU,又称为中央处理器,内部一般由运算器、控制器、内存储器、输入/输入设备及接口电路及总线组成,....
登革热俗称“断骨热”,是由登革热病毒引起的疾病。不仅病如其名,令人痛苦不堪,而且每年有数亿人患病,年....
NVIDIA虚拟GPU业务副总裁John Fanelli近期接受采访时介绍NVIDIA的虚拟GPU技....
如果你觉得AMD现款95W、65W为主的CPU功耗略高的话,可以期待下即将推出的“节能版”。
为了能让开发者更快的知道造成 hard falut 的原因,更快的定位到错误代码的位置,本应用笔记将....
美国的芯片公司及其供应商都十分反对向中国商品课征20%的关税提议,以及全球这两大经济体之间的贸易战持....
一步步教你使用博途平台,完成西门子最风行的两款PLC——S7- CPU)与S7-1....
在过去的半年,PC 产业的格局并没有产生明显的变化,虽然 PC 出货量的排名顺序有一些变化,但 TO....
 MOS微控制器STM8系列是围绕一个增强的工业标准8位核心和外围模块库设计和构建的,包括ROM、F....
CK860专为AI算法及DSP优化指令集,同样拥有128位SIMD计算引擎,性能则可以达到50 GO....
S7-200系列在集散自动化系统中充分发挥其强大功能。使用范围可覆盖从替代继电器的简单控制到更复杂的....
FIO是Jens开发的一个开源测试工具,功能非常强大,本文就只介绍其中一些基本功能。
线程,队列深....
早在20世纪60年代,就已经有人开始研究和开发嵌入式操作系统。但直到最近,它才在国内被越来越多的提及....
自从华为对外宣布GPUTurbo这项新技术之后,广大花粉用户都在热切盼望着升级时刻的到来。对于手上这....
供应链服务
版权所有 (C) 深圳华强聚丰电子科技有限公司
电信与信息服务业务经营许可证:粤B2-为什么CPU的浮点运算比不过GPU。_百度知道
为什么CPU的浮点运算比不过GPU。
我有更好的答案
速度区别主要是来自于架构上的区别。架构的不同则是因为硬件的设计目的不一样。ALU就是“算术逻辑单元(Arithmetic logic unit)”。CPU和GPU进行计算的部分都是ALU,GPU绝大部分的芯片面积都是ALU,而且是超大阵列排布的ALU。这些ALU都是可以并行运行的,所以浮点计算速度就特别高了。相比起来,CPU大多数面积都需要给控制单元和Cache,因为CPU要承担整个计算机的控制工作,没有GPU那么单纯。所以GPU的程序控制能力相比CPU来说不强,稍早时候的CUDA程序像是递归都是不能用的(较新的设备上可以了)。我觉得也不是CPU不能提高浮点计算速度,而是因为没什么特别的必要了。咱们通常的桌面应用根本没有什么特别的浮点计算能力要求。而同时GPU这样的设备已经出现了,那么需要浮点计算的场合利用上就行了
采纳率:83%
你可以百度一下就知道了
本回答被提问者和网友采纳
呵呵 个人理解 GPU是并行运算器——一大堆ALU粘在一起,这样算图的时候可以一次算很多点,这样只要提高频率,并粘更多ALU,就能不断提高性能。 CPU是逻辑运算器——一大堆烂七八糟的东西年在一起,这样分步运算比较方便。同样可以靠提高频率提升性能,但不能靠粘更多的流水线提高性能,所以现在CPU发展暂时慢于GPU,晶体管数也与GPU相当了。 那么传说GPU比CPU浮点快1000倍是不是真的呢? 是真的因为GPU是平行运算,48个ALU同时算加上超超超超超超短流水线,超了CPU那3个ALU也不奇怪。 所以说,如果比两者性能是没有可比性的。 如果比算图的话,cpu一个点一个点算,GPU一片一片算,当然GPU强了,可要是算PI,GPU就可以去死了。 上边的HDTV解码还是比较能说明问题的,既不是逻辑运算,平行运算大概也能用上吧。 虽说GPU是模拟HDTV解码,但CPU也一样(CPU干吗都是模拟),况且,驱动也帮GPU特别优化了。
架构的不同导致的。GPU有很多SP单元,并行处理能力很强,一块显卡中可能会有上百甚至上千个计算器(ALU)和累加器。显卡只是没有软件接口,所以他的运算性能得不到发挥,在以前也不被重视,现在的显卡性能越来越好,单纯用来玩游戏太可惜了。所以才出现CUDA这类的软件接口。总之答案就是GPU架构的特殊性决定了他有恐怖的浮点运算能力的。
各人干各人的事情 没啥可比性 高人可以参照定义详细研究 咱们小菜答题了解下
因为前者的晶体管没有后者多
其他3条回答
为您推荐:
其他类似问题
浮点运算的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

我要回帖

更多关于 i7浮点运算能力 的文章

 

随机推荐