英伟达官网Quadro Pascal有多强悍,看看GP100就明白了

推荐显存计算公式论文题目阅读
热门显存带宽计算论文参考资料阅读
同类论文推荐当前位置 & &
& 近距离接触英伟达专业级显卡Quadro系列:都...
近距离接触英伟达专业级显卡Quadro系列:都能干点啥?
21:18:15&&出处:&&作者:谷磊
编辑:朝晖 &&)
让小伙伴们也看看:
阅读更多:
好文共享:
文章观点支持
文章价值打分
当前文章打分0 分,共有0人打分
[04-14][04-13][04-13][04-13][04-13][04-13][04-13][04-13][04-13][04-11]
登录驱动之家
没有帐号?
用合作网站帐户直接登录&&|&&责编:赵鑫喆
  2017年4月,NVIDIA在国家会议中心召开媒体发布会,会议上正式公布了以为首的全新Quadro&Pascal家族,包含了PC端、移动端和嵌入式的各类专业卡产品。NVIDIA专业可视化业务高级产品总监Sandeep&Gupte先生  发布会由NVIDIA中国区高级市场总监何念宁女士主持,特意从美国远道而来的NVIDIA专业可视化业务高级产品总监Sandeep&Gupte先生和英伟达中国区销售总监何犹卿先生为我们带来了NVIDIA&Quadro&Pascal家族的产品解析、产品优势以及应用场景的相关介绍。Quadro&Pascal系列产品的诞生表明了NVIDIA一直以来的愿景,那就是通过打造超算工作站,来简化我们的设计工作流程。全新NVIDIA&Quadro&Pascal专业卡  全新的Quadro&Pascal家族专业卡有以下几个特点:  1、统一仿真、HPC、渲染和设计。GP100将前所未有的双精度性能与16GB的高带宽内存(HBM2)相结合,因此用户可以在设计过程中进行仿真,并以前所未有的速度采集逼真的多物理场仿真。客户能够将两个GP100&GPU与NVLink技术相结合,并扩展到32GB的HBM2,以在单一工作站上创建庞大的可视化计算解决方案。  2、探索深度学习。GP100提供超过20&TFLOPS的半精度计算,可谓在Windows和Linux环境中进行深度学习的理想开发平台。  3、将VR集成到设计和仿真工作流程中。VR认证的Quadro&GP100和P4000具有创建详细、逼真、沉浸式环境的能力,能够大规模实现更加宏大、更加复杂的设计体验。  4、尽享照片级真实感设计的优势。基于Pascal架构的Quadro&GPU渲染照片级真实感图像的速度为CPU的18倍。  5、创建广阔的可视化工作区。可在多达四个5K显示器上以高分辨率和HDR颜色显示数据。  6、经济高效地构建超高分辨率及多显示屏配置。通过将多达8个P4000&GPU和两个Quadro&Sync&II显卡相结合,可通过单一机箱实现多达32个4K显示器的配置。全球最顶尖的专业卡Quadro&GP100  正是凭借这些特点,Quadro&Pascal可以大大提高用户的工作质量和工作效率,此外,Quadro&Pascal还可节约个人用户或企业的成本投入。以Quadro&GP100为例,其能够一卡两用,既能做设计,也能做仿真,这样就免去了用户使用服务器的成本,并且该卡可以降低诸如Abaqus这样的仿真对CPU的依赖,从而降低购买多颗CPU的投入以及相应的软件授权费用。  全新NVIDIA&Quadro&Pascal将大大有益于设计和制造行业的客户,其能够为工作站用户提供无与伦比的性能,不仅让那些传统设计和仿真工作的用户提高效率,还可以让虚拟现实、深度学习和人工智能的客户能够实时处理更多数据,可以轻松达到获取想要得到的结果。本文属于原创文章,如若转载,请注明来源:http://vga.zol.com.cn/636/6362632.html
提示:支持键盘“← →”键翻页
显卡类型 显卡芯片
投诉欺诈商家:
天津重庆哈尔滨沈阳长春石家庄呼和浩特西安太原兰州乌鲁木齐成都昆明贵阳长沙武汉郑州济南青岛烟台合肥南京杭州东莞南宁南昌福州厦门深圳温州佛山宁波泉州惠州银川
本城市下暂无经销商
4¥30995¥49996¥21997¥9998¥32999¥249910¥3699<div id="click_content_aid_
<div id="favrite_content_aid_
超能课堂(38):NVIDIA的Pascal显卡特色解析,GP100强在哪?
超能课堂(38):NVIDIA的Pascal显卡特色解析,GP100强在哪?
17:59&&|&&作者:
&&|&&关键字:,,,,
作为16nm工艺的新一代旗舰,NVIDIA的GP100核心到底有多强?或者说它与目前的架构有什么质的不同?今天的超能课堂上我们就来分析下GP100核心的特色,回顾下它与Kepler、Maxwell架构有什么不同。
本文约3219字,需5分钟阅读
2016上半年过得差不多了,显卡市场上这一年来基本上没什么新品,不论是AMD还是NVIDIA主推的还是上一代架构的显卡,恍恍惚惚之间28nm工艺的显卡竟然支撑了4年时间,这在以往的GPU升级历史上可不多见。之所以沉寂这么久是双方都在憋大招,AMD新一代显卡架构为14nm工艺的Polaris(北极星),NVIDIA准备的则是16nm工艺的Pascal(帕斯卡),后者在GTC
2016大会上首次揭开了面纱,NVIDIA发布的Tesla P100专业卡使用了旗舰GP100核心。也许是久未见新工艺新架构显卡,现在看到GP100这样的庞然大物都觉得兴奋了,这几天我们已经被各种Pascal显卡爆料刷屏了。从Kepler到Maxwell架构,NVIDIA钱两次都是选择首发面向主流游戏市场的核心GK104、GM204(Maxwell首发的其实是GM107这样的低端核心),GK110、GM200大核心产品通常要晚半年时间,但这次的Pascal显卡就跟当年的GF100架构一样选择了大核心首发,历史终于轮回了。作为16nm工艺的新一代旗舰,NVIDIA的GP100核心到底有多强?或者说它与目前的架构有什么质的不同?今天的超能课堂上我们就来分析下GP100核心的特色,回顾下它与Kepler、Maxwell架构有什么不同。Pascal与Kepler、Maxwell规格对比切入正题之前我们先来了解下GP100核心与Kepler、Maxwell架构的规格,此前NVIDIA官方也公布了GP100核心与GK110、GM200核心的一些对比,这里我们做了一份更详细的规格表,并加入了GM204及GK104这两款游戏显卡核心。GP100核心与GK110、GM200、GM204、GK104核心规格对比这份规格表内容非常多,初看之下会觉得手足无措,不过小编把需要重点关注的地方标红了,简单来说就是GP100核心晶体管密度再次攀升、核心大幅增加、双精度性能逆天增长、缓存/寄存器容量翻倍、HBM
2显存及NVLink总线,这几点基本上能概括GP100核心的特色。Pascal架构看点之一:计算性能是关键,双精度性能逆市回归GP100的性能一经公布,给小编的感觉就是NVIDIA这次回归了GK110大核心时代注重双精度运算的设计,而且比之前更加变态——GK110架构中FP64双精度与FP32单精度的比例不过1:3,每组SMX单元中有192个FP32单元,64个FP64单元,但GP100核心中每组SM单元中有64个FP32单元,但有32个FP64单元,FP64与FP32比例是1:2。要知道,Maxwell架构中单双精度比砍到了1/32,GK104核心中单双精度比是1/24,这都远远低于Pascal核心,唯一能与之媲美的就是当年核心的Tesla加速卡了。因此在双精度性能上,GP100核心可以说突破天际了,FP64浮点性能可达5.3TFLOPS,而GK110核心不过1.68TFLOPS,GM200核心更是只有可怜的0.21TFLOPS,GP100双精度性能达到了GK110核心的3倍多,是GM200核心的20多倍。HPC很多应用需要双精度性能,不过深度计算(deep learning)这样的计算并不需要高精度运算,因为它天生自带纠错能力,而GP100的FP32
CUDA核心可以同时执行2个FP16半精度运算,因此FP16浮点性能高达21.6TFLOPS。NVIDIA在Tesla
P100之外还推出了基于GP100核心的DGX-1深度学习超级计算机,由8颗GP100核心及2颗16核Xeon
E5处理器组成,深度计算性能达到了170TFLOPS,号称比250台X86服务器还要强大。GK110核心架构示意图GM200核心架构示意图GP100核心架构示意图GP100为了提升计算性能,增强的不仅仅是双精度单元,其L2缓存、寄存器文件也大幅提升,总计拥有4MB L2缓存、14MB寄存器文件。总之,NVIDIA的GP100核心为了计算性能可谓煞费苦心,双精度性能简直逆天,不过NVIDIA针对高性能运算所做的设计固然讨好HPC市场,但对游戏市场来说双精度是没多少用处的,反而浪费了晶体管单元,提高了成本及功耗。Pascal架构看点之二:升级16nm工艺,密度、能效提升从AMD的显卡率先使用28nm工艺开始算起,TSMC的28nm工艺已经陪伴我们四年时间了,期间AMD、NVIDIA数次升级的新核心都没有工艺升级,依然坚持28nm工艺,双方都跳过了20nm工艺、直接进入了性能更好的FinFET工艺节点,只不过AMD选择了三星/GF的14nm
FinFET LPP工艺,NVIDIA坚持了老朋友TSMC的16nm FinFET Plus工艺。TSMC的16nm FinFET工艺优势对半导体芯片来说,升级工艺通常意味着晶体管性能提升、功耗下降,同时晶体管密度大幅提升。具体到TSMC的16nm工艺,该公司此前表示其16nm工艺的晶体管密度是28nm
HPM工艺的2倍左右,同样的功耗下性能提升38%,同样的速度下功耗降低54%,对比20nm工艺则是20%速度提升、35%功耗下降。我们再来看下GP100核心的相关数据:GP100核心的晶体管密度、频率及功耗我们简单地把几款GPU的晶体管密度换算了下(晶体管数量除以核心面积,由于GPU核心的电路复杂,这种算法不一定精确,仅供参考),16nm工艺的GP100核心晶体管密度大约是2510万每平方毫米,算起来晶体管密度比之前28nm工艺的Maxwell、Kepler恰好多一倍。至于每瓦性能比,这里使用的是FP32浮点性能与TDP功耗的比值,考虑到上述核心面向的市场不同,我们要知道侧重高性能的GP100与游戏市场的GM204、GK104对比TDP是不公平的,不过最终的结果依然显示出16nm工艺的GP100在每瓦性能比上有明显优势。从这一点也可以猜测,未来针对游戏市场的Pascal核心(比如GP104、GP106)问世之后,它们势必要阉割掉GP100核心上很多不必要的功能,优化功耗,所以其每瓦性能比无疑会更出色。Pascal架构看点之三:HBM 2显存登场,16GB很好很强大早在2年前的GTC大会上,NVIDIA就公布了Pascal显卡的2大特色——一个是NVLink总线,一个就是3D
Memory,号称容量、带宽是目前显卡的2-4倍,带宽可达1TB/s,这个显存实际上就是HBM 2显存。有意思的是,NVIDIA此举也意味着尽管AMD
Fury显卡抢先使用HBM显存,但NVIDIA还是在新一代HBM显存上抢了先,不知道AMD面对这种情况又是如何看的呢?对于HBM 2显存,我们之前也多次做过介绍,HBM 2显存现在已经被JEDEC吸纳为标准。相比第一代HBM显存,HBM
2显存IO位宽不变,但核心容量从2Gb提升到了8Gb,支持4Hi、8Hi堆栈,频率从1Gbps提升到了2Gbps,带宽从512GB/s提升到了1024GB/s,这也是TB/s带宽的由来。目前三星、SK Hynix已经或者正在量产HBM 2显存,单颗容量是4GB的,NVIDIA的GTC大会上展示了SK Hynix的HBM
2显存,GP100核心使用的应该也是Hynix的产品,每个GP100核心周围堆栈了4颗HBM 2显存,总容量是16GB,要比AMD的Fury显卡的4GB HBM显存容量高得多。支持HBM显存对NVIDIA来说还有个好处,那就是ECC校验。此前的架构中,NVIDIA Tesla显卡的ECC校验需要占用6.25%的显存空间,这意味着有相当部分的显存要被“浪费”,Tesla
K40加速卡的12GB显存中有750MB预留给ECC校验,可用的内存容量就剩下11.25GB,而且这还会影响内存带宽。相比之下,HBM 2显存原生支持ECC校验,不需要额外的内存占用,这不仅提高了显存利用率,带宽也不会受影响。GTC大会展示的SK Hynix公司的4GB HBM2显存16GB HBM2显存总量在Tesla及Quadro专业卡中不算第一,但HBM
2显存超高的带宽是GDDR5显存望尘莫及的。不过值得注意的是,在GTC大会上展示的HBM
2显存频率标明是2Gbps的,但NVIDIA的GP100核心目前带宽只有720GB/s,并没有达到之前宣称的TB/s带宽,算下来频率应该只有1.4Gbps左右,这说明GP100核心的HBM
2显存并没有全速运行,不清楚NVIDIA为何留了一手。Pascal架构看点之四:NVLink可支持8路显卡并行如果说3D显存是NVIDIA公布的Pascal的第一个关键特性,那么NV
Link总线就是另外一个关键了,它同样是NVIDIA针对高性能运算开发的技术,号称速度是PCI-E总线的5-12倍,前面提到的DGX-1深度计算超级计算机就使用了NV
Link技术。GP100显卡背后的NV Link接口NV Link的优点就是带宽超高,目前 x16带宽不过16GB/s,用在游戏显卡上是足够的,但在超算中就不够看了,新一代的PCI-E
4.0规范又延期了,这就得靠NV Link总线了。NV Link实际上是NVIDIA与IBM合作开发的,每个通道的带宽是40GB/s,GP100核心支持4个NV
Link,双向带宽高达160GB/s,而且带宽效率高达94%,这些都要比PCI-E总线更有优势。DGX-1的8路GP100显卡并行就靠了NV Link技术NV Link技术主要是为高性能运算而生的,IBM会在他们的Power
9处理器中使用该技术,Intel就不太可能使用NVIDIA的技术了,他们有自己的并行总线技术。对于普通消费者来说,NV
Link意义不大,不过超高的带宽、更低的延迟使得NV
Link技术可以支持8路显卡并行,对高玩来说有一定吸引力,不过多卡互联的关键在于目前恐怕没有哪些应用或者游戏能够完美支持8卡运行。Pascal显卡最关键的问题:消费级显卡如何“阉割”以上四点只是NVIDIA
Pascal显卡的部分特色,由于官方公布的细节还不够多,我们对Pascal显卡的了解还需要进一步深入。毫无疑问的是GP100大核心在高性能计算市场大有用武之地,不论是超高的双精度性能、超高的每瓦性能比还是超高的显存带宽、超高的NV
Link总线,GP100大核心都拥有极强的竞争力,也无怪乎该卡刚发布,欧洲最强的超级计算机就准备使用Tesla P100专业卡升级了。不过非专业用户对GP100最大的担心也来源于此,因为它身上集成了太多的专业技术,双精度运算对游戏应用没多少用处,16GB HBM 2显存虽然够YY,但成本让人担心,NV
Link总线对游戏显卡来说更是屠龙之技,只有16nm工艺的高能效对游戏玩家来说是有用的。今年6月份的台北电脑展上,NVIDIA发布针对游戏市场的GP104显卡基本上是板上钉钉了,届时我们才能看到NVIDIA在GP104核心上又做了哪些针对性改良和优化。此外,AMD同期也会发布Polaris
11和Polaris 11显卡,双方新一代显卡大战很快也要揭幕了。
本文读者还喜欢
游客:新东西总有个过渡期的,HBM成熟还有很长的路要走,最重要的是……我现在完全没有升级的需求……3A大作一点兴趣都没有……7850能玩NEPNEP就行了……
不是Tesla系列的显卡就不考虑了,总感觉LOW
顾大侠吹了N多年声称自己在讲道理结果打脸啪啪响的,不知道他现在有何感想是不是觉得自己现在很弱智以为自己比厂家还要聪明区区混个编辑以为了不起
新东西总有个过渡期的,HBM成熟还有很长的路要走,最重要的是……我现在完全没有升级的需求……3A大作一点兴趣都没有……7850能玩NEPNEP就行了……
顾大炮是N吹,他如果来超能网,那么A阵营在超能还有立锥之地吗?最好别来!
已有1次举报
(你可匿名或登录后发表评论。没有帐号可,或使用和直接登录)
读书是为了心平气和地跟某些人讲道理,健身是为了让某些人心平气和地跟你讲道理,可惜我读书少,脾气也不小。
扫一扫右边的二维码
关注超能网微信账号
2000元价位手机该如何选?
1000元买哪部手机?
现在市面上有哪些智能音箱可选?
直击双十一低价,买!ARM取代x86有戏,白朗峰计划是个什么鬼-基础器件-与非网
小编语:小编特地查了一下资料,从2011年下半年开始运行,一直致力于研究基于的超算芯片的开发,但截至目前为止,似乎还没有具足够竞争力的产品推出,而且业界普遍对ARM为代表的精简指令集处理器进入超算服务器领域抱持怀疑态度,基于这篇文章中也没有具体提到白朗峰计划的最新尝试的性能参数细节,这每7MW(百万瓦)功率电路(power envelope)下可达每秒50千兆次浮点运算(petaflops)的计算能力到底有多强,哪位大神能给小编科普下捏?
巴塞隆纳超级运算中心(Barcelona Supercomputing Center;BSC)近年来致力于研发超级计算机的替代型架构,也以传统上应用于智能型手机等客户端装置的ARM服务器芯片,开发出原型系统架构。
据The Platform报导,低阶-混合式系统,可望让ARM架构取代传统高效能运算(HPC)的x86架构,甚至导入比x86-GPU效能更为强大的ARM-GPU系统。BSC认为,结合众多低阶CPU与GPU的系统,很可能跟运算效能更强的CPU或CPU-GPU混合系统一样,能处理特定的大型平行运算数据。
BSC旗下白朗峰计划(Mont-Blanc)可望带动新一波计算机运算趋势,厂商可选择较弱的系统节点,而不选择功能性强大的节点。而这些会视平行运算应用而定,也会受到每节点的单线程运算效能(single-threaded performance)、内存带宽(memory bandwidth)、以及网络带宽(network bandwidth)影响。
欧洲高速计算联盟(Partnership for Advanced Computing in Europe;PRACE)自2011年开始补助相关研究,提供1,450万欧元的3年计划补助,接着又追加1,130万欧元,补助延展至2016年。欧盟执委会(European Commission;EC)也提供其中1,610万欧元补助原型系统开发项目。
白朗峰计划于2011年以NVIDIA的Fermi GPU跟Tegra3的ARM处理器做为基础,推出首个原型,而最终的白朗峰原型,搭载2层BullX B505刀锋服务器、三星电子(Samsung Electronics)Exynos 5 ARM芯片、4核心Mali-T604 GPU。
白朗峰计划希望建立一套原型系统,在每7MW(百万瓦)功率电路(power envelope)下可达每秒50千兆次浮点运算(petaflops),而最终目标是于2017年打造出一套可在10MW功率电路下达每秒200千兆次浮点运算效能的ARM-GPU运算节点系统。
目前,白朗峰最终原型系统将用于测试BSC研发的OmpSs混合运算环境。白朗峰计划与协力伙伴预计将导入11项应用至原型系统,包括电子结构、粒子物理学、蛋白质折迭(protein folding)、波之传播(wave propagation)等等。
如果价格、效能与散热表现合理,针对服务器设计的ARM 64-bit处理器可望实现白朗峰目标。不过,目前无人知道PRACE或欧执委届时是否会继续投资该计划,后续发展仍待持续追踪。
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
与非网小编
电子行业垂直媒体--与非网小编一枚,愿从海量行业资讯中淘得几粒金沙,与你分享!
Arm公司近期宣布了其Project Trillium项目,这是一套包括新的高度可扩展处理器的Arm IP组合,这些产品可以提供增强的机器学习(ML)和神经网络(NN)功能。
发表于: 17:52:13
Qualcomm Incorporated(NASDAQ: QCOM)今日宣布,其子公司Qualcomm Technologies, Inc.推出Qualcomm(R)骁龙(TM)820E嵌入式平台,扩展其嵌入式计算产品组合以支持面向物联网(IoT)的顶级先进应用。
发表于: 17:49:16
芯片设计公司 ARM 最近推出了一个新方案 Kigen,将 SIM 卡集成进设备的处理器中,称为 iSIM 技术,以减少对 Wi-Fi 的依赖,随时随地都可联网。这项技术主要为小型物联网设备开发,以减少生产所需的成本。
发表于: 10:19:24
如今,使用机器学习的智能手机依赖于云服务器,这限制了信息的处理方式。然而,若是拥有一个内置的人工智能处理单元,可以改变这种情况,并增加该设备的计算能力。
发表于: 10:10:26
过去几周,我们一直在开发并验证更新的微代码解决方案,以保护用户免受Google Project Zero团队披露的潜在安全隐患攻击。同时,我们的客户及行业合作伙伴进行了广泛的测试,以确保更新的版本可以投入使用。我谨代表英特尔感谢所有客户及合作伙伴在整个过程中的辛勤工作及通力合作。
发表于: 13:49:18
来到洛杉矶不去好莱坞环球影城,就像去北京不去长城,去苏州不去园林,去陕西不吃肉夹馍。洛杉矶的娱乐精神都在好莱坞环球影城里。这里汇集了电影主题公园和影城,以及环球城市大道。
发表于: 17:32:34
对于精英们来说,这个春节有点特殊。
发表于: 13:48:45
近日,著名国际商业媒体《快公司》(Fast Company)发布“2018年世界最具创新力公司榜单”。全球TOP50榜单中,苹果、Netflix、Square占据榜单前三,第四次入选全球TOP50榜单的腾讯超过亚马逊,位列全球第四,刷新了中国公司的历史最高排名。
发表于: 13:42:58
刚刚过去的春节并不平静,特别是在“3点钟无眠区块链”群聊中。
发表于: 13:36:36
救乐视、买万达文旅城,这两笔在2017年吸引了资本市场目光的大交易,都与“白武士”——融创中国(01918.HK)董事长孙宏斌密不可分。
发表于: 13:20:44
与非门科技(北京)有限公司 All Rights Reserved.
京ICP证:070212号
北京市公安局备案编号: 京ICP备:号

我要回帖

更多关于 英伟达 的文章

 

随机推荐