WRF-ARW如何使用pr gpu加速速？

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>硬件 >>WRF-ARW如何使用pr gpu加速速？

WRF-ARW如何使用pr gpu加速速？

来源：蜘蛛抓取(WebSpider) 时间：2018-06-05 09:20 标签： js 使用gpu加速

扫码下载APP
您是个人用户，您可以认领企业号
账号密码登录
一周内自动登录
我同意并遵守
免密码登录
获取验证码
我同意并遵守
第三方账号登录
Hello,新朋友
在发表评论的时候你至少需要一个响亮的昵称
&>&&>&NVIDIA高级系统架构师易成：GPU加速高性能计算【PPT下载】
NVIDIA高级系统架构师易成：GPU加速高性能计算【PPT下载】
时间：05-05 12:31
阅读：4697次
转载来源：智东西
3月23日起，智东西联合NVIDIA推出「实战营」第一季，共计四期。第四期于4月20日晚8点在智东西「高性能计算」系列社群开讲，由清华大学计算机系副教授都志辉、NVIDIA高级系统架构师易成二位讲师先后主讲，主题分别为《GPU加速的实时空间天气预报》和《NVIDIA GPU加速高性能计算》。
随着深度学习技术的发展，尤其是大型深度神经网络的出现，使得很多大型科学应用得以实现，但大型的科学应用程序往往由于其代码量和通信量巨大，对计算力和数据传输性能要求也非常高，NVIDIA凭借先进的GPU技术和完整的软件生态，为大型科学计算提供有力的算力和软件生态环境支持，在物理化学、分子动力学、冷冻电镜、气象、流体仿真等各个主要的HPC领域都都有广泛的应用。
本文为NVIDIA高级系统架构师易成的主讲实录，共计7581字，预计14分钟读完。在浏览主讲正文之前，先了解下本次讲解的提纲：
1，NVIDIA GPU在高性能领域的应用
2，NVIDIA Tesla Volta GPU核心架构和特点
3，NVIDIA DGX系统架构与高性能计算
4，GPU集群运维和作业调度
智东西「实战营」第一季第一期由图玛深维首席科学家陈韵强和NVIDIA高级系统架构师付庆平，分别就《深度学习如何改变医疗影像分析》、《DGX超算平台-驱动人工智能革命》两个主题在智东西旗下「智能医疗」社群进行了系统讲解。第二期由NVIDIA深度学习学院认证讲师侯宇涛主讲，主题为《手把手教你使用开源软件DIGITS实现目标检测》。第三期由西安交通大学人工智能与机器人研究所博士陶小语、NVIDIA高级系统架构师易成二位讲分别就《智能监控场景下的大规模并行化视频分析方法》和《NVIDIA DGX-2 驱动智能监控革命》两个主题在智东西旗下「智能安防」社群进行了系统讲解。
「提醒：如果希望下载每期实战营的完整课件，可以在智东西公众号（zhidxcom）回复关键词“实战营”获取。如果你希望成为讲师，可以回复关键词“讲师”，进行申请」
易成：大家晚上好，我是英伟达的系统架构师易成，前面都老师的介绍非常精彩，下面我给大家分享一下GPU和DGX在高性能计算方面的应用。
今天的分享主要包括以下四个方面：
1，NVIDIA GPU在高性能领域的应用
2，NVIDIA Tesla Volta GPU核心架构和特点
3，NVIDIA DGX系统架构与高性能计算
4，GPU集群运维和作业调度
首先NVIDIA的产品主要运用在三个领域：
1，GPU计算卡，用来做深度学习和高性能计算，属于Tesla系列，是专用的产品；
2，图形显卡，用来做电脑的图形显示和图形渲染等，属于GeForce、Titan系列，是消费级产品；
3，Tagra嵌入式产品，用于智能终端，机器人、自动驾驶等领域。
从2008年开始，NVIDIA开始发布Tesla的计算卡，最早的时候是G80、GT200架构，后来开始发布Fermi架构、Kepler架构、Maxwell架构、Pascal架构和Volta架构，早期的G80和GT200架构，可能大家比较陌生，当时的产品有C870、C1060和C1070。后面Fermi架构的产品有C2050、C2070、M2070和M2090等等；后面的Kepler架构，大家就比较熟悉了，比如K20、K40和K80这些产品；Maxwell架构主要有M10、M40和M60；Pascal架构的产品有P4、P40和P100；Volta架构只有一款产品，那就是V100，现在出了最新的为32GB显存版本。
自从NVIDIA 2006年发布CUDA以来，CUDA的发展也是经过了十多年的历程，从早期的HPC计算到现在广泛应用的人工智能计算、深度学习计算，这十年里面GPU的性能从单卡不到1万亿次，发展到现在V100的125万亿次，GPU的性能越来越高，基于CUDA的软件生态环境也越来越完善。
这是目前支持GPU计算的主要应用领域。在物理化学、分子动力学、冷冻电镜、气象、流体仿真等等各个主要的HPC领域都都有广泛的应用。其中，在RELION、GROMACS、LAMMPS、NAMD等分子动力学计算的应用里，GPU计算速度要远远高于CPU的速度，目前这些大规模的计算任务很少在CPU上进行计算。
这15个软件的计算负载占世界各个超算中心负载的70%左右，这些软件现在都可以支持GPU加速计算，比如我们熟悉的ANSYS、AMBER、GROMACS、LAMMPS、NAMD，它们在物理、化学、生物、流体力学、电磁等等计算领域都有非常多的应用，而且GPU加速效果都非常好。
在CFD计算领域，包含结构化和非结构化网格的有限体积算法，非结构化的有限元算法，现在这些算法的代表软件都可以支持GPU计算。
从这个图中我们可以看到，这些CFD软件很多都是使用Fortran或C语言开发，都是基于CUDA或OpenACC的方式进行GPU加速计算。
在做大规模并行计算的时候，如果采用CPU集群，随着并行的核数越来越多，并行计算通信的开销越来越大，并且效率也越来越低。当超过一定的阈值时，随着核数增加，不但没有加速，可能反而会降低计算速度。现在几千核的并行计算已经很常见，并行效率低已经成了普遍现象，成为限制CPU并行计算规模增长的一个瓶颈，而GPU计算单节点计算能力非常强，需要的计算节点数目比较少，所以并行效率会很高，以AMBER为例，一个GPU计算节点四块P100的计算速度超过了48台CPU计算节点的速度。
这是AMBER使用不同GPU数量时的性能测试，我们发现AMBER的扩展性非常好，接近线性的加速比，当然，GPU的加速效果和算例的规模和算例的类型也有关系。
我们来看一下CPU和GPU的架构有什么不同，如上图所示，CPU是一个基于缓存优化的串行处理器，有很大比例的L2缓存，其设计之初就是着眼于降低内存访问的延迟，而GPU则是针对吞吐优化的并行处理器，和CPU比起来它有更多的计算核心，CPU把大量的晶体管集中于缓存和控制部分，而GPU将更多的晶体管集中于计算核心，这样不同的架构造成了CPU更适合做复杂逻辑判断和串行处理，而GPU更适合做大规模的并行计算。
这张图表是GPU加速模型，采用的是CPU+GPU的异构计算架构，CPU作为任务分配的处理器，执行串行类指令，而GPU作为协处理器，执行并行算法的程序指令，在将程序从CPU移植到GPU时，只需要将程序中最耗时而且可以大规模并行的那一部分程序代码加载到GPU中执行，而将其余的串行代码仍然保留在CPU中计算，这样的话就可以在很短的开发周期内得到很高的加速比。
利用GPU加速通常有三种方法：
1，基于CUDA库的调用，通常我们在程序中会调用比如Intel的MKL、FFT等，我们如果使用GPU加速的话，可以使用CUDA中对应的数学库进行替代，比如cuBLAS、cuFFT等，CUDA库是由NVIDIA技术专家经过优化后，类似于GPU加速的函数接口，通常可以达到很高的计算性能和加速比；
2，基于OpenACC导语句的编程，OpenACC类似于OpenMP，如果您之前使用过OpenMP在多核CPU上开发并行程序，那么使用OpenACC编程起来会非常容易，只需要在并行代码前，通常是For循环语句之前加入导语句就可以实现GPU的自动加速；
3，使用CUDA语言编程，在学习使用CUDA语言编程会让并行程序更加灵活，通常可以达到最好的性能效果，前面都老师也介绍了他的开发经验，CUDA编程相对而言，比OpenACC更加复杂些。
现在支持GPU编程的语言非常多，我们可以选择C、C++、Python、Fortran、C#等等这些编程语言。
这里提供了一些GPU编程的学习资料，可以根据你们选择的编程语言进行选择和学习。
这是一个CUDA编程的示例，从左侧我们可以看到是一个二层循环的CPU C代码，右侧是一个基于GPU计算的CUDA C代码，我们可以看到在右侧用__global__关键字声明了函数add_matrix_gpu，叫做内核函数（Kernel函数），它告诉编译器这段代码需要加载在GPU中执行。可以看到从CPU C代码转换到CUDA C代码的过程也不是非常复杂，也不会显着增加代码的量。
这是一个OpenACC的案例，我们可以看到OpenACC相比于CUDA而言就更简单了，它只需要在循环的程序代码之前加入OpenACC的导语句就可以实现并行。
OpenACC具有可移植性强的特点，OpenACC可以支持主流的处理器架构，比如ARM、POWER和Sunway等架构。
这是NVIDIA的产品线，包含深度集成的软硬体一体机DGX-1、DGX-2和DGX-Station，现在都是配置的V100最新的GPU。除此之外我们还有Titan系列的消费级显卡，Quadro系列的专业级工作站显卡，Tesla系列的V100 GPU，除此之外，还有用于深度学习Inference（推理）的P4处理器，用于自动驾驶的Drive PX2处理器，还有用于智能终端、机器人、无人机的Jetson TX1。
这是一个GPU计算平台的架构：
-底层是硬件层，包含GPU、服务器等；
-软件环境，包括操作系统、驱动、CUDA软件包、cuBLAS、cuFFT、cuDNN等函学库；
-NCCL GPU通讯库；
-应用软件层，包含深度学习软件AMBER、ANSYS等HPC软件；
-具体应用软件层，现在GPU计算的生态环境已经非常成熟，使用也非常方便。
这是NVLink和PCIe两种版本的V100 GPU，上一代的P100也有这两种形式，PCIe的GPU大家会比较熟悉。平时我们见到的Titan和GeForce系列的显卡都是PCIe的接口，NVLink版本的GPU是SXM2接口，直接扣在主板上，这种显卡需要特殊的主板才能支持。
比较下两种GPU的参数，NVLink版本的GPU参数要高于PCIe的GPU，我们看到双精度、单精度和FP16的计算性能都全部高于PCIe的性能，另外NVLink版本GPU的带宽可以达到300GB每秒，而PCIe GPU通过PCIe的总线进行通讯，只有32GB每秒。
在V100的GPU里面，采用的是HBM2 的显存，这种显存带宽达到900GB每秒，也要显著高于普通显卡或GPU的显存带宽。
这是Volta GPU的内部架构，一共有80个流处理器，5120个CUDA核心，640个Tensor Cores，Tensor Core是从V100架构开始新增加的计算核心。
上图展示了GV100核心的流处理器SM的内部架构，一个SM分为四个区，每个区包含8个FP64的核心，16个FP32的核心，16个INT32的核心，另外还有8个Tensor Cores的核心，这些核心占去了很大面积，Tensor Core库是一个混合乘加的处理器核心，可以执行4×4的矩阵混合乘加计算。
可以通过CUDA编程或者调用一些函数库，比如cuDNN、cuBLAS等直接调用Tensor Core进行计算。
前面介绍了Volta V100 GPU，下面我们来看一下DGX 服务器，这是一台DGX-1超级计算机，包含8块NVLink V100 GPU，两颗Intel Xeon处理器，512GB内存，4个100GB InfiniBand EDR网口，8TB SSD本地存储空间，一共有4个1600W电源，系统功耗是3200W，8个NVLink GPU采用立方体的结构的互联。
在这里我们可以详细看一下GPU的NVLink互联的方式。Tesla V100的NVLink支持的是NVLink 2.0的版本，上一代Tesla P100支持的是NVLink 1.0的协议，每个V100 GPU可以支持6个NVLink通道，每个通道的单向传输带宽可以达到25GB每秒，6个通道可以支持单向的150GB 每秒、双向300GB每秒的总带宽，NVLink 1.0版本的双向总带宽只有160GB，所以V100的NVLink速度比P100提升了将近一倍。
在这里我们可以看一下GPU的互联方式，它是采用立方体的互联方式，在图中的8个顶点为8块GPU，每块GPU之间采用图中左下角的方式互联。
这是今年3月份NVIDIA发布的新产品DGX-2。这款产品今年第三季度可以供货，DGX-2是10U标准机架式服务器，功耗10千瓦，因此对机柜的供电和散热会有一定的要求。
这是DGX-2的内部架构，和DGX-1相比，配置大幅度提升，首先是16块32GB的V100 GPU，12个NVSwitches，16块GPU采用全线速互联的方式，两块GPU之间总带宽都是300GB。CPU采用Intel最新的铂金版CPU，配置1.5TB主机内存，8个100GB IB网卡，30TB NVME SSD提供了更大的缓存空间。
上图展示的是DGX-2里面18端口的NVSWITCH交换机，每个端口是50GB的双向总带宽，包含20亿个晶体管，是目前速度最快的交换机。
DGX-2用12个NVSWITCH将16块GPU全部互联起来，每个GPU主板上有8个GPU，一共有两个GPU主板，每个主板上的8块GPU和6个NVSwitch互联起来，我们知道每个GPU上有6个NVLink通道，每个通道连接一个NVSWITCH，所以每个GPU会和6个NVSWITCH互联，每个GPU主板上有8个GPU，所以每个NVSWITCH会有8个NVLink通道进来，也有8个NVLink通道连接到NVBridge的背板上，也就是图中的中间桥梁部分，每个GPU主板的NVSWITCH共有48个NVLink接到背板上，因此背板的总带宽是2.4T每秒。
这里我们要了解两个概念：NVSWITCH和NVBridge，CPU和NVSWITCH相连，NVSWITCH和NVBridge相连。
只有DGX-2通过这种方式互联能够实现任意两个GPU之间的带宽可以达到300GB每秒。在DGX-1采用立方体的架构互联，并不能保证任意两个GPU之间达到300GB每秒的速度。
这是一台DGX-2和两台DGX-1的性能比较，一台DGX-2和两台DGX-1的GPU数量是相等的，但是两台DGX-1的CPU资源比一台DGX-2的资源多一倍，我们发现运行物理学、气象和深度学习的应用软件，DGX-2最少可以实现两倍的加速，这是因为更大的显存可以加载更多的数据，减少IO开销。
这里我想说的是容器这个工具，DGX服务器中已经集成了容器引擎nvidia-docker，也集成了一些开源的HPC软件如GROMACS、LAMMPS等。nvidia-docker容器引擎是开源的软件，大家都可以下载使用，并且可以比原生的Docker更好地调用GPU，也更稳定。
与直接在物理机上运行软件相比，使用容器省去了软件安装编译和部署的过程，避免软件依赖和兼容性的问题，节省了大量的时间，性能损失也非常小，一般容器的运行只有3%左右的损失。
前面我们介绍了容器工具，下面我们来介绍一下如何获取相应的应用软件容器镜像。这里我们提到的是NVIDIA的NGC平台，这是一个可以免费注册的平台，在NGC平台，大家可以下载到各个深度学习框架的容器镜像，以及开源的HPC应用软件的容器镜像，比如Gromacs、LAMMPS等，以及一些可视化软件的容器镜像，欢迎大家免费下载使用。
即使你不想使用容器，这个平台也是非常有用的，可以将容器中编译安装好的软件拷贝到物理机上面运行，这样可以省去软件安装、编译的时间。
除此之外，我们还提供了可视化软件的容器镜像。可以在NGC网站下载。这个软件可以在服务器上进行HPC数据后处理操作、图形和图像渲染等。
我们在HPC上进行高性能计算的时候，常常需要多块GPU并行计算，或者多台GPU服务器分布式并行计算，为了优化GPU之间的通信，我们开发了优化的集合通信函数库，即NCCL软件库。现在在NGC网站上提供下载的容器镜像已经集成了NCCL软件库，大家可以去使用。如果大家要自己开发或者编译GPU，建议去集成NCCL软件库。
这里介绍一些集群管理和作业调度的软件，这些软件都可以支持GPU的作业调度，它们可以按照GPU来实现调度，而不仅仅是按节点来调度，其中很多都是商业软件，但Slurm软件是开源的，使用也非常广泛，Slurm除了可以调动HPC应用软件之外，也可以调度Docker容器镜像。
简要介绍一下GPU的虚拟化。因为HPC计算过程中基本分为前处理、计算、后处理三部分，其中前处理和后处理一般需要图形界面来操作，对图形显示的性能要求比较高，比如我们做CAE仿真和CFD计算的时候，这些软件都可以支持GPU加速计算，我们在计算之前需要做前处理，需要画网格，计算完成后需要做后处理，对结果数据进行分析，这些前处理和后处理过程都需要很强的GPU渲染能力。
为了能够在数据中心进行前处理和后处理，通常可以使用GPU虚拟化的方式在数据中心创建远程虚拟桌面，将一块GPU虚拟成8块或者16块VGPU，分配给不同的人使用，GPU虚拟化也可以用来做深度学习和GPU计算的教学使用。
上图展示了是GPU虚拟化的基本原理，首先通过软件将一块GPU虚拟成多个VGPU。将每个VGPU分配给不同的虚拟机使用，用户可以在每台虚拟机里面安装需要的图形处理软件，现在一块GPU最多可以虚拟成32个VGPU。
这里给大家分享一些CUDA和OpenACC的开发学习资料，对快速掌握CUDA和OpenACC编程非常有帮助。
最后跟大家分享一些OPENACC程序性能调试的工具，除此之外，我们在CUDA软件包里面还有一个NVVP工具也可以用来做程序的性能分析调试等。
谢谢大家，我的分享结束了。
另外,易成老师在Q&A环节还回答了以下5为用户的问题：
鹿业涛-墨迹天气-气象工程师
空间天气预报在GPU的加速给地面天气预报以什么样的借鉴，特别是天气模式的GPU加速方面能提高多少？
易成：实际上空间天气预报和地面天气预报算法是类似的，也是适合GPU加速计算的，但是天气预报的程序主要是基于Fortran开发的，一般比较大，也比较老，移植起来难度比较大，最近nvidia正在协助国家气象局，使用CUDA/OpenACC方法进行这方面的移植。不同的气象模式加速效果不同，以WRF为例，可以达到3倍左右的加速。
陈星强-北京心知科技-数据科学家
1、是否可以将传统的动力学模型完全移植到GPU上进行加速运算，能够加速几倍？
2、cuda编程支持fotran吗？
易成：1，我们现在已经把大量传统的HPC移植到GPU上计算，比如一些分子动力学软件，物理化学软件，如Amber，NAMD，Gromacs，VASP等，还有一些CFD软件，结构力学计算软件，如ANSYS，fluent，现在都可以在GPU上加速计算。加速效果各个软件各有不同，比如amber，relion，GPU加速可以达到20倍以上；有些软件加速效果会差一些，比如CFD软件，一般只能达到3-7倍，具体算例的加速效果和算例的规模也有关系。所有能在CPU上运行的程序，都能移植到GPU上计算，考虑到GPU计算时间和IO时间各自所占的比率，如果IO时间占的比率较大，我们会让他留在CPU上计算；如果GPU计算时间比率比较大，移植到GPU上就会有较大的加速效果
2，现在CUDA支持的语言很多，正如我PPT中所说，包括C/C++,Fortran，Python等
蔺子杰-北京工业大学-高性能计算方向硕士研究生
1，在利用GPU做异构并行的时候，PCIE等通信接口会严重影响性能。这个问题有什么好的解决办法吗？
2，GPU板卡不能针对我的问题提供足够使用的内存。这个问题有什么好的解决办法吗？
3，目前存在CPU到GPU的代码转换器。请问这种转换的代码，效率如何？
易成：1，我们在做多GPU计算时，会涉及到GPU之间的通讯，在P100以前，我们只能通过PCI-E通信，从P100开始，nvidia 推出了nvlink版本的GPU，GPU之间通过nvlink通信。现在V100采用的nvlink2.0，双向总带宽可以达到300GB/s，远高于现在PCI-E 3.0的32GB/s的双向总带宽。这样就能很好解决这个瓶颈问题
2，今年nvidia推出的32GB的V100，可以很大程度上缓解GPU显存不足的问题。另外，可以通过多GPU并行计算，提升GPU总的显存量，将数据分配到多个GPU中，同时进行计算
3，目前还没有发现很好的用于CUDA与C/C++/Fortran之间代码转换的工具，这种工具目前应该是效果不理想。
曾桃元-DELLEMC-全球解决方案高级顾问
1，GPU并行计算环境，2、4、8、16块V100的GPU卡并行性能是否几何倍数提升，是否有性能对比数据？
2，NVIDIAGPU环境，对深度学习的计算框架，做了哪些优化，比如具体CUDA开发环境是否有对DL有优化？
易成：1，GPU并行计算的扩展性和软件、算例都有很强的关系，对于DeepLearning应用，是很明显的近似线性加速效果的，扩展性非常好；对于amber，relion，加速效果也是非常好的，接近线性的加速，当然也和算例大小规模有关。
2，现在对于每一个深度学习框架软件，nvidia都发布了一个对应的docker image镜像，会支持最新的GPU功能和最新的CUDA版本，这些镜像里面的深度学习框架软件会自动调用cuDNN，cuBLAS，NCCL等nvidia发布的深度学习相关的库，会较好的支持tensor core，fp16等新特性。
另外，nvidia发布了一个nvidia版本的caffe，即nvcaffe，会对开源的caffe做一些优化，比如增加ImageDataLayer并行化，提升训练精度，支持RNN，Deconvolution，SSD层等等，其他的框架也有一些优化，可以参考nvidia发布的相关框架的release notes。
https://docs.nvidia.com/deeplearning/dgx/#nvidia-optimized-frameworks
李敏-中科院软件所-高性能计算与并行计算方向博士
1，我们都知道nvidia的GPU的架构和产品都更新的很快，接触的比较少的人，可能都不是特别了解其发展，易老师可否帮忙梳理一下，尤其是一些关键技术出现的架构。
2，可否介绍一下，cuda对于任务并行的支持情况？如果想实现任务的并行，目前有哪些方法？
易成：1，正如我在PPT介绍的一样，nvidia GPU经过了10多年的发展，从早期的G80，GT200架构的GPU，到2010年发布fermi架构，这是一个较大的飞跃，第一个完整的GPU计算架构，也确定了基本的GPU架构路线，后来陆续发布的Kepler架构，Maxwell架构，Pascal架构，Volta架构。早期G80,GT200对应的GPU产品有C870,C1060，C1070等，fermi架构，常见的产品有C2050，C2070，M2070，M2090等，Kepler架构大家应该比较熟悉了，有K20,K40，K80等；Maxwell架构有M10,M40,M60等，Pascal架构有P4,P40,P100，Volta架构只有一款，就是V100。前面有人问这些架构有什么区别？不同的架构首先制程不同，比如V100采用的是10nm制程，其次是fp64,fp32,int32核心的主频和核心数不同，V100增加了tensor core 核心，这也是架构的不同，另外，L1,L2 cache，register寄存器数量，不同架构也是不同的。
声明：该文章版权归原作者所有，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系。
24小时热文
2.1万次阅读
7277次阅读
5406次阅读
5267次阅读
4922次阅读
4762次阅读
4718次阅读
4675次阅读
0您已经赞过了
阅读下一篇
“对不起，二三本的学生我们公司不要”WRF ARW How to set up and run_图文_百度文库
您的浏览器Javascript被禁用，需开启后体验完整功能，
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
WRF ARW How to set up and run
&&大气科学 WRF
阅读已结束，下载本文需要
想免费下载本文？
定制HR最喜欢的简历
下载文档到电脑，同时保存到云知识，更方便管理
加入VIP
还剩41页未读，
定制HR最喜欢的简历
你可能喜欢网站已改版，请使用新地址访问：
ARWpost.tar wrf后处理程序，计算出其他需要的物理量，气象上常用。 Other systems
238万源代码下载- www.pudn.com
&文件名称: ARWpost.tar
& & & & &&]
&&所属分类:
&&开发工具: Visual Basic
&&文件大小: 208 KB
&&上传时间:
&&下载次数: 29
&&提供者:
&详细说明：wrf后处理程序，计算出其他需要的物理量，气象上常用。-wrf post processing needed to calculate other physical quantities, commonly used in meteorology.
文件列表(点击判断是否您需要的文件，如果是垃圾请在下面评价投诉):
&&ARWpost.tar
&近期下载过的用户:
&相关搜索:
&&&&&&&&&&
&输入关键字，在本站238万海量源码库中尽情搜索：
&[] - 用于wrf模式，将wrf模式输出转为grads能认的格式，对于做气象模拟的人来说，很好的一个东东
&[] - IDL 应用于大气科学类
常用物理量的计算
&[] - 气象TTAA1.DAT格式转换为MICAPS格式并计算各种物理量
&[] - 气象上常用的负经验正交分解，用fortran写的跟eof方法不同
&[] - 计算气象场中扰动能量和rmse随时间演变
&[] - WRF数值预报模式方程源码，欢迎一起学习探讨wrf数值预报模式的相关内容
&[] - 利用micaps资料计算各种常用物理量场
&[] - 气象程序，欢迎参考
&[] - 大气科学，动力论坛上载的位涡诊断程序～
有一定参考价值，但不一定完全正确～
&[] - 语言:fortran.主要用来计算气象物理量cape指数,里面对算法的注释很详细,很好用。GPU计算告诉你：HPC不再高冷 - TechTarget数据中心
GPU计算告诉你：HPC不再高冷
作者：杨旭
来源：TechTarget中国
一提到高性能计算HPC，相信大多数人的反应是非常高冷的一个领域。HPC于我们遥遥不及，你可能听说过的比较熟悉的就是天河2号连续3次位列世界超算TPO500第一名的辉煌事迹。但是像天河2号这样的超算系统往往应用于气象、能源、航空航天、生物医药、宇宙天体等非常高端的领域。
但是从近期在太原理工大学圆满落幕的ASC15（2015年世界大学生超级计算机竞赛）总决赛来看，GPU计算再一次点燃了人们对HPC的兴趣，让人们对GPU加速以及HPC的认识与感悟又上升了一个阶段。
先来了解一下背景。ASC（世界大学生超级计算机竞赛）首创于2012年，是由亚洲发起的世界最大规模的大学生超算竞赛，与美国SC、德国ISC并称全球三大超算竞赛。ASC15超算大赛由亚洲超算协会、浪潮集团和太原理工大学共同主办，本届比赛共有全球六大洲135所高校的152支队伍参赛，是世界最大规模的超算竞赛。事实上自首届起，每年的ASC大赛都能吸引更多的高校参与，数量成倍增长。这也说明HPC在高校中的受欢迎度愈发火热。
ASC15总决赛包括16强队伍，其中包括清华大学、香港中文大学、太原理工大学、台湾清华大学、国防科技大学等，另外还有来自其他国家的知名高校，如美国的麻省理工大学、新加坡南洋理工大学、匈牙利米什科尔茨大学以及俄罗斯乌拉尔联邦大学等等。
此次ASC15总决赛有6道试题：超级计算机基准测试HPL（Linpack）、SKA（平方公里阵列望远镜）数据处理软件Gridding（ASC首次与国际大科学工程SKA结合）、纳米尺度分子动力学软件NAMD、空气质量数值预报模式WRF-CHEM、计算流体力学软件Palabos以及将在总决赛当天现场公布的神秘应用。参赛队伍要在3000W的功耗范围内高难度完成竞赛。
NVIDIA Tesla高调亮相屡获大捷
TechTarget中国记者有幸参加了这场盛会，亲眼见证了现场热烈的气氛，充分感受到GPU计算对HPC领域的强大推动作用。在这场超算竞赛中，全球视觉计算行业领军企业同时也是高性能计算领域核心厂商NVIDIA高调亮相，成为ASC15整个赛事台前幕后最亮眼的明星。
说高调一点也不为过，因为在本次决赛中，16支决赛队伍中就有6家使用了NVIDIA的Tesla GPU加速卡。其中清华大学、上海交通大学、中山大学还有新加坡南洋理工大学使用了Tesla K80，浙江大学和台湾清华用的是NVIDIA Tesla K40。
受限于3000W的功耗限定，每个决赛队伍必然在CPU和加速器之间进行取舍，事实上也是对Linpack和总冠军的取舍。
新加坡南洋理工大学在ASC15 Linpack测试中打破世界纪录
HPL（Linpack）是超算TOP500排名的重要依据。在ASC15首日的HPL计算性能测试中，新加坡南洋理工大学团队利用7个浪潮超算服务器节点和8块NVIDIA Tesla K80 GPU加速器搭建的集群，在3000瓦的功耗约束条件下，以每秒11.92万亿次浮点运算的绝佳成绩刷新世界纪录，将去年ISC14上由爱丁堡大学创造的10.1万亿次/秒的世界纪录提升了18%，一举夺得ASC15最高计算性能奖。另外，Tesla K80还帮助清华大学最终摘得总冠军桂冠。
从结果来看，Tesla GPU加速器的威力显而易见。难怪南洋理工大学代表队队长会说：“当拿到世界上最快GPU的时候，手都会发抖。”
事实上，NVIDIA Tesla GPU加速器在每年的ASC大赛上均有出色表现，这里附上一览表：
2013年：清华大学夺冠，他们使用的是基于NVIDIA Tesla K20 GPU加速器的集群。
2014年：上海交通大学夺冠，他们使用的是基于NVIDIA Tesla K20 GPU加速器的集群。
2015年：清华大学夺冠，他们使用的事基于NVIDIA Tesla K80 GPU加速器的集群。
在Linpack中取得好成绩：
2013年：清华大学获得优胜，使用基于Tesla K20 GPU加速器的集群，取得了7.58Teraflops的成绩
2014年：中山大学获得优胜，使用基于Tesla K40 GPU加速器的集群，取得了9.27Teraflops的成绩，并创下当时业界最高纪录
2015年：新加坡南洋理工大学获得优胜，使用基于Tesla K80 GPU加速器的集群，取得了11.92 Tereflops的成绩，创下新的世界纪录。
解密成功背后
你可能会问，NVIDIA仅仅为这些高校提供了高性能Tesla GPU加速卡吗？答案没有这么简单。事实上，NVIDIA与高校之间的关系十分亲密，本次ASC15总决赛的东道主太原理工大学，以及知名国际高校如美国的斯坦福大学，新加坡南洋理工大学等等都与NVIDIA有深刻的合作。
NVIDIA亚太区首席技术官Simon See
进入高校是NVIDIA推广GPU计算的一个市场战略。NVIDIA亚太区首席技术官Simon See先生向记者解释道：“很多学生或者老师在从不同的角度试着解决一些问题的时，发现采用GPU是能够解决问题的。因此很多NVIDIA的应用都是从学校开始的。”
早在2010年，新加坡南洋理工大学成为NVIDIA在新加坡授权成立的首个GPU技术研究中心，由计算机学院副教授Douglas Maskell博士和助理教授何丙胜博士（何丙胜博士也是此次南洋理工大学ASC2015代表队的教练）负责，开展基于GPU的大数据、数据库、生物信息学、多媒体等领域的科学研究，并且和NVIDIA开展深入而广泛的合作，在计算机与其他领域的交叉学科进行了开创性的研究。
NVIDIA中国区销售总监袁永清
NVIDIA在与高校的合作过程中，不只是提供产品和技术，也十分重视人才的培养。在中国区市场，NVIDIA目前与高校有三个主要合作项目，NVIDIA中国区销售总监袁永清向记者介绍，一个是CTC，即CUDA Training Center，内容主要是针对老师和学生进行普及培训；一个是CRC，即CUDA Research Center，帮助老师或更高职位的研究人员从不同领域如流体力学等对CUDA进行深刻的研究；第三个是CCOE，即CUDA Center of Excellence。这是一个比较全面的项目，包含了科研，培训以及一些多元化的合作。
南洋理工大学ASC15领队老师表示自己参加过一些NVIDIA CUDA方面的培训，“训练材料是非常系统的，很有针对性。各个不同领域的应用都会有一些实战案例讲解。相比其他的加速卡的教程，NVIDIA的培训是相当地完善和成熟的。”他说。
事实上，对于拥有当前最为先进GPU技术的NVIDIA来说，目前市场布局经过几年的发展已经十分成熟。例如并行计算架构CUDA在各个领域一直受到狂热追捧。但NVIDIA并不满足于此，Simon表示：“我们积极参加ASC这类超算竞赛，就是想让大家知道在CUDA里面原来还可以找出更加好的方式来解决一些应用，从而优化CUDA的应用，也是促进CUDA在应用领域做得更好的一种方式。”
CUDA一直在进行版本更新，目前最新版本为7.0，“到CUDA7.5版本时又会出现新的应用。如何要让大家知道这些新应用的出现，最好的方式就是参加竞赛。在竞赛里面，学生通过学习与使用能够帮助把CUDA的应用做得更好。 ” Simon说。
NVIDIA的GPU计算已然成为超算领域的重头戏，NVIDIA将GPU计算的能力与魅力从最初的游戏娱乐、视觉计算延伸到现在的云计算、大数据以及超算领域，例如与百度、腾讯等互联网巨头在当前火热的深度学习领域建立密切合作等等。可以说，GPU用自己强大的计算能力正逐步让HPC摆脱以往给人们留下的“高冷”印象。由此来看，NVIDIA不仅是GPU的创造者，也是GPU计算未来发展的舵手，创建新事物，带领我们到达彼岸。
我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。
我原创，你原创，我们的内容世界才会更加精彩！
【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
TechTarget中国
11月17日，在美国盐湖城举行的2016年全球超级计算大会上，中国代表队首次获得国际高性能计算应用领域最高奖戈登贝尔奖（ACM Gordon Bell Prize），实现了我国高性能计算应用在此奖项上零的突破，成为我国高性能计算应用发展的一个新的里程碑。
英特尔近20年来一直关注并积极推动产学研合作，致力于将行业最先进技术引入高校，推动高校计算机课程更新和改革。
日，中国HPC TOP100榜单公布，除了神威太湖之光主要用于科学工程计算外，其余6套新增系统均用于新兴的大数据分析及机器学习领域，且大多部署于互联网公司。
作为全球计算领域重要的参与者之一，英特尔近年来对高性能计算持续投入。号，英特尔在德国国际超算大会ISC上发布了全新一代的英特尔至强融核处理器。
企业级IT网站群
TechTarget中国版权所有
All Rights Reserved, Copyright2018
TechTarget中国版权所有
All Rights Reserved, Copyright2018
我们的网站使用Cookie和其他类似技术（Cookies）来增强您的体验和为您提供相关内容和广告。使用我们的网站，您同意使用Cookies。您可以随时更改设置。 .

WRF-ARW如何使用pr gpu加速速？

我要回帖

更多关于 js 使用gpu加速的文章

随机推荐

WRF-ARW如何使用pr gpu加速速？

我要回帖

更多关于 js 使用gpu加速 的文章

随机推荐

更多关于 js 使用gpu加速的文章