psu连接器有哪些功能测试测试温升怎么测试

深度学习属于计算密集型任务搭建硬件环境至关重要,例如选择多内核的快速CPU和其他相关硬件配置但是,在构建深度学习硬件系统时最常见的“天坑”就是在没有必要的硬件上浪费钱。在这里我们推荐阅读深度学习博主Tim Dettmers的“深度学习硬件指南”,原文编译如下:

多年来我总共建立了7个不同的深喥学习工作站,尽管经过仔细的研究和推理但我在选择硬件部分时依然犯了错误。在本指南中我想分享一下我多年来积累的经验,这樣您就可以少走弯路

博客帖子按错误严重程度排序。这意味着人们通常浪费最多钱的错误首先出现

本博文假设您将使用GPU搭建深度学习硬件。如果您正在构建或升级系统以进行深度学习那么忽略GPU是不明智的。GPU对深度学习应用程序的核心 – 处理速度的提高太大了不容忽視。

我在讨论了GPU的选择而GPU的选择可能是深度学习系统最关键的选择。选择GPU时可能会出现三个主要错误:(1)成本/性能不佳(2)内存不足,(3)散热不良

选择GPU时尤其要留意内存要求。RTX卡可以以16位运行可以训练相比GTX卡使用相同内存大两倍的型号。因此RTX卡具有内存优势,并且选择RTX卡并学习如何有效地使用16位模型将带您走很长的路通常,对内存的要求大致如下:

  • 正在寻找最先进分数的研究:> = 11 GB
  • 正在寻找有趣架构的研究:> = 8 GB
  • 任何其他研究:8 GB
  • 创业项目:8 GB(但检查特定应用领域的型号尺寸)

需要注意的另一个问题是特别是如果您购买多个RTX卡,则需要冷却系统如果您想将GPU固定在彼此相邻的PCIe插槽中,您应该确保GPU的风冷否则,您可能会遇到散热问题导致GPU运行速度变慢(大约30%)甚至频繁死机。

您能否识别出因性能不佳而出现故障的硬件部分其中一个GPU?或者也许这毕竟是CPU的错

RAM的主要错误是购买时钟频率过高的RAM。第二个错误是购买不够的RAM以获得平滑的原型制作体验

RAM时钟速率是市场营销的一种情况,RAM公司会引诱你购买“更快”的RAM实际上几乎没囿产生性能提升。最好的解释是“ “关于RAM von Linus技术提示的视频

此外,重要的是要知道RAM速度与快速CPU RAM-> GPU RAM传输几乎无关这是因为(1)如果您使用,您的迷你批次将转移到GPU而不涉及CPU以及(2)如果您不使用固定内存,快速与慢速RAM的性能提升是关于0-3% – 把钱花在别的地方!

RAM大小不会影响罙度学习性能但是,它可能会阻碍您轻松执行GPU代码(无需交换到磁盘)你应该有足够的内存来舒适地使用你的GPU。这意味着您应该至少擁有与最大GPU匹配的RAM量例如,如果你有一个24 GB内存的Titan RTX你应该至少有24 GB的RAM。但是如果您有更多的GPU,则不一定需要更多RAM

这种“在RAM中匹配最大GPU內存”策略的问题在于,如果处理大型数据集您可能仍然无法使用RAM。这里最好的策略是匹配你的GPU如果你觉得你没有足够的RAM,只需购买哽多

一种不同的策略受到心理学的影响:心理学告诉我们,注意力是一种随着时间推移而耗尽的资源RAM是为数不多的硬件之一,可以让您节省集中资源解决更困难的编程问题。如果你有更多的RAM你可以将注意力集中在更紧迫的问题上,而不是花费大量时间来环绕RAM瓶颈囿了大量的RAM,您可以避免这些瓶颈节省时间并提高生产率,解决更紧迫的问题特别是在Kaggle比赛中,我发现额外的RAM对于特征工程非常有用因此,如果您有钱并进行大量预处理那么额外的RAM可能是一个不错的选择。因此使用此策略,您希望现在拥有更多更便宜的RAM而不是哽晚。

人们犯的主要错误是人们过分关注CPU的PCIe通道您不应该太在意PCIe通道。相反只需查看您的CPU和主板组合是否支持您要运行的GPU数量。第二個最常见的错误是获得一个太强大的CPU

人们对PCIe通道位数极为痴迷!然而,事实是它对深度学习表现微乎其微如果您只有一个GPU,则只需要昰PCIe通道即可快速将数据从CPU RAM传输到GPU RAM通道位数并没有想象中那么重要:ImageNet批任务测试显示:传输32个图像(32x225x225x3)16倍通道需要1.1毫秒,8倍通道2.3毫秒4倍通道4.5毫秒。这些是理论数字实际速度可能会减半 – 但这仍然是闪电般的快速!

下面是用ResNet-152进行ImageNet32位图像迷你批次传输测试的实际结果与理论數据的对比:

  • 前向和后向传递总用时:216毫秒(ms)

因此,从4到16倍PCIe通道性能提升仅3.2%但是,如果你使用  带有固定内存的你可以获得0%的性能。因此如果您使用单个GPU,请不要在PCIe通道上浪费资金!

选择CPU PCIe通道和主板PCIe通道时请确保选择支持所需GPU数量的组合。如果您购买支持2个GPU的主板并且您希望最终拥有2个GPU,请确保购买支持2个GPU的CPU但不一定要查看PCIe通道。

如果您在具有数据并行性的多个GPU上训练网络PCIe通道是否重要?我已经我可以告诉你,如果你有96个GPU那么PCIe通道非常重要。但是如果你有4个或更少的GPU,这并不重要如果您在2-3个GPU之间并行化,我根本鈈关心PCIe通道有了4个GPU,我确保每个GPU可以获得8个PCIe通道的支持(总共32个PCIe通道)因为几乎没有人运行超过4个GPU的系统作为经验法则:不要花费额外的钱来获得每GPU更多的PCIe通道

为了能够为CPU做出明智的选择,我们首先需要了解CPU以及它与深度学习的关系CPU为深度学习做了什么?当您在GPU上运荇深度网络时CPU几乎不会进行任何计算。主要是它(1)启动GPU函数调用(2)执行CPU函数。

到目前为止CPU最有用的应用程序是数据预处理。有兩种不同的通用数据处理策略它们具有不同的CPU需求。

第一个策略是在训练时进行预处理:

第二种策略是在任何培训之前进行预处理:

对於第一种策略具有多个内核的良好CPU可以显着提高性能。对于第二种策略您不需要非常好的CPU。对于第一个策略我建议每个GPU至少有4个线程 – 通常每个GPU有两个核心。我没有对此进行过硬测试但每增加一个核心/ GPU,你应该获得大约0-5%的额外性能

对于第二种策略,我建议每个GPU臸少有2个线程 – 通常是每个GPU一个核心如果您使用第二个策略,当您拥有更多内核时您将不会看到性能的显着提升。

CPU时钟频率没有那么偅要

当人们选择高性能CPU时他们首先考虑的是时钟频率。4GHz优于3.5GHz不是吗?这对于挑选相同架构的处理器(例如“Ivy Bridge”)来说通常是正确的泹不一定适用于不同架构CPU。因此时钟频率并不总是衡量性能的最佳标准。

在深度学习的应用场景中CPU计算负载不高:在这里增加一些变量,在那里评估一些布尔表达式在GPU或程序内进行一些函数调用 。

但是当我运行深度学习程序时CPU使用率经常会飙到100%,那么CPU的频率对深喥学习系统性能的影响到底有多大呢我做了一些CPU内核速率的降频实验来找出答案。

MNIST和ImageNet上的CPU降频:可以看出不同主频CPU在内核大幅降频后对整个系统的性能影响不大(没有必要购买太高主频的昂贵的CPU)作为比较:从GTX 680升级到GTX Titan的性能约为+ 15%; 从GTX Titan到GTX 980另外+

请注意,这些实验是在过时的硬件上进行的但是,对于现代CPU / GPU这些结果应该仍然相同。

硬盘通常不是深度学习的瓶颈但是,如果你决策错误依然会对你造成伤害:洳果你在需要时从磁盘读取数据(阻塞等待)那么一个100 MB / s的硬盘驱动器将花费大约185毫秒的时间用于32的ImageNet迷你批次 – 哎哟!但是,如果您在使鼡数据之前异步获取数据(例如Torch视觉加载器)那么您将在185毫秒内加载小批量,而ImageNet上大多数深度神经网络的计算时间约为200毫秒因此,在當前仍处于计算状态时加载下一个小批量您将不会面临任何性能损失。

但是我推荐使用SSD来提高舒适度和工作效率:程序启动和响应速喥更快,使用大文件进行预处理要快得多NVMe SSD,与普通SSD相比将给您更加平滑的体验

因此理想的设置是为数据集和SSD配备大容量性能稍差嘚机械硬盘驱动器,以兼顾生产力和成本

通常,您需要一个足以容纳所有未来GPU的PSUGPU随着时间的推移通常会变得更加节能; 因此,虽然需要哽换其他组件但PSU的生命周期持续很长时间,因此良好的PSU是一项很好的投资

您可以通过将CPU和GPU的功耗与其他组件的额外10%瓦特相加来计算所需的功率,并作为功率峰值的缓冲器例如,如果您有4个GPU每个250瓦TDP和一个150瓦TDP的CPU,那么您将需要一个最小为4×250 + 150 + 100 = 1250瓦的PSU我通常会添加另外10%,以确保一切正常在这种情况下将导致总共1375瓦特。在这种情况下我想要获得一个1400瓦的PSU。

需要注意的一个重要部分是即使PSU具有所需的功率,它也可能没有足够的PCIe 8针或6针连接器有哪些功能测试确保PSU上有足够的连接器有哪些功能测试以支持所有GPU!

另一个重要的事情是购买具有高功率效率等级的PSU特别是如果你需要长时间运行许多GPU的时候。

以全功率(瓦)运行4 GPU系统来训练卷积网两周将达到300-500千瓦时在德国 – 楿当高的电力成本为每千瓦时20美分 – 将达到60- 100欧元(66-111美元)。如果这个价格是100%的效率那么用80%的电源进行这样的网络培训会使成本增加18-26歐元 – 哎哟!对于单个GPU而言,这个问题要少得多但重点仍然存在 – 在高效电源上投入更多资金是有道理的。

全天候使用几个GPU将大大增加您的碳足迹并将使运输(主要是飞机)和其他有助于您的足迹的因素蒙上阴影。如果你想要负责请考虑  – 它很容易做到,价格便宜應该成为深度学习研究人员的标准。

冷却很重要它可能是一个重要的瓶颈,与糟糕的硬件选择相比它会降低性能。对于CPU来说使用标准散热器或一体化(AIO)水冷却解决方案应该没问题,但是对于GPU来说需要特别注意。

对于单个GPU空气冷却是安全可靠的,或者如果您有多個GPU之间有空间(在3-4 个GPU槽位上安装了2个GPU)但是,当您尝试冷却满插的3-4个GPU时散热问题将极为突出。

现代GPU在运行算法时会将速度 – 以及功耗 – 提高到最大值但一旦GPU达到温度障碍 – 通常为80°C – GPU将降低速度,以便温度阈值为没有违反这可以在保持GPU过热的同时实现最佳性能。

然洏对于深度学习程序而言,典型的风扇速度预编程时间表设计得很糟糕因此在开始深度学习程序后几秒内就达到了这个温度阈值。结果是性能下降(0-10%)这对于GPU相互加热的多个GPU(10-25%)而言可能很重要。

由于NVIDIA GPU首先是游戏GPU因此它们针对Windows进行了优化。您可以在Windows中点击几下來更改粉丝计划但在Linux中不是这样,并且因为大多数深度学习库都是针对Linux编写的这是一个问题。

Linux下唯一的选择是用于设置Xorg服务器(Ubuntu)的配置您可以在其中设置“coolbits”选项。这对于单个GPU非常有效但是如果你有多个GPU,其中一些是无头的即它们没有附加监视器,你必须模拟┅个硬和黑客的监视器我尝试了很长时间,并且使用实时启动CD来恢复我的图形设置令人沮丧 – 我无法让它在无头GPU上正常运行

如果在空氣冷却下运行3-4个GPU,最重要的考虑因素是注意风扇设计“鼓风机”风扇设计将空气推出到机箱背面,以便将新鲜凉爽的空气推入GPU。非鼓風机风扇在GPU的虚拟性中吸入空气并冷却GPU但是,如果你有多个GPU彼此相邻那么周围没有冷空气,带有非鼓风机风扇的GPU会越来越多地加热矗到它们自己降低温度到达更低的温度。不惜一切代价避免3-4个GPU设置中的非鼓风机风扇

用于多个GPU的水冷GPU

另一种更昂贵且更加彻底的选择是使用水冷却。如果你有一个GPU或者你的两个GPU之间有空间(3-4 GPU板中有2个GPU),我不推荐水冷当4个甚至更多高性能GPU插满插槽的时候,散热的重任僦需要交给水冷了水冷却的另一个优点是它可以更安静地运行,如果你在其他人工作的区域运行多个GPU这是一个很大的优势。水冷却每個GPU需要花费大约100美元和一些额外的前期成本(大约50美元)水冷还需要一些额外的工作来组装你的计算机,但有很多详细的指南它应该呮需要几个小时的时间。维护不应该那么复杂或费力

为了更好的冷却效果购买大机箱?

我为我的深度学习集群购买了大型塔式机箱有著更多的GPU风扇位置,但我发现这其实是没有必要的大机箱只有大约2-5°C的温度下降,却导致空间占用和成本上的飙升不值得投资。其实朂重要的是直接在GPU上的冷却解决方案 – 而不是为GPU冷却功能选择昂贵的机箱

所以最后很简单:对于1 GPU,空气冷却是最好的对于多个GPU,您应該获得鼓风式空气冷却并接受微小的性能损失(10-15%)或者您需要额外支付水冷却,后者更难以正确配置但不会导致性能损失在某些情況下,空气和水冷却都是合理的选择然而,我会建议空气冷却以简化操作 – 如果您运行多个GPU请使用鼓风机式GPU。如果您想用水冷却请嘗试为GPU找到一体化(AIO)水冷却解决方案。

您的主板应该有足够的PCIe端口来支持您要运行的GPU数量(通常限制为4个GPU即使您有更多的PCIe插槽); 请记住,大多数GPU的宽度都是两个PCIe插槽因此如果您打算使用多个GPU,请购买PCIe插槽之间有足够空间的主板确保您的主板不仅具有PCIe插槽,而且实际仩支持您要运行的GPU设置如果您在newegg上搜索您选择的主板并查看规格页面上的PCIe部分,通常可以在此找到相关信息

选择外壳时,应确保它支歭位于主板顶部的全长GPU大多数情况下都支持全长GPU,但是如果你购买一个小盒子你应该怀疑。检查其尺寸和规格; 你也可以尝试谷歌图像搜索该模型看看你是否找到了带有GPU的图片。

如果您使用自定义水冷却请确保您的外壳有足够的空间放置散热器。如果您为GPU使用水冷却尤其如此每个GPU的散热器都需要一些空间 – 确保您的设置实际上适合GPU。

显示器貌似不应该出现在深度学习硬件的推荐列表里但出乎很多囚的意料,显示器对生产力的影响极为巨大

我在3台27英寸显示器上花的钱可能是我做过的最好的硬件投资。使用多台显示器时生产力会夶幅提升。仅仅使用一台显示器的话工作几乎陷于瘫痪。如果您无法高效操纵系统那么快速深度学习系统有什么用呢?

我的深度学习典型显示器布局:左:论文谷歌搜索,gmailstackoverflow; 中:代码; 右:输出窗口,R文件夹,系统监视器GPU监视器,待办事项列表和其他小型应用程序

– 时钟频率无关紧要 – 购买最便宜的RAM。– 购买至少与最大GPU的RAM相匹配的CPU RAM– 仅在需要时购买更多RAM。– 如果您经常使用大型数据集则可以使用更多RAM。

– 用于数据的硬盘驱动器(> = 3TB)– 使用SSD来获得舒适性并预处理小型数据集

– 加上GPU + CPU的瓦数。然后将所需瓦数的总和乘以110%– 如果您使用多个GPU,请获得高效率– 确保PSU有足够的PCIe连接器有哪些功能测试(6 + 8针)

– CPU:获得标准CPU散热器或一体化(AIO)水冷解决方案– GPU:– 使用涳气冷却– 如果您购买多个GPU,则使用“鼓风式”风扇获取GPU – 在您的Xorg中设置coolbits标志配置控制风扇速度

– 为您的(未来)GPU准备尽可能多的PCIe插槽(┅个GPU需要两个插槽;每个系统最多4个GPU)

– 额外的监视器可能会比增加GPU更高效

阿里巴巴1688为您优选102条psu连接器有哪些功能测试热销货源包括psu连接器有哪些功能测试厂家,品牌高清大图,论坛热帖找,逛买,挑psu连接器有哪些功能测试品质爆款貨源批发价,上1688psu连接器有哪些功能测试主题频道

我要回帖

更多关于 连接器有哪些功能测试 的文章

 

随机推荐