pr渲染gpu占用0开始占用GPU而后卡26%,GPU也不占用了?

来源:内容由半导体行业观察编译自tomshardware,谢谢。

11 月 3 日,AMD 透露了其即将推出的 RDNA 3 GPU 架构和 Radeon RX 7900 系列显卡的关键细节。这是一个公开宣布,邀请全世界观看。但宣布后不久,AMD 让媒体和分析师闭门造车,深入挖掘是什么让 RDNA 3 成功——或者说它成功了吗?不管。

我们被允许谈论 AMD 现在提供的额外 RDNA 3 细节和其他简报,这几乎肯定与 Nvidia 即将在周三推出的 RTX 4080 无关。(这是讽刺,以防万一不清楚。这种事情一直发生在 AMD 和 Nvidia,或 AMD 和 Intel,甚至是 Intel 和 Nvidia,因为英特尔加入了 GPU 竞赛。)

由于使用了芯粒,AMD 的 RDNA 3 架构从根本上改变了 GPU 的几个关键设计元素。这是一个很好的起点。

Dies”),并且 CCD 包含 CPU 核心、缓存和其他元素。

设计中的一个关键点是典型的通用计算算法——在 CPU 内核上运行的东西——将主要适合各种 L1/L2/L3 缓存。直到 Zen 4 的现代 CPU 只有两个用于系统 RAM 的 64 位内存通道(尽管EPYC Genoa 服务器处理器最多可以有十二个 DDR5 通道)。

GPU 有非常不同的要求。大型缓存可以提供帮助,但 GPU 也非常喜欢拥有大量内存带宽来满足所有 GPU 核心的需求。例如,即使是配备 12 通道 DDR5 配置的 EPYC 9654 也“仅”提供高达 460.8 GB/s 的带宽。RTX 4090 等最快的显卡可以轻松将其翻倍。

换句话说,AMD 需要做一些不同的事情来让 GPU 芯粒有效地工作。该解决方案最终几乎与 CPU 芯粒相反,内存控制器和缓存被放置在多个较小的芯片上,而主要计算功能位于中央 GCD 芯粒中。

GCD 包含所有计算单元 (CU) 以及其他核心功能,如视频编解码器硬件、显示接口和 PCIe 连接。Navi 31 GCD 有多达 96 个 CU,这是典型的图形处理发生的地方。但它的顶部和底部边缘也有一个 Infinity Fabric(通过某种总线连接到芯片的其余部分),然后连接到 MCD。

GCD 将使用台积电的 N5 节点,并将 457 亿个晶体管封装到一个 300mm^2 的裸片中。同时,MCD 建立在 TSMC 的 N6 节点上,每个芯片在一个尺寸仅为 37mm^2 的芯片上封装了 20.5 亿个晶体管。高速缓存和外部接口是现代处理器中扩展性最差的一些元素,我们可以看到总体而言,GCD 平均每 mm^2 有 1.523 亿个晶体管,而 MCD 平均每 mm^2 有 5540 万个晶体管。

GPU 上的芯粒方法的一个潜在问题是所有 Infinity Fabric 链路需要多少功率——外部芯片几乎总是使用更多功率。例如,Zen CPU 有一个制造成本相对较低的有机基板中介层,但它消耗 1.5 pJ/b(每比特皮焦耳)。将其扩展到 384 位接口会消耗相当多的功率,因此 AMD 努力改进 Navi 31 的接口。

结果就是 AMD 所谓的高性能扇出互连。上图并没有完全解释清楚,但左边较大的接口是 Zen CPU 上使用的有机基板互连。右侧是 Navi 31 上使用的高性能扇出桥接器,“大约按比例缩放”。

您可以清楚地看到用于 CPU 的 25 根线,而用于 GPU 的 50 根线被挤在一个小得多的区域中,因此您甚至看不到单独的线。对于相同的目的,它大约是高度和宽度的 1/8,这意味着大约是总面积的 1/64。这反过来又大大降低了功耗要求,AMD 表示,所有 Infinity Fanout 链接组合起来可提供 3.5 TB/s 的有效带宽,而仅占 GPU 总功耗的不到 5%。

这里有一个有趣的地方:GCD 和 MCD 上的所有 Infinity Fabric 逻辑都占用了相当大的裸片空间。从裸片照片来看,GCD 上的六个 Infinity Fabric 接口使用了大约 9% 的裸片面积,而这些接口大约占 MCD 上总裸片尺寸的 15%。

去掉 Infinity Fabric 接口,将整个芯片作为单片部件构建在台积电的 N5 节点上,它的尺寸可能只有 400–425mm^2。显然,台积电 N5 的成本远高于 N6,因此值得采用芯粒路线,这说明了较小制造节点的成本不断增加。

与此相关,我们知道芯片设计的某些方面会随着工艺的缩小而更好地扩展。外部接口——比如 GDDR6 物理接口——几乎停止了扩展。缓存的扩展性也很差。有趣的是,AMD 的下一代 GPU(Navi 4x / RDNA 4)是否利用与 RDNA 3 相同的 MCD,同时将 GCD 转移到未来的台积电 N3 节点上。

这涉及到设计的芯粒方面,所以现在让我们来看看 GPU 各个部分的架构变化。这些可以大致分为四个方面:芯片设计的一般变化、GPU 着色器(流处理器)的增强、改进光线追踪性能的更新以及矩阵运算硬件的改进。

查看原始规格,AMD 似乎并没有将时钟速度提高那么多,但之前我们只有游戏时钟数据。现在我们可以说加速时钟更高,并且在一般使用中,我们预计 AMD 的 RDNA 3 GPU 甚至会超过官方加速时钟——换句话说,它们是保守的加速。

AMD 表示 RDNA 3 的设计可以达到 3 GHz 的速度。参考 7900 XTX / XT 上的官方升压时钟远低于该标记,但我们也认为 AMD 的参考设计更侧重于最大限度地提高效率。第三方 AIB 卡可以很好地提高功率限制、电压和时钟速度。我们会看到 3 GHz 出厂超频吗?也许吧,所以我们拭目以待。

根据 AMD 的说法,RDNA 3 GPU 可以在使用一半功率的情况下达到与 RDNA 2 GPU 相同的频率,或者在使用相同功率的情况下达到 1.3 倍的频率。当然,AMD 最终还是希望平衡频率和功耗,以提供最佳的整体体验。尽管如此,鉴于我们看到 7900 XTX 有更高的功率限制,我们也应该期望它会在时钟速度和性能方面带来不错的提升。

AMD 提出的另一点是,它已将硅利用率提高了约 20%。换句话说,RDNA 2 GPU 上有一些功能单元,即使在卡满载时,部分芯片也经常处于空闲状态。不幸的是,我们没有直接衡量这一点的好方法,所以我们会接受 AMD 的话,但最终这应该会带来更高的性能。

在芯粒之外,许多最大的变化发生在计算单元 (CU) 和工作组处理器 (WGP) 中。其中包括对 L0/L1/L2 缓存大小的更新、用于 FP32 和矩阵工作负载的更多 SIMD32 寄存器,以及某些元素之间更广泛和更快的接口。

AMD 的 Mike Mantor 展示了上面和下面的幻灯片,它们很密集!他基本上在一个小时的大部分时间里不停地讲话,试图涵盖 RDNA 3 架构所做的一切,但时间远远不够。上面的幻灯片涵盖了全局概览,但让我们逐步了解一些细节。

RDNA 3 带有增强的计算单元对——成为 RDNA 芯片主要构建块的双 CU。这与 RDNA 2 不同,但请注意调度程序和向量 GPR(通用寄存器)的第一个块显示“Float / INT / Matrix SIMD32”,然后是第二个块,显示“Float / Matrix SIMD32”。第二个块对于 RDNA 3 来说是新的,它基本上意味着浮点量翻倍。

您可以选择以两种方式之一查看事物:每个 CU 现在有 128 个流处理器(SP 或 GPU 着色器),并且您获得 12,288 个总着色器 ALU(算术逻辑单元),或者您可以将其视为 64"与上一代 RDNA 2 CU 相比,恰好具有 FP32 量两倍的 SP。

这有点好笑,因为有些地方说 Navi 31 有 6,144 个着色器,而另一些地方说有 12,288 个着色器,所以我特地问了 AMD 的 Mike Mantor——该公司的首席 GPU 架构师和 RDNA 3 设计背后的主要人物——是否是 6,144或 12,288。他拿出一个计算器,打了几个数字,说:“对,应该是12288。” 然而,在某些方面,它不是。

除了额外的 32 位浮点计算,AMD 还将矩阵 (AI) 量提高了一倍,因为 AI 矩阵加速器似乎至少部分共享了一些执行资源。AI 单元的新功能是 BF16(大脑浮动 16 位)支持,以及 INT4 WMMA Dot4 指令(波形矩阵乘积),并且与 FP32 量一样,矩阵运算速度整体提高了 2.7 倍。

这 2.7 倍似乎来自时钟对时钟性能的总体增长 17.4%,加上 CU 增加 20% 以及每个 CU 的 SIM32 单元增加一倍。(但不要引用我的话,因为 AMD 没有具体分解所有收益。)

缓存以及缓存与系统其余部分之间的接口均已升级。例如,L0 缓存现在为 32KB(双 RDNA 2),L1 缓存为 256KB(再次双 RDNA 2),而 L2 缓存增加到 6MB(比 RDNA 2 大 1.5 倍)。

主处理单元和 L1 缓存之间的链接现在扩大了 1.5 倍,每个时钟量为 6144 字节。同样,L1 和 L2 缓存之间的链接也宽了 1.5 倍(每个时钟 3072 字节)。

AMD 第二代光线追踪

RDNA 2 架构上的光线追踪总是让人感觉像是事后才想到的——为了满足 DirectX 12 Ultimate 所需的功能清单而添加了一些东西。AMD 的 RDNA 2 GPU 缺乏专用的 BVH 遍历硬件,选择通过其他共享单元完成部分工作,这至少部分归咎于其性能不佳。

RDNA 2 射线加速器每个时钟最多可以进行 4 次 ray/box交叉,或 1 个ray/triangle交叉。相比之下,英特尔的 Arc Alchemist 每个时钟每个 RTU 最多可以进行 12 次光线/矩形交叉,而 Nvidia 没有提供具体数量,但在 Ampere 上每个 RT 核心最多可以有两个光线/三角形交叉,最多可以有四个光线/Ada Lovelace 上每个时钟的三角形交叉点。

目前尚不清楚 RDNA 3 是否真的直接改进了这些数字,或者 AMD 是否专注于其他增强功能以减少执行的光线/盒子相交的数量。也许两者都有。我们所知道的是,RDNA 3 将改进 BVH(边界体积层次)遍历,这将提高光线追踪性能。

RDNA 3 的 VGPR 也大了 1.5 倍,这意味着飞行中的射线数量增加了 1.5 倍。还有其他堆栈优化可以减少 BVH 遍历所需的指令数量,并且可以使用专门的框排序算法(最接近优先、最大优先、最接近中点)来提取提高的效率。

总体而言,由于新功能、更高的频率和更多的光线加速器数量,AMD 表示,与 RDNA 2 相比,RDNA 3 的光线追踪性能提升应该高达 1.8 倍。这应该会缩小 AMD 和 Nvidia Ampere 之间的差距。尽管如此,Nvidia 似乎也将其用于 Ada Lovelace 的光线追踪硬件翻了一番,因此我们不会指望 AMD 提供与 RTX 40 系列 GPU 相当的性能。

最后,RDNA 3 调整了与命令处理器、几何形状和像素管道相关的架构的其他元素。还有一个新的双媒体引擎,支持 AV1 编码/解码、AI 增强视频解码和新的 Radiance 显示引擎。

命令处理器 (CP) 更新应提高某些工作负载的性能,同时减少驱动程序和 API 端的 CPU 瓶颈。基于硬件的剔除性能在事物的几何方面也快了 50%,并且每个时钟的峰值光栅化像素增加了 50%。

最后一个似乎是将 Navi 21 上的 ROP(渲染输出)数量从 128 个增加到 Navi 31 上的 192 个的结果。这是有道理的,因为内存通道也增加了 50%,AMD 希望扩展其他元素与此同步。

Dual Media Engine 应该使 AMD 在视频方面与 Nvidia 和 Intel 相提并论,尽管我们必须进行测试以了解质量和性能的比较。从我们的Arc A380 视频编码测试中我们知道,英特尔通常提供最好的性能和质量,英伟达紧随其后,而 AMD 在质量方面排名第三。不幸的是,我们还不能测试 Nvidia 的 AV1 支持,但我们期待着检查新的 AMD 和 Nvidia

Hz 或 8K 和 165 Hz,但这并不是说我们离真正支持这种速度的显示器很近。

实际上,我们不得不怀疑 DP2.1 UHBR 13.5 对 RDNA 3 显卡的重要性。首先,您需要一台支持 DP2.1 的新显示器,其次,有一个问题是,像 4K 180 Hz 这样的显示器在使用和不使用 DSC 的情况下看起来要好多少——因为 DP1.4a 仍然可以使用 DSC 处理该分辨率,而 UHBR 13.5 可以在没有 DSC 的情况下完成。

总的来说,这听起来像是一项令人印象深刻的工程壮举,我们很想看看基于 RDNA 3 GPU 的显卡是如何叠加起来的。

正如我们之前提到的,我们觉得 AMD 很有可能与 11 月 16 日推出的 Nvidia 的 RTX 4080 卡竞争。另一方面,AMD 似乎不太可能正面对抗-,在大多数游戏中对抗更大的 RTX 4090。

Lovelace,因此现实世界的游戏性能很有可能与 teraflops 更接近。内存带宽至少看起来非常接近,并且差异可能不会太大。

除了原始计算,我们还有晶体管数量和芯片尺寸。Nvidia 使用其 AD102、AD103 和 AD104 GPU 构建了单片芯片。最大的一个在 608mm^2 芯片中有 763 亿个晶体管。即使 AMD 正在开发具有 580 亿个晶体管的单片 522mm^2 芯片,我们也希望 Nvidia 具有一些优势。不过,GPU 芯粒方法意味着某些区域和晶体管会用于与性能不直接相关的事情。

但性能比纸面规格更重要。Nvidia 将更多的晶体管投入到 DLSS(张量核心)和现在的 DLSS3(光流加速器)和光线追踪硬件等功能中。AMD 似乎更愿意放弃一些光线追踪性能,同时提升更常见的用例。我们将在短短几天内看到 RTX 4080 的表现如何,然后我们需要等到 12 月才能看到 AMD 的 RX 7900 系列的反应。

根据我们目前所见所闻,未来的 RTX 4070 和 RX 7800 可能会提供与上一代 RTX 3090 和 RX 6950 XT 相似的性能,希望价格大幅降低,同时使用更少的功率。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3222内容,欢迎关注。

用AE预览和渲染显卡gpu占用率是零,根本不用先看怎么回事?显卡是gtx860m?

用AE预览和渲染显卡GPU占用率是零,PR也是但是pr渲染时cpu很热,ae不热,根本不用先看怎么回事?显卡是gtx860m。PR也是gpu占用率是零,但是pr渲染时cpu很热,ae根本不热,好像ae没有全功率运行。

我要回帖

更多关于 pr渲染gpu占用0 的文章

 

随机推荐