intel haswell与haswell sandy bridgee-e哪个好

当前位置: >>
Intel至强Sandy Bridge处理器首发评测
Intel 至强 Sandy Bridge 处理器首发评测【IT168 评测中心】前不久,Intel 对外发布了最新的基于 Sandy Bridge 微架构的 32nm 至强处理器―― E3 系列。虽然这并非是 Intel 第一次发布基于 Sandy Bridge 微架构的产品,虽然 E3 仅仅面向单路应用而 生,但不管怎么说,E3 的出现的确标志着 Intel 在至强处理器发展中迈出了重要的一步,也是 Tick-Tock 战略中重要的内容(Tock)。IT168 评测中心有幸在第一时间拿到了至强 E3 系列的产品,接下来我们将为 大家展示的是 Sandy Bridge 架构强大的性能与未来广阔的发展趋势。Intel 发布 Sandy Bridge 微架构 32nm 至强处理器得益于桌面级 Sandy Bridge 处理器的成功,许多人对于至强 Sandy Brideg 处理器也充满了期待。虽 然对于至强处理器应用的服务器环境来说,多媒体性能并非是人们应该关注的内容。而每当提到 Sandy Bridge 的技术特点――环形总线、AVX 指令集、Turbo Boost2 等内容都是众多报道中频繁出现的内容。究 竟这些技术为我们带来了什么?它们的存在会有哪些的好处。这些还要从 Sandy Brideg 之前的 Nehalem 开 始说起。 按照 Intel 著名的时钟规律――Tick-Tock 来看, Sandy Bridge 明显属于后者, 也就是 Tock 范畴。 Tock 主要是指处理器微架构方面的改变,而核心工艺的上一次升级已经由我们熟悉的 Westmere 完成了,下一次 22nm 的升级还要再等等才行。在进行系统的分析之前, 我们先来看看最新的至强 Sandy Bridge 处理器路线图。 相比以往的产品来说, Sandy Bridge 至强处理器采用了与桌面级酷睿处理器类似的命名规范, 分为 E3、 和 E7 三个系列。 E5 其中, E3 系列是面向入门级单路服务器的产品,E5 系列则面对了主流的双路服务器平台。唯一有特点的是 E7, 这款产品虽然在型号上采用了新的命名规则,但是在本质上 E7 还是上一代架构的产品,它还有一个大家非 常熟悉的名字――Westmere-EX 。 至强处理器路线图本次我们要介绍的至强 E3 系列属于面向单路服务器应用的产品,使用的是 LGA115 接口,也就是图中 的 Sandy Bridge-DT。按照产品布局分析,Sandy Bridge-DT 主要定位在入门级的单路服务器,虽然同样是 单路,但是高端应用的任务则是由 Sandy Bridge-EN 来承担。正如我们刚才提到的,新一代的至强 Sandy Bridge 处理器给我们带来的一个印象就是采用了环形总线 架构,这也是 Intel 在继 Nehalem 和 Westmere 之后继续使用环形总线的架构。Sandy Bridge 核外架构图 Sandy Bridge 处理器使用了新的环形总线设计。事实上从之前的 Nehalem 开始,Intel 就转向了融合 核心的理念。在 Nehalem 当中,Intel 将内存控制器融入其中,而在接下来的 Westmere 当中,GPU 也作为 融入的对象而出现(只是那时候的 GPU 还仅仅使用的是 45nm 工艺)。在之前的 8 核心 Nehalem-EX 上,我 们就看到了环形总线的身影,不过当时的产品在性能和功耗上并没有表现出明显的优势。本次 Sandy Bridge 使用的是重新设计的核外结构, 全新的 Ring Bus 环形总线更能够较好的展示出 Sandy Bridge 的真实性能。 通过上图大家可以看到, Ring Bus 环形总线连接各个 CPU 核心、 LLC 缓存 (L3 缓存) 、 融合进去的 GPU 以及 System Agent(系统北桥)等部分。 这个图片或许可以更好的说明问题。新的 Ring Bus 环形总线由四条独立的环组成,分别是数据环 Data Ring、请求环 Request Ring、响应环 Acknowledge Ring 和侦听环 Snoop Ring。借助于环形总线,CPU 与 GPU 可以共享 LLC 缓存,将大幅度提升 GPU 性能。在这个环形总线上,分布着多个 Ring Stop,也就是俗称的“站台”。这个“站台”在每个 CPU/LLC 块上具有两个连接点,而之前使用环形总线的产品,也就是 Nehalem-EX 环在每个 CPU/LLC 块上只有一个连 接点。环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级 缓存,需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级 缓存分割成了若干部分,借助于每个站台,核心可以快速的访问 LLC。LLC 小容量缓存的延迟优势与核心频 率一致性在这里也就体现了出来,这就使得 Sandy Bridge 的周期相比以往产品有所缩减,从原来的 35-40 个缩减到了 26-31 个。同时,由于每个核心与 LLC 之间可以提供若干带宽,使得 Sandy Bridge 的整体带宽 也提升了 4 倍。在 Sandy Bridge 处理器中,Intel 使用了一个全新的概念――System Agent(系统助手)。事实上, System Agent 也就是我们之前所说的核外架构, 只是 Intel 本次给予了其全新的命名, 而在以往的名称中, 我们亲切的称之为系统北桥。系统助手 System Agent 包含了比以往产品更为丰富的功能,包括整合内存控制器、支持 16 条 PCIE2.0 通道的 PCIE 控制器、图形处理器(GPU)、电源控制单元(PCU)以及 DMI 总线的 IO 接口。PCI-E 控制器,可提供 16 条 PCI-E 2.0 信道,支持单条 PCI-E x16 或者两条 PCI-E x8 插槽;重新设计的双通道 DDR3 内存控制器, 内存延迟也恢复了正常水平(Westmere 将内存控制器移出 CPU、放到了 GPU 上);此外还有 DMI 总线接口、 显示引擎、电源控制单元(PCU)。系统助手的频率要低于其他部分,有自己独立的电源层。在 Sandy Bridge 处理器中,最大的改进要算是增加了全新的 AVX 指令集――Advanced Vector Extensions,高级矢量扩展。 这个指令集的增加是 X86 处理器中的重要内容,不仅仅是提供了更为良好的性能,同时也是对现有指令集 的整合与优化。 介绍 AVX 指令集之前,先要引入一个向量的概念。所谓向量,就是多个标量的组合,通常意味着 SIMD (单指令多数据),就是一个指令同时对多个数据进行处理,达到很大的吞吐量。早在 1996 年,Intel 就 在 X86 架构上应用了 MMX (多媒体扩展) 指令集, 那时候还仅仅是 64 位向量。 到了 1999 年, (流式 SIMD SSE 扩展)指令集出现了,这时候的向量提升到了 128 位。如今,Sandy Bridge 的 AVX 将向量化宽度扩展到了 256 位,原有的 16 个 128 位 XMM 寄存器扩充为 256 位的 YMM 寄存器,可以同时处理 8 个单精度浮点数和 4 个双精度浮点数。换句话说,Sandy Bridge 的浮点 吞吐能力可以达到前代的两倍。不过现在,AVX 的 256 位向量还仅仅能够支持浮点运算。不过 AVX 的特别 之处在于,它可以应用 128 位的 SIMD 整数和 SIMD 浮点路径。 AVX 指令集是和 Sandy Bridge 微架构紧密结合的, 因此, 微架构的浮点寄存器也要从 128 位扩展到 256 位,此外,Load 单元也要适应一次载入 256 位的能力,Sandy Bridge 没有直接扩展原有 Load 单元的位宽, 而是通过增加了一个 Load 单元来达到 256bit Load 的能力。 在进行新性能扩展的同时, AVX 指令集的出现对于原有的 X86 指令集也进行了优化与重新组合――这 主要源于 AVX 指令集新的操作码编码方式。AVX 指令集的编码方式叫做 VEX(Vector Extension) ,其主要 用途是缩短指令长度,降低无谓的代码冗余,并且也降低了对解码器的压力,实现的方式也很特别――压 缩各式各样的 Prefix 前缀,集中到一个比较固定的字段中,从而达到了精简指令集的目的。 既然我们一直在讨论 Sandy Bridge 核心,那么不谈到其特色的整合 GPU 显然是不合适的,虽然对于服 务器的应用来说多媒体性能的确是无足轻重。其实我们在文章最初就提到过,作为 Tioc-Tock 时钟式的重 要内容,其实从 Wesrtmere 32nm 处理器开始,Intel 就在处理器中整合了 GPU,不过仅仅是将二者封装在 一个 Die 上。 因为 45nm 的 GPU 与 32nm 的 CPU 在制程上不一致, 最重要的是关键的内存控制器被放在了 45nm 的 GPU 当中,造成了 32nm Westmere 性能并没有想象的那么出色。而在 Tock 中,Sandy Bridge 的出现解 决了这一问题,特别是将 GPU 整合在了环形总线之内,实现了二者真正的融合。 SandyBridge GPU 有自己的电源岛和时钟域,也支持 Turbo Boost 技术,可以独立加速或降频,并共 享三级缓存。显卡驱动会控制访问三级缓存的权限,甚至可以限制 GPU 使用多少缓存。将图形数据放在缓 存里就不用绕道去遥远而“缓慢”的内存了,这对提升性能、降低功耗都大有裨益。可编程着色硬件被称为 EU,包含着色器、核心、执行单元等,可以从多个线程双发射时取指令。内部 ISA 映射和绝大多数 DX10.1 API 指令一一对应,架构很像 CISC,结果就是有效扩大了 EU 的宽度,IPC 也 显著提升。抽象数学运算由 EU 内的硬件负责,性能得以同步提高。 Intel 此前的图形架构中,寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少,剩余 寄存器就会分配给其他线程。这样虽能节省核心面积,但也会限制性能,很多时候线程可能会面临没有寄 存器可用的尴尬。在芯片组集成时代,每个线程平均 64 个寄存器,Westmere HD Graphics 提高到平均 80 个,Sandybridge 则每个线程固定为 120 个。好了,介绍了这么多,终于轮到我们本次评测的主角――至 强 E3 系列登场了。关于至强 E3 系列,一共有 7 款产品,其中两款为超低功耗版的产品。它们的主频最低 为 2.2GHz,最高为 2.5GHz。本次我们拿到的测试产品是 E3 系列中的 E3-1275 和 E3-1220。前者是 E3 系列中的高端产品,主频为 3.4GHz,支持超线程技术,TDP 为 80W;后者是 E3 系列标准版中的最低规格,主频仅为 3.1GHz,不支持超 线程技术。其中,整合 GPU 的处理器命名统一以 5 结尾。至强 E3-1220 处理器 至强 E3-1275 处理器 LGA1155 接口处理器 至强 E3 系列处理器采用的是 LGA1155 接口,从处理器的背面来看其布局与 LGA1156 有非常大的区别, 也就是说用户不可能直接从 LGA1156 平滑升级到 LGA1155 处理器,必须要更换平台。对于桌面级的 Sandy Bridge 处理器来说,6 系列芯片组,包括 P67 和 H67 都是比较好的选择。而在本 次测试中,由于我们暂未难道应用于 E3 系列处理器的主板,因此在测试中我们只能选择 P67 芯片组进行。 这次,我们将针对高端的 E3-1270 处理器进行测试。对于至强 E3-1270 处理器的测试,我们搭建了一套专门的平台,具体配置如下: 平台信息服务器 产品名称 平台类型 至强 E3-1275 处理器 Intel P67 芯片组 处理器子系统 处理器型号 处理器架构 代号 处理器封装 核心/线程数量 主频 处理器指令集 Intel Xeon E3-1275 Intel 32nm Sandy Bridge Sandy Bridge Socket 1155 LGA 4/8 3.4GHz MMX,SSE,SSE2,SSE3, SSE4.1,SSE4.2,EM64T,VT-x,AES 2× QPI 2933MHz 外部总线 6.40GT/s 单向 12.8GB/s(QPI) 双向 25.6GB/s(QPI) L1 Code Cache L1 Data Cache L2 Cache L3 Cache 4× 32KB 8 路集合关联 4× 32KB 4 路集合关联 4× 256KB 8 路集合关联 8MB 16 路集合关联 服务器主板 主板型号 主板芯片组 北桥芯片特性 Intel DP67BG Intel P67 2× QPI VT-d Gen 2 内存子系统 内存控制器 内存类型 每 CPU 集成双通道 R-ECC DDR3 1333 2GB R-ECC DDR3 1333 SDRAM × 条 4 存储子系统 磁盘控制器 Intel ICH10R SATA AHCI Controller 4x SATA 3Gb/s+2x SATA 6Gb/s 磁盘控制器规格 AHCI w/ NCQ RAID 0/1/10 控制器驱动 Intel Matrix Storage Manager 8.8.0.1009 Seagate 硬盘型号数量 Barracuda 7200.12 ST3250318AS 7200RPM 500GB 硬盘规格 SATA 3Gb/s NCQ 16MB Cache 网络连通性 网卡控制器 网卡驱动 Intel 82576EB Port Gigabit Network Controller Intel PRO Set 15.8.76.0 软件环境 操作系统 Windows Server 2008 R2 Enterprise Edition SP1 x64本次我们为这款平台搭配的是 Windows Server 2008 R2 操作系统,而且还增加了 SP1 补丁。刚刚我们 在介绍 AVX 指令集的时候提到, 这个指令集在 SP1 版本下有比较好的表现, 因此我们特别安装了 SP1 补丁。 平台方面,P67 平台是当下我们的无奈选择,好在这个是 Intel 原厂的主板,还算是比较搭配。出于测试 SPEC CPU 2006 的考虑,我们为平台搭配了 4 条宇瞻 DDR3 1333 内存,这样系统的内存容量达到了 16GB。对于服务器的测试,我们主要从产品满足用户应用的角度出发,分功能和性能两个方面来考察。其中 性能测试主要体现的是服务器在提供特定服务时的具体的事务处理能力,而在功能上,主要反映的是服务 器的可靠性、可扩展性以及易用性等方面的特征。另外,由于不论是最终用户还是处理器厂商,大家对于 服务器的能耗问题都给以了很高的重视,为此,我们也继续将能耗作为考察服务器使用成本的重要指标。网络测试环境 贴近应用的性能测试在实际的应用中,不同的应用条件对于服务器子系统性能的要求也有一定的偏重,因此同一服务器在不同 应用中所表现出的性能状况常会出现较大差异。为了能准确反映出服务器的性能状况,我们选择了 Web、 文件服务器和数据库等三种较为普遍的应用作为测试重点。之所以选用以上三种应用作为性能测试点,这 几项应用相对较为普遍是原因之一,此外我们也考虑到这三种应用对于服务器子系统的要求也各有偏重, 这样可以更全面的考察服务器各子系统的性能状况。讲求实用的功能测试可靠性、可扩展性和易用性同样也是用户关心的内容,但不同的用户对这三方面的需求会有所不同。比如 一些中高端服务器产品,在应用中多采用专用机房或托管方式,这时其易用性中的可管理性方面就显得非 常重要,远程管理会让工程师及时了解服务器工作状况,实现及时有效的管理和维护。而对于入门级服务 器来说,由于很多用户会随着业务的增长会对其处理能力、存储容量有进一步的要求,这时其可扩展性就 显得更为重要。可靠性是服务器的一个关键特性,它反映了服务器在应用过程中系统能否确保长时间正常 工作,这也是服务器与普通 PC 之间的重要区别。对于以上三个方面,我们都制定了详细项目进行逐一考 察。兼顾使用成本的能效测试服务器的售价反映的它是一次性的购买成本,而后期的使用成本是一个不容小视的问题,作为一个要求 7 ×24 连续工作的设备,它所产生的电费将是一笔不小的开销。实际上在评判服务器的运算能力时,一定不 能将功耗问题视而不见,性能功耗比是衡量服务器运算效能的一个重要指标,测试中我们利用功率分析仪 对服务器在加电关机、开机空载以及满负载三种状态下的功耗进行测定,为服务器的能效以及使用成本的 估算提供数据支持。对于服务器性能方面的考察,我们主要分为子系统测试和应用性能测试。在子系统测试中我们按处理器、 内存以及磁盘等各个子系统进行了分项测试,当然各子系统的测试成绩也是相辅相成,也需要其它子系统 的支持,并非是完全独立的,只是对考察的子系统有所偏重而已。处理器子系统测试对服务器处理器子系统的考察,我们主要采用的是业界公认的 SPEC CPU 2006 测试,该项测试通过对数十 个典型应用程序的运行,来测试系统处理器子系统在应用中的整、浮点运算效率。SPEC CPU 2006 测试具 有很好的开放性,因此在业界为广大用户所接受,可以利用这一公开的测试结果进行系统间运算性能的比 较。此外 SiSoftware Sandra 也有测试子项可用于处理器运算性能测试,其结果通常以每秒完成的指令数 来表现。也可以用作不同处理器间运算效率的比较。SPEC CPU
SPEC 是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC 是由计 算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是 建立、维护一套用于评估计算机系统的标准。SPEC CPU 2006 是 SPEC 组织推出的 CPU 子系统评估软件最新版,我们之前使用的是 SPEC CPU 2000。 和上一个版本一样,SPEC CPU 2006 包括了 CINT2006 和 CFP2006 两个子项目,前者用于测量和对比整数性 能,后者则用于测量和对比浮点性能,SPEC CPU 2006 中对 SPEC CPU 2000 中的一些测试进行了升级,并 抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。SPEC CPU 测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU 提供的是源代码,并 且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而 I/O(磁盘)、网络、操作系统和图 形子系统对于 SPEC CPU2006 的影响非常的小。SPECfp 测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如 CAD/CAM、科学计算等方面应用可以参考这个结果。SPECint 测试过程中同时执行多个实例(instances), 然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服 务器和 Web 服务器等基于整数应用的多处理器系统的性能。我们在被测服务器中安装了 Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler 这两 款 SPEC CPU 2006 必需的编译器,通过最新出现的 QxS 编译参数,Intel Compiler 10 版本开始支持对 Intel SSE4 指令集进行优化 (假如只支持 SSE3, 则使用 QxT 编译参数) 我们另外安装了 Microsoft Visual Studio 。 2003 SP1 提供必要的库文件。按照 SPEC 的要求我们根据自己的情况编辑了新的 Config 文件,使用了较多 的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到 SPEC rate base 测试结果(基 于 base 标准编译,SPEC base rate 测试代表系统同时处理多个任务的能力)。和其它测试部件不同,SPEC CPU 2006 需要大量的系统物理内存,我们的 SPEC 测试在 64 位的 Windows Server 2008 R2 下完成,对于 每个运算核心,最低配置 1.5GB 内存。内存子系统测试对于内存子系统的考察,也是利用 SiSoftware Sandra 来实现,在该软件中有相应组件可进行内存带宽、内 存延迟等方面的测试。SiSoftware Sandra v2011 SiSoftware Sandra 是一款可运行在 32bit 和 64bit Windows 操作系统上的分析软件,这款软件可以对于 系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从 2007 开始,Sandra 的 Arithmetic benchmarks 增加了对 SSE3&SSE4 SSE4 的支持,在 Multi-Media benchmark 中增加了对于 SSE4 的支持,另外还升级了 File System benchmark 和 Removable Storage benchmark 两个子项目。对于新的 硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010 对 NUMA 架构以及最新的 Windows 7/Windows Server 2008 R2 提供了更好的支持,此外测试项目和测试结果也有了略微的变化。 SiSoftware Sandra 所有的基准测试都针对 SMP 和 SMT 进行了优化,最高可支持 32/64 路平台。 激动人心的时刻终于到来了。对于一款处理器来说,许多人都喜欢使用 CPU-Z 来观察它的规格。下面 我们就一起来看看至强 Sandy Bridge 处理器给我们带来了什么。因为测试处理器为 ES 版,所以依然识别为 Core i7 处理器,不过下面一行倒是看得很清楚――E3 1275 8MB 三级缓存,由 4 个核心共享,每核心分配 2MB测试主板使用的是 P67 芯片组 我们使用了 4 条宇瞻 4GB DDR3 1333 内存,系统总内存容量为 16GB AIDA64(原 EVEREST)是一个测试软硬件系统信息的工具,它可以详细的显示出 PC 硬件每一个方面的 信息。支持上千种(3400+)主板,支持上百种(360+)显卡,支持对并口/串口/USB 这些 PNP 设备的检测,支 持对各式各样的处理器的侦测。支持查看远程系统信息和管理,结果导出为 HTML、XML 功能。之前这款软 件命名为 AIDA32,后改名为 EVEREST,现在又改名为 AIDA64,真是够折腾的。 E3-1275 支持超线程技术,我们可以看到完整的 8 个线程 P67 主板仅能够支持双通道内存,不过我们刚刚在介绍 System Agent 的说过,这个双通道是经过重新设计 的 系统北桥实际上就是 System Agent,因为我们使用的是 P67 而非 H67,所以显示自带的 GPU 已禁用 主板南桥信息SPEC CPU 2006 的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据, 如 410.bwaves 流体力学、 416.gamess 量子化学、 433.milc 量子力学、 434.zeusmp 物理: 计算流体力学、 435.gromacs 生物化学/分子力学、 436.cactusADM 物理: 广义相对论、 437.leslie3d 流体力学、 444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、 454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共 17 项测试。 首先我们看到的是浮点预算的测试成绩,我们采用的对比处理器为至强 X3430。至强 X3430 是上一代 的单路服务器产品,采用 45nm 工艺,其主频为 2.4GHz,4 核心 4 线程。从这个测试结果来看,E3-1275 大 幅度领先于对比产品, 许多项目的性能提升在一倍以上。 这个原因是多方面的。 首先从主频上来看, E3-1275 相比 X3430 提升了 1GHz 的主频,差距很明显;其次是超线程的应用,8 线程相比 4 线程也提升了一倍;第 三是处理器微架构的差别,包括整体的设计及制造工艺。因此,至强 E3-1275 的明显优势也就没什么好奇 怪的了。SPEC CPU 2006 整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML 处理等,此外,各 种日常操作也主要是基于整数操作。SPEC CPU 2006 的整数运算包含了 400.perlbench PERL 编程语言、 401.bzip2 压缩、403.gcc C 编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因 序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、 471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML 处理共 12 项。刚才我们说过了 E3-1275 在硬件规格及软件设计上的三点优势, 这些优势在整数运算中表现更为明显, 部分项目领先了 X3430 达 5 倍之多。SiSoftware Sandra 是一款很不错的软件,但是对于 Sandy Bridge 平台来说,原来的 2010 版本已经 不能使用,而目前提供免费下载的版本型号为 2011Lite。相比我们之前使用的 Business 版本来说,Lite 版简化了许多的功能,还好我们常用的测试项目都还在。 在成绩分析前我们必须要清楚,这两个相对比的服务器平台所配的处理器分属于英特尔至强 5500 和 5600 前后两个不同的系列,虽然二者每个处理器都是 4 个核心,但是二者的工作频率却有比较大的差距, 联想万全 R525 G3 采用的至强 E5620 的工作主频为 2.4GHz,是至强 5600 系列中主频最低的,而对比服务 器平台所选用的至强 X5570 却是至强 5500 系列中工作主频最高的,为 2.93GHz。接下来的对比也将是两个 处理器配置悬殊的服务器平台间的较量。SiSoftware Sandra Lite 2011 产品名称 平台类型 至强 E3-1275 单路 Sandy Bridge Processor Arithmetic Benchmark 处理器算术运算测试 Dhrystone ALU Dhrystone ALU vs SPEED Whetstone iSSE3 Dhrystone iSSE3 vs SPEED 136.74GIPS 35.98MIPS/MHz 83.43 GFLOPS 21.96 MFLOPS/MHz Processor Multi-Media Benchmark 处理器多媒体测试 Multi-Media Int x16 iSSE4.1 Multi-Media Int x16 iSSE4.1 vs SPEED Multi-Media Float x8 iSSE2 201.26MPixel/s 78.26 kPixels/s/MHz 153MPixel/s 106.74MPixel/s 44.48kPixels/s/MHz 81.28MPixel/s 62244MIPS 48.75MIPS/MHz 29187MFLOPS 12.16MFLOPS/MHz 至强 X3430 单路 LynnfieldMulti-Media Float x8 iSSE2 vs SPEED59.48 kPixels/s/MHz33.87kPixels/s/MHzMulti-Media Double x4 iSSE2 Multi-Media Double x4 iSSE2 vs SPEED83.54MPixel/s 32.49 kPixels/s/MHz42.24MPixel/s 17.60kPixels/s/MHzMulti-Core Efficiency Benchmark 处理器效能测试 Inter-Core Bandwidth Inter-Core Bandwidth vs SPEED Inter-Core Latency(越小越好) Inter-Core Latency vs SPEED(越小越好) 16 GB/s 4.29 MB/s/MHz 42.4ns 0.01ns/MHz 13.27GB/s 5.66MB/s/MHz 60ns 0.03ns/MHz.NET Arithmetic Benchmark .NET 算术运算测试 Dhrystone .NET Dhrystone .NET vs SPEED Whetstone .NET Whetstone .NET vs SPEED18GIPS 5MIPS/MHz 50.1 GFLOPS 13.92MFLOPS/MHz .NET Multi-Media Benchmark .NET 多媒体测试11567MIPS 4.82MIPS/MHz 26730MFLOPS 11.14MFLOPS/MHzMulti-Media Int x1 .NET Multi-Media Int x1 .NET vs SPEED Multi-Media Float x1 .NET Multi-Media Float x1 .NET vs SPEED Multi-Media Double x1 .NET Multi-Media Double x1 .NET vs SPEED37.72 MPixel/s 9.93MPixel/s 13.7MPixel/s 3.61kPixels/s/MHz 27.22 MPixel/s 7.16 kPixels/s/MHz21.93MPixel/s 9.14kPixels/s/MHz 7.26MPixel/s 3.03kPixels/s/MHz 11.82MPixel/s 4.92kPixels/s/MHz依然是一边倒的成绩,我们甚至觉得选择 X3430 作为对比产品有点怠慢了 E3-1275。不过没办法,单 路服务器处理器数量太少,我们手中的数据有较为有限。SiSoftware Sandra Lite 2011 产品名称 平台类型 至强 E3-1275 单路 Sandy Bridge Memory Bandwidth Benchmark 内存带宽测试 IntBuff'd iSSE2 Memory Bandwidth Float Buff'd iSSE2 Memory Bandwidth 17.37 GB/s 17.37GB/s 13.78GB/s 13.77GB/s 至强 X3430 单路 LynnfieldMemory Latency Benchmark 内存延迟测试 Memory(Random Access) Latency (越小越 好) Speed Factor (越小越好) Internal Data Cache L2 On-board Cache73.3ns89ns68.20 4clocks 11clocks57.50 4clocks 9clocks L3 On-board Cache35clocks Cache and Memory Benchmark 缓存及内存测试47clocksCache/Memory Bandwidth Cache/Memory Bandwidth vs SPEED Speed Factor (越小越好) Internal Data Cache L2 On-board Cache97.76GB/s 27.06MB/s/MHz 38.10 427.84GB/s 287.5GB/s51.08GB/s 21.79MB/s/MHz 27.10 205.08GB/s 175.49GB/s内存带宽测试中,同样是双路的两款平台在性能上出现了较大的差异,特别是 L3 缓存的项目中差距较 大,这都是环形总线的功劳。CineBench 是基于 Cinem4D 工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性 能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此 就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench 可以完善地支持多核/多处理器, 它的显示子系统测试基于 OpenGL。CineBench R10 产品名称 至强 E3-1275 至强 X3430 平台类型单路 Sandy Bridge CPU Benchmark单路 LynnfieldRendering (1 CPU) Rendering (x CPU) Multiprocessor Speedup6041 CB-CPU 23643 CB-CPU 3.91x OpenGL Benchmark3868 CB-CPU 12964 CB-CPU 3.35xOpenGL Standard335 CB-GFX7690 CB-GFX至强 E3-1275 处理器本次测试的至强 E3-1275 是 E3 系列的高端产品,具备了 4 核心 8 线程,性能非常强悍。下面,我们将 关闭 E3-1275 的超线程功能,观察在这个状态下它的性能表现,以便总结超线程技术对于 Sandy Bridge 处 理器的影响。SiSoftware Sandra Lite 2011 产品名称 平台类型 至强 E3-1275(开启) 单路 Sandy Bridge Processor Arithmetic Benchmark 处理器算术运算测试 Dhrystone ALU Dhrystone ALU vs SPEED Whetstone iSSE3 Dhrystone iSSE3 vs SPEED 136.74GIPS 35.98MIPS/MHz 83.43 GFLOPS 21.96 MFLOPS/MHz Processor Multi-Media Benchmark 处理器多媒体测试 Multi-Media Int x16 iSSE4.1 Multi-Media Int x16 iSSE4.1 vs SPEED Multi-Media Float x8 iSSE2 201.26MPixel/s 78.26 kPixels/s/MHz 153MPixel/s 163.79MPixel/s 63.69kPixels/s/MHz 111.37 MPixel/s 106.77GIPS 28.86MIPS/MHz 49.57 GFLOPS 13.40MFLOPS/MHz 至强 E3-1275(关闭) 单路 Sandy BridgeMulti-Media Float x8 iSSE2 vs SPEED59.48 kPixels/s/MHz43.3kPixels/s/MHzMulti-Media Double x4 iSSE2 Multi-Media Double x4 iSSE2 vs SPEED83.54MPixel/s 32.49 kPixels/s/MHz60.16MPixel/s 23.4kPixels/s/MHz Multi-Core Efficiency Benchmark 处理器效能测试 Inter-Core Bandwidth Inter-Core Bandwidth vs SPEED Inter-Core Latency(越小越好) Inter-Core Latency vs SPEED(越小越好) 16 GB/s 4.29 MB/s/MHz 42.4ns 0.01ns/MHz 8.84GB/s 2.45MB/s/MHz 40.2ns 0.11ns/MHz.NET Arithmetic Benchmark .NET 算术运算测试 Dhrystone .NET Dhrystone .NET vs SPEED Whetstone .NET Whetstone .NET vs SPEED 18GIPS 5MIPS/MHz 50.1 GFLOPS 13.92MFLOPS/MHz .NET Multi-Media Benchmark .NET 多媒体测试 Multi-Media Int x1 .NET Multi-Media Int x1 .NET vs SPEED Multi-Media Float x1 .NET Multi-Media Float x1 .NET vs SPEED Multi-Media Double x1 .NET Multi-Media Double x1 .NET vs SPEED 37.72 MPixel/s 9.93MPixel/s 13.7MPixel/s 3.61kPixels/s/MHz 27.22 MPixel/s 7.16 kPixels/s/MHz 29.17MPixel/s 7.68kPixels/s/MHz 8.16MPixel/s 2.15kPixels/s/MHz 16.24MPixel/s 4.27kPixels/s/MHz 15.81GIPS 4.16MIPS/MHz 29.34GFLOPS 7.72MFLOPS/MHz对比开启与关闭超线程的测试数据我们发现,处理器计算性能方面,开启超线程之后会有 30%-50%左 右的性能提升,多媒体方面的性能提升为 30%左右。而在.NET 测试中,这个数值被缩小到了 15%-30%,效 能测试的时候两者的差距大约为 40%。总体而言,在开启超线程之后,Sandy Bridge 至强处理器在运算性 能上会有 30%左右的提升, 这个数值与 Nehalem 与 Westmere 的成绩是差不多的, 事实上我们也没发现 Sandy Bridge 在超线程方面有什么特别大的改动。接下来同样是开启与关闭超线程下的内存/缓存系统测试。SiSoftware Sandra Lite 2011 产品名称 平台类型 至强 E3-1275(开启) 单路 Sandy Bridge Memory Bandwidth Benchmark 至强 E3-1275(关闭) 单路 Sandy Bridge 内存带宽测试 IntBuff'd iSSE2 Memory Bandwidth Float Buff'd iSSE2 Memory Bandwidth 17.37 GB/s 17.37GB/s 17.78GB/s 17.78GB/sMemory Latency Benchmark 内存延迟测试 Memory(Random Access) Latency (越小越 好) Speed Factor (越小越好) Internal Data Cache L2 On-board Cache L3 On-board Cache73.3ns73.2ns68.20 4clocks 11clocks 35clocks Cache and Memory Benchmark 缓存及内存测试68.30 4clocks 11clocks 35clocksCache/Memory Bandwidth Cache/Memory Bandwidth vs SPEED Speed Factor (越小越好) Internal Data Cache L2 On-board Cache97.76GB/s 27.09MB/s/MHz 38.10 424.22GB/s 355.42GB/s100.55GB/s 27.09MB/s/MHz 39.10 424.22GB/s 355.42GB/s相对比的两台服务器所作用的处理器都采用了集成内存控制器的设计,由于工作主频的不同,这两款 不同处理器的 QPI 传输并不一样,联想万全 R525 G3 所用处理器的 QPI 带宽为 5.86GT/s,而对比平台的至 强 X5570 处理器的 QPI 为 6.4GT/s。不过这两个服务器平台的内存的实际工作频率却并不一样,虽然在测 试中两个平台所使用的内存条都是 DDR3 1333, 联想万全 R525 G3 共安装了 6 条, 它的实际工作频率为 1066, 而对比平台共装配了 18 条内存,内存工作频率只能达到 800MHz,也正是以上这一内存安装方式的不同, 直接导致了处理器 QPI 频率较低的联想万全 R525 G3 内存带宽成绩占了上风。最后我们进行的是 CineBench 项目的测试。CineBench 测试中有一个处理器核心能效比的内容,我们 相信这个项目更可以看出开关超线程之后的性能差距。CineBench R10 产品名称 平台类型 至强 E3-1275(开启) 单路 Sandy Bridge CPU Benchmark 至强 E3-1275(关闭) 单路 Sandy Bridge Rendering (1 CPU) Rendering (x CPU) Multiprocessor Speedup6041 CB-CPU 23643 CB-CPU 3.91x OpenGL Benchmark6188 CB-CPU 20886 CB-CPU 3.38xOpenGL Standard335 CB-GFX336 CB-GFXCineBench10 所进行测试项目在于考察单核心与多核心的性能对比。 我们可以看到, 对于 CineBench R10 来说,开启超线程下的 MS 成绩为 3.91,关闭的时候只有 3.38,相比之下提升了 15.6%。CineBench R11.5 产品名称 平台类型 至强 E3-1275(开启) 单路 Sandy Bridge CPU Benchmark Rendering (1 CPU) Rendering (x CPU) MP Ratio 1.52 pts 6.84 pts 4.51x OpenGL Benchmark OpenGL 1.42 pts 5.59 pts 3.95x 至强 E3-1275(关闭) 单路 Sandy Bridge而在最新的 Cinebench R11.5 进行的测试中,两者的成绩差距并没有拉大,依然在 15%左右。因为 CineBench 只考察核心与效能的关系,而之前我们的测试项目更多还依赖于整体平台的性能,因此单纯从 提升来说,CineBench 只能看到 15%的提升,但是开启超线程之后,整体平台的提升会更高一些。【IT168 评测中心】Tick-Tock 战略的出现,使 Intel 避免了在同一年更新制程和微架构,有效的规 避了新平台、新制程出现所带来的商业风险。而将新品首先试水桌面平台,进而在推广到服务器平台也是 非常明智的举措, 这次 Sandy Bridge 处理器就充分说明了这个问题。 事实上, 由于配套芯片组的问题, Sandy Bridge 处理器在推广之初就遭遇挫折,幸好 Intel 的反应够快,在服务器平台上我们并没有发现这样的问 题。而随着至强 Sandy Bridge 处理器的推出,也标志着 Intel 在桌面和服务器两个平台上全面转向了新的 微架构,Tock 时代终于到来了。 至强 Sandy Bridge 处理器终于现身了 Sandy Bridge 处理器相比上一代的产品有了非常大的改进,包括 AVX 指令集、环形总线架构、全新 System Agent 系统助手、革命性的整合 GPU 等内容。事实上,Sandy Bridge 最大的特征在于全 32nm 整合 CPU 和 GPU, 但对于服务器来说, 作为多媒体工具来说并没有实际的用处, GPU 除非可以通过 GPU 加速运算。我们再来看看性能。相比上一代的至强 3400 系列来说,至强 E3 系列在性能上有了大幅度的提升, 有 着至少 30%的性能优势,部分项目的性能优势得到了翻倍。相比之下,超线程方面自从 Nehalem 开始为至 强处理器增加了这一功能之后,在 Sandy Bridge 上面我们并没有看到明显的革新。对于至强系列来说,E3 仅仅是低端的入门版本,今年 Intel 主推的依然是面向双路服务器应用的 E5 系列,不过这个系列要等到下半年才可以看到。今天,Intel 发布了 E7 系列的产品,虽然使用了全新的命 名,但是 E7 却是我们熟知的 Westmere-EX。我们相信,随着新一代 Sandy Bridge 至强处理器的出现,我们在服务器领域可以看到越来越多的、性 能更为出色的产品出现。我们期待着这一天的早日到来。
Intel 至强 Sandy Bridge 处理器首发评测 2011 年 04 月 06 日 00:00 来源:it168 网站 作者:刘策 编辑:刘策 SiSoftware Sandra 是一款很不错的软件,但是对于...Turbo Boost 2.0 睿频技术,动态调控 CPU 和 GPU 频率 从 Nehalem 开始,英特尔...Intel至强Sandy Bridge处... 33页 2下载券 英特尔Sandy Bridge处理... 10页 ...E3 E5 E7区别_计算机硬件及网络_IT/计算机_专业资料。英特尔E3、E5、E7系列CPU区别 随着Intel E3 至强的全面发布,新一代 Sandy Bridge 至强将逐渐占据市场,取代...凌动 凌动处理器、 凌动 至强处理器、移动和智能...Intel 的工程师在 Sandy Bridge 上花费了许多心血,...究竟这项新技术会为评测成绩提升多少分呢?Intel 说...首发评测文章《秒杀上代旗舰 英特尔 SNB-E 处理器...作为 Intel 献给众多高端玩家的顶级大餐,Sandy Bridge...成绩仅仅落后于 8 和 16 线 程的 Xeon W5590,...Sandy Bridge资料_工学_高等教育_教育专区。2011年Intel最新处理器Sandy...Sandy Bridge 至强家族 能够看到 Sandy Bridge 至强家族的接口相对 Nehalem 至强...Intel Xeon E 系列服务器处理器 一、Intel Xeon E 系列 CPU 命名规则 首先,...内核架构今年才会从 Nehalem 升级到 Westmere, 而不会跨入 Sandy Bridge 时代。...英特尔至强E系列服务器处理器_计算机硬件及网络_IT/计算机_专业资料。Intel Xeon...慢,内核架构今年才会从 Nehalem 升级到 Westmere ,而不会跨入 Sandy Bridge ...服务器CPU Intel Xeon E5600与Intel Xeon E5-2600参数对比_计算机硬件及网络_...(Westmere EP 之后是 SandyBridge EP,再之后是 Ivy Bridge EP),工艺从 32nm ...20%-93% RH 浪潮服务器系列 型号 配置处理器: 英特尔至强处理器 Sandy Bridge-EP(E5-2600), 支持95W,115W 和130W 处理器 内存:提供 8 个内存插槽,最大 ...
All rights reserved Powered by
www.tceic.com
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 haswell sandy bridge 的文章

 

随机推荐