硬件对比评测:英特尔FPGA和英伟达和英特尔GPU哪

原标题:英伟达“AI霸权”重压当前,看挑战者们如何一战?| 独家专访Intel、深鉴科技、Allone

在 9 月底刚刚结束的 NVIDIA 北京 GTC(GPU 技术大会)上,黄仁勋发布了最新的 AI 深度学习方案布局,通过架构的改善,及新版开发工具的推出,除维持过去强势的学习性能外,更在推理效率超越了所有竞争对手,就连 Google 新推出不久的 TPU 2.0 也要甘拜下风。

图丨黄仁勋在 2017 北京 GTC 上做主题演讲(图片来源:DT 君)

但作为深度学习的另一热门方案,也就是近来被视为 GPU 地位最大潜在挑战者的 FPGA(现场可编程门阵列),是否就这样被 NVIDIA 的气势所压倒?那也未必。

FPGA 在应用上的弹性,以及本身具备的超低延迟特性,都让其在多家一线云端服务大厂的服务系统架构中占有一席之地,未来通过工艺的演进,以及算法的改良,都可再压榨出更大的潜能。

相比之下,NVIDIA 有强势的架构设计,其所发表的 TensorRT 更是把生态紧紧绑在自家 GPGPU 身上。然而,Intel 的 FPGA 方案反而改走兼容大度的路线,买下 Nervana 之后,其开发工具不只可针对自家 Altera 的 FPGA 支持最优化,甚至也可同步支持 GPU 计算的开发。

虽然从 NVIDIA 的角度来看,他们肯定不希望 FPGA 介入 GPGPU 的 AI 计算生态。但是从 Intel 的策略布局及一线云服务大厂的做法观察,考虑到未来计算内涵会越来越多元,若能结合多种计算架构,互相搭配,各自负担部分擅长的计算工作,并以统一的生态框架来避免开发上的问题,或许才是整个 AI 产业,或相关云服务厂商真正的长期发展目标。

针对异军突起的 FPGA 解决方案,DT 君日前分别对该领域最具代表性的三家厂商进行了系列专访,包括Intel 人工智能事业部首席技术官 Amir Khosrowshahi、深鉴科技 CEO 姚颂,以及台湾的Allone Solution 公司创始人刘淑敏。以下是本次 FPGA 系列专访的重点内容:

针对 Nervana 目前的平台支持状况,Amir 表示,Nervana 的发展目标就是为了要解决问题,当初 AI 计算以 CUDA 领导的 GPGPU 生态为主,Nervana 理所当然的把 GPU 计算与生态开发当成第一目标。但随着 Xeon Phi、FPGA 等计算生态也逐渐成熟,Nervana 把发展重心也逐渐转移到后者,但作为融合不同计算架构的接着剂,过去的技术积累不会轻易放弃,Nervana 同样能支持各家最新的架构,包含 NVIDIA 的 Volta,以及随着 Volta 发表的最新一代开发环境 TensorRT 的所有特性。

当然,谈到 NVIDA,Amir 也表示其 Volta 架构所集成的 Tensor Core 是个相当有趣的东西,但 Amir 也强调,Tensor Core 的概念其实并不是很新奇的东西,作为辅助的向量加速计算架构,其实早在超级计算器 CRAY 当中出现,也不是 NVIDIA 才有集成这样的加速架构,未来 Intel 下一代 Xeon Phi 产品,代号 Knights Mill 也将加入了针对向量计算加速的两大指令,也就是 QFMA 以及 QVNNI,可大幅加速机器学习以及推理能力。

而 Xeon Phi 相较起 GPU 架构,具备更大的内存支持能力,其对于 AI 应用的计算效率表现理论上会更优秀,且可有效避免数据传输的瓶颈产生。

Amir 谈到 Nervana Engine,也就是集成 FPGA 与 HBM 内存的高效能深度学习架构,特别强调 FPGA 是个延迟非常低的架构。由于集成庞大的片上内存,学习的数据与产生的模型可以放在本地端内存,不需要做额外的数据迁移动作,可大幅减少对总线带宽的消耗。

但随着 AI 的发展,其实社会上也出现了不少针对 AI 应用的疑虑,虽然说开发者开发 AI 的原意都是为了要改善社会,不论是增加产能,或者是改善交通安全,但随之而来的各类型应用,让人类产生害怕被取代的声音。

对于这个充满争议的问题,Amir 对 DT 君表示,AI 是中立的,为了建构 AI 所学习的数据也是中性的,理论上不存在偏差,而 AI 基本上都是针对性的应用,比如说飞机有飞机的 AI,汽车有汽车的 AI,这些个别 AI 都是设计来辅助人类,并没有一个 AI 取代所有应用的状况。当然,部份取代在所难免,但从过去技术的发展轨迹观察,当新的技术推出后取代了部份人类的工作,也会有相对应的工作机会产生,所以其实对 AI 产业还是可以保持审慎乐观的态度。

有效减少神经网络核心复杂度:深鉴科技 CEO 姚颂

深鉴科技是近期在人工智能领域迅速崛起的一家初创公司。深鉴提供的核心服务主要就是一套深度压缩(deep compression)算法,通过此算法,可降低在机器学习后最终产生模型的复杂度,结果就是更加快速的推理过程,以及更加精简的存储空间需求。

姚颂也特别跟 DT 君仔细说明了这套算法的核心逻辑:由于机器学习过程中产生的数值表,其实大部份内容都会是零,透过深鉴发展出来的算法,可自动剔除这些只是用来填空用的数值,只保留有意义的部份。

图丨深鉴科技 CEO 姚颂

但姚颂也强调,由于这套算法非常严谨,为了避免误判,而剔除不该剔除的部份,使用这套算法通常会延长机器学习所需要的时间,旧版算法需要人工操作,确认应该剔除的部份,但随着版本的更新,目前多余数据的剔除已经可以作到完全自动化。虽然需要的计算时间因为计算复杂度的关系,并不会缩短,但自动化流程可减少人工干预,让人力可以用在更有意义的工作上。

目前,深鉴也利用 Xilinx 的 FPGA 开发了自有的 DPU 方案 Aristotle(亚里士多德),这个方案基于 Zynq 7020 SoC 架构,支持包含 1x1、3x3 的 CNN(卷积神经网络)操作,这个架构主要针对视频、图像的识别,由于架构的可延伸性,此方案也常被应用于包含服务器或者是像无人机、汽车、安防监控、机器人等应用中。

图丨深鉴的两大主力方案,分别针对语音识别以及图像识别两大类型应用,也都加入了神经网络压缩特性,加速最终的推理性能。

另外,Descartes(笛卡尔)方案则是针对语音识别的架构,与 Aristotle 不同的是,此为针对 RNN(循环神经网络)技术,内置了神经网络压缩技术,可大幅加速语音识别的效率。深鉴科技目前正在与全球一线科技公司合作来推进这套方案的部署,同时,此方案目前也被其他国内厂商所采用。

姚颂表示,由于深鉴的算法都是自主开发,虽然指令集与编译程序都属于非常成熟的阶段,但为简化开发复杂度,目前还是通过 Xilinx 的 FPGA 架构来构建方案。但将来也不排除开发”硬”化的 DPU 架构。

而深鉴也在算法方面,为合作伙伴提供专业的技术协助。比如说合作伙伴之一联发科,目前在发展自有的汽车芯片,而在关键的图像辨识算法方面就在与深鉴科技进行合作,希望利用深鉴在算法方面的优势,大幅加速未来基于联发科汽车芯片的图像处理能力。

另外,姚颂还表示,目前也在与合作厂商开发类似 Kirin970 的终端 AI 处理能力,这部份进度和细节目前还不方便透露,但预期计算水平将可和业界主流方案相提并论。

边缘计算:致力改善 AI 传输瓶颈,Allone Solution 公司创始人刘淑敏

Allone 创始人刘淑敏在创办这家公司之前,曾经在半导体公司从事 CPU 设计的工作,对于相关技术研发工作有着极为丰富的经验。

目前 Allone 主要业务是协助客户把算法集成到 FPGA 之中,从而加速应用计算效能,而 Allone 本身也具有技术开发能力,且拥有不少关于存储的关键技术,比如说拥有 SATA Phy 等核心专利,表面上和 AI 产业并没有太大的关系,但实际上,AI 计算时需要大量的数据流出与流入,这对于网络以及系统总线会产生庞大的压力,事实上,根据刘淑敏的说法,不少 AI 架构都处于因为计算速度太快,导致系统总线来不及喂数据的窘况。

Allone 除了协助客户把算法硬件化以外,也同时开发基于 FPGA 存储子系统加速单元,通过高效率的数据压缩处理技术,可以大幅减低系统总线的负担。

图丨透过 Allone 所开发的数据加速芯片,可有效减少神经网络学习的数据大小,缩短传输时间,增进整体 AI 计算效率。

目前的 AI 生态,从终端收集完数据传到云端,再把模型从云端传回到终端的过程,延迟太高,使用者的体验不佳,所以需要建立相当数量的边缘计算架构,借以分担云端的计算、传输负担,加速整个传输过程,让云端到终端的延迟削减到最小,甚至在终端或边缘端就做好计算工作。

不论是物联网、汽车、零售业等,多数计算都发生在数据产生的地方,如果能在数据发生处就做好神经网络计算,那就可以大幅降低云端的负载。当然,边缘计算仍只是云端计算的补充,即便是未来终端的 AI 应用,也无法完全取代云端计算。

刘淑敏也向 DT 君表示,中国大陆发展 AI 的速度相当惊人。目前大陆的制造业转型非常快,不少原本做电器或者消费性电子产品的公司也开始纷纷加入 AI 的行列,这些公司不一定会建自有的计算服务,但多半还是会和特定云服务结合,随着产品出货的增加,以及市场热度的增温,产生的数据也越来越多,对存储以及相关边缘计算的需求一定会带起来,而这也是 Allone 瞄准的主要市场目标之一。

从 CPU 到 FPGA,半导体技术将 AI 理论变为现实

AI 的概念发展极早,早在 19 世纪初期就有人提出图灵测试的概念,假设机器能拥有人类智能,并依此推理设计了相关判断方法。

而在 1950 年代,类神经网络的概念被提出,如果利用数学来对神经元的动作进行仿真计算,理论上能建构出模仿人类观察、学习、判断事物的人造对象。当然,这个时期还没有半导体技术的支撑,所以这些概念只是停留在理论阶段。

而我们现在讲的机器学习与逻辑判断的概念,也同样出现在半导体技术面世之前,Herbert Simon 在 1960 年代提出用算法对人类推理的过程进行仿真,而这类算法也成为现今 AI 计算的基础。

当第一个 CPU 在 1971 年被发明出来,AI 这种很早就被提出来的理论科学却没有跟着起飞,最初受惠的反而是科学、商业等应用。这时业界都在讨论商用智能或专家系统,离 AI 概念还很远。

图丨英特尔在1971年推出的第一个CPU

进入 21 世纪后,网络应用成为主流,计算机成为必备。而后手机等各种智能终端也不断推陈出新,市场也越来越重视智能这两个字在产品中所能代表的意义。也因此,从云到端,我们都可以看到不同计算架构上开始把这些提出已超过半个世纪的 AI 概念整合进去,提供更多元化的服务,甚至,有些 AI 也开始做起人类的工作。

以上是以 AI 本身的发展历程来解说,但如果是以半导体技术的发展为依归,可以分为四个大阶段,分别为 CPU、GPU、混合式架构、以及包容所有架构的 FPGA。

最早被用来做 AI 相关的计算工作的还是以 CPU 为主,CPU 有其天生限制,比如说其指令集天生缺乏效率,X86 指令集极为古老。把多数复杂操作包成单一指令,虽可节省存储空间,但效率低,而 RISC 指令集架构则是相对做了许多简化,为了描述完整的计算内涵,程序复杂度却也因而提高,增加了对存储空间的需求。

但后来 X86 引入了管线设计与单一指令多重处理的概念,用以增强效率,RISC 方面除指令集的落差外,发展脉络也和 X86 架构相似,并导入不少向量加速单元的设计,强化处理特定数学计算的能力。

图丨数十年前的超级计算机 CRAY 就是个结合庞大向量加速单元的架构。

这些向量加速单元其实功能就如今日的 Tensor Core 或 TPU 单元,概念上一致性相当高。

但数十年前工艺实在太落后,即便芯片设计概念和现在落差不大,但在规模、功耗以及成本方面无法与在相提并论。加上计算机应用在一般消费市场极为冷门等客观条件限制,除了少部分艰深的科学计算以外,很难普及到一般应用中。

然而 CPU 还有另外一个弱点,那就是循环、分支预测错误造成的延迟,虽然可以通过架构的设计来尽量避免,但必须付出相当可观的成本,也因此后续才有更多 AI 的专用架构推出,毕竟只靠 CPU,是无法满足 AI 计算所需要的效能。

这个时期的 AI 计算工作虽然已经有学习以及建立模型的概念,甚至也发展出类神经网络技术,但都只是停留在科研的层面,且因半导体技术的落后,无法进行太复杂的计算。

随后,AI 在学习的规模上借助 GPGPU 的帮助得以大幅增加,在各种科学计算,以及视觉处理方面,GPGPU 展现出了极高的弹性以及效能表现,但是在推理部分,由于 GPU 能够处理的数据精度固定,虽对学习的高速计算目的帮助很大,但用于推理就有点杀鸡用牛刀的感觉,一来推理不需要用到太高的精度,二来又要兼顾带宽限制以及存储需求。

图丨GPGPU 的概念就是利用 GPU 的海量处理单元同时进行庞大数量的计算工作。

而 GPU 本身仍需针对传统应用,也就是绘图功能优化,无法针对 AI 的需求进行完全改造,因此,TPU 这种向量计算架构也应运而生,TPU 本身可针对低精度计算优化,且结合大量的片上内存,模型的存取与计算可直接在本地完成,不需要太多数据迁移,因此有效环节传输瓶颈。

TPU 发展到第二代,除了原本一代 TPU 就具备的推理能力,也增加了效率不错的学习功能,让 TPU 一跃成为完整的 AI 方案。但是 TPU 是 Google 用来验证 TensorFlow 的试验性硬件,并非真的要用来打相关方案市场,反而 Google 会希望业界参考相关做法,可真正设计出为 TensorFlow 优化的计算硬件设计,帮助扩大相关的生态。

图丨TPU 的目的不是用来进行市场竞争,而是要用来展示 TensorFlow 标准架构所能具备的计算能力。

所以 NVIDIA 在其最新的 Volta 架构中导入了 Tensor Core 设计,而 Google 也在第一时间在其云端服务器上导入了 Volta 架构,就可证明,这是 Google 引导市场风向的一贯做法,并非真的要加入直接竞争的局面。

但 Google 的如意算盘虽然打得精,但业界也未必都会选择 Google 这条路,GPU 目前只有两家能够供应,而在 AI 领域基本上就是 NVIDIA 的独角戏。TPU 架构概念其实很单纯,那就是加了庞大片上内存的向量加速单元,架构本身并不特别,现在 NVIDIA 有了 Tensor Core,Intel 则是增加了 QFMA 和 QVNNI 两种向量加速指令。

最后是 FPGA,其发展其实仅略晚于 CPU,其现身于 1980 年代,由 Xilinx(赛灵思)发明。FPGA 最大的优势在于其逻辑电路可完全自定义,要用 FPGA 做到 CPU、GPU 功能,甚至专用的数学计算单元,如 DSP 等,基本上都不是问题,只要开发者够有创意,透过烧写 FPGA 内部固件程序,就可赋予 FPGA 全然不同的功能。

虽然性能优秀,仅略低于固定功能的 ASIC,且拥有强大的可自定义能力,但是在 AI 领域,FPGA 其实发展的比 GPU 还要晚,就是因为弹性太大,业界缺乏足够好的开发工具来探索 FPGA 的真正潜力。

业界如果要采用 FPGA,那就是要从头到尾都自己来,在开发工具完整性不够的情况下,开发旷日废时不说,FPGA 芯片成本又高,且相较于其他主流计算架构又更耗电,所以在应用上主要还是针对军工、医疗等较封闭的应用,消费性应用少之又少,也难打入服务器架构。即便 AI 议题渐热,FPGA 仍被闲置在冷宫相当久一段时间。

不过随着时间过去,各 FPGA 大厂都开始关注 AI 应用在云端以及终端的潜力,开发工具也终于逐渐完善,并支持各种主流 AI 标准,FPGA 在 AI 应用方面的计算潜力也才真正有了发挥的空间。

不过 FPGA 不仅止于 AI 相关的计算,由于 FPGA 过去担当各种数据传输主要干道的核心整流工作,面对 AI 所带来的庞大数据流,不只是输入,或者输出,如果没有一个高效率的管理核心来进行数据的压缩、导流,那么就算担当 AI 计算的核心再怎么强大,那整体效率还是高不起来。

而这也就是 FPGA 之所以担任“超强黏着剂”的意义所在。

目前 FPGA 不只能担当 AI 的计算部分,也可和不同架构协同处理,共同解决 AI 计算中的各种问题,毕竟 CPU、GPU、TPU 等架构主要还是针对计算的部分,数据传输还是需要外部组件来处理,FPGA 就可很好的扮演协调数据传输的角色,而当有需要时,又能介入处理 AI 计算,可说是进可攻退可守。

由于前两大 FPGA 供货商就占了全球约九成市场,所以针对这两大 FPGA 供货商进行简单介绍。

当然,前者是为了那些希望从头打造自有方案的客户提供的开发环境,针对主流的 AI 学习方面,Xilinx 也推出 reVISION 堆栈,针对机器视觉、机器学习等应用优化,完整支持了 OpenVX、OpenCL、Caffe 等主要标准,并支持了 AI 所需要的学习以及推理流程,协助客户快速建构完整的方案。

Xilinx 目前占市场超过 53% 以上的份额(以营收比重区分),其完善的开发工具可说功不可没。过去专注高端方案的推出,也成功确保了获利。

Altera 过去在 FPGA 市场的经营并不算成功,主要是因为过于集中在中低端市场,导致营收明显不如竞争对手

被 Intel 并购之后,其实也有不短的时间找不到方向,原本 Intel 期望借助 FPGA 之力来对抗 GPGPU,但是在开发生态明显不如 NVIDIA 的状况下,只好缩回头继续打磨生态,期望有新的应用可以让 FPGA 重新发光,且最好能够统整 Intel 自家的主要计算架构,构成足以和 GPGPU 对抗的坚实生态。

而并购 Nervana 可以说是 Intel 最重要的一步棋,通过 Nervana 提供的一站到位式套件服务,开发者可以快速开发出针对不同行业应用的方案。

Nervana 过去最令人称道的,就属于其针对所有 AI 计算应用支持的广泛性,由于基于号称现有计算理论上最快的矩阵操作算法 Coppersmith–Winograd algorithm,原本矩阵算法算是 GPU 的长处,但 GPU 针对的是计算器图学应用设计,并非 AI 优化,理论上,如果有专用架构,使用针对 AI 优化的专用矩阵,那么效率会比 GPGPU 更高。

Nervana,就可以无缝衔接这些计算能力,达成更高效能,或者更多元化的应用方式。

图丨通过 Nervana,开发者可在同一个开发体系下,快速支持不同标准,加入不同应用(数据源:Intel

当然,Intel 的长期目标肯定还是会以自家架构取代竞品,但短期之内,Nervana 对于开发者的友善程度,以及高效能的表现,仍可有效协助 Intel 打通过去因为开发工具包不够友善、支持性不够广的关系,改选择 CUDA 等敌对生态的客户。

图丨Intel 所推出的运算芯片 Nervana Engine,代号为 Lake Crest,是专为深度学习的工作负载所设计的,将提供极高的运算密度,大幅超越现行 GPU 的运算能力。

FPGA 已全面融入全球主流云服务商

目前几乎所有云服务企业都已经先后导入 FPGA 架构,协助处理整个云端 AI 计算的瓶颈。

还无法完全配合这么彻底之故。

在深度学习方面,自然语音识别已经成为各家云服务公司的核心项目之一,Amazon 正试图通过 FPGA 方案来加速 Alexa 的反应速度,微软也期望透过 FPGA 在推理的优势效率,改善其语音秘书 Cortana 的识别正确度与响应速度。

Google 的语音助手是目前最优秀的 AI 语音助手之一,但其并非通过 FPGA 加速,而是采用自家的 TPU 结合 GPGPU 方案,分别从学习与推理的效能着手,配合自家优势的搜索引擎,改善辨识正确性。

百度与腾讯的语音服务目前绑定的服务要比其他国外云服务厂商更多,但是在自然语言辨识能力方面还是要稍弱后者,但未来语音助手也会随着 FPGA 架构的导入而有所优化。

导读: 当前AI芯片主要分为GPU、FPGA、ASIC及类脑芯片等。本文将从通用芯片CPU及它的创始者英特尔说起,梳理AI浪潮下不同的芯片架构,及它们所构筑的科技帝国。

除赛灵思以53%的份额(咨询公司Gartner2016年数据)占据FPGA市场头把交椅外,阿尔特拉(Altera)以36%的份额位居其后。2015年6月,阿尔特拉被英特尔以167亿美元的价格收购后,英特尔在其基础上成立了可编程事业部。今年4月,英特尔的FGPA被正式应用于主流的数据中心OEM厂商中,主要客户包括戴尔、富士通等。

不过老大赛灵思在回复如何看待阿尔特拉被英特尔收购时,傲娇的表示:“我们依旧是第一,只是尾巴丢了”。

但由于FPGA要保证编程的灵活性,电路上会有大量冗余,因此成本上不能像ASIC做到最优,工作频率也不能太高。因而,在ASIC还并不成熟,同时GPU功耗和成本较高的现阶段发展较好。

谷歌和ASIC:“专精职业选手”,专一决定效率,AI芯片未来

随着专用化需求的进一步发展,芯片界又诞生了ASIC。ASIC(Application Specific Integrated Circuit)即专用,本文中特指专门为AI应用设计、专属架构的处理器芯片。

近年来涌现的类似TPU、NPU、VPU、BPU等,本质上都属于ASIC。无论是从性能、面积、功耗等各方面,AISC都优于GPU和FPGA,长期来看,ASIC代表AI芯片的未来。

ASIC架构典型的代表,是谷歌的张量处理器TPU,其采用了脉动阵列的组织方式。2016年,谷歌TPU在AlphaGo与李世石一役中横空出世,使AlphaGo“思考”棋招和预判局势,处理速度比GPU和CPU快上几十倍。令人惊艳的的TPU,也一度被认为是AI芯片业内新的搅局者。不过TPU的资历也没比以上几位年轻,哈佛大学孔祥重教授在1970 s就提出了TPU的脉动阵列组织方式。

今年2月,谷歌也以Beta测试的形式开放了一直只是自用的TPU,服务的名称为Cloud TPUs(云端TPUs),用于云端服务器。今年5月Google云端芯还发布了TPU 3.0,8月谷歌又推出一款为边缘计算定制的Edge TPU。

不过TPU目前并不对外发售,并且要想进入更多市场,它的通用性仍需检验。但谷歌TPU的推出,以及测试版对中小企业的开放,还是会对英伟达带来一定威胁。

而AS领域,也有一大批追赶者。以我国的初创企业而言,2017年9月,华为发售的AI芯片麒麟970上的NPU(属ASIC架构)集成了初创芯片企业寒武纪的1A处理器作为其核心处理单元。

2017年1月,地平线携手英特尔发布基于BPU(属ASIC架构)架构的最新高级辅助驾驶系统,12月,地平线机器人发布“旭日”和“征程”两款嵌入式AI芯片,面向智能驾驶和智能摄像头。

2016年,英特尔收购的视觉处理芯片企业Movidius,其研发的VPU也是ASIC芯片。

在AI算法尚处于蓬勃发展、快速迭代的今天,ASIC存在开发周期较长、需要底层硬件编程、灵活性较低等劣势,因此目前发展速度还不及GPU和FPGA。但长期来看,ASIC是AI芯片的未来。

IBM和类脑芯片:另辟蹊径,颠覆传统计算架构,仍在研发

另外,在传统架构之外,还有一类“不走寻常路”的芯片,这就是“类脑芯片”。“类脑芯片”颠覆传统计算架构,将数字处理器当作神经元,把内存作为突触,内存、CPU和通信部件完全集成在一起,采用模拟人脑神经元结构来提升计算能力。

“类脑芯片”以IBM TrueNorth芯片为代表,但由于技术和底层硬件的限制,其尚处于前期研发阶段,目前不具备大规模商业应用的可能性。从技术成熟度和商业可行性两个角度,使用AI专属硬件进行加速运算是今后五年及以上的市场主流。

我国初创企业西井科技也在研发类脑芯片,其宣称“芯片用电路模拟神经,成品有100亿规模的仿真神经元,可用于基因测序、模拟大脑放电等领域”。

不过,类脑芯片的商用并不乐观,西井目前也从研究类脑芯片转向自动驾驶领域。

总结:诸侯混战,同赛道纠缠,不同架构竞争

从CPU、GPU、FPGA,到ASIC及类脑芯片,从英特尔、英伟达、赛灵思、谷歌再到IBM,可以看出芯片业最近50年可谓风起云涌,而人工智能芯片的兴起只是最近的一次浪潮。

GPU、FPGA、ASIC及类脑芯片等可用于AI的芯片,也只是目前登场的芯片中的一小部分,其商用场景还未完全展开。而当前的AI芯片中,应用还是以GPU领先,FPGA可能成为下一个爆点,ASIC目前是被看好、但不成熟的新星。

再看芯片巨头的斗争,英特尔与ARM在CPU市场、英伟达和AMD在GPU市场、赛灵思和阿尔特拉在FPGA市场上,及谷歌和一些创企在ASIC市场的竞争……而在AI浪潮下引导的芯片革新上,英特尔与英伟达,赛灵思以及谷歌又在不同芯片架构及应用场景间进行斗争。

可以说这确实是一场“诸侯混战”,而身处变革中的每一个巨头,都不想在战争中先倒下。

声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。

【新智元导读】日前,赛灵思在北京召开新闻发布会,新任CEO Victor Peng首次在北京公开露面并接受媒体采访。在发布了以数据中心优先、加速主流市场的增长和驱动灵活应变的计算三大战略之后,Victor同时宣布正式推出ACAP(Adaptive Compute Acceleration Platform,自适应计算加速平台)。

日前,赛灵思在北京召开新闻发布会,新任CEO Victor Peng首次在北京公开露面并接受媒体采访。在发布了以数据中心优先、加速主流市场的增长和驱动灵活应变的计算三大战略之后,Victor同时宣布正式推出ACAP(Adaptive Compute Acceleration Platform,自适应计算加速平台)。

据赛灵思介绍,ACAP是一个高度集成的多核异构计算平台,它的核心是新一代FPGA架构,能根据各种应用与工作负载的需求从硬件层对其进行灵活变化。ACAP的灵活应变能力可在工作过程中进行动态调节,它的功能将远超FPGA的极限。

在Victor看来,推出ACAP将有助于赛灵思在一个全新的市场与更高层次的对手展开新的竞争。

竞争升级,赛灵思称人工智能时代主要竞争对手是英特尔和英伟达

灵活应变应变能力是ACAP的一大核心卖点,显然这是针对英特尔和英伟达来的,

尤其是在人工智能时代,赛灵思也想通过这一优势来实现对英特尔和英伟达的后来居上。

在竞争方面,由于最大的竞争对手Altera在2015年就已经被英特尔收入囊中,因此赛灵思的新竞争对手则变成了英特尔、英伟达等企业。用Victor的话来说,这相当于赛灵思成功实现了晋级,将在一个更高的层次与英特尔和英伟达这样的企业展开新的竞争。

人工智能是未来趋势这一点也得到了Victor的认同。在数据大爆炸和后摩尔定律时代,计算异构化趋势加速。

面对这种趋势,Victor表示传统的CPU已经无法处理现在各行各业所产生的数据,GPU虽然在某些方面比CPU能处理的更好,但也不能适应所有的情况,因此现在更多需要的是异构计算。

在谈到竞争时,Victor指出,在面对英特尔和英伟达这样的竞争对手时,应该要专注于赛灵思的核心竞争力,也就是在硬件这个层面能够根据不同的工作负载以及用力进行非常灵活适应性的优化,而不是在传统的领域和他们去竞争。例如不会做出一个SoC跟英特尔的处理器去竞争,也不会拿GPU的产品和英伟达去竞争。

具体到AI的产品领域,Victor在发布会后接受新智元采访时表示,当前赛灵思在AI领域遇到的最大挑战就是易用性的问题,即要改善开发环境让开发者不需要去理解一些非常低层次的细节,通过AI来进行加速以帮助开发者来更好地使用赛灵思的产品。

软硬件结合才能打天下,赛灵思IP工程师已经超过芯片工程师

赛灵思发布新战略并推出新的计算平台和产品

针对总结的三大趋势,Victor也提出了他上任后要带领赛灵思转型的三大战略方向。

首先就是数据中心优先。在赛灵思看来,数据中心不仅是一个仍将有非常迅速增长空间的大市场,而且它还将会颠覆很多行业,对于赛灵思来说这是一个全新的增长机遇。

在数据中心这一领域,赛灵思也实施了多方面的转型。首先就是从以往主要支持硬件开发者向更多地实现对软件开发者的支持来满足更多用户的需求;其次还重点加强了生态系统的构建,据Victor介绍,目前赛灵思已经和更多的高校在开源计算方面展开了合作,也希望建设一个非常广阔的能够让软件开发者使用的生态系统,目前该生态系统已经扩展到了40家以上的企业。

而在内部资源的投入方面,赛灵思也认识到了软件的重要性并加大了这方面的投入。Victor指出,当前赛灵思的研发团队在IP和软件方面的工程师数已经超过了芯片工程师的数量,另外就是要让更多的软件开发者来使用赛灵思的平台。此外赛灵思还将和其他公司合作建立一个生态系统,和更多的高校合作做更多的开源计算。

战略转型必然带来产品的转型和升级。此次发布的ACAP就是赛灵思寄以很高期望的产品,Victor表示它将帮助赛灵思朝着FPGA以外的领域发展,并突破“仅支持硬件开发者”的局限。

据赛灵思介绍,ACAP还结合了分布式存储器与硬件可编程的DSP模块、一个多核SoC以及一个或多个软件可编程且同时又具备硬件灵活应变性的计算引擎,并全部通过片上网络(NoC)实现互连。此外,ACAP还拥有适用于安全与电源管理的片上控制模块、硬件可编程存储控制器、CCIX和PCle支持、多模式以太网控制器、可编程I/O接口与SerDes,并且部分器件还提供高带宽存储器或可编程的ADC和DAC。软件开发人员可利用诸如C/C++、OpenCL和Python等工具针对基于ACAP的系统开展开发工作。ACAP也能利用FPGA工具从RTL级进行编程。

赛灵思方面表示,ACAP首款代号为“Everest(珠穆朗玛)”的产品将采用台积电7纳米工艺技术开发,赛灵思已经将软件工具交付给了重要客户,并将于今年晚些时候实现流片,2019年可以供货。

中国市场收入居赛灵思各大市场榜首 将加大中国市场投入力度

在行业方面,Victor表示赛灵思已支持汽车、无线基础设施、有线通信、音视频与广播、航空航天、工业科学与医疗、测试测量与仿真、消费类电子等行业,这些行业已经有了一些重大变化的趋势,将会对我们的生活带来非常大的影响。

而具体到不同国家市场的对比时,Victor在接受新智元采访时指出,中美两国市场的发展都令人非常振奋,而且都有非常好的机遇。其中美国有很多成熟的GPU和CPU的公司,他们几乎占据了全球的半壁江山,赛灵思在美国市场有很好的发展。

具体到中国市场,此前,赛灵思已经在中国市场投资了深鉴科技,还并购了一家做高层次综合技术的研发团队。Victor称中国市场的发展非常快,在创新方面有非常好的资源优势,比如有很好的高校和人才,未来还将继续在中国市场关注和投资其他很有前途的创业型、创新型的企业。

据Victor介绍,赛灵思在中国市场获得的收入已经跃居全球各大市场榜首,赛灵思将会加强在中国的推广,包括与高校、开源、社区和论坛等平台上的互动。同时还将增加在大中华区的销售力量、对组织架构等方面的内部问题也将进行加强和调整。

不过在中国市场,赛灵思也面临着诸多竞争。随着“中国制造2025”等重大战略的实施,中国也涌现出了一批人工智能芯片创业公司,其中就包括已经获得赛灵思投资的深鉴科技。另外根据此前发布的《国家集成电路产业发展推进纲要》的计划,中国的集成电路产业链主要环节要达到国际先进水平,一批企业进入国际第一梯队,实现跨越发展。

与拥有地利、人和甚至天时的中国创业公司竞争,赛灵思未来仍需努力。

我要回帖

更多关于 英伟达和英特尔 的文章

 

随机推荐