IT 作为一门专业学科的存在归功于寻求从信息中获得竞争优势的公司。今天,组织充斥着数据,但处理和分析数据的技术往往难以跟上每台机器、应用程序和传感器发出的源源不断的遥测数据的洪流。
事实证明,对于基于结构化数据库的传统信息系统而言,非结构化数据的爆炸式增长尤其具有挑战性,这引发了基于机器学习和深度学习的新算法的开发。这反过来又导致组织需要为机器学习、深度学习和人工智能工作负载购买或构建系统和基础设施。
在今天的文章中,让我们概述能够使用 AI/机器学习和深度学习的基础架构电脑配置要求
这是因为几何扩展的非结构化数据集、机器学习 (ML) 和深度学习 (DL) 研究的激增以及旨在并行化和加速 ML 和 DL 工作负载的成倍强大的硬件之间的联系激发了对企业 AI 的兴趣应用程序。IDC 预测,到 2024 年 AI 将变得普遍,四分之三的组织都在使用 AI,其中 20% 的工作负载和 15% 的企业基础设施将用于基于 AI 的应用程序。
企业将在云上构建许多此类应用程序。但是,训练和馈送此类算法所需的大量数据、将数据移动并存储在云中的高昂成本以及对实时或近实时结果的需求,意味着许多企业 AI 系统将部署在私有的专用系统上。
在为人工智能增强的未来做准备时,IT 必须应对许多架构和部署选择。其中最主要的是人工智能加速硬件集群的设计和规范。由于其密度、可扩展性和灵活性,一种很有前景的选择是超融合基础设施 (HCI) 系统。虽然人工智能优化硬件的许多元素都高度专业化,但整体设计与更普通的超融合硬件非常相似。
大多数 AI 系统运行在 Linux VM 上或作为 Docker 容器运行。事实上,大多数流行的 AI 开发框架和许多示例应用程序都可以作为来自 Nvidia 和其他公司的预打包容器映像提供。
- 计算机视觉,例如图像分类、对象检测(在图像或视频中)、图像分割和图像恢复;
- 语音和自然语言处理、语音识别和语言翻译;
- 基于先前的用户活动和参考提供评级和建议的个性化内容或产品的推荐系统;
- 内容分析、过滤和审核;和
这些在各种行业中都有应用,例如:
- 金融服务公司的欺诈分析和自动交易系统;
- 在线零售个性化和产品推荐;
- 物理安全公司的监控系统;和
- 石油地质分析,用于天然气和采矿公司的资源开采。
一些应用程序,例如网络安全和 IT 运营自动化系统 (AIOps) 的异常检测,跨越多个行业,基于人工智能的功能被纳入各种管理和监控产品。
将有一个用于 AI 和 ML 模型训练的海量历史数据存储库,以及用于模型推理和预测分析的高速传入数据流。机器学习和人工智能的数据集可以达到数百 TB 到 PB,通常是非结构化格式,如文本、图像、音频和视频,但包括半结构化内容,如 Web 点击流和系统日志。这使得这些数据集适用于对象存储或 NAS 文件系统。
机器和深度学习算法以数据为基础。数据选择、收集和预处理,例如过滤、分类和特征提取,是影响模型准确性和预测价值的主要因素。因此,数据聚合(整合来自多个来源的数据)和存储是影响硬件设计的 AI 应用程序的重要元素。
数据存储和 AI 计算所需的资源通常不会同步扩展。因此,大多数系统设计将两者解耦,在 AI 计算节点中使用本地存储设计为足够大且足够快以提供算法。
机器和深度学习算法需要大量的矩阵乘法和累加浮点运算。这些算法可以并行执行矩阵计算,这使得 ML 和 DL 类似于像素着色和光线跟踪等图形计算,这些计算由图形处理器单元 (GPU)大大加速。
但是,与 CGI 图形和图像不同,ML 和 DL 计算通常不需要双精度(64 位)甚至单精度(32 位)精度。这允许通过减少计算中使用的浮点位数来进一步提高性能。因此,尽管近十年来早期的深度学习研究使用了现成的 GPU 加速卡,但领先的 GPU 制造商英伟达已经建立了一条单独的数据中心 GPU 产品线,专为科学和人工智能工作负载量身定制。
AI 工作负载的典型服务器设计
- 中央处理器: 负责操作 VM 或容器子系统,将代码分派到 GPU 并处理 I/O。当前产品使用第二代 Xeon Scalable Platinum 或 Gold 处理器,尽管使用第二代(罗马)AMD Epyc CPU 的系统正变得越来越流行。当前一代 CPU 增加了可显着加速 ML 和 DL 推理操作的功能,使其适用于利用先前使用 GPU 训练的模型的生产 AI 工作负载。
- 网络: 由于 AI 系统通常聚集在一起以扩展性能,因此系统具有多个 10 gbps 或更高的以太网接口。有些还包括用于集群内通信的 InfiniBand 或专用 GPU (NVLink) 接口。
- 存储 IOPS:在存储和计算子系统之间移动数据是 AI 工作负载的另一个性能瓶颈。所以大多数系统使用本地 NVMe 驱动器而不是 SATA SSD。
GPU 一直是大多数 AI 工作负载的主力,英伟达通过 Tensor Cores、多实例 GPU(并行运行多个进程和 NVLink GPU 互连)等功能显着提高了它们的深度学习性能。然而,对速度和 效率的日益增长的需求 催生了大量新的人工智能处理器,如谷歌的 TPU、英特尔 Habana 人工智能处理器、Tachyum
企业可以通过选择正确的配置和系统组件,将任何超融合基础设施或高密度系统用于 AI。不过随着深度学习以及人工智能对电脑的要求越来越高,还是推荐大家选择呆猫云桌面轻松解决电脑配置瓶颈,轻松办公研究人工智能和深度学习。
呆猫云桌面后台可配置的CPU机器数量上不封顶,同时针对GPU机型呆猫设有天璇型、天玑型、天枢型三种选项,所有GPU机型皆配备NVIDIA专业级顶配显卡,在科学计算、渲染、游戏、办公等应用场景下的表现自不必说。
更多资讯,继续关注我吧,呆猫在手,轻松畅想高配电脑。