配备加速器(如GPU、FPGA或定制ASIC)的加速计算服务器通常可以处理AI工作负载,其效率远远高于通用CPU,但仍然只占云服务提供商总体服务器占地面积的一小部分。
分析师Baron Fung表示,这些加速器的成本是普通服务器的10倍,但正在成为数据中心资本支出的重要组成部分。
领先的云服务提供商正在增加针对人工智能工作负载的新基础设施的投资。例如,Facebook计划在2022年将资本支出增加50%以上,投资于人工智能和机器学习,以改善排名和推荐。从长远来看,随着该公司将其商业模式转向元宇宙,资本支出投资将由视频和计算密集型应用(如AR和VR)推动。
冯说,亚马逊、谷歌和微软等云服务提供商也计划增加以人工智能为重点的基础设施的支出,以使其企业客户能够部署具有增强智能和自动化的应用程序。
新的架构是计划的关键。
英特尔计划明年推出下一代Sapphire Rapids处理器。凭借其AMX(高级矩阵扩展)指令集,Sapphire Rapids针对AI和ML工作负载进行了优化。首次随Sapphire Rapids提供的CXL内存总线将在主机CPU和加速器之间建立内存一致的高速链路PCIe Gen 5接口。这反过来将通过降低延迟和跨设备更高效地共享资源来减少系统瓶颈。英特尔还达成协议,将其Ponte Vecchio离散GPU用于数据中心应用。
AMD预计也将在其EPYC热那亚处理器上提供CXL。ARM也将提供与之竞争的一致接口,如安培Altra处理器的CCIX和英伟达即将推出的Grace处理器上的NVlink。
人工智能应用需要大量带宽。出于这个原因,需要部署可用最快的网络来连接主机服务器到加速服务器,以促进大量非结构化数据和训练模型在主机CPU和加速器之间以及高性能计算集群中的加速器之间的移动。
一些一级云服务提供商正在部署400gbps以上的以太网网络。网络接口卡(NIC)也必须不断发展,以确保随着数据集的增大,服务器的连通性不会受到抑制。100gbps网卡已经成为大多数加速计算服务器的标准服务器访问速度。
然而,最近,200 Gbps NIC越来越多地用于这些高端工作负载,尤其是第1层云服务提供商。一些供应商通过将加速计算服务器与智能NIC或数据处理单元(DPU)集成,增加了额外的性能层。例如,Nvidia的DGX系统可以配置两个Bluefield-2 DPU,以方便大型数据集的数据包处理,并提供多租户隔离。
加速的计算服务器通常配备4个或更多的gpu,往往耗电很大。例如,带有8个A100 gpu的Nvidia DGX系统的最大系统功耗额定为6.5kW。
随着机架功率密度不断增加以支持加速计算硬件,空气冷却效率和极限正在达到。新型基于液体的热管理解决方案(包括浸入式冷却)正在开发中,以进一步提高加速计算服务器的热效率。
在GraphCore的AI Colossus芯片和IPU-PoD机架的设计中,功耗也是一个关键考虑因素。
www.delloro.com/market-research/data-center-it-infrastructure/data-center-capex/
相关文章
其他文章在eeNews欧洲