很多人都对IBM全新的POWER9CPU、英伟达VoltaGPU以及NVLink高速互联技术有所了解。今年10月,在浪潮商用机器推出的全新OpenPOWER服务器中,这些技术已走出实验室,将为各家科技公司带来人工智能计算的强大动力。
号称「为AI运算设计」的POWER9会对服务器市场带来多大的冲击?近日,机器之心来到了浪潮商用机器公司,与浪潮的工程师们聊了聊,深入了解了全新芯片架构,以及新服务器的强大性能。
浪潮表示,这款被称为「全球最强AI服务器」的新产品,其强大之处在于:
采用了「最卓越CPU+最强悍GPU」POWER9与TeslaV100的组合
首发支持PCIe4.0传输技术
最简洁,最有特色的AI/HPC专用架构
带来PowerAI深度学习框架,已为企业应用部署做好准备
架构带来的高维度优势
与市面上大部分x86计算机不同,POWER9架构采用了特有的硬件架构。2013年,IBM发起了OpenPOWER计划,致力于推动高度可扩展性和计算加速性能。去年12月,IBM推出了新一代POWER9处理器,其强大的性能引起了业内的广泛关注。目前,谷歌、阿里巴巴、腾讯和大华等科技公司都成为了POWER9服务器的合作伙伴,正在测试和应用搭载POWER9的系统。
(图注)IBM的POWER与IntelXeon、AMDEPYC是目前服务器市场上的三种主要处理器类型。
「OpenPOWER一方面包含处理器,它开放了授权,允许合作伙伴共同开发处理器性能。」OpenPOWER服务器产品经理张峰介绍道,「POWER架构面向很多新兴应用负载进行了大量转型。同时,它也采用了最先进的技术,率先提供了原生PCIe4.0的支持。」
作为新服务器带来的重要优势,PCIe4.0相对于上一个版本(PCIe3.0),延迟可降低30%,带宽则多了一倍。而对于目前被大量使用的x86架构来说,我们可能要等到2020年才能看到对于PCIe4的支持。
在CPU方面,POWER9目前提供三种型号的处理器:其中Sforza对标x86平台的英特尔Skylake处理器,面向云计算和大数据中心;Lagrange则面向企业级商业计算;最后是Monza,面向高性能计算、人工智能计算,其中也包含了对于NVlink2.0的支持。
浪潮商用机器即将在10月推出的AI服务器FP5295G2采用了Monza处理器,并包含了4块由NVlink2.0连接的英伟达TeslaV100计算卡。它被认为是「企业级AI计算的最佳平台」,浪潮称,其采用了最卓越CPU和最强悍的GPU的组合。
技术人员表示,在全新服务器的POWER9架构中,系统提供了4条xBus互联CPU,可实现64GB/s的传输速度、两倍于x86平台的线程数量和NVLink2.0原生连接。FP5295G2也是首个开放内存地址空间的产品:这意味着CPU和GPU的内存空间可以相互访问,可以让开发阶段的编程更加迅捷。
体系结构是FP5295G2超越x86服务器的最大优势。在浪潮的实验室中,开发人员用新服务器和英伟达DGX-1做了对比,由于拓扑结构更加简洁,浪潮FP5295的POWER架构相对于x86架构仅在NVLink速度上就有4倍的带宽提升。
浪潮认为,FP5295G2相对于目前市场上的x86服务器,具有体系结构维度上的优势。
对于POWER9架构而言,Summit就是目前最大的应用案例,它应用了4600多个服务器节点(其形式和FP5295G2相同),可实现每秒20亿亿的计算。
深度学习框架
在强大的计算性能之上,POWER架构对于企业级AI应用的开发和部署提供了完整的支持,其集成深度学习框架被称为PowerAI。
针对所有POWER架构服务器,浪潮和IBM都会提供免费的PowerAIBase工具包,其中包括对于TensorFlow、Caffe、PyTorch、Chariner等最流行的深度学习框架支持。其中,DDL部分免费,而LargeModelSupport(LMS)则完全免费。浪潮称,今年晚些时候,这些工具都将完全开源,以供更多用户使用。
针对企业客户资源分配、监管等需求,浪潮还提供了PowerAIEnterprise,这是一种面向企业级用户的完整解决方案。其可对任务运行状态进行可视化监控,并有效进行调度。其中的深度学习工具包可支持用户对深度学习业务的全流程上进行部署:从数据准备到训练,最后到推断和模型上线。
此外还有PowerAIVision,这是一种面向计算机视觉的解决方案。支持快速标签、模型训练到部署这一计算机视觉完整流程。
在POWER9架构上,LargeModelSupport被认为是能够有效提高模型部署效率的功能。它能够让显卡有效利用显存之外的计算机内存,以适应超大深度学习模型,节省训练时间。结合GPU上的NVLink,POWER服务器在模型训练时相比x86架构可节省一半时间以上。在已有案例中,这种架构已经显著提升了医疗影像、3D建模等任务中的处理速度。
浪潮的新服务器在并行化方面也占优势。在高带宽架构的帮助下,新服务器的并行加速比可达95%,这意味着多个节点并联时,其计算效率几乎保持线性提升,这一数字超过了facebook此前达成的89.6%,成为了世界上最快的并行架构。
对比基于至强E5-2640的服务器,浪潮服务器在Chainer模型上的运行速度快3.7倍,Caffe模型上速度快3.8倍(利用了LargeModelSupport),TensorFlow模型的运行速度则提升了2.3倍。
「针对目前业内出现的一机8GPU的x86服务器,我们也进行了性能对比,发现4GPU的POWER服务器比8GPU的x86服务器还要快。这体现了POWER架构在并行化方面的巨大优势。」浪潮商用机器技术工程师孙建介绍道。
POWER架构的未来
尽管IBM在高性能计算领域有着很多成就,但目前其主推的POWER架构仍不是服务器市场上的主流。近几年来由深度学习引发的AI潮流或许能为这一架构带来新的机会。
「五年前随着云计算、大数据和人工智能的崛起,人们发现计算不再是为数据库进行单一服务的工具了。除了传统应用场景以外,人们还需要更多的计算资源,和更多的专有优化。」张峰表示。
面向大数据,人们需要更大的存储和数据吞吐量,应用场景的迁移变革了体系结构及支撑平台。POWER架构也针对这些需求做出了自己的转型,POWER9就是IBM努力的最新结果。
浪潮商用机器正面向AI科技公司提供个性化的产品。9月10日,这家公司与第四范式联合发布了AI软硬件一体机产品「ProphetAIO」,这是首个针对超大规模数据挖掘与机器学习计算问题所推出的AI一体机产品。第四范式称,在同等成本的情况下,基于POWER架构的ProphetAIO整体性能较普通服务器可提升10倍以上。