日前,备受业内瞩目的国际权威AI基准测试MLPerf™公布了最新一期训练(Training)榜单V1.1。其中,中国系统厂商浪潮信息提交了AI服务器所有8项单机测试的固定任务(Closed Division)成绩,并斩获其中7项冠军。而纵观即将过去的2021年,在该年度总共4次性能测试中,浪潮AI服务器共斩获44项第一,名列MLPerf™2021年度冠军榜首。
那么问题来了,MLPerf™榜单缘何如此重要?以浪潮信息为代表的中国系统厂商获得该榜单年度总冠军背后意味着什么?
大咖云集、接地气,MLPerf™榜单含金量高
提及与ICT产业相关领域的榜单,相信业内有相当部分的人会抱有不屑的态度。这很容易理解,毕竟在“不服跑个分”已经成为某些厂商口头禅和谁都要跑个分的今天,某些榜单的含金量大打折扣确是不争的事实。
而在我们看来,衡量和判断一个榜单含金量的标准非常简单,即参与榜单厂商在与测试相关的产业中的实力和地位如何(代表权威性),更重要的是,该榜单的测试标准及项目是否更贴近该市场和用户的实际应用场景(代表实用性),即俗话说的是否更接地气。
据此,我们来看看MLPerf™榜单的含金量究竟如何?
以MLPerf™公布的最新一期训练(Training)榜单V1.1为例,我们看到,它吸引了包括谷歌、微软云、英伟达、浪潮信息、百度、戴尔、联想等14家公司及科研机构的参与。其中谷歌、英伟达、微软无疑是业内公认的,当下AI领域软硬件方面绝对的大咖,而浪潮信息则是AI系统(例如AI服务器)市场中的No.1(中国及全球AI服务器市场始终占据榜首)。从参与的厂商看,我们不难发现,其涵盖了AI的硬件、软件、系统、应用等业内顶尖的企业。
接下来我们再看其是否更贴近市场和用户的实际应用场商场景。这里我们还是以MLPerf™公布的最新一期训练(Training)榜单V1.1为例,上述参与的相关企业共提交180项固定任务成绩,6项开放任务成绩。其中固定任务要求参赛各方使用与参考模型等价的模型和限定的优化器,对于实际用户评测AI计算系统性能具备很强的参考意义,也一直是MLPerf™中角逐最激烈及主流厂商最关注的领域。
对此,浪潮信息高级 AI 产品经理王磊此前接受全球权威数据中心媒体The Next Platform采访时曾表示:“MLPerf 是基于最广泛的 AI 负载和应用场景,例如计算机视觉、自然语言处理和推荐系统。”“MLPerf 训练基准中的八项任务提供了较为完整的各类神经网络模型,对客户的应用场景有非常好的代表性”。而也正是这份权威杂志,其在《WHY THE MLPERFBENCHMARK IS GOOD FOR AI, AND GOOD FOR YOU》https://www.nextplatform.com//why-the-mlperf-benchmark-is-good-for-ai-and-good-for-you/,文章中,作为第三方,详细分析了MLPerf™榜单权威性的原因,有兴趣的业内人士不妨拿来一阅,相信会对MLPerf™榜单,尤其是其权威性和实用性会有更加客观和深刻的理解,我们这里不再赘述。
我们认为,无论是从参与的厂商(AI产业相关大咖云集),还是其接近市场和用户实际应用场景(项目设置更符合实际应用)以及独立第三方的分析和解读,MLPerf™榜单不仅权威,还更接地气,是它对于市场和用户的真正价值所在,即市场和用户以此榜单作为标准做出的选择,与其在实际业务场景中的应用表现应相差无几。
当我们明确了MLPerf™榜单的权威性及实用性再来看看中国系统厂商浪潮信息的表现。
2021年,浪潮AI服务器在MLPerf™数据中心AI推理场景的总32项任务中斩获17项冠军,在边缘AI推理场景的总31项任务中斩获16项冠军,从云到边全面领先;在单机AI训练场景的16项任务中浪潮AI服务器共斩获11项冠军。
可以说,无论是从MLPerf™榜单,还是实际应用的角度,中国系统厂商在AI计算确实走在了前列。
系统级创新,榜单背后的硬核支撑
所谓知其然,需知所以然。中国系统厂商缘何会在MLPerf™榜单中名列前茅?
众所周知,对于AI算力,虽然芯片是核心,但事实是,芯片从造出来到大规模用起来,往往还隔着一个巨大的产业链鸿沟,主要体现在,算力的供给需要构建算力平台,需要解决架构设计、核心部件、高速互联、散热设计等一系列工程问题。而要解决这些问题,就涉及到系统创新。
需要提醒的是,千万不要忽视系统创新的难度,具体到一台AI服务器,除了芯片外,系统厂商需要解决超过300个关键的过程控制点和设计难题,同时还需要解决与算法框架和AI应用的优化和适配等挑战。
业内知道,与单纯的芯片厂商相比,系统厂商由于长期位居服务市场和客户的最前沿(离市场和用户最近),最知晓他们的痛点和需求,所以在我们看来,有且只有系统厂商,依靠其系统级的创新能力,有的放矢,化解我们前述面临的挑战,最终释放出AI算力的最大价值,高效率地输出算力,满足市场和用户实际的应用场景及业务需求。而这一规律,通过此次和全年霸榜MLPerf™的中国系统厂商浪潮信息在AI计算系统创新方面的系统设计和全栈优化能力的表现得到了很好的验证。
具体表现在,针对AI训练中常见的密集I/O传输瓶颈,浪潮AI服务器以领先设计大幅降低通信延迟,极大提升了AI训练效率;同时,针对高负载多GPU协同任务调度,对NUMA节点与GPU之间的数据传输进行全面优化和深度调校,确保训练任务中的数据IO无阻塞;在散热层面,针对目前业界功率最高的A100-SXM-80GB(500W) GPU,浪潮率先开发的先进冷板液冷系统,确保GPU在全功率甚负载下依然稳定工作,将AI计算系统的性能发挥到极致。
针对不同AI任务的计算特点,浪潮AI服务器的精细化调优能力也走在前列。在2020年的MLPerf™ V0.7评测中,浪潮信息开创性提出效率更高的图像分类(ResNet50)收敛性优化方案,即在ImageNet数据集上,仅使用85%的迭代步数就达到了75.9%的目标精度,该优化方案将训练性能提升了15%。目前,该方案已被MLPerf社区成员普遍采纳。此外,在本次V1.1竞赛中,浪潮信息对Resnet任务中的图像的前处理进行了优化,使用DALI框架并在GPU上运行解码,解决了CPU运行的计算瓶颈,实现了浪潮信息在ResNet任务上连续3届领先。
由此看,本次浪潮AI服务器在8项AI训练任务中,取得7项冠军,正体现了浪潮AI服务器对多元AI计算场景的洞察和深刻理解。
除了具备系统级的创新能力外,我们认为在解决这些市场和用户痛点及满足他们需求的同时,系统厂商还能形成自己对于相关产业发展趋势的洞察和理解,做到先知先觉,并率先付诸于行动,进而形成市场先发和领先优势。
例如鉴于人工智能在算法领域的不断突破,不同数值精度带来了跨度更大的计算类型,对计算芯片指令集、架构的要求更加细分。对此,图灵奖获得者 John Hennessy和 David Patterson2019年共同发表的《计算机架构的新黄金时代》,详见原文https://cacm.acm.org/magazines/2019/2/234352-a-new-golden-age-for-computer-architecture/fulltext中提出:当摩尔定律不再适用,一种更以硬件为中心的针对特定问题领域定制设计计算机体系架构的方法DSAs(Domain-Specific Architectures)会成为主导,这种设计的核心在于针对特定问题或特定领域来定义计算架构。
而我们从系统厂商浪潮信息上述的系统级创新不难判断,其不仅对于计算产业的发展趋势早有认知(例如率先推出采用GPU加速的AI服务器实例,并至今引领这一市场),且已经通过自身的系统级创新能力正在化解摆在业内面前、让新的计算架构真正落地所面临的挑战(如我们前述阻碍AI芯片充分发挥算力产生的产业链鸿沟)。而这也是中国系统厂商霸榜MLPerf™榜单背后的又一个重要原因。
服务数字经济,智算时代迎挑战仍需更多
众所周知,ICT产业的创新最终都是要为市场和用户服务。而在人工智能为代表的智算时代同样如此。我们前述AI计算系统创新的根本目的,最终还是要让算力、算法和数据去服务数字经济,去支撑科研创新,去推动智慧转型,这就需要加大以AI计算为核心的智能计算中心—这一新型人工智能基础设施建设,以此推动AI产业化、产业AI化和政府治理的智能化。
但随之而来的,面对智算中心建设所需大规模AI算力部署,AI算力平台建设将面临高功耗、高电流密度、高总线速率、高系统复杂度的新挑战。
对此,中国工程院院士、浪潮首席科学家王恩东认为,要想释放多元算力价值、促进人工智能创新,一是要重视智算系统的创新,加大人工智能新型基础设施建设,把从技术到应用的链条设计好,从体系结构、芯片设计、系统设计、系统软件、开发环境等各个领域形成既分工明确又协同创新的局面;二是要加快推动开放标准建设,通过统一的、规范的标准,将多元化算力转变为可调度的资源,让算力好用、易用。
不知业内从王恩东院士的言论看到了什么?我们看到的是,系统级创新在智算中心的建设中依然是重中之重,毕竟AI计算是智算中心的核心,而AI服务器又是智算中心生产算力的“动力机组”,是产出强大算力的源泉。而放置于智算系统(例如智算中心),系统创新又被赋予了更宽泛的内涵,即不仅应是算力的生产,还应包括聚合、调度和释放,同时需要产业链相关参与者在遵守统一、规范的标准之下,通力协作,各施所长,打造智算生态。
实际的情况是,去年发布的《智能计算中心规划建设指南》已经就上述做了明确的说明。而系统厂商,无论是在算力的生产、聚合、调度和释放,还是在打造生态方面,已走在了业内的前列。
以浪潮信息为例,除了我们前述的在算力生产层面的系统级创新外,在算力调度层面,浪潮AIStation人工智能开发平台能够为AI模型开发训练与推理部署提供从底层资源到上层业务的全平台全流程管理支持,帮助企业提升资源使用率与开发效率90%以上,加快AI开发应用创新(解决了算力的效率问题);在聚合算力方面,浪潮持续打造更高效率更低延迟硬件加速设备与优化软件栈;在算力释放上,浪潮AutoML Suite为人工智能客户与开发者提供快速高效开发AI模型的能力,开启AI全自动建模新方式,加速产业化应用。
总结:综上,我们看到,系统厂商在MLPerf™中能取得优异成绩的能力,是建立在其对市场及客户应用场景的理解之上,而其在产品研发、客户需求、实际应用中所获得的洞察和理解,又指导着MLPerf™测试,是其能够取得优异成绩的一个重要原因。与此同时,系统厂商在MLPerf™测试中的探索和创新也反过来帮助其更好地回馈产业客户的实际应用,以此形成一种良性的循环。而这种良性循环,在保持系统厂商持续领先的同时,更重要的是会加速AI产业化和产业AI化的落地。而在智算中心到来的时代,这种能力和良性循环又会被放大,进而促进中国数字经济的发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.