GPU 全球的严重缺货,这些“光环”的交织催生了一种“唯 GPU 论”,意思是说:在 AI 计算的过程中,过分强调了 GPU 的作用,认为只有使用高端 GPU 才能获得好的计算性能和结果。但实际上, GPU 只是加速计算的一种手段,而不是唯一的方法。
随着 AI技术的不断发展和应用场景的拓展,越来越多的模型将被部署到实际生产环境中,而推理是这些模型在实际应用中的关键环节。这就意味着,推理算力需求可能会逐渐增加,并超过训练算力需求。
而在推理场景下, AI算力的选择,要根据具体的应用场景和需求进行权衡,而非盲目的追逐 GPU。
就在 1月 11日,阿里云宣布推出第八代企业级通用计算实例 ECS g8i,基于“飞天 +CIPU”的全新计算架构体系,搭载第五代英特尔至强可扩展处理器,在数据库、大数据等场景下 E2E性能大幅提升,尤其是在 AI推理领域实现了显著的技术突破,特别是在处理超大规模的 LLM大语言模型方面展示了 CPU通用算力的强大潜力,证明了以 CPU为中心的计算体系同样具备加速 AI推理的巨大潜力,为 AI算力的选择题,给出了更好的选项。
01
GPU还是CPU?场景说了算
2023年可以看作是中国大模型的元年。一年以来, AI大模型如雨后春笋般层出不穷,通义千问、文言一心、讯飞星火、紫东太初等一批中国大模型正在快速发展,通过更为泛化的能力和无限的想象空间,赋予了行业智能化更为普世的价值,也让我们对未来的 AIGC时代有了更多的期待。
1月 3日, IDC 发布的首份《 2024AIGC应用层十大趋势白皮书》显示:随着 AIGC 技术的发展,智能化应用将呈现爆发式增长, IDC也预测:到 2024 年全球将涌现出超过 5 亿个新应用,这相当于过去 40 年间出现的应用数总和。
AI时代的创新呈现出指数级的跃迁,对 AI算力的需求也将是指数级的提升,同时在不同的应用场景中,对 AI算力的要求也是复杂的。
比如在对实时性要求不高的场景, CPU的时钟频率通常比 GPU高,因此在某些需要快速响应的推理任务中, GPU可能更有优势,但如果对实时性要求不高, CPU其实完全能够胜任;再有需要大量复杂逻辑处理的场景,由于 CPU具有强大的指令处理和计算能力,对于需要大量复杂逻辑处理的推理任务, CPU可能表现得更好。
这些实际的场景,都证明了 CPU不仅在一些场景中可以完全取代 GPU,并且在部分特殊场景中,甚至比 GPU更符合需求。
这也是阿里云之所以推出 ECS g8i的背景,作为企业级通用计算实例, ECS g8i在计算、存储、网络和安全等能力得到了全方位提升。不仅 L3缓存容量提升 3倍达到 320MB,内存速率高达 5600MT/s,整机性能提升 85%,还在网络方面,标配阿里云自研 eRDMA大规模加速能力,时延低至 8微秒,再加上全面的安全防护,堪称是推理算力的巅峰之作。
02
无论大小模型,g8i都足以胜任
对企业用户来说,模型是否一定是越大越好?其实并不尽然。
事实上,过去一年中,一些小模型通过质量很高的数据源来学习,所表现出来的能力超过了参数量大十倍的模型,这说明衡量模型的价值,数据量的大小并不是一个决定因素。所以,一些拥有高质量数据的行业场景,完全可以基于小模型的推理来实现业务价值。
而小模型推理,由于计算量本身较小,使用 CPU其实就可以达到足够好的性能。有一些行业客户在已经拥有 GPU资源的前提下,也经常会使用 CPU进行推理,再利用 GPU的并行计算能力加速推理过程。
所以对于小模型推理来说,使用 CPU或 GPU都可以达到较好的性能,选择哪种硬件平台主要取决于具体的应用场景和可用资源。
实际上,在企业中部署 AI 模型, CPU服务器其实也特别常用,只要模型对推断速度没有那么高的要求,只要模型不算特别大,使用英特尔 ® 至强 ® 可扩展处理器的算力就是一个合适的选择。
例如在制造业的模型不会太大,它们就特别适合用 CPU 充当计算设备。比如基于机器视觉的工业辅助检测,或者基于云边协同新架构的 AI 瑕疵检测系统,都引入了英特尔 ® 至强 ® 可扩展处理器作为核心计算引擎。
对于 6B、 13B的中小规模模型,阿里云 ECS g8i实例进行了相当程度的优化,包括内置指令集从 AVX512升级到了 Intel AMX高级矩阵扩展加速技术,能很好地支持模型推理与部署。况且在运行知识检索、问答系统及摘要生成等 AI工作负载时,相对传统 GPU方案,起建成本下降 50%。此外,配合阿里云平台的 Spot抢占式实例,成本优势将进一步凸显,进一步降低 AI推理成本。
而从大模型的角度,对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到 AI集群,这个时候网络通讯成了主要的性能瓶颈。
一方面,阿里云自研的 eRDMA网络保证了超低延时和强大算力,使 ECS g8i实例集群能够胜任高达 72B参数的大模型分布式推理;另一方面,推理性能在 eRDMA加持下,相对传统 VPC网络,性能线性度大幅提升,可支持超过 32 batch size的 AI模型负载,运行 AI生成代码、虚拟助手以及创意辅助工具等 AI工作负载。
显而易见,无论是小模型还是大模型,阿里云 ECS g8i都能够表现出超凡的性能,同时降低用户的总体算力成本,在企业客户在推理场景的算力选型中,又提供了一个可选项。
03
给世界一个更优和更安全的选择
当然,所有的性能和表现,都离不开一个关键词:安全。
进入人工智能时代以来,因为算法可能会被对象样本攻击,正常样本中加入少量对抗就会误导结果,所以 AI本身就存在内在安全的问题。 AIGC出现之后,安全问题就愈加严重,大模型本身也存在误导风险,同时数据泄露的风险也在加大。
阿里云显然早就意识到了这一点,基于自研的 CIPU,阿里云在全产品线构建了端到端的安全防护,可保障数据存储、数据传输、数据计算的全流程安全。在最底层,基于 CIPU的安全架构搭载安全芯片 TPM作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力;在实例可信的基础上支持不同平台的机密计算能力,实现了运行态的内存数据隔离和加密的保护。
特别要提示的是, ECS g8i实例全面支持 TDX技术,无需更改业务即可实现部署,大幅降低技术门槛,同时几乎不损失性能。以 Qwen-Chat-7B模型为例,启用 TDX后,既确保了模型推理的安全可信,也保护了数据的机密性和完整性,性能损耗仅在 5%以内。
著名的莎士比亚之问,那句经典的“ To be, or not to be: that is the question。”这个疑问句,被翻译成了好多个不同的版本,“勇敢或怯懦“,”承担或逃避”,“生存或毁灭”,被广泛传颂,它经常被用来形容在犹豫在思考时候的两难情况。
在 AI产业化发展澎湃而来, AI算力需求与日俱增的今天,这种两难的选择又何尝没有困扰过今天的企业用户,在 GPU和 CPU之间,似乎也存在着这样的一个“莎士比亚之问”,究竟是要非此即彼,还是可以和谐共存?
通过阿里云 ECS g8i实例的发布,答案已经呼之欲出。“唯 GPU论”并不可取,在对数据量的需求相对较低的推理阶段,需要更快响应和能耗效率优化更好的场景下, ECS g8i在资源可获得性、学习门槛、安全性等方面都具有突出的优势。
这是阿里云 ECS g8i,为 AI算力的供需逻辑,带给世界的一个更优的选择。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.