破解AI算力选择的“莎士比亚之问”，阿里云发布第八代企业级实例g8i|ai|科学家|阿里巴巴集团|人工智能技术

破解AI算力选择的“莎士比亚之问”，阿里云发布第八代企业级实例g8i

2024-01-15 20:20:19　来源: 科技正能量

北京举报

分享至

GPU 全球的严重缺货，这些“光环”的交织催生了一种“唯 GPU 论”，意思是说：在 AI 计算的过程中，过分强调了 GPU 的作用，认为只有使用高端 GPU 才能获得好的计算性能和结果。但实际上， GPU 只是加速计算的一种手段，而不是唯一的方法。

随着 AI技术的不断发展和应用场景的拓展，越来越多的模型将被部署到实际生产环境中，而推理是这些模型在实际应用中的关键环节。这就意味着，推理算力需求可能会逐渐增加，并超过训练算力需求。

而在推理场景下， AI算力的选择，要根据具体的应用场景和需求进行权衡，而非盲目的追逐 GPU。

就在 1月 11日，阿里云宣布推出第八代企业级通用计算实例 ECS g8i，基于“飞天 +CIPU”的全新计算架构体系，搭载第五代英特尔至强可扩展处理器，在数据库、大数据等场景下 E2E性能大幅提升，尤其是在 AI推理领域实现了显著的技术突破，特别是在处理超大规模的 LLM大语言模型方面展示了 CPU通用算力的强大潜力，证明了以 CPU为中心的计算体系同样具备加速 AI推理的巨大潜力，为 AI算力的选择题，给出了更好的选项。

GPU还是CPU？场景说了算

2023年可以看作是中国大模型的元年。一年以来， AI大模型如雨后春笋般层出不穷，通义千问、文言一心、讯飞星火、紫东太初等一批中国大模型正在快速发展，通过更为泛化的能力和无限的想象空间，赋予了行业智能化更为普世的价值，也让我们对未来的 AIGC时代有了更多的期待。

1月 3日， IDC 发布的首份《 2024AIGC应用层十大趋势白皮书》显示：随着 AIGC 技术的发展，智能化应用将呈现爆发式增长， IDC也预测：到 2024 年全球将涌现出超过 5 亿个新应用，这相当于过去 40 年间出现的应用数总和。

AI时代的创新呈现出指数级的跃迁，对 AI算力的需求也将是指数级的提升，同时在不同的应用场景中，对 AI算力的要求也是复杂的。

比如在对实时性要求不高的场景， CPU的时钟频率通常比 GPU高，因此在某些需要快速响应的推理任务中， GPU可能更有优势，但如果对实时性要求不高， CPU其实完全能够胜任；再有需要大量复杂逻辑处理的场景，由于 CPU具有强大的指令处理和计算能力，对于需要大量复杂逻辑处理的推理任务， CPU可能表现得更好。

这些实际的场景，都证明了 CPU不仅在一些场景中可以完全取代 GPU，并且在部分特殊场景中，甚至比 GPU更符合需求。

这也是阿里云之所以推出 ECS g8i的背景，作为企业级通用计算实例， ECS g8i在计算、存储、网络和安全等能力得到了全方位提升。不仅 L3缓存容量提升 3倍达到 320MB，内存速率高达 5600MT/s，整机性能提升 85%，还在网络方面，标配阿里云自研 eRDMA大规模加速能力，时延低至 8微秒，再加上全面的安全防护，堪称是推理算力的巅峰之作。

无论大小模型，g8i都足以胜任

对企业用户来说，模型是否一定是越大越好？其实并不尽然。

事实上，过去一年中，一些小模型通过质量很高的数据源来学习，所表现出来的能力超过了参数量大十倍的模型，这说明衡量模型的价值，数据量的大小并不是一个决定因素。所以，一些拥有高质量数据的行业场景，完全可以基于小模型的推理来实现业务价值。

而小模型推理，由于计算量本身较小，使用 CPU其实就可以达到足够好的性能。有一些行业客户在已经拥有 GPU资源的前提下，也经常会使用 CPU进行推理，再利用 GPU的并行计算能力加速推理过程。

所以对于小模型推理来说，使用 CPU或 GPU都可以达到较好的性能，选择哪种硬件平台主要取决于具体的应用场景和可用资源。

实际上，在企业中部署 AI 模型， CPU服务器其实也特别常用，只要模型对推断速度没有那么高的要求，只要模型不算特别大，使用英特尔 ® 至强 ® 可扩展处理器的算力就是一个合适的选择。

例如在制造业的模型不会太大，它们就特别适合用 CPU 充当计算设备。比如基于机器视觉的工业辅助检测，或者基于云边协同新架构的 AI 瑕疵检测系统，都引入了英特尔 ® 至强 ® 可扩展处理器作为核心计算引擎。

对于 6B、 13B的中小规模模型，阿里云 ECS g8i实例进行了相当程度的优化，包括内置指令集从 AVX512升级到了 Intel AMX高级矩阵扩展加速技术，能很好地支持模型推理与部署。况且在运行知识检索、问答系统及摘要生成等 AI工作负载时，相对传统 GPU方案，起建成本下降 50%。此外，配合阿里云平台的 Spot抢占式实例，成本优势将进一步凸显，进一步降低 AI推理成本。

而从大模型的角度，对于超大规模参数的模型来讲，通常会通过模型并行、流水线并行切分到 AI集群，这个时候网络通讯成了主要的性能瓶颈。

一方面，阿里云自研的 eRDMA网络保证了超低延时和强大算力，使 ECS g8i实例集群能够胜任高达 72B参数的大模型分布式推理；另一方面，推理性能在 eRDMA加持下，相对传统 VPC网络，性能线性度大幅提升，可支持超过 32 batch size的 AI模型负载，运行 AI生成代码、虚拟助手以及创意辅助工具等 AI工作负载。

显而易见，无论是小模型还是大模型，阿里云 ECS g8i都能够表现出超凡的性能，同时降低用户的总体算力成本，在企业客户在推理场景的算力选型中，又提供了一个可选项。

给世界一个更优和更安全的选择

当然，所有的性能和表现，都离不开一个关键词：安全。

进入人工智能时代以来，因为算法可能会被对象样本攻击，正常样本中加入少量对抗就会误导结果，所以 AI本身就存在内在安全的问题。 AIGC出现之后，安全问题就愈加严重，大模型本身也存在误导风险，同时数据泄露的风险也在加大。

阿里云显然早就意识到了这一点，基于自研的 CIPU，阿里云在全产品线构建了端到端的安全防护，可保障数据存储、数据传输、数据计算的全流程安全。在最底层，基于 CIPU的安全架构搭载安全芯片 TPM作为硬件可信根，实现服务器的可信启动，确保零篡改；虚拟化层面，支持虚拟可信能力 vTPM，提供实例启动过程核心组件的校验能力；在实例可信的基础上支持不同平台的机密计算能力，实现了运行态的内存数据隔离和加密的保护。

特别要提示的是， ECS g8i实例全面支持 TDX技术，无需更改业务即可实现部署，大幅降低技术门槛，同时几乎不损失性能。以 Qwen-Chat-7B模型为例，启用 TDX后，既确保了模型推理的安全可信，也保护了数据的机密性和完整性，性能损耗仅在 5%以内。

著名的莎士比亚之问，那句经典的“ To be， or not to be: that is the question。”这个疑问句，被翻译成了好多个不同的版本，“勇敢或怯懦“，”承担或逃避”，“生存或毁灭”，被广泛传颂，它经常被用来形容在犹豫在思考时候的两难情况。

在 AI产业化发展澎湃而来， AI算力需求与日俱增的今天，这种两难的选择又何尝没有困扰过今天的企业用户，在 GPU和 CPU之间，似乎也存在着这样的一个“莎士比亚之问”，究竟是要非此即彼，还是可以和谐共存？

通过阿里云 ECS g8i实例的发布，答案已经呼之欲出。“唯 GPU论”并不可取，在对数据量的需求相对较低的推理阶段，需要更快响应和能耗效率优化更好的场景下， ECS g8i在资源可获得性、学习门槛、安全性等方面都具有突出的优势。

这是阿里云 ECS g8i，为 AI算力的供需逻辑，带给世界的一个更优的选择。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.