两个打了几十年的死对头,突然坐在一起写白皮书。4月29日,英特尔与AMD联合发布ACE架构,要给x86塞一颗"AI心脏"。
一、为什么是老冤家联手?
![]()
这事得从AVX10的硬伤说起。
现有的SIMD扩展(单指令多数据流)确实能跑矩阵运算,但计算密度和扩展性卡住了脖子。神经网络和大语言模型的核心计算模块是矩阵乘法,效率上不去,AI工作负载就跑不动。
ACE的定位很直接:x86架构的标准矩阵加速方案。不是各自搞一套,而是两家共同背书——这在x86历史上都少见。
二、16倍提升从哪来?
技术关键是外积运算(outer product operation)。
白皮书给了一组对比:消耗相同数量的输入向量,ACE外积运算的计算密度,比等效的AVX10乘加运算(multiply-accumulate operation)高出16倍。
底层支持INT8、OCP FP8、BF16这些主流AI数据格式。从笔记本到超算,ACE想覆盖全场景。
三、软件生态跟上了吗?
硬件再强,没软件也是废铁。
ACE目前集成了低精度GEMM等深度学习和高性能计算库,正在适配NumPy、SciPy等Python库,以及PyTorch、TensorFlow等主流机器学习框架。
注意是"启动适配"——不是已经搞定,是刚开始。
四、这件事的真正意义
英特尔和AMD联手,说明一件事:x86在AI算力竞赛里真的急了。
ARM有SVE,苹果有Neural Engine,英伟达有Tensor Core。x86阵营再内斗下去,AI时代的船票就要没了。
ACE不是革命,是补课。补的是矩阵计算密度的课,补的是生态统一性的课。
但16倍这个数字够亮眼,两家联合背书够罕见。对于25-40岁的科技从业者来说,这意味着你手里的x86服务器、工作站、甚至游戏本,未来跑本地大模型的能力可能质变。
建议做AI infra的同学盯紧PyTorch和TensorFlow的适配进度。硬件性能释放,终究要看框架层给不给接口。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.