网易首页 > 网易号 > 正文 申请入驻

无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统

0
分享至

机器之心发布

机器之心编辑部

当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。

在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心

近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读:

Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞

  • 官方知乎:https://zhuanlan.zhihu.com/p/1899766212109510455
  • 开源仓库:https://github.com/infinigence/SpecEE
  • 论文地址:https://arxiv.org/abs/2504.08850

随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端模型更加便利,但本地部署仍在数据隐私、网络限制或者成本限制的条件下具有不可替代的优势。

然而,端侧设备往往受限于算力、电量和存储,且 CPU、GPU、NPU 三类异构处理器的算力、架构差异显著,产生许多不必要调度和通信开销。将模型安装到 PC 端本地环境后,推理速度太慢,能达到使用标准的场景也就比较有限了。

无问芯穹第一天开源的 SpecEE 推理引擎框架,就是为了解决端侧计算、存储与异构处理器协同挑战而生。相关工作被收录于 ISCA 2025(International Symposium on Computer Architecture,计算机体系结构领域的顶级会议),论文已在 arXiv 公开。

相比云场景,端侧设备的场景特征是「单用户、少请求」,而单用户下大模型推理是底库很大的搜索分类问题。

不同于传统的 Early Exiting 技术,SpecEE 从搜索空间的角度探索 Early Exiting 的优化策略,并提出基于推测模型对 Early Exiting 搜索空间进行缩减,推动精度与速度的帕累托前沿。在 AI PC 场景下,可以获得超过 2 倍的性能提升。

由于其角度的独特性,SpecEE 的算法可以无感兼容任何轻量化优化技术。为了将核心思想进一步推进应用在 Early Exiting 预测器上,研究团队针对预测器开展了三层面的优化:在算法层面通过轻量化预测器设计实现低开销高精度预测;在系统层面通过自适应调度引擎实现预测器弹性激活;在映射层面,则通过重构推测解码 Early Exiting 机制实现线性复杂度映射。

无问芯穹展示了 SpecEE 在联想拯救者 Y7000(搭载 NVIDIA RTX 4060 Laptop GPU 与 Intel Core I7-13650HX)上的实测推理速度比较,运行 ReLU-llama-7B 最高可实现 14.83 token/s 的推理速度,相比 PowerInfer 12.41 token/s 的速度,实现了近 20% 的提升。相比于常用端侧部署框架 llama.cpp,SpecEE 则能够在 AI PC 上实现高达 2.43 倍的加速。

视频链接:

https://mp.weixin.qq.com/s/vecJX1J8sFoRK8ZudFfzaA

值得一提的是,SpecEE 由于其动态性,也适合在单用户云端场景下的推理,并且由于其方法的正交性可以与现有的一些优化方法进行集成,可无感兼容任何端侧加速方案,进一步推动了端侧模型推理精度和速度的帕累托前沿。

Day 2|Semi-PD:第三代 PD 半分离架构,推理系统的全新选择

  • 官方知乎:https://zhuanlan.zhihu.com/p/1900135208373716494
  • 开源仓库:https://github.com/infinigence/Semi-PD
  • 技术报告:https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf

第一代 P/D 融合架构采用资源统一分配的策略,Prefill(预填充)和 Decode(解码)阶段共享计算和存储资源,整个推理流程在同一个实例上完成。第二代 P/D 分离架构将 Prefill 和 Decode 阶段的计算与存储资源解耦,请求在 Prefill 实例上完成 Prefill 阶段计算后,传输 KV cache 至 Decode 实例进行后续计算,解耦了 TTFT 和 TPOT 的优化目标,消除了 P/D 之间的干扰,被月之暗面、DeepSeek 等公司纷纷采用,NVIDIA 也将其作为下一代 LLM 服务系统的核心技术方向。无问芯穹第二个开源项Semi-PD——第三代 PD 半分离架构,在消除 P/D 干扰的同时,保留了融合式的存储效率,实现在给定资源和 SLO 的前提下,最大化「Goodput」(有效吞吐量)

Semi-PD 混合架构采用了「计算分离、存储融合」的设计理念。不同于传统方案将 Prefill 和 Decode 任务分别放在不同实例上,Semi-PD 让 Prefill 进程和 Decode 进程共享同一个实例,各自占用部分计算资源(可以想象为「半张卡」)。同时,两个进程通过 IPC 机制,模型权重和 KV cache 只需存储一份,同时能够「看到」所有的存储资源。

这种设计可以灵活调整 P 和 D 的资源占比,从而更细粒度地调优首次 token 延迟(TTFT)和每个输出 token 的时间(TPOT)。考虑到实际服务中 Prefill 和 Decode 的负载往往动态变化的,固定资源分配会导致资源利用率低,为此,研发团队创新性地引入了服务级别目标(SLO)感知的动态资源调整机制。该机制通过实时监控系统负载,动态调整 Prefill 和 Decode 的资源配比(x, y),以更好地满足延迟约束和系统吞吐的双重目标。在满足 SLO 要求的同时,最大化有效吞吐量的性能突破

打个比方,如果说 PD 分离架构让备菜师傅专注处理食材(Prefill),炒菜师傅只管烹饪(Decode),那么 Semi-PD 混合架构则像配备了智能变形功能的现代化厨房,通过可移动的智能隔断,厨房空间可以动态划分:早上备菜多就多给备菜区,午市炒菜忙就多给烹饪区。最巧妙的是,两个区域共享同一套智能厨具系统(统一存储),既避免了重复购置设备,又能通过资源动态分配实现效率最大化。

相比于开源的 SOTA 实现,Semi-PD 的 Goodput 提升了 1.55-1.72 倍,单请求平均端到端时延提升 1.27-2.58 倍。

llama 系列模型结果:

其中 vllm-S 对应 splitfuse schedule,vllm-D 对应 default schedule 即 Prefill 优先

Deepseek 系列模型结果:

Day 3|FlashOverlap:计算零干扰,基于信号的通信重叠

  • 官方知乎:https://zhuanlan.zhihu.com/p/1900488778407211472
  • 开源仓库:https://github.com/infinigence/FlashOverlap
  • 论文地址:https://arxiv.org/abs/2504.19519

第三天,无问芯穹放出了一个非常有意思的工作「FlashOverlap」,这是一个基于控制信号的计算通信重叠新思路。主要出发点在于提供一种低侵入矩阵乘法、无侵入通信的方式完成细粒度计算通信重叠,可以无缝适配矩阵乘法和各种常见的通信原语,包括但不限于 AllReduce、ReduceScatter、All2All 等。对于通信瓶颈显著的低端消费卡来讲优化效果尤为明显,可以达到高达 1.65 倍的性能提升。

研究团队首先指出,一个低开发成本高性能收益的计算和通信重叠方案,需要至少满足以下三个方面:

  • 支持 Tile 粒度的重合和调度,以最大化重叠效果;
  • 重叠方案要尽可能少的侵入计算部分,以最小化对计算部分的伤害;
  • 重叠方案要尽可能对不同的通信原语和基于拓扑的优化技术正交,以最小化对通信部分的伤害,以及最小化不同通信原语的适配成本。

为此,我们提出一种基于信号的计算通信重叠技术,可以完美契合上面提到的三个准则。

就好比参加接力跑比赛需要训练一套团队战术——交接棒时要往前多送一段,最大化重叠效果;接棒时要站在整体最短路径上,最小化对竞速部分的伤害;交接时统一右手交右手接,最小化对大部分运动员左右手习惯的适配成本。FlashOverlap 就像是一套最先进的接力赛战术,能够让整体团队都省力的同时,跑出最快的速度。

如何能减少对计算的侵入性,同时又能和通信都正交是实现基于信号控制做通信的难点。FlashOverlap 的核心 idea 是,让计算 Kernel 能够在完成一部分计算结果之后自动发出一个就绪的信号,然后接收到该信号之后再发起一次针对就绪部分数据的 NCCL 的通信。最终基于信号的计算通信重叠架构如下图:

FlashOverlap 的实验结果分为两部分:第一部分是针对矩阵乘法和 AllReduce、ReduceScatter 和 All2All 三个通信算子,在 A800 和 4090 的优化效果;第二部分以 AllReduce 为例,分析 M、N、K 变化时优化效果的变化。

整体上看,FlashOverlap 可以获得 1.07-1.31 倍性能提升,而且大多数情况下都优于其他 SOTA 工作。具体如下图所示,研究团队测试了小面表格中大量的矩阵乘法形状,柱状图代表表格中所有矩阵乘法形状下的平均性能,线状图分别代表性能最差情况和最优情况。

为了更进一步展开,研究团队在 4090 上针对 TP=2 下做 ReduceScatter,在 A800 上针对 TP=4 下做 AllReduce,这两种场景不同矩阵乘法形状 MKN 的性能结果。

研究团队表示,开源这一方案,希望能帮助到各个生成式大模型训练和推理场景,降低大规模计算带来的通信开销。

软硬协同驱动高效推理系统发展

无问芯穹 2023 年就曾推出过一个惊艳业界的推理加速方法 FlashDecoding++(机器之心曾独家报道:GPU 推理提速 4 倍,256K 上下文全球最长:无问芯穹刷新大模型优化记录),通过异步方法实现注意力计算的真正并行,并针对「矮胖」矩阵乘优化加速 Decode 阶段的计算,将国际主流 GPU 推理速度提升了 2-4 倍。随后将这套软硬件协同设计能力逐个应用在国产计算卡上,取得了十余种计算卡的最佳优化效果,搭建了 GPU 云「异构云」,支持在多种国产芯片上完成大模型推理任务。

近日,无问芯穹联合创始人、CEO 夏立雪在出席活动时表示:「此次开源无问芯穹新一代大模型端、云推理系统相关工作,是希望以开源方案为桥梁,助力大模型产业落地在保障质量的基础上实现效率跃升与成本优化,加速技术普惠与产业升级进程。」

推理系统是技术协同的中枢,也是产业价值的放大器。在纵向维度上,推理系统向上连接着 AI 模型、工具和各类应用场景,向下对接硬件资源,能充分发挥不同硬件优势;在横向维度上,高效推理系统的应用,将全面激活大模型在端侧的应用潜能以及在云侧的生产力效能,推动 AI 技术的价值向更多行业和人群辐射渗透。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

民哥台球解说
2026-03-26 16:17:49
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

观史搜寻着
2026-03-26 01:10:50
央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

辉哥说动漫
2026-03-25 12:20:14
特朗普真要来?美媒公布其访华时间后,匈牙利直言:中国不可战胜

特朗普真要来?美媒公布其访华时间后,匈牙利直言:中国不可战胜

讲者普拉斯
2026-03-26 22:09:39
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
港口管控升级!滞留中国巴拿马船暴涨3倍,巴拿马政府吃不消了

港口管控升级!滞留中国巴拿马船暴涨3倍,巴拿马政府吃不消了

肖兹探秘说
2026-03-26 20:07:23
2个重大信号出现!要反转了?

2个重大信号出现!要反转了?

说股鲸
2026-03-26 22:00:03
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
国际油价涨幅扩大 布伦特原油期货站上105美元/桶

国际油价涨幅扩大 布伦特原油期货站上105美元/桶

每日经济新闻
2026-03-26 15:11:37
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

侃球熊弟
2026-03-26 21:09:11
美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

瞩望云霄
2026-03-25 18:20:59
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
2026-03-26 22:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
家居
健康
亲子
艺术

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

亲子要闻

你好,我是馒头,快开门!

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版