网易首页 > 网易号 > 正文 申请入驻

华为又开源了个大的:超大规模MoE推理秘籍

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

超大规模MoE模型(如DeepSeek),到底该怎么推理才能做到又快又稳。

现在,这个问题似乎已经有了标准答案——

华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了!

这个新开源项目名叫Omni-Infer,整体来看,它对于企业用户来说是非常利好的。

例如它可以给企业提供PD分离部署方案,针对QPM进行系统级优化,还会分享大规模商用过程中硬件使用的“方法论”。

而且对于开发者和开源社区,华为这“一呼”也是起到了“百应”的效果。

北京智源研究院副院长兼总工程师林咏华表示:

北京智源研究院一直以来致力于人工智能开源生态建设,很高兴看到Omni-infer项目开源,智源团队打造的面向多芯片的FlagScale框架也在第一时间接入了Omni-infer,期待后续有更多生态合作。


GitHub地址:https://github.com/FlagOpen/FlagScale/pull/630

上海人工智能实验室系统平台中心负责人王辉认为:

DeepLlink致力于打造最开放兼容的人工智能计算体系,十分期待能与Omni-infer项目携手,繁荣自主软硬件协同开源社区、拓展生态版图。

以及OpenI启智社区运营中心主任余跃也给出了响应:

OpenI启智社区坚持创新为本,面向未来与Omni-Infer项目一起打造基于算力网的开源共创协作生态。

据了解,华为Omni-Infer社区的定位是 “加速套件+最佳实践”,未来提供开箱即用能力,支持昇腾推理集群快速部署。

而对于这次Omni-Infer的开源,其实是华为兑现了一个月前在发布重磅技术报告之际所做出的承诺。

那么接下来,我们就来一同深入了解一下华为的Omni-Infer。

一个框架和一个套件

从整体来看,Omni-Infer可以拆成两大块来看:一个是推理框架,一个是推理加速套件

从框架角度来看,Omni-Infer能和业界主流的开源大模型推理框架(如vLLM)完美兼容,就像不同品牌的零件可以组装在同一台机器上。

并且据了解,它的功能还将不断扩展,会持续为昇腾硬件平台上的大模型推理提供更强大的支持(例如SGLang等主流开源LLM推理框架)。

值得一提的是,Omni-Infer是与vLLM/SGLang等等这些主流大模型推理开源框架是解耦的,独立安装。

这就意味着用户只需维护vLLM等的主版本即可,大大降低了软件版本维护的成本。

至于Omni-Infer的加速套件,若是用较为形象的比喻,它的“打开方式”是这样的:

  • 企业级的 “调度员”:它有一套智能的调度系统,就像交通警察指挥车辆一样,能合理安排任务(xPyD调度)。而且支持大规模分布式部署,就像多个交通岗亭协同工作,不管任务量多大,都能保证最低的延迟,让响应更及时。
  • 精准的 “负载平衡器”:对于不同长度的任务序列,它在预填充和解码这两个关键阶段都做了优化。比如,就像快递分拣中心针对不同大小的包裹采用不同的分拣策略,让整个处理过程的吞吐量达到最大,同时还能保持低延迟。
  • MoE模型的 “专属搭档”:它对混合专家(MoE)模型特别友好,支持EP144/EP288等多种配置。可以想象成一个大型的 “专家团队”,每个专家负责不同的任务,它能让这些专家高效协作。
  • 智能的 “资源分配者”:具备分层非均匀冗余和近实时动态专家放置功能。就像在一个大型工厂里,根据实时的生产需求,动态调整各个生产线的工人分配,让资源得到最充分的利用。
  • 注意力机制的 “强化器”:专门为LLM、MLLM和MoE等模型优化了注意力机制。这就好比给模型的 “注意力” 装上了 “放大镜”,让它在处理信息时更聚焦、更高效,提升了模型的性能和可扩展性。
如何“食用”?

在聊完Omni-Infer的特点之后,我们继续来看下该如何去体验。

首先对于它的使用环境是有一定的要求:

  • 硬件:目前仅支持CloudMatrix384推理卡
  • 操作系统:Linux Python: >=3.9, <= 3.11

其次在安装方式上,目前仅支持通过Docker镜像方式进行安装:

dockerpull swr.cn-southwest-2.myhuaweicloud.com/omni-ai/omniinfer:202506272026

这个镜像已预先集成所需的CANN及Torch-NPU依赖包,同时内置可直接运行的Omni-Infer与vLLM工具包,开箱即可使用。

可以使用下面这个命令检查是否可用:

piplist | grep omni_infer

PD分离自动化部署(4机2P1D)为例,它的部署框架如下所示:

再接下来,只需文档教程,仅少量代码和步骤,即可完成安装和部署:

整体来看,此次华为面向超大规模MoE开源的项目,是做到了简单几步就可以让AI推理这事变得又快又稳。

极致开源

Omni-Infer除了将此前《华为昇腾服务器 DeepSeek V3/R1 推理部署最佳实践》技术报告中的关键技术开源出来之外,也同步进行了更加专业的开源社区建设。

首先,在独立的社区仓库中,将社区治理、社区会议、社区活动、生态合作、代码规范、设计文档等社区信息全部开放出来,让开发者能够最直接深入的参与到社区发展中。

其次,参照业界主流大型开源社区的最佳实践,采用开放的社区治理机制,通过项目管理委员会(Project Management Committee)和特别兴趣小组(Special Interest Group)两级机制,提供公正透明的讨论与决策机制。

再次,针对业界同类开源项目大多存在的“一头热”的“被动适配”生态合作模式问题,Omni-Infer社区则采取了“主动适配”的社区构筑路径,尤其是主动拥抱国内正在逐步成长的人工智能开源项目,让生态真正实现多方共赢。

作为长期与业界几大主流开源基金会(Linux基金会、OpenInfra基金会、Apache基金会等)保持紧密合作关系的社区团队,Omni-infer刚开源的首个活动就将参与OpenInfra基金会在苏州的Meetup,感兴趣的同学可以到现场交流,也顺路可参加有特色的全球性开源社区的生日活动。

最后,所有相关的地址放下面了,感兴趣的小伙伴可自取哦~

技术报告及可分析代码包:
https://gitcode.com/ascend-tribe/ascend-inference-cluster

源代码开发协作:
https://gitee.com/omniai/omniinfer

社区治理、运作等内容:
https://gitee.com/omniai/community

【其他托管平台】

Github:
https://github.com/omni-ai-npu/omni-infer

OpenI启智社区:
https://git.openi.org.cn/omni-ai/omni-infer

GitLink确实平台:
https://gitlink.org.cn/omni-ai/omniinfer

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西省省长卢东亮部署:代价不能白付,教训必须汲取,动真碰硬、深挖彻查全省煤矿领域安全风险隐患,坚决防范遏制重特大事故发生

山西省省长卢东亮部署:代价不能白付,教训必须汲取,动真碰硬、深挖彻查全省煤矿领域安全风险隐患,坚决防范遏制重特大事故发生

农视网
2026-05-31 09:30:49
为什么华为总能打胜仗?

为什么华为总能打胜仗?

餐饮O2O
2026-04-17 09:29:48
中国人均商铺率仅有美国1/8!利润太微薄为房东打工,人口和消费又不景气

中国人均商铺率仅有美国1/8!利润太微薄为房东打工,人口和消费又不景气

风向观察
2026-05-31 11:49:14
“太帅啦” 樊振东戴上发带引全场女球迷欢呼!0-6后火速回击质疑

“太帅啦” 樊振东戴上发带引全场女球迷欢呼!0-6后火速回击质疑

风过乡
2026-05-31 08:20:47
土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

傲傲讲历史
2026-05-31 09:18:17
历史上五次神奇的巧合,让人们不禁怀疑,世界可能真是一个轮回

历史上五次神奇的巧合,让人们不禁怀疑,世界可能真是一个轮回

阿器谈史
2026-05-09 20:39:39
北宋的包拯包青天,他的官职到底有多大?相当于今天的什么级别?

北宋的包拯包青天,他的官职到底有多大?相当于今天的什么级别?

芳芳历史烩
2026-05-30 20:54:20
外地游客在野外水潭溺水沉底,广东大哥一手拿绳潜入深潭救人:男子获救,已在医院康复

外地游客在野外水潭溺水沉底,广东大哥一手拿绳潜入深潭救人:男子获救,已在医院康复

潇湘晨报
2026-05-31 02:42:18
两名9岁女孩被困电梯近2小时!求救几十次后,保安回应:不要再按电梯玩了

两名9岁女孩被困电梯近2小时!求救几十次后,保安回应:不要再按电梯玩了

上观新闻
2026-05-30 19:34:29
因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

品读时刻
2026-05-24 09:01:06
11死25伤!以色列发起“斩首行动”,24小时内,美又一军机被击落

11死25伤!以色列发起“斩首行动”,24小时内,美又一军机被击落

游古史
2026-05-31 08:46:44
历史第四人!新秀哈珀季后赛轰200+得分80+篮板20+抢断

历史第四人!新秀哈珀季后赛轰200+得分80+篮板20+抢断

北青网-北京青年报
2026-05-30 16:22:05
又一起涉“智驾”事故,3人死亡!

又一起涉“智驾”事故,3人死亡!

电动知家
2026-05-31 11:51:13
湖北省召开全省领导干部会议 宣布中央关于省委主要负责同志调整决定

湖北省召开全省领导干部会议 宣布中央关于省委主要负责同志调整决定

澎湃新闻
2026-05-30 12:58:07
无锡知名大酒楼 推自助!35元/位

无锡知名大酒楼 推自助!35元/位

无锡eTV全媒体
2026-05-31 10:41:47
中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

安安说
2026-05-29 10:57:26
英格兰苦等二十年再进决赛,败给卡塔尔砸钱砸出的"体系冠军"

英格兰苦等二十年再进决赛,败给卡塔尔砸钱砸出的"体系冠军"

芳芳历史烩
2026-05-31 11:58:19
为什么现金受贿还是会被查到?纪委的3个手段你根本想不到

为什么现金受贿还是会被查到?纪委的3个手段你根本想不到

职场资深秘书
2026-05-25 15:59:26
王嘉尔飞法国参加何猷君奚梦瑶婚礼,新郎新娘伴手礼寓意好浪漫

王嘉尔飞法国参加何猷君奚梦瑶婚礼,新郎新娘伴手礼寓意好浪漫

韩小娱
2026-05-31 05:37:05
西部决赛抢七力克雷霆,少帅米奇·约翰逊率领马刺青年军晋级NBA总决赛

西部决赛抢七力克雷霆,少帅米奇·约翰逊率领马刺青年军晋级NBA总决赛

文汇报
2026-05-31 12:01:33
2026-05-31 12:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12712文章数 176474关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

罗马尼亚遭袭 梅德韦杰夫:欧盟已进入与俄罗斯的战争

头条要闻

罗马尼亚遭袭 梅德韦杰夫:欧盟已进入与俄罗斯的战争

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
本地
时尚
教育
公开课

旅游要闻

英媒:“极致中国化”助推入境旅游热潮

本地新闻

用剪纸的方式,打开江苏扬州

伊姐周六热推:电视剧《樊笼》;电视剧《翘楚》......

教育要闻

氛围已拉满!孩子们笔下的“六一”太欢乐

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版