网易首页 > 网易号 > 正文 申请入驻

白山云上线Qwen3-Next-80B-A3B双模型!

0
分享至


近日,阿里通义千问发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型,包含指令版Qwen3-Next-80B-A3B-Instruct和思维版Qwen3-Next-80B-A3B-Thinking,指令版擅长理解和执行指令,思考版擅长多步推理和深度思考。

白山云科技旗下边缘算力云平台“白山智算”(

http://ai.baishan.com/website/model-api
)已第一时间上线这两款模型,用户可通过简单易用的API调用方式迅速体验Qwen3-Next架构带来的“更极致的训练和推理性价比”。

据官方介绍,Qwen3-Next相比Qwen3的MoE模型结构进行了以下核心改进,进一步提升了模型在长上下文和大规模总参数下的训练和推理效率:

混合注意力机制

用75%的Gated DeltaNet(线性注意力)和25%的Gated Attention(门控注意力)的组合替换标准注意力,兼顾效率与精度,长文本处理更稳更快。

高稀疏度MoE结构

模型总参数量达800亿,但每个推理步骤仅激活约30亿参数。相比Qwen3-MoE的128个总专家和8个路由专家,Qwen3-Next扩展到了512总专家,10路由专家与1共享专家的组合,在不牺牲效果的前提下最大化资源利用率。

训练稳定性友好设计

包括零中心化和权重衰减LayerNorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。

多Token预测(MTP)机制

提升预训练模型性能并加速推理,Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的投机采样(Speculative Decoding)接受率。

多项评测基准上的结果表明,Qwen3-Next-80B-A3B-Instruct与Qwen3-235B-A22B-Instruct-2507表现相当,同时在256K超长上下文处理任务中展现出显著优势;Qwen3-Next-80B-A3B-Thinking在复杂推理任务上表现卓越,不仅优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507与Qwen3-32B-Thinking,更在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。


指令模型测试基准


思维模型测试基准

白山云MaaS服务

提供边缘极速AI体验!

白山云大模型API服务提供预构建、开箱即用的LLM服务,只需一行代码用户即可完成模型切换与集成。基于白山全球边缘云架构进行就近推理,能够为用户带来<300ms的超低延时推理体验。

目前,平台已上架DeepSeek系列、通义千问系列、ChatGLM系列等多款大模型,并提供部分免费模型。开发者可在白山边缘算力云平台上对比选择各类模型,以更简单易用、灵活高效的API调用方式迅速开启AI创新之旅。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在黄岩岛遭痛击后,菲律宾爆发大规模抗议,小马科斯彻底压不住了

在黄岩岛遭痛击后,菲律宾爆发大规模抗议,小马科斯彻底压不住了

头条爆料007
2025-09-18 09:13:39
人民日报锐评胖东来聘刑释人员,句句直戳要害,于东来地位变了

人民日报锐评胖东来聘刑释人员,句句直戳要害,于东来地位变了

一家说
2025-09-18 09:49:44
男排世锦赛爆大冷!法国2-3阿根廷吞2连败,两届奥运冠军小组出局

男排世锦赛爆大冷!法国2-3阿根廷吞2连败,两届奥运冠军小组出局

我爱英超
2025-09-18 20:38:04
美媒摊牌:若台海战争爆发,中国高价购买的设备可能被远程瘫痪

美媒摊牌:若台海战争爆发,中国高价购买的设备可能被远程瘫痪

温辞韫
2025-09-17 06:05:04
医生术中离场8分钟与护士发生亲密关系,最新处理结果出炉

医生术中离场8分钟与护士发生亲密关系,最新处理结果出炉

新民周刊
2025-09-18 20:25:23
雀巢动荡未止!CEO才因办公室恋情被解雇,董事会主席也被迫“闪辞”

雀巢动荡未止!CEO才因办公室恋情被解雇,董事会主席也被迫“闪辞”

观察者网
2025-09-18 09:32:08
拿陈伯达开刀的晚上,毛主席突换住处:新居又小又破,还不准修理

拿陈伯达开刀的晚上,毛主席突换住处:新居又小又破,还不准修理

夏目历史君
2025-08-22 19:49:21
特朗普反对英国承认巴勒斯坦国计划

特朗普反对英国承认巴勒斯坦国计划

澎湃新闻
2025-09-19 03:42:02
停课!停运!广东多地紧急通知

停课!停运!广东多地紧急通知

广东发布
2025-09-18 22:46:31
第80分钟,国安和河内球员爆发激烈冲突!

第80分钟,国安和河内球员爆发激烈冲突!

直播吧
2025-09-18 22:04:02
“本店无预制菜,现点现做”,知名餐厅撤下现做招牌

“本店无预制菜,现点现做”,知名餐厅撤下现做招牌

大象新闻
2025-09-17 22:33:01
台风“米娜”生成,惠州三地停课

台风“米娜”生成,惠州三地停课

界面新闻
2025-09-18 16:35:57
武契奇首任妻子叫克塞尼娅,因病主动提出离婚,他之后娶了塔玛拉

武契奇首任妻子叫克塞尼娅,因病主动提出离婚,他之后娶了塔玛拉

吕甒极限手工
2025-09-02 17:45:40
25岁女生交往印度男友,同居20天后持续低烧,医生:你胆子真大!

25岁女生交往印度男友,同居20天后持续低烧,医生:你胆子真大!

张道陵秘话
2025-08-20 17:40:41
日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

揽星河的笔记
2025-09-17 19:45:54
中国芯片成功突围,华为传来捷报!美企CEO:特朗普做了错误决策

中国芯片成功突围,华为传来捷报!美企CEO:特朗普做了错误决策

小鬼头体育
2025-09-18 16:05:19
房价已惨不忍睹,楼市崩得悄无声息

房价已惨不忍睹,楼市崩得悄无声息

深蓝夜读
2025-09-16 12:00:12
再见傲骨!37岁巴西前国脚宣布退役,曾效力国安5年夺1冠+任队长

再见傲骨!37岁巴西前国脚宣布退役,曾效力国安5年夺1冠+任队长

我爱英超
2025-09-18 22:31:34
工资又回到了3000元时代

工资又回到了3000元时代

亚哥谈古论今
2025-09-06 17:38:41
总床位超6000张!安徽龙头医院再增一新院区

总床位超6000张!安徽龙头医院再增一新院区

看医界
2025-09-18 14:58:51
2025-09-19 04:11:00
白山云科技
白山云科技
云计算服务商
235文章数 1关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

教育
手机
艺术
健康
军事航空

教育要闻

一套可以上岸的热点专题笔记就长这样!!!新传人冲啊!!!

手机要闻

荣耀Magic8再曝,mini和Ultra年后发

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

内分泌科专家破解身高八大谣言

军事要闻

哈马斯高层在多哈遇袭后首次现身

无障碍浏览 进入关怀版