网易首页 > 网易号 > 正文 申请入驻

中国唯一!阿里千问斩获全球AI顶会最佳论文

0
分享至

11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的发展。


阿里通义千问研究成果被评为NeurIPS 2025最佳论文

NeurIPS是人工智能领域影响力最大的顶会之一,该会议诞生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共有2万多篇论文投稿,仅有约25%的论文被接收,而最佳论文仅有4篇,入选概率不及万分之二,代表了目前全球人工智能领域最有价值和影响力的研究。

2017年,谷歌在NeurIPS发表的论文首次提出Transformer模型架构和‌自注意力机制,这一研究让AI像人类一样具备有选择性地关注关键信息的能力,是当下大模型研究的基础。尽管现在大模型在很多领域已经取得接近甚至超越人类的表现,但现有注意力机制仍存在诸多局限,例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差,这些局限性极大地影响了模型性能和训练稳定性,为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的“智能阀门”,可以帮助模型过滤无效信息并提升模型性能。近年来,AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因,也缺少大规模实践的经验。

此次,通义千问研究团队通过在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上进行了数十组实验,单组实验训练最多超过 3.5 万亿 tokens,首次清晰揭秘了门控注意力背后的作用原理,并全面展示使用该方案的最佳方式。

实验结果显示,对各注意力头的输出进行门控,是提升模型性能最有效的方式。使用该方式,在引入额外1%参数的情况下,可实现0.2以上的困惑度下降、MMLU基准评测2个点的提升。研究还发现,该技术还能在更大规模的模型训练上实现更好的性能。


使用论文方法,在引入额外1%参数的情况下,可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升

目前,该研究成果已应用于Qwen3-Next模型,并显著提升模型的性能与鲁棒性,相关技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会指出:“这项工作将被广泛应用,并极大推动AI研究人员对大语言模型中注意力机制的理解。”

通义千问团队表示:“对门控注意力机制的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。”据悉,目前阿里千问已开源300多款模型,涵盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
河北“二婚黄花大闺女”的瓜

河北“二婚黄花大闺女”的瓜

皮蛋儿电影
2026-02-28 13:45:08
56岁许晴,无美颜无滤镜素颜亮相,状态好到让人不敢相信

56岁许晴,无美颜无滤镜素颜亮相,状态好到让人不敢相信

复转小能手
2026-03-01 22:15:02
学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

火山詩话
2026-03-01 12:06:34
英媒:英国驻塞浦路斯空军基地传出强烈爆炸声

英媒:英国驻塞浦路斯空军基地传出强烈爆炸声

环球网资讯
2026-03-02 07:10:06
世界首次五百强断崖差:日本149家,美国151家,中国3家,现在呢

世界首次五百强断崖差:日本149家,美国151家,中国3家,现在呢

纪中百大事
2026-03-01 12:24:25
美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

爆角追踪
2026-03-01 14:57:47
哈梅内伊快87岁了,知道自己身体不行,也躲了,以死来唤起民众。

哈梅内伊快87岁了,知道自己身体不行,也躲了,以死来唤起民众。

岁月有情1314
2026-03-02 07:57:08
铁卫助攻独享队史第1,阿森纳2-1切尔西,破曼联纪录力压蓝月军团

铁卫助攻独享队史第1,阿森纳2-1切尔西,破曼联纪录力压蓝月军团

钉钉陌上花开
2026-03-02 05:48:31
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
国际油价跳涨,黄金、白银直线拉升!伊朗:反击已造成560名美军伤亡,3艘违规美英油轮遭导弹击中!特朗普称美方“基本摧毁”伊朗海军总部

国际油价跳涨,黄金、白银直线拉升!伊朗:反击已造成560名美军伤亡,3艘违规美英油轮遭导弹击中!特朗普称美方“基本摧毁”伊朗海军总部

每日经济新闻
2026-03-02 08:14:14
曼联2-1逆转十人水晶宫!11轮不败升英超第3 B费传射 谢什科3连杀

曼联2-1逆转十人水晶宫!11轮不败升英超第3 B费传射 谢什科3连杀

我爱英超
2026-03-02 00:01:06
特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

健身狂人
2026-03-01 13:53:47
消息人士称哈梅内伊正掌控战局

消息人士称哈梅内伊正掌控战局

财联社
2026-03-01 05:07:17
随着中国男篮2连胜,日本送韩国2连败,本小组3支出线队基本如下

随着中国男篮2连胜,日本送韩国2连败,本小组3支出线队基本如下

小火箭爱体育
2026-03-01 18:43:21
MIT 证实:科学学习顺序,让你少学 23%,成绩反提 16.7%

MIT 证实:科学学习顺序,让你少学 23%,成绩反提 16.7%

户外阿毽
2026-03-01 17:38:10
一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

流苏晚晴
2026-03-01 16:54:18
内贾德死亡真相

内贾德死亡真相

哲空空
2026-03-02 07:50:14
伊朗前总统内贾德遇袭身亡,他地位如何?为何卸任13年仍被炸死?

伊朗前总统内贾德遇袭身亡,他地位如何?为何卸任13年仍被炸死?

之乎者也小鱼儿
2026-03-01 23:23:38
因“头巾佩戴不规范”被警察虐待致死的那位伊朗姑娘艾米尼,或许终于可以安息

因“头巾佩戴不规范”被警察虐待致死的那位伊朗姑娘艾米尼,或许终于可以安息

法律学堂
2026-03-02 00:06:54
2026-03-02 10:03:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68613文章数 656082关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

游戏
时尚
房产
公开课
军事航空

《生化危机9》格蕾丝被吐槽:最弱最无魅力女主角!

从每天只睡4小时到8小时:一个失眠者的自救指南

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军动用新型武器:山寨伊朗的

无障碍浏览 进入关怀版