网易首页 > 网易号 > 正文 申请入驻

中国唯一!阿里千问斩获全球AI顶会最佳论文

0
分享至

11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的发展。


阿里通义千问研究成果被评为NeurIPS 2025最佳论文

NeurIPS是人工智能领域影响力最大的顶会之一,该会议诞生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共有2万多篇论文投稿,仅有约25%的论文被接收,而最佳论文仅有4篇,入选概率不及万分之二,代表了目前全球人工智能领域最有价值和影响力的研究。

2017年,谷歌在NeurIPS发表的论文首次提出Transformer模型架构和‌自注意力机制,这一研究让AI像人类一样具备有选择性地关注关键信息的能力,是当下大模型研究的基础。尽管现在大模型在很多领域已经取得接近甚至超越人类的表现,但现有注意力机制仍存在诸多局限,例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差,这些局限性极大地影响了模型性能和训练稳定性,为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的“智能阀门”,可以帮助模型过滤无效信息并提升模型性能。近年来,AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因,也缺少大规模实践的经验。

此次,通义千问研究团队通过在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上进行了数十组实验,单组实验训练最多超过 3.5 万亿 tokens,首次清晰揭秘了门控注意力背后的作用原理,并全面展示使用该方案的最佳方式。

实验结果显示,对各注意力头的输出进行门控,是提升模型性能最有效的方式。使用该方式,在引入额外1%参数的情况下,可实现0.2以上的困惑度下降、MMLU基准评测2个点的提升。研究还发现,该技术还能在更大规模的模型训练上实现更好的性能。


使用论文方法,在引入额外1%参数的情况下,可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升

目前,该研究成果已应用于Qwen3-Next模型,并显著提升模型的性能与鲁棒性,相关技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会指出:“这项工作将被广泛应用,并极大推动AI研究人员对大语言模型中注意力机制的理解。”

通义千问团队表示:“对门控注意力机制的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。”据悉,目前阿里千问已开源300多款模型,涵盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰最大的妓院,产道的微观视图,39张照片看世界

荷兰最大的妓院,产道的微观视图,39张照片看世界

深度报
2026-01-15 22:45:40
关灯吃面?48000万股牢牢封死跌停板:250亿资金惨遭闷棍…

关灯吃面?48000万股牢牢封死跌停板:250亿资金惨遭闷棍…

新浪财经
2026-01-15 17:13:16
植入电极戒毒后,一起医疗试验引发的“副作用”争议

植入电极戒毒后,一起医疗试验引发的“副作用”争议

新京报
2026-01-15 10:21:12
U23国足0-0战暴露3大水货,恐被安东尼奥弃用

U23国足0-0战暴露3大水货,恐被安东尼奥弃用

民哥台球解说
2026-01-15 17:07:09
湖南小女孩突发心脏病死亡后:知情人曝更多,母亲已社死,恐担责

湖南小女孩突发心脏病死亡后:知情人曝更多,母亲已社死,恐担责

阿纂看事
2026-01-15 14:09:01
重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

南方健哥
2026-01-15 15:15:05
“台独”顽固分子名单更新!吕秀莲已改口,民进党终于开始慌了

“台独”顽固分子名单更新!吕秀莲已改口,民进党终于开始慌了

军机Talk
2026-01-15 11:22:40
上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

墨说古今
2026-01-05 16:37:54
年轻时的王石太装了:万科除了黄赌毒、军火不做,其他都有涉及

年轻时的王石太装了:万科除了黄赌毒、军火不做,其他都有涉及

回旋镖
2026-01-15 21:53:04
贺娇龙运送回家画面曝光!强撑见家人最后一面,“五杯酒”引热议

贺娇龙运送回家画面曝光!强撑见家人最后一面,“五杯酒”引热议

李健政观察
2026-01-15 17:24:19
就在刚刚!变天了,中方向全世界宣布:对美合作终止

就在刚刚!变天了,中方向全世界宣布:对美合作终止

瞳哥视界
2026-01-15 20:02:51
聂卫平去世仅1天,恶心的一幕发生,私生活被扒,郎平也受牵连

聂卫平去世仅1天,恶心的一幕发生,私生活被扒,郎平也受牵连

查尔菲的笔记
2026-01-15 19:26:43
乌军单日摧毁84门重炮,俄罗斯3000万桶石油滞留海上无人问津

乌军单日摧毁84门重炮,俄罗斯3000万桶石油滞留海上无人问津

史政先锋
2026-01-15 21:00:54
四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

封面新闻
2026-01-15 19:13:05
凑凑火锅郑州门店清零?呷哺呷哺回应

凑凑火锅郑州门店清零?呷哺呷哺回应

鲁中晨报
2026-01-15 14:11:08
美军突袭动用神秘武器曝光,能使人“鼻子流血或吐血”

美军突袭动用神秘武器曝光,能使人“鼻子流血或吐血”

扬子晚报
2026-01-15 22:00:33
离婚10个月,央媒发文,高调官宣38岁陈晓喜讯,陈妍希后悔了吗?

离婚10个月,央媒发文,高调官宣38岁陈晓喜讯,陈妍希后悔了吗?

查尔菲的笔记
2026-01-14 21:39:14
乌克兰女孩嫁我家4年,回娘家我塞了3万欧元,打开行李箱后我愣了

乌克兰女孩嫁我家4年,回娘家我塞了3万欧元,打开行李箱后我愣了

星宇共鸣
2026-01-13 09:23:08
起底携程:控制56%的市场,日赚2亿多,前十大股东被美资“霸榜”

起底携程:控制56%的市场,日赚2亿多,前十大股东被美资“霸榜”

数字财经智库
2026-01-15 10:49:04
不等中方出手,7国主动从中国减少进口稀土,特朗普宣告对华取胜

不等中方出手,7国主动从中国减少进口稀土,特朗普宣告对华取胜

军机Talk
2026-01-15 11:02:02
2026-01-16 05:52:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68352文章数 656054关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

本地
教育
家居
游戏
军事航空

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

教育要闻

重磅!事关提前招生,省教育厅最新改革试点通知!

家居要闻

自在自宅 个性自由

任天堂股价暴跌!为何索尼未收影响?专家分析来了

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版