网易首页 > 网易号 > 正文 申请入驻

中国唯一!阿里千问斩获全球AI顶会最佳论文

0
分享至

11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的发展。

阿里通义千问研究成果被评为NeurIPS 2025最佳论文

NeurIPS是人工智能领域影响力最大的顶会之一,该会议诞生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共有2万多篇论文投稿,仅有约25%的论文被接收,而最佳论文仅有4篇,入选概率不及万分之二,代表了目前全球人工智能领域最有价值和影响力的研究。

2017年,谷歌在NeurIPS发表的论文首次提出Transformer模型架构和‌自注意力机制,这一研究让AI像人类一样具备有选择性地关注关键信息的能力,是当下大模型研究的基础。尽管现在大模型在很多领域已经取得接近甚至超越人类的表现,但现有注意力机制仍存在诸多局限,例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差,这些局限性极大地影响了模型性能和训练稳定性,为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的“智能阀门”,可以帮助模型过滤无效信息并提升模型性能。近年来,AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因,也缺少大规模实践的经验。

此次,通义千问研究团队通过在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上进行了数十组实验,单组实验训练最多超过 3.5 万亿 tokens,首次清晰揭秘了门控注意力背后的作用原理,并全面展示使用该方案的最佳方式。

实验结果显示,对各注意力头的输出进行门控,是提升模型性能最有效的方式。使用该方式,在引入额外1%参数的情况下,可实现0.2以上的困惑度下降、MMLU基准评测2个点的提升。研究还发现,该技术还能在更大规模的模型训练上实现更好的性能。

使用论文方法,在引入额外1%参数的情况下,可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升

目前,该研究成果已应用于Qwen3-Next模型,并显著提升模型的性能与鲁棒性,相关技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会指出:“这项工作将被广泛应用,并极大推动AI研究人员对大语言模型中注意力机制的理解。”

通义千问团队表示:“对门控注意力机制的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。”据悉,目前阿里千问已开源300多款模型,涵盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
订单爆了!深圳有商家直言:“已排到今年10月份”!

订单爆了!深圳有商家直言:“已排到今年10月份”!

深圳晚报
2026-06-03 12:22:33
鸟巢撒糖不到24小时!张柏芝突然官宣两大喜讯,网友:不对劲!

鸟巢撒糖不到24小时!张柏芝突然官宣两大喜讯,网友:不对劲!

林轻吟
2026-06-02 22:43:18
三伏天要来了,这两个月记得多喝3碗汤,让脾胃暖起来,平安度夏

三伏天要来了,这两个月记得多喝3碗汤,让脾胃暖起来,平安度夏

江江食研社
2026-06-02 22:20:03
美国打死都没想到!曾经把中国1000多名外逃贪官当“宝贝“护着

美国打死都没想到!曾经把中国1000多名外逃贪官当“宝贝“护着

果妈聊娱乐
2026-06-03 15:15:51
眼看无力回天,马科斯对莎拉提了个要求,上任后对华路线不能变

眼看无力回天,马科斯对莎拉提了个要求,上任后对华路线不能变

石江月
2026-06-02 13:15:42
男篮分到了死亡小组,郭士强使出首发五人组,渴望赢下世界杯名额

男篮分到了死亡小组,郭士强使出首发五人组,渴望赢下世界杯名额

阿信点评
2026-06-03 19:59:48
妻子裸死前夫床上,现任丈夫拒办后事,丈母娘将现任女婿告上法庭

妻子裸死前夫床上,现任丈夫拒办后事,丈母娘将现任女婿告上法庭

易玄
2026-06-03 09:23:21
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
“翻墙”就是犯法,这些常识你必须知道

“翻墙”就是犯法,这些常识你必须知道

智慧仪陇
2026-05-29 17:30:00
张学友的嘴,是开了光的预言家…

张学友的嘴,是开了光的预言家…

慧翔百科
2026-06-03 08:46:01
主角大结局:刘红兵父子车祸去世,宋雨成名角,封潇潇楚嘉禾分手

主角大结局:刘红兵父子车祸去世,宋雨成名角,封潇潇楚嘉禾分手

慢半拍sir
2026-06-03 14:08:36
成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

赴一场山海啊
2026-06-01 00:27:25
1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

唠叨说历史
2026-06-01 19:49:35
《教父》早就讲透:男人真正吸引异性的,从来不是甜言蜜语,也不是吃喝玩乐,而是这两种底层能力

《教父》早就讲透:男人真正吸引异性的,从来不是甜言蜜语,也不是吃喝玩乐,而是这两种底层能力

心理观察局
2026-06-03 07:39:04
谁来追责?浙江医院惊天乱象!花高价挂专家号,等来一场致命误诊

谁来追责?浙江医院惊天乱象!花高价挂专家号,等来一场致命误诊

牛锅巴小钒
2026-06-03 18:48:02
何猷君婚礼四房成员照曝光,何超盈带女出席,何猷亨现场高歌助兴

何猷君婚礼四房成员照曝光,何超盈带女出席,何猷亨现场高歌助兴

好贤观史记
2026-06-03 14:17:32
2027年,如果房价持续下跌,中国50%的家庭或将面临3个大麻烦

2027年,如果房价持续下跌,中国50%的家庭或将面临3个大麻烦

离离言几许
2026-06-02 18:07:50
意大利名单平均年龄21岁,仅多纳鲁马一人超23岁

意大利名单平均年龄21岁,仅多纳鲁马一人超23岁

懂球帝
2026-06-03 17:42:51
NBA官宣总决赛裁判大名单:福斯特托尼兄弟等四大名哨领衔

NBA官宣总决赛裁判大名单:福斯特托尼兄弟等四大名哨领衔

醉卧浮生
2026-06-03 00:41:39
佩斯科夫称,如果乌克兰从“俄罗斯地区”撤军,战争可在当天结束

佩斯科夫称,如果乌克兰从“俄罗斯地区”撤军,战争可在当天结束

山河路口
2026-06-02 19:29:15
2026-06-03 22:43:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69605文章数 656140关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

公司半夜通知全员放假一夜搬空 员工被拖欠数百万工资

头条要闻

公司半夜通知全员放假一夜搬空 员工被拖欠数百万工资

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

艺术
本地
教育
手机
公开课

艺术要闻

二十年前割麦的场景

本地新闻

用杨柳青年画的方式,打开天津

教育要闻

2026CWUR世界大学排名发布,想冲Top100院校的家庭先看这篇

手机要闻

真我realme P4R 5G参数公布:天玑6300,海外6月10日发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版