NeurIPS 2025放榜：阿里Qwen门控注意力获最佳论文|算法|实验|阿里巴巴集团

NeurIPS 2025放榜：阿里Qwen门控注意力获最佳论文

2025-11-27 11:08:44　来源: 量子位

北京举报

分享至

嘻疯发自凹非寺
量子位 | 公众号 QbitAI

刚刚，NeurIPS 2025最佳论文奖、时间检验奖出炉！

今年Best Paper共有4篇，3篇为华人一作，阿里Qwen门控注意力获奖

Best Paper Runner-up也有三篇

这七篇论文聚焦于扩散模型理论、自监督强化学习、大语言模型注意力机制、大语言模型推理能力、在线学习理论、神经缩放定律以及语言模型多样性基准测试方法等领域的突破性进展。

另外，任少卿、何恺明、Ross Girshick、孙剑团队2015年提出的深度学习模型Faster R-CNN拿下时间检验奖

Faster R-CNN用于解决目标检测问题，目标检测的任务不仅要知道一张图片里有什么物体（分类），还要知道这些物体在图片的什么位置（定位）。

它的名字“Faster”已经点明了其最大贡献：极大地提升了目标检测的速度，真正实现了端到端的、接近实时的检测。

4篇Best Paper，3篇华人一作

1、《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》

论文一作为来自华盛顿大学的Liwei Jiang。

这篇工作聚焦大语言模型在开放式生成任务中的多样性问题，提出“人工蜂群思维（Artificial Hivemind）”概念。

核心发现是当前大模型存在显著的模型内重复和模型间同质性：

单一模型对同一开放式查询会生成相似响应，不同模型（无论开源还是闭源、不同规模）也会收敛到相似输出，即便采用min-p等增强多样性的解码策略，仍有超60%的响应相似度超过0.8。

例如，对查询“写一个关于时间的隐喻”的响应通过主成分分析（PCA）将句子嵌入降至二维后进行聚类。25个不同家族、规模的模型以top-p=0.9、temperature=1.0生成50条响应，所有响应仅形成两个主要聚类：“时间是一条河流”“时间是一位织工”。

为支撑研究，作者构建了含26K真实世界开放式查询的INFINITY-CHAT数据集，涵盖创意内容生成、头脑风暴、哲学问题等6大类17个子类，并收集了31250条人类标注，形成首个系统评估开放式查询的资源。

同时，研究还发现，现有大模型、奖励模型和大模型评判器在评估人类偏好分歧大或质量相近的开放式响应时，与人类评分的校准度较低，难以捕捉人类多元偏好。

论文通过大量实验（涉及70+模型）验证了“人工蜂群思维”的普遍性，讨论了其对人类思维同质化的潜在风险，并为未来开发更具多样性、更贴合人类多元需求的AI系统提供了基准和方向，也指出了数据集语言局限性、创意表达维度简化等研究不足。

2、《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》

论文共同一作Zihan Qiu、Zekun Wang、Bo Zheng均来自阿里Qwen团队，Zeyu Huang来自爱丁堡大学。

该论文聚焦大语言模型中的门控注意力机制，通过对15B混合专家（MoE）模型和1.7B稠密模型在3.5万亿token数据集上的30种变体进行全面实验，系统探究了门控增强型softmax注意力的效果。

研究核心发现，在缩放点积注意力（SDPA）后应用特定于注意力头的sigmoid门控能持续提升模型性能，同时增强训练稳定性、容忍更大学习率并改善缩放特性。

该门控机制的有效性源于两大关键因素：一是在softmax注意力的低秩映射中引入非线性，二是通过查询依赖的稀疏门控分数调节SDPA输出。

这种稀疏门控不仅缓解了大规模激活和注意力沉陷问题，将基线模型中平均46.7%指向首个token的注意力占比降至4.8%，还提升了长上下文外推性能，在RULER基准上实现超10分的增益。

实验还对比了不同门控位置、粒度、共享方式、作用形式及激活函数的效果，证实SDPA输出的元素级门控最优，且头特定门控比头共享门控更有效，乘法门控优于加法门控，sigmoid激活函数表现最佳。

此外，该门控机制在MoE模型和稠密模型中均有效，能支持更大学习率和批次大小的稳定训练，且在上下文长度扩展至128k时仍保持优越性能，相关代码和模型已公开，其核心设计也被应用于Qwen3-Next模型中。

3、《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》

论文一作Kevin Wang，来自普林斯顿大学，同时是OpenAI研究员。

这篇论文聚焦于解决强化学习中模型规模扩展的难题，探索了网络深度作为关键因素对自监督强化学习性能的影响。

与近年来RL领域普遍采用2-5层的浅层架构不同，研究团队将网络深度提升至1024层，结合自监督RL算法（对比性RL，CRL）、GPU加速框架以及残差连接、层归一化、Swish激活等架构技术，在无演示、无奖励的无监督目标条件设置下开展实验。

实验覆盖移动、导航和机器人操作等多种任务。

结果显示，加深网络深度使CRL算法性能提升2-50倍，在半数环境中实现超20倍的性能飞跃，且在10个任务中的8个超越SAC、TD3+HER等主流目标条件基线算法。

深度增加不仅提高任务成功率，还会触发质的行为变化，当达到特定临界深度（如Ant Big Maze的8层、Humanoid U-Maze的64层）时，智能体将习得全新技能（如类人机器人的翻墙、坐姿移动等）。

研究还揭示，深度扩展比宽度扩展更具计算效率（参数与计算量增长更平缓），且能与批量大小扩展协同作用。

同时，actor和critic网络的联合深度扩展可互补提升性能；深层网络通过增强对比表征能力、优化探索与表征效率的协同作用、合理分配关键状态区域的表征容量等机制实现性能提升，还在组合泛化任务中表现更优。

此外，研究发现深度扩展的优势主要体现在在线RL场景，离线设置下效果有限，且仅CRL等自监督算法能有效利用深度扩展，传统TD类算法难以从中获益。

论文通过详尽的实验验证、架构消融和机制分析，为RL的规模扩展提供了新范式，同时也指出了计算成本较高等局限性。

4、《Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training》

论文共同一作Tony Bonnaire、Raphaël Urfin，来自巴黎高等科学与研究学院。

论文深入探究了扩散模型避免训练数据记忆化、实现泛化的核心机制，聚焦训练动态中的隐式动力学正则化作用。

论文首先指出，扩散模型在图像、音频、视频等生成任务中表现出色，但理解其防止记忆化、保障泛化能力的机制是关键挑战。通过大量数值实验与理论分析，研究识别出两个关键训练时间尺度：

一是泛化时间，即模型开始生成高质量样本所需的最短训练时间，该时间与训练集大小无关；二是记忆化时间，超过此时间模型会开始记忆训练数据，且该时间随训练集大小呈线性增长。

这两个时间尺度形成的泛化窗口会随训练集规模扩大而拓宽，只要训练在泛化窗口内停止，模型就能高效泛化，只有当训练集大小超过模型相关阈值时，无限训练时间下的过拟合才会消失，这一发现揭示了隐式动力学正则化能让扩散模型即便在高度过参数化场景下也可避免记忆化。

在实验验证方面，研究以CelebA人脸数据集为对象，将图像转为灰度下采样图像，采用U-Net架构构建分数模型，通过改变训练集大小和模型参数数量（调整U-Net基础宽度）展开实验。

结果显示，不同训练集大小下，泛化时间基本稳定，记忆化时间随训练集增大而线性延长，且模型容量会影响两个时间尺度（参数越多，泛化和记忆化出现越早），同时排除了数据重复导致记忆化的可能性，证明记忆化由损失景观的本质变化驱动。

理论分析层面，研究采用随机特征神经网络模型，在高维极限下结合随机矩阵理论等工具，分析训练动态。

结果表明，训练动态的时间尺度与随机特征相关矩阵的特征值倒数相关，过参数化场景下会出现两个分离的特征值区间，分别对应泛化和记忆化时间尺度，泛化阶段依赖数据总体协方差，与具体数据集无关，记忆化阶段则与数据集相关的高频特征有关，进一步印证了实验观察到的规律。

此外，论文还探讨了优化器影响、条件生成场景等扩展情况，同时指出研究局限，如未充分探索更宽范围的模型参数、未深入分析条件生成对时间尺度的具体影响等。

Faster R-CNN获时间检验奖

Faster R-CNN目标检测框架，核心创新是引入区域提议网络（RPN），通过与检测网络共享全图像卷积特征，解决了传统目标检测中区域提议计算耗时的瓶颈问题，实现了高效且高精度的目标检测。

RPN作为全卷积网络，能在特征图的每个位置同时预测目标边界框和目标性得分，其设计的“锚点”机制通过3种尺度和3种长宽比的参考框，无需图像金字塔或滤波器金字塔即可覆盖多种尺度和形状的目标，兼具平移不变性且参数规模远小于MultiBox等方法，有效降低过拟合风险。

论文设计了多任务损失函数，结合分类损失（log损失）和回归损失（smooth L1损失），通过4步交替训练策略将 RPN与Fast R-CNN融合为统一网络，实现卷积特征的共享——

RPN扮演注意力角色指示检测网络关注区域，Fast R-CNN负责对提议区域进行精确分类和边界框修正。

在实验验证方面，该框架在PASCAL VOC 2007、2012和MS COCO等数据集上均取得当时最先进的检测精度，使用VGG-16模型时在GPU上达到5fps的帧率（含所有步骤），仅需300个提议区域即可优于传统Selective Search（2000个提议）的性能，且提议计算仅耗时10ms。

在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN成为多个赛道冠军方案的基础。

此外，论文还通过消融实验验证了锚点设置、损失函数平衡参数等超参数的鲁棒性，对比了单阶段与两阶段检测框架的优劣，证明两阶段架构更具精度优势，同时探索了MS COCO大规模数据集对PASCAL VOC任务的迁移提升作用，通过跨数据集预训练实现了检测精度的显著提高。

该框架不仅为实时目标检测提供了实用解决方案，其共享特征和锚点机制也深刻影响了后续3D目标检测、实例分割等多个计算机视觉领域的发展，相关代码已公开供学术界和工业界使用。

[1]https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
[2]https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.