网易首页 > 网易号 > 正文 申请入驻

北大拿下2篇最佳论文,DeepSeek实习生立功,华人横扫这场AI顶会

0
分享至

智东西7月31日报道,昨天,第63届计算语言学协会年会(ACL 2025)在奥地利召开。作为自然语言处理领域最具学术影响力的会议之一,本届ACL吸引了超过8300多篇论文的投稿,中国大陆科研人员在本届ACL实现明显突破。

最佳论文奖是ACL最受关注的奖项,今年ACL共评选出4篇最佳论文,其中2篇来自中国大陆,分别由北大、DeepSeek和华盛顿大学联合团队,以及北大-灵初智能联合实验室摘得。

DeepSeek等机构的获奖论文以原生稀疏注意力(NSA)为主题,第一作者为袁境阳。袁境阳在DeepSeek实习期间提出了NSA模型,现在在北京大学计算机学院攻读博士学位。DeepSeek创始人兼CEO梁文锋也出现在作者名单中。

NSA可用于超快速的长上下文训练与推理,以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。

论文链接:https://aclanthology.org/2025.acl-long.1126/

北大-灵初智能联合实验室首席科学家杨耀东博士团队的获奖论文,则揭示了大模型参数结构中存在的一种弹性机制,并可能导致模型在后训练阶段产生抗拒对齐的行为。这一发现对AI治理和安全问题很有启发意义。

论文链接:https://aclanthology.org/2025.acl-long.1141/

其余2篇最佳论文来自美国、德国。斯坦福大学、康奈尔大学(科技校区)联合团队在获奖论文中提供了一套评估算法公平性的基准测试,并发现现有促进算法公平性的手段存在误区,如果盲目使用可能会适得其反。

论文链接:https://aclanthology.org/2025.acl-long.341.pdf

由德国CISPA亥姆霍兹信息安全中心、TCS Research以及微软三家机构合作的获奖论文,则聚焦于大型语言模型在自主决策中的采样偏差——揭示其背后由“描述性常态”与“规定性理想”共同塑造的启发式机制,并通过公共卫生与经济趋势等现实案例,论证这种向理想值偏移的现象如何在实际应用中导致显著偏差与伦理风险。

论文链接:https://aclanthology.org/2025.acl-long.1454/

ACL官方数据显示,2025年,所有投稿论文中的第一作者中,有51.3%来自中国大陆,与去年30.6%的比例实现了明显增长;今年所有作者中,中国大陆作者的比例也达到51%。过去两年,美国在第一作者数量上均位居第二,不过比例已经从2024年的29.6%下降至2025年的14.0%。

以下是本届ACL中两篇来自中国大陆的最佳论文的核心内容梳理:

一、DeepSeek联手北大:新型稀疏注意力机制,让模型解码狂飙11.6倍

北京大学、DeepSeek和华盛顿大学联合团队(后简称联合团队)的获奖论文全名为《原生稀疏注意力:面向硬件对齐且可原生训练的稀疏注意力机制(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)》,曾于今年2月份作为DeepSeek-R1开源的系列技术报告之一发布。

什么是稀疏注意力?与传统注意力机制相比,稀疏注意力方法能通过选择性计算关键的查询键对来减少计算开销。不过,现有许多稀疏注意力方法在实际推理中未能显著降低延迟,还无法适应现代高效的解码架构,也缺乏对训练阶段的支持。

联合团队希望解决现有稀疏注意力的两大问题,一是事后稀疏化导致的性能退化,二是现有稀疏方法在长序列训练的效率短板。

NSA的核心思想是通过动态分层稀疏策略,结合粗粒度的token压缩和细粒度的token选择,保留全局上下文感知能力和局部精确性。

在NSA机制中,模型会同时使用三种不同的注意力方式来处理输入文本,每种方式都有它自己的擅长领域:

(1)压缩注意力

这个分支把输入的信息聚合成块,捕捉粗粒度的语义信息,也就是对输入内容的关键信息进行总结提炼。压缩注意力可以减少计算的工作量,但会损失细节。

(2)选择性注意力

为了避免压缩时遗漏重要内容,NSA新增了选择性注意力机制。这一机制给每一块信息打个“重要程度”的分数,并选择最关键的信息进行更细致的计算。这样既能保留关键细节,又不会让计算变得太复杂。

(3)滑动窗口注意力

这个分支负责处理文本中临近的词之间的关系。它会在固定大小的窗口内计算注意力,比如只看当前词前后的几个词,这样可以更好地理解局部上下文。这个机制能防止模型太过依赖前两个机制,而忽视邻近词之间的联系。

整体来看,NSA通过这三种注意力机制互相配合,一方面节省计算资源,一方面又能兼顾全局语义和关键细节。

▲NSA架构概览

为测试NSA机制的实际效果,联合团队在同一模型的基础上,分别使用了不同的注意力机制,比如传统的全注意力机制、NSA机制等,并在多个测试任务上进行比较。

使用NSA机制的模型在9个测试中获得了7项最佳成绩,整体表现超过了其它所有方法,包括全注意力。尤其是在逻辑推理、问答等任务上,采用NSA机制的模型表现较好,这说明它能排除掉不重要的信息,把注意力集中在真正关键的部分。

除了质量方面的提升,NSA还带来效率方面的优势。联合团队在8张A100显卡上做了测试,他们发现:

(1)在64k长度的文本输入下,NSA的前向计算速度是全注意力的9倍

(2)反向计算速度是全注意力的6倍

(3)在解码时,NSA将速度提升至原有的11.6倍

这些提速的关键在于NSA对硬件更友好,比如,其内存访问是按“块”来走的,最大化了张量核心的利用率,而且内部调度机制减少了不必要的计算负担。

二、北大-灵初智能团队:探索模型对齐困境,“弹性”机制或成开源模型隐忧

北大-灵初智能联合实验室首席科学家杨耀东博士团队(后简称该团队)的获奖论文全名为《语言模型抗拒对齐:来自数据压缩的证据(Language Models Resist Alignment: Evidence From Data Compression)》。这一研究揭示了一个关键问题:大语言模型在对齐时其实会反抗。

该团队发现,尽管我们可以通过各类对齐方式让模型变得更“安全”、更“符合人类价值观”,模型本身其实倾向于回到它原来预训练时学到的原始分布。就像一个弹簧被拉伸后又想回到原始状态,这种行为被称为“弹性”。

这种弹性体现在两个方面:

(1)抵抗(Resistance):模型不太愿意改变自己,仍然保留原来的分布特征;

(2)反弹(Rebound):对模型对齐越深,它反弹回原始状态的速度反而越快——如果用反方向训练(比如取消之前的对齐过程),它很快就会打回原形。

研究还发现,这种行为可以用压缩率变化来衡量——也就是说,模型对不同数据集的学习压缩程度变化,与数据量大小成反比。

为了进一步解释这种行为,该团队构建了一个理论模型:语言模型训练和对齐过程其实是一种信息压缩过程。他们基于“压缩定理”(compression theorem)和“压缩协议”(compression protocol),从信息论的角度来分析模型为什么会产生“弹性”——这为理解为什么对齐不稳定提供了数学框架。

最后,该团队通过一系列实验,验证了这一现象在不同的大模型中都存在。这说明“弹性”并不是个别模型的特例,而是语言模型训练过程中一种普遍的内在机制。

因此,要想实现真正稳固的对齐,不能只停留在表层的微调,而必须深入理解并对抗这种由压缩机制引发的反对齐倾向。

该团队还基于模型弹性机制,提出了对开源策略的思考。

一方面,开源模型权重有助于研究者快速发现漏洞、推动大规模对齐与安全研究;另一方面,模型弹性也意味着,即便是通过审计和安全微调的模型,如果被公开,一旦出现更先进的反对齐手段,这些模型也可能很容易被重置到未对齐状态,大大降低模型“越狱”的门槛,破坏原有的安全机制,带来现实风险。

结语:华人AI研究者集体崛起,安全成为ACL热点议题

除了中国大陆团队在最佳论文奖上的杰出表现,ACL 2025还见证了华人AI研究者的集体崛起。

本届ACL评选出26篇杰出论文,这是重要性仅次于最佳论文的奖项。这26篇论文中,有13篇论文的第一作者为华人,占比达50%。这也显示出,华人AI研究者在全球范围内的学术影响力,正不断扩大。

值得一提是,ACL的获奖论文中,有大量以AI安全、监督、对齐等为主题,学术界对这些重要议题的关注,给产业界的AI研究提供了极为有益的补充。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黎巴嫩一国两军:真主党这个“国中之国”,为何彻底绑架黎巴嫩?

黎巴嫩一国两军:真主党这个“国中之国”,为何彻底绑架黎巴嫩?

环球情报员
2026-04-11 21:23:51
小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

鲁中晨报
2026-04-10 09:32:05
查了查养老个人账户才缴纳了186个月,余额只有186144.78元

查了查养老个人账户才缴纳了186个月,余额只有186144.78元

岁月有情1314
2026-04-10 20:38:14
3大腿神的最强组合!我全都要!

3大腿神的最强组合!我全都要!

贵圈真乱
2026-04-12 10:43:38
广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

澎湃新闻
2026-04-12 09:31:10
48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

基斯默默
2026-04-11 11:19:29
数艘美国海军舰船通过霍尔木兹海峡

数艘美国海军舰船通过霍尔木兹海峡

每日经济新闻
2026-04-11 21:23:39
遁入空门?迟重瑞寺庙诵经,送妻后彻底皈依,百亿遗产说扔就扔?

遁入空门?迟重瑞寺庙诵经,送妻后彻底皈依,百亿遗产说扔就扔?

福建睿平
2026-04-12 08:52:29
活久见!网传广东一租客将价值30元沙金项链留屋,房东爽快退押金

活久见!网传广东一租客将价值30元沙金项链留屋,房东爽快退押金

火山詩话
2026-04-12 08:04:26
中共中央批准:张玲任天津市委常委

中共中央批准:张玲任天津市委常委

新京报政事儿
2026-04-11 15:24:04
随着申花1-0战胜海港,泰山1-0,中超最新积分:榜首领先垫底20分

随着申花1-0战胜海港,泰山1-0,中超最新积分:榜首领先垫底20分

球场没跑道
2026-04-11 21:36:16
纪实:曾经红极一时的 10 位成功学大师,如今为何集体凉凉?

纪实:曾经红极一时的 10 位成功学大师,如今为何集体凉凉?

复转这些年
2026-04-04 08:01:50
张靓颖未发行新歌遭幕后工作人员泄露,本人发文连发5问

张靓颖未发行新歌遭幕后工作人员泄露,本人发文连发5问

韩小娱
2026-04-12 06:36:59
人民币大幅升值,全球资本正在加速涌入中国

人民币大幅升值,全球资本正在加速涌入中国

枫冷慕诗
2026-04-11 12:05:06
68岁赵本山现身海南悠闲逛街,打扮很潮流!买好几袋奢侈品好惬意

68岁赵本山现身海南悠闲逛街,打扮很潮流!买好几袋奢侈品好惬意

娱乐团长
2026-04-11 15:28:06
三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

面包夹知识
2026-04-11 17:27:37
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

冰雅忆史
2026-04-12 07:05:10
两岸统一后:台湾为何不宜“建省”?背后是一段深刻历史教训

两岸统一后:台湾为何不宜“建省”?背后是一段深刻历史教训

三石记
2026-04-11 11:52:20
续航100公里仅跑30公里 充电31秒电量猛涨10% 东莞网约车司机:深蓝SL03虚到不敢接单

续航100公里仅跑30公里 充电31秒电量猛涨10% 东莞网约车司机:深蓝SL03虚到不敢接单

信网
2026-04-11 17:05:04
巴基斯坦被激怒!出动大量中械装备,以色列若胆敢妄动,一律击落

巴基斯坦被激怒!出动大量中械装备,以色列若胆敢妄动,一律击落

小小科普员
2026-04-11 17:28:02
2026-04-12 11:08:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11557文章数 117027关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

美国副总统万斯:美伊谈判未能达成协议 将返回美国

头条要闻

美国副总统万斯:美伊谈判未能达成协议 将返回美国

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

健康
亲子
游戏
手机
军事航空

干细胞抗衰4大误区,90%的人都中招

亲子要闻

重新点燃爱的火花:产后如何找回那份激情与高潮?

现实比游戏更疯狂!莱斯特演员:GTA6或难达前作冲击感

手机要闻

华为畅享90 Pro Max一战封神,周销量超iPhone 17全系

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版