网易首页 > 网易号 > 正文 申请入驻

校企携手:我国大语言模型高效建模研究取得突破性进展

0
分享至



北大张铭教授团队与DeepSeek梁文锋团队合作,在长上下文大语言模型高效建模领域取得突破性进展。

据国家自然科学基金委消息,在国家自然科学基金项目资助下,北京大学计算机学院张铭教授团队与DeepSeek梁文锋团队合作,在长上下文大语言模型高效建模领域取得突破性进展,相关成果以“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”为题在自然语言处理领域顶级会议Association for Computational Linguistics(ACL)2025中发表,并被评为最佳论文(Best Paper Award)。张铭教授和梁文锋先生为论文的共同通讯作者。

长上下文建模是下一代大型语言模型(LLM)的关键能力,但标准注意力机制的高计算开销是重大挑战。稀疏注意力虽然具有较强的发展前景,但现有方法常面临理论优势难转化为实际加速、以及缺乏端到端训练支持等问题,严重制约了长文本AI应用的发展。针对这一问题,研究团队创新性提出了一种全新的注意力机制——原生可训练稀疏注意力(Native Sparse Attention,NSA)。NSA的核心创新体现在两个方面:首先是硬件对齐的算法与实现,通过算术强度均衡设计和专用算子,显著提升运行速度,将稀疏注意力理论优势转化为实际加速;其次是原生可训练性,实现端到端训练模式,解决了稀疏注意力训练难题,在保持性能的同时大幅降低预训练计算开销。


图 原生可训练稀疏注意力机制(NSA)

实验结果表明,基于NSA预训练的模型在通用基准、长上下文及指令推理任务上,均能保持甚至超越传统注意力模型表现。在64k序列长度下,NSA在解码、前向传播与反向传播阶段均实现显著加速。与Flash Attention对比,NSA在前向传播速度提升可达9倍,反向传播实现6倍加速,呈现“越长越优”趋势。

该研究不仅解决了稀疏注意力机制的实际应用挑战,更为推动高效大型语言模型发展提供了新方向。该论文自今年2月公开以来已被谷歌学术引用近百次,研究成果已被DeepSeek、华为、字节跳动等多家领先的大模型企业实现或复现,充分验证了其技术的先进性和实用性。

北大张铭教授主要研究领域在文本挖掘、知识图谱、图神经网络、机器学习等方面,长期深耕数据科学领域,在信息检索与推荐方面有突出贡献,是我国数据及计算科学领域的知名学者。发表或合作发表学术论文超300多篇,出版多本在数据及计算领域有影响力的专著,其主讲的“数据结构与算法”,入选国家级和北京市级精品课程、国家级精品资源共享课程。她还担任教育部计算机课程教指委委员,ACM教育专委会唯一中国理事。连续入选“全球2000位最具影响力AI学者”。

DeepSeek梁文锋毕业于浙江大学,获得信息与电子工程学系学士和硕士学位,其作为通讯作者,与DeepSeek团队共同完成的关于DeepSeek-R1推理模型的研究论文,成功登上国际权威期刊《自然(Nature)》封面。

主要来源:国家自然科学基金委员会 北京大学计算机学院

编辑:晓燕

指导:辛文

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狗狗立大功!广东女子上山遛狗,狗狗在草丛中发现“国宝级”生物

狗狗立大功!广东女子上山遛狗,狗狗在草丛中发现“国宝级”生物

万象硬核本尊
2026-01-24 12:28:54
你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

带你感受人间冷暖
2026-01-21 00:15:05
刚刚,晚间16家公司出现重大利空公告,有没有与你相关的个股?

刚刚,晚间16家公司出现重大利空公告,有没有与你相关的个股?

股市皆大事
2026-01-24 16:59:35
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
比没钱更可怕的是戴“中国式大妈配饰”,自以为时髦,实际很廉价

比没钱更可怕的是戴“中国式大妈配饰”,自以为时髦,实际很廉价

白宸侃片
2026-01-22 11:07:38
教外语应该穿什么,学外语又该穿什么?

教外语应该穿什么,学外语又该穿什么?

三人成虎V5
2026-01-24 21:53:04
有趣!迪亚洛偷鸡不成蚀把米,让山西队吃到2个技术犯规

有趣!迪亚洛偷鸡不成蚀把米,让山西队吃到2个技术犯规

体育哲人
2026-01-24 23:14:54
历史性突破!U23国足首进亚洲杯决赛

历史性突破!U23国足首进亚洲杯决赛

财联社
2026-01-21 01:28:20
二人转演员娇娇被官方点名:利用封建迷信疯狂敛财,涉案金额惊人

二人转演员娇娇被官方点名:利用封建迷信疯狂敛财,涉案金额惊人

娱慧
2026-01-22 12:17:49
光速翻脸?6万吨菜籽油刚卖给中国,电车就遭针对,卡尼直摇头

光速翻脸?6万吨菜籽油刚卖给中国,电车就遭针对,卡尼直摇头

娱乐八卦木木子
2026-01-23 12:39:27
皮尔斯:詹姆斯为湖人带来了一座总冠军和100亿美元,湖人太划算了

皮尔斯:詹姆斯为湖人带来了一座总冠军和100亿美元,湖人太划算了

懂球帝
2026-01-24 15:37:08
南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

武器纵论
2026-01-21 22:11:41
太精彩了!温瑞博苦战七局击败樊振东德国队友,夺冠后振臂欢呼

太精彩了!温瑞博苦战七局击败樊振东德国队友,夺冠后振臂欢呼

杨哥乒乓
2026-01-24 21:49:04
西方史上最严重高铁事故,背后的日本企业无人关注

西方史上最严重高铁事故,背后的日本企业无人关注

枫冷慕诗
2026-01-23 14:27:24
巴萨迎战西甲倒1:赢球=创造30年纪录 亚马尔回归 4人缺席

巴萨迎战西甲倒1:赢球=创造30年纪录 亚马尔回归 4人缺席

叶青足球世界
2026-01-24 20:41:06
温瑞博险胜弗朗西斯卡,国乒夺得四冠,包揽了男女单打冠军

温瑞博险胜弗朗西斯卡,国乒夺得四冠,包揽了男女单打冠军

子水体娱
2026-01-24 21:49:06
回顾:四川“烧妻案”唐路被注射死刑,行刑前浑身哆嗦,崩溃痛哭

回顾:四川“烧妻案”唐路被注射死刑,行刑前浑身哆嗦,崩溃痛哭

谈史论天地
2026-01-24 14:55:03
U23男足队长来自武汉!今晚决战日本,他父亲突然落泪……

U23男足队长来自武汉!今晚决战日本,他父亲突然落泪……

极目新闻
2026-01-24 21:55:33
郭永航辞去广东省人大代表职务,此前已卸任省委常委

郭永航辞去广东省人大代表职务,此前已卸任省委常委

澎湃新闻
2026-01-23 21:17:05
原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

陈穟侃故事
2026-01-24 17:15:11
2026-01-24 23:39:00
通信产业报 incentive-icons
通信产业报
深度新闻、责任观点。
7897文章数 10030关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

艺术
游戏
房产
家居
健康

艺术要闻

在格陵兰岛坐牢,是一种怎样的体验?

LOL世界冠军转型刀塔,大主播迎直播第二春,人气比玩LOL还高!

房产要闻

正式官宣!三亚又一所名校要来了!

家居要闻

在家度假 160平南洋混搭宅

耳石脱落为何让人天旋地转+恶心?

无障碍浏览 进入关怀版