网易首页 > 网易号 > 正文 申请入驻

DeepSeek又放大招!梁文锋署名新论文引关注

0
分享至

DeepSeek近日发布论文,阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架旨在提升可扩展性,同时降低训练先进人工智能系统的算力和能源需求。DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。

1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构

该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也在作者名单中。

论文摘要指出,近来,以超连接(HC)为代表的研究通过拓宽残差流宽度和多样化连接模式,拓展了过去十年间确立的普遍采用的残差连接范式。虽然这些改进带来了显著的性能提升,但连接模式的多样化从根本上削弱了残差连接固有的恒等映射特性,导致严重的训练不稳定性与受限的可扩展性,同时还造成了显著的内存访问开销。

为了解决这些问题,DeepSeek提出了流形约束超连接(mHC)——一种通用框架,能够将HC的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。

DeepSeek称,实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计,mHC作为HC的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。

内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销。

图为残差连接范式的示意图。本图对比了 (a) 标准残差连接、(b) 超连接 以及 (c) 流形约束超连接的结构设计。与无约束的HC不同,mHC通过将连接矩阵投影到一个约束流形上,专注于优化残差连接空间,从而确保训练的稳定性。

论文在结论与展望部分指出,实证结果表明,mHC能有效恢复恒等映射特性,相较于传统HC,能以更优的可扩展性实现稳定的大规模训练。关键的是,通过高效的基础设施级优化,mHC以可忽略的计算开销实现了上述改进。

论文还指出,作为HC范式的广义拓展,mHC为未来研究开辟了多个重要方向:虽然本研究采用双随机矩阵确保稳定性,但该框架可兼容针对特定学习目标设计的多种流形约束探索;预计对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法。此外,DeepSeek希望mHC能重新激发学界对宏观架构设计的关注。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC将有助于突破现有局限,并可能为下一代基础架构的演进指明新路径。

近期,DeepSeek动作不断,“热搜”也不断。

2025年12月8日

梁文锋入选《自然》年度十大科学人物

2025年12月8日,英国《自然》杂志网站发布2025年度十大科学人物榜单,中国人工智能企业深度求索创始人梁文锋和中国科学院深海科学家杜梦然入选。

2025年1月,来自中国的一则公告震撼了人工智能界。深度求索公司发布其强大而低成本的R1推理模型。《自然》杂志网站称,这瞬间证明美国在人工智能领域的发展并不像许多专家想象的那样遥遥领先。

2025年12月1日

DeepSeek发布两个正式版模型

据DeepSeek官微,2025年12月1日,DeepSeek发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2强化Agent能力,官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放,以供社区评测与研究。

2025年11月27日

DeepSeek推出新模型

2025年11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架。该模型基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化性能。

2025年10月20日

DeepSeek开源新模型

2025年10月20日,DeepSeek-AI团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

2025年9月29日

DeepSeek-V3.2-Exp模型正式发布

2025年9月29日,深度求索公司发布了 DeepSeek-V3.2-Exp 模型,其宛如再次向国产芯片江湖投入一枚巨石。

官方公告显示,新版本模型实验性地引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),其显著降低计算资源消耗并提升推理效率。

而得益于这一技术创新,深度求索宣布其官方App、网页端、小程序均已同步更新为新模型,并全面下调API价格,降幅在50%到75%不等。

值得注意的是,不同于上次发布 DeepSeek-V3.1版本时“犹抱琵琶半遮面”的状态,此次 V3.2 EXP 版本的发布,几乎零时差引发数个国产芯片厂商——华为、寒武纪、海光等的“认领”。

2025年9月17日

登上《自然》!DeepSeek-R1训练方法发布

2025年9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上国际顶级期刊《自然(Nature)》的封面。该期刊编辑部直言:目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白“终于被DeepSeek打破”。

DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学 习 而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说, 未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

来源:综合自证券时报、财联社、21世纪经济报道及公开信息

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军震怒!多人被连夜开除、处罚!

雷军震怒!多人被连夜开除、处罚!

TOP电商
2026-01-07 17:21:49
澳洲重大发现! 糖尿病患者福音其实每家都有, 比药管用!

澳洲重大发现! 糖尿病患者福音其实每家都有, 比药管用!

澳微Daily
2026-01-05 14:57:21
委内瑞拉军方集体叛变,古巴人血战至死,世界变了但古巴依然站着

委内瑞拉军方集体叛变,古巴人血战至死,世界变了但古巴依然站着

晚雾空青
2026-01-07 15:44:03
西方军事专家:不同于其他大国,中国是全世界最完美的超级大国

西方军事专家:不同于其他大国,中国是全世界最完美的超级大国

荷兰豆爱健康
2026-01-08 05:46:00
悲剧还是发生了!湖南长沙,一女子进入冬季后依然坚持每天洗澡

悲剧还是发生了!湖南长沙,一女子进入冬季后依然坚持每天洗澡

忠于法纪
2026-01-08 09:02:57
杨瀚森美国深夜收喜讯,小杨获生涯首个大奖,留洋NBA迎2大突破

杨瀚森美国深夜收喜讯,小杨获生涯首个大奖,留洋NBA迎2大突破

二哥聊球
2026-01-07 11:47:16
狠招!美国入境竟要交10万保证金,谁能拿得出来?

狠招!美国入境竟要交10万保证金,谁能拿得出来?

那场烟花雨淋湿了梦境了
2026-01-08 06:23:28
看完这些澳洲人的菜园子, 华人都惊呆了: 原来我们根本不会种菜!

看完这些澳洲人的菜园子, 华人都惊呆了: 原来我们根本不会种菜!

澳微Daily
2026-01-07 14:08:31
追梦:你可以把克努佩尔对标克莱,但我还没看过他去防对方最好的后卫

追梦:你可以把克努佩尔对标克莱,但我还没看过他去防对方最好的后卫

懂球帝
2026-01-08 08:05:13
1-3!十人本菲卡轰19脚仍无缘决赛 62岁穆帅丢救命1冠 或四大皆空

1-3!十人本菲卡轰19脚仍无缘决赛 62岁穆帅丢救命1冠 或四大皆空

我爱英超
2026-01-08 06:33:35
果不其然,叫停日本稀土后,日本的抗议来了,称:绝对不可接受!

果不其然,叫停日本稀土后,日本的抗议来了,称:绝对不可接受!

游者走天下
2026-01-07 16:11:11
前往中国,加盟CBA?麦基发声,新球队曝光,1年合同,帮湖人夺冠

前往中国,加盟CBA?麦基发声,新球队曝光,1年合同,帮湖人夺冠

乐聊球
2026-01-07 09:24:51
胡杏儿哈尔滨旅游,零下20度穿5层衣服,三个儿子羽绒服到脚脖子

胡杏儿哈尔滨旅游,零下20度穿5层衣服,三个儿子羽绒服到脚脖子

观察鉴娱
2026-01-07 09:19:27
皖北煤电集团有限责任公司原董事长龚乃勤接受审查调查

皖北煤电集团有限责任公司原董事长龚乃勤接受审查调查

界面新闻
2026-01-07 17:33:52
五十六岁的钟丽缇更加油腻了,从机场出来,150斤的体重惊呆众人

五十六岁的钟丽缇更加油腻了,从机场出来,150斤的体重惊呆众人

可乐谈情感
2026-01-08 06:28:33
记者:奇才老鹰的特雷-杨交易框架已定,正就选秀权进行最终谈判

记者:奇才老鹰的特雷-杨交易框架已定,正就选秀权进行最终谈判

懂球帝
2026-01-08 08:15:06
火箭新控卫?特雷杨愿联手杜兰特,谢泼德史密斯前往老鹰

火箭新控卫?特雷杨愿联手杜兰特,谢泼德史密斯前往老鹰

湖人侃球师
2026-01-08 07:59:59
富保罗:福克斯当初并不愿离开国王 言犹在耳人已在马刺

富保罗:福克斯当初并不愿离开国王 言犹在耳人已在马刺

仰卧撑FTUer
2026-01-08 10:15:09
被开除军籍、持外国绿卡、骗财骗色,蒋大为身上的标签哪个是真的

被开除军籍、持外国绿卡、骗财骗色,蒋大为身上的标签哪个是真的

历史龙元阁
2026-01-08 09:30:13
您有洗屁股的习惯吗?提醒:天天洗肛门的人,能收获4个惊人好处

您有洗屁股的习惯吗?提醒:天天洗肛门的人,能收获4个惊人好处

39健康网
2025-12-13 20:50:34
2026-01-08 10:31:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
228031文章数 743507关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

艺术
时尚
健康
教育
军事航空

艺术要闻

你不知道的“山麻纸”:书写中竟藏着七重门的秘密!

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

这些新疗法,让化疗不再那么痛苦

教育要闻

刘希娅:减少考试频次并不直接等同于质量提升,其关键在于同步推进学习方式的系统性变革

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版