网易首页 > 网易号 > 正文 申请入驻

DeepSeek又放大招!梁文锋署名新论文引关注

0
分享至

DeepSeek近日发布论文,阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架旨在提升可扩展性,同时降低训练先进人工智能系统的算力和能源需求。DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。

1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构

该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也在作者名单中。

论文摘要指出,近来,以超连接(HC)为代表的研究通过拓宽残差流宽度和多样化连接模式,拓展了过去十年间确立的普遍采用的残差连接范式。虽然这些改进带来了显著的性能提升,但连接模式的多样化从根本上削弱了残差连接固有的恒等映射特性,导致严重的训练不稳定性与受限的可扩展性,同时还造成了显著的内存访问开销。

为了解决这些问题,DeepSeek提出了流形约束超连接(mHC)——一种通用框架,能够将HC的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。

DeepSeek称,实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计,mHC作为HC的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。

内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销。

图为残差连接范式的示意图。本图对比了 (a) 标准残差连接、(b) 超连接 以及 (c) 流形约束超连接的结构设计。与无约束的HC不同,mHC通过将连接矩阵投影到一个约束流形上,专注于优化残差连接空间,从而确保训练的稳定性。

论文在结论与展望部分指出,实证结果表明,mHC能有效恢复恒等映射特性,相较于传统HC,能以更优的可扩展性实现稳定的大规模训练。关键的是,通过高效的基础设施级优化,mHC以可忽略的计算开销实现了上述改进。

论文还指出,作为HC范式的广义拓展,mHC为未来研究开辟了多个重要方向:虽然本研究采用双随机矩阵确保稳定性,但该框架可兼容针对特定学习目标设计的多种流形约束探索;预计对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法。此外,DeepSeek希望mHC能重新激发学界对宏观架构设计的关注。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC将有助于突破现有局限,并可能为下一代基础架构的演进指明新路径。

近期,DeepSeek动作不断,“热搜”也不断。

2025年12月8日

梁文锋入选《自然》年度十大科学人物

2025年12月8日,英国《自然》杂志网站发布2025年度十大科学人物榜单,中国人工智能企业深度求索创始人梁文锋和中国科学院深海科学家杜梦然入选。

2025年1月,来自中国的一则公告震撼了人工智能界。深度求索公司发布其强大而低成本的R1推理模型。《自然》杂志网站称,这瞬间证明美国在人工智能领域的发展并不像许多专家想象的那样遥遥领先。

2025年12月1日

DeepSeek发布两个正式版模型

据DeepSeek官微,2025年12月1日,DeepSeek发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2强化Agent能力,官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放,以供社区评测与研究。

2025年11月27日

DeepSeek推出新模型

2025年11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架。该模型基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化性能。

2025年10月20日

DeepSeek开源新模型

2025年10月20日,DeepSeek-AI团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

2025年9月29日

DeepSeek-V3.2-Exp模型正式发布

2025年9月29日,深度求索公司发布了 DeepSeek-V3.2-Exp 模型,其宛如再次向国产芯片江湖投入一枚巨石。

官方公告显示,新版本模型实验性地引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),其显著降低计算资源消耗并提升推理效率。

而得益于这一技术创新,深度求索宣布其官方App、网页端、小程序均已同步更新为新模型,并全面下调API价格,降幅在50%到75%不等。

值得注意的是,不同于上次发布 DeepSeek-V3.1版本时“犹抱琵琶半遮面”的状态,此次 V3.2 EXP 版本的发布,几乎零时差引发数个国产芯片厂商——华为、寒武纪、海光等的“认领”。

2025年9月17日

登上《自然》!DeepSeek-R1训练方法发布

2025年9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上国际顶级期刊《自然(Nature)》的封面。该期刊编辑部直言:目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白“终于被DeepSeek打破”。

DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学 习 而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说, 未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

来源:综合自证券时报、财联社、21世纪经济报道及公开信息

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
能挤走嫡子,嫁香港豪门,如今是千亿公司一把手

能挤走嫡子,嫁香港豪门,如今是千亿公司一把手

素衣读史
2026-01-10 18:26:15
特朗普取打击伊朗汇报,美国对伊朗的打击可能随时开始

特朗普取打击伊朗汇报,美国对伊朗的打击可能随时开始

邵旭峰域
2026-01-11 11:01:28
爽子小号曝光,爽言爽语再加上半张脸露出的嘴角疤痕让人一眼认出

爽子小号曝光,爽言爽语再加上半张脸露出的嘴角疤痕让人一眼认出

乐悠悠娱乐
2026-01-10 11:35:58
断供危机!中国炼油厂弃购委内瑞拉原油,转投加拿大高价重油?

断供危机!中国炼油厂弃购委内瑞拉原油,转投加拿大高价重油?

知法而形
2026-01-10 09:52:01
特朗普高调访华安排陷入全面尴尬

特朗普高调访华安排陷入全面尴尬

达文西看世界
2026-01-09 14:10:08
97年毛新宇在京结婚,300位老将军齐刷刷到场,轮椅上那位老人一露面,全场眼眶都红了

97年毛新宇在京结婚,300位老将军齐刷刷到场,轮椅上那位老人一露面,全场眼眶都红了

清风鉴史
2025-12-18 20:10:17
一百多年前,康有为花费 150 万在欧洲购得一座岛,时至今日,这座岛的产权到底归谁所有?

一百多年前,康有为花费 150 万在欧洲购得一座岛,时至今日,这座岛的产权到底归谁所有?

源溯历史
2026-01-02 18:50:36
哈马斯宣布将解散加沙政府机构 并准备移交管理权力

哈马斯宣布将解散加沙政府机构 并准备移交管理权力

国际在线
2026-01-11 01:35:07
美总统即将换人?短短48小时,特朗普话音未落,又收到三个坏消息

美总统即将换人?短短48小时,特朗普话音未落,又收到三个坏消息

泠泠说史
2026-01-10 16:04:25
宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

雍亲王府
2026-01-09 15:20:02
老艺术家从美国回来探亲,顺便演唱《打败美帝野心狼》?

老艺术家从美国回来探亲,顺便演唱《打败美帝野心狼》?

走读新生
2026-01-08 21:37:23
法媒:法国外长尖锐批评美国

法媒:法国外长尖锐批评美国

参考消息
2026-01-09 21:34:06
1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

谈古论今历史有道
2026-01-08 11:50:03
工作三年可分房,我也想去新疆养三文鱼

工作三年可分房,我也想去新疆养三文鱼

南风窗
2026-01-08 14:40:13
遭联合国怒批后马斯克终于服软?星链数千颗卫星紧急“搬家”,太空霸权还能横行多久?

遭联合国怒批后马斯克终于服软?星链数千颗卫星紧急“搬家”,太空霸权还能横行多久?

Thurman在昆明
2026-01-10 00:05:17
韩总统:若民间无人机“入朝”属实将是严重犯罪

韩总统:若民间无人机“入朝”属实将是严重犯罪

每日经济新闻
2026-01-10 21:44:31
连退31群后,联合国不再手软,正式警告美国,中国前大使一针见血

连退31群后,联合国不再手软,正式警告美国,中国前大使一针见血

博览历史
2026-01-10 19:21:25
100多年前,康有为斥巨资买下瑞典的一座岛,如今岛屿归谁?

100多年前,康有为斥巨资买下瑞典的一座岛,如今岛屿归谁?

壹知眠羊
2026-01-11 07:14:14
下岗潮真的来了!这3大行业风口浪尖,看看你有没有身在其中?

下岗潮真的来了!这3大行业风口浪尖,看看你有没有身在其中?

老特有话说
2026-01-08 17:48:15
警惕“中国版”叶利钦式人物:对国家的破坏性极大

警惕“中国版”叶利钦式人物:对国家的破坏性极大

老慃尾声体育解说
2026-01-11 09:57:03
2026-01-11 12:43:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
228417文章数 743535关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

马杜罗之子:马杜罗在美监狱说"我们很好我们是斗士"

头条要闻

马杜罗之子:马杜罗在美监狱说"我们很好我们是斗士"

体育要闻

詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

娱乐要闻

网友偶遇贾玲张小斐崇礼滑雪

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

时尚
本地
旅游
手机
军事航空

动物纹回潮,那很狂野了

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

旅游要闻

什刹海前海冰场迎客 马年主题打卡点同步上线|提振消费看京潮

手机要闻

恭喜小米17 Pro系列!恭喜华为Mate 80!友商加油

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版