网易首页 > 网易号 > 正文 申请入驻

DeepSeek,最新发布!

0
分享至

DeepSeek发布新论文,梁文锋参与署名。

1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也在作者名单中。

论文摘要指出,近来,以超连接(HC)为代表的研究通过拓宽残差流宽度和多样化连接模式,拓展了过去十年间确立的普遍采用的残差连接范式。虽然这些改进带来了显著的性能提升,但连接模式的多样化从根本上削弱了残差连接固有的恒等映射特性,导致严重的训练不稳定性与受限的可扩展性,同时还造成了显著的内存访问开销。为了解决这些问题,DeepSeek提出了流形约束超连接(mHC)——一种通用框架,能够将HC的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计,mHC作为HC的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。

内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率????=4时,仅带来6.7%的额外时间开销。

图为残差连接范式的示意图。本图对比了 (a) 标准残差连接、(b) 超连接 以及 (c) 流形约束超连接的结构设计。与无约束的HC不同,mHC通过将连接矩阵投影到一个约束流形上,专注于优化残差连接空间,从而确保训练的稳定性。

论文在结论与展望部分指出,实证结果表明,mHC能有效恢复恒等映射特性,相较于传统HC,能以更优的可扩展性实现稳定的大规模训练。关键的是,通过高效的基础设施级优化,mHC以可忽略的计算开销实现了上述改进。

论文还指出,作为HC范式的广义拓展,mHC为未来研究开辟了多个重要方向:虽然本研究采用双随机矩阵确保稳定性,但该框架可兼容针对特定学习目标设计的多种流形约束探索;预计对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法。此外,DeepSeek希望mHC能重新激发学界对宏观架构设计的关注。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC将有助于突破现有局限,并可能为下一代基础架构的演进指明新路径。

近期,DeepSeek动作不断。2025年12月1日,DeepSeek同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。

DeepSeek表示,DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。

DeepSeek-V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。

2025年9月29日,DeepSeek宣布,正式发布DeepSeek-V3.2-Exp模型。作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。同时API大幅度降价。在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。

2025年9月17日,在最新一期的国际权威期刊Nature(自然)中,DeepSeek-R1推理模型研究论文登上了封面。该论文由DeepSeek团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果。这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可。

Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。”

综合自:DeepSeek论文、证券时报此前报道

责编:李丹

校对:王锦程

版权声明

" Type="normal"@@-->

证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责任的权利。

转载与合作可联系证券时报小助理,微信ID:SecuritiesTimes

" Type="normal"@@-->

END

" Type="normal"@@-->

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA最新消息!曝杜锋离开广东宏远,山西男篮争议后卫离队

CBA最新消息!曝杜锋离开广东宏远,山西男篮争议后卫离队

体坛瞎白话
2026-06-25 14:11:11
医生告诫:一旦确诊颈动脉斑块,6种食物必须戒掉,避免斑块增大

医生告诫:一旦确诊颈动脉斑块,6种食物必须戒掉,避免斑块增大

荆医生科普
2026-06-25 21:40:07
日本不败晋级!24年第一次,90年不胜瑞典,连刷6大纪录

日本不败晋级!24年第一次,90年不胜瑞典,连刷6大纪录

奥拜尔
2026-06-26 08:59:46
满满求生欲!武汉三镇一口气连签两大国脚级悍将,保级希望大增

满满求生欲!武汉三镇一口气连签两大国脚级悍将,保级希望大增

零度眼看球
2026-06-26 06:22:29
马斯克, 不是万亿富豪了! 8天蒸发 3400亿美元

马斯克, 不是万亿富豪了! 8天蒸发 3400亿美元

每日经济新闻
2026-06-25 11:55:37
Here we go!罗马诺:奥纳纳即将再次租借加盟特拉布宗体育

Here we go!罗马诺:奥纳纳即将再次租借加盟特拉布宗体育

懂球帝
2026-06-26 00:25:12
A股开盘:三大指数集体低开,影视院线、染料、培育钻石等概念走弱

A股开盘:三大指数集体低开,影视院线、染料、培育钻石等概念走弱

界面新闻
2026-06-26 09:27:44
乌克兰彻底“梭哈”!莫斯科遭遇大规模无人机袭击,总攻开始了?

乌克兰彻底“梭哈”!莫斯科遭遇大规模无人机袭击,总攻开始了?

绝对军评
2026-06-26 08:40:08
不是姆巴佩!不是哈兰德!3场比赛4球1助,成世界杯最被低估球星

不是姆巴佩!不是哈兰德!3场比赛4球1助,成世界杯最被低估球星

篮球圈里的那些事
2026-06-25 13:58:12
中国技术远火将发威,炮击基辅,乌克兰惹火烧身:朝鲜能否出兵?

中国技术远火将发威,炮击基辅,乌克兰惹火烧身:朝鲜能否出兵?

忠于法纪
2026-06-25 09:33:17
世界杯一战封神!19 岁天才狠拒利物浦,1.2 亿新星非皇马不去

世界杯一战封神!19 岁天才狠拒利物浦,1.2 亿新星非皇马不去

澜归序
2026-06-26 05:15:28
2年1400万美元!40岁霍福德将拒绝执行球员选项 与勇士重新签约

2年1400万美元!40岁霍福德将拒绝执行球员选项 与勇士重新签约

罗说NBA
2026-06-25 21:08:03
山海关外的比基尼远征

山海关外的比基尼远征

中国新闻周刊
2026-06-25 11:51:54
委内瑞拉代总统:感谢中国政府在震后向委内瑞拉提供的支持和人道主义援助

委内瑞拉代总统:感谢中国政府在震后向委内瑞拉提供的支持和人道主义援助

环球网资讯
2026-06-25 16:29:01
摩洛哥4-2!逆转海地却让日本队两难:赢球碰巴西,输球更没戏

摩洛哥4-2!逆转海地却让日本队两难:赢球碰巴西,输球更没戏

宝哥精彩赛事
2026-06-25 12:57:15
0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

我就是一个说球的
2026-06-25 19:03:20
韩红发言风波升级!自曝胡同长大,一个北京人装了半辈子藏族人

韩红发言风波升级!自曝胡同长大,一个北京人装了半辈子藏族人

萌神木木
2026-06-23 16:21:07
委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

红星新闻
2026-06-25 14:33:27
陈敏儿安息礼俩儿子送花圈,遗照笑容慈祥,94岁胡枫现身难掩哀伤

陈敏儿安息礼俩儿子送花圈,遗照笑容慈祥,94岁胡枫现身难掩哀伤

知法而形
2026-06-25 17:27:55
正义必胜!厄瓜多尔逆转球迷集体倒戈,裁判激发斗志主帅兑现诺言

正义必胜!厄瓜多尔逆转球迷集体倒戈,裁判激发斗志主帅兑现诺言

等等talk
2026-06-26 07:00:09
2026-06-26 10:40:49
证券时报 incentive-icons
证券时报
运营主体:深圳证券时报社有限公司
933108文章数 239289关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

美英法德"罕见"发声明给"台独"撑腰 环球:门儿都没有

头条要闻

美英法德"罕见"发声明给"台独"撑腰 环球:门儿都没有

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

刘嘉玲想放弃梁朝伟,没有自理能力

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
房产
时尚
手机
艺术

教育要闻

白璧微瑕——咬嚼北京市2026中考作文“语言的滋味”

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

本科毕业后,我花15万上大专

手机要闻

特朗普手机T1正式开售 499美元实为国产贴牌机

艺术要闻

2026第三届全国大学生美术作品展 油画选(二)

无障碍浏览 进入关怀版