DeepSeek又放大招！梁文锋署名新论文引关注|推理|拓扑|deepseek

DeepSeek又放大招！梁文锋署名新论文引关注

分享至

DeepSeek近日发布论文，阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写，提出了名为“流形约束超连接”(mHC)的框架。作者称，该框架旨在提升可扩展性，同时降低训练先进人工智能系统的算力和能源需求。DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。

1月1日消息，DeepSeek发布了一篇新论文，提出了一种名为mHC（流形约束超连接）的新架构。

该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其显著的性能增益。

这篇论文的第一作者有三位：Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）、Huanqi Cao。值得注意的是，DeepSeek创始人梁文锋也在作者名单中。

论文摘要指出，近来，以超连接（HC）为代表的研究通过拓宽残差流宽度和多样化连接模式，拓展了过去十年间确立的普遍采用的残差连接范式。虽然这些改进带来了显著的性能提升，但连接模式的多样化从根本上削弱了残差连接固有的恒等映射特性，导致严重的训练不稳定性与受限的可扩展性，同时还造成了显著的内存访问开销。

为了解决这些问题，DeepSeek提出了流形约束超连接（mHC）——一种通用框架，能够将HC的残差连接空间投影到特定流形上，从而恢复恒等映射特性，并融合严格的基础设施优化以确保运行效率。

DeepSeek称，实证实验表明，mHC能够有效支持大规模训练，在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计，mHC作为HC的一种灵活而实用的拓展，将有助于深化对拓扑架构设计的理解，并为基座模型的演进指明富有前景的方向。

内部大规模训练结果显示，mHC可有效支持规模化训练，当扩展率=4时，仅带来6.7%的额外时间开销。

图为残差连接范式的示意图。本图对比了 (a) 标准残差连接、(b) 超连接以及 (c) 流形约束超连接的结构设计。与无约束的HC不同，mHC通过将连接矩阵投影到一个约束流形上，专注于优化残差连接空间，从而确保训练的稳定性。

论文在结论与展望部分指出，实证结果表明，mHC能有效恢复恒等映射特性，相较于传统HC，能以更优的可扩展性实现稳定的大规模训练。关键的是，通过高效的基础设施级优化，mHC以可忽略的计算开销实现了上述改进。

论文还指出，作为HC范式的广义拓展，mHC为未来研究开辟了多个重要方向：虽然本研究采用双随机矩阵确保稳定性，但该框架可兼容针对特定学习目标设计的多种流形约束探索；预计对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法。此外，DeepSeek希望mHC能重新激发学界对宏观架构设计的关注。通过深化对拓扑结构如何影响优化与表征学习的理解，mHC将有助于突破现有局限，并可能为下一代基础架构的演进指明新路径。

近期，DeepSeek动作不断，“热搜”也不断。

2025年12月8日

梁文锋入选《自然》年度十大科学人物

2025年12月8日，英国《自然》杂志网站发布2025年度十大科学人物榜单，中国人工智能企业深度求索创始人梁文锋和中国科学院深海科学家杜梦然入选。

2025年1月，来自中国的一则公告震撼了人工智能界。深度求索公司发布其强大而低成本的R1推理模型。《自然》杂志网站称，这瞬间证明美国在人工智能领域的发展并不像许多专家想象的那样遥遥领先。

2025年12月1日

DeepSeek发布两个正式版模型

据DeepSeek官微，2025年12月1日，DeepSeek发布两个正式版模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2强化Agent能力，官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放，以供社区评测与研究。

2025年11月27日

DeepSeek推出新模型

2025年11月27日，DeepSeek推出新型数学推理模型DeepSeekMath-V2，采用可自我验证的训练框架。该模型基于DeepSeek-V3.2-Exp-Base构建，通过LLM验证器自动审查生成的数学证明，并利用高难度样本持续优化性能。

2025年10月20日

DeepSeek开源新模型

2025年10月20日，DeepSeek-AI团队发布《DeepSeek-OCR：Contexts Optical Compression》论文，提出利用视觉模态压缩长文本上下文的新方法。根据介绍，此次开源的 DeepSeek-OCR 由两个部分组成：核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。在实际生产中，DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

2025年9月29日

DeepSeek-V3.2-Exp模型正式发布

2025年9月29日，深度求索公司发布了 DeepSeek-V3.2-Exp 模型，其宛如再次向国产芯片江湖投入一枚巨石。

官方公告显示，新版本模型实验性地引入了 DeepSeek Sparse Attention（一种稀疏注意力机制），其显著降低计算资源消耗并提升推理效率。

而得益于这一技术创新，深度求索宣布其官方App、网页端、小程序均已同步更新为新模型，并全面下调API价格，降幅在50%到75%不等。

值得注意的是，不同于上次发布 DeepSeek-V3.1版本时“犹抱琵琶半遮面”的状态，此次 V3.2 EXP 版本的发布，几乎零时差引发数个国产芯片厂商——华为、寒武纪、海光等的“认领”。

2025年9月17日

登上《自然》！DeepSeek-R1训练方法发布

2025年9月17日，由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上国际顶级期刊《自然（Nature）》的封面。该期刊编辑部直言：目前几乎所有主流的大模型都还没有经过独立同行评审，这一空白“终于被DeepSeek打破”。

DeepSeek-R1包含一个在人类监督下的深入训练阶段，以优化推理过程。梁文锋团队报告称，该模型使用了强化学习而非人类示例来开发推理步骤，减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后，会获得一个模板来产生推理过程，即这一模型通过解决问题获得奖励，从而强化学习效果。团队总结说，未来研究可以聚焦优化奖励过程，以确保推理和任务结果更可靠。

来源：综合自证券时报、财联社、21世纪经济报道及公开信息

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.