网易首页 > 网易号 > 正文 申请入驻

梁文锋署名,DeepSeek开年论文引爆AI圈:mHC架构横空出世!网友:这工程难度是地狱级

0
分享至


整理|冬梅

2026 年开年第一天,DeepSeek 又“整活儿了”!

DeepSeek发布了一篇重要学术论文,提出了一种名为mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)的新型网络架构。该研究旨在解决现有超连接(HC)架构在大规模模型训练中存在的数值不稳定和信号爆炸等瓶颈,同时保留其性能提升优势,成为新一代基础模型设计的潜在方向。

论文题为 “mHC: Manifold-Constrained Hyper-Connections”,已于 2025 年底发布在 arXiv、Huggingface 平台,并迅速引起业界关注。论文由 Zhenda Xie、Yixuan Wei 和 Huanqi Cao 等人担任第一作者,DeepSeek 创始人兼 CEO梁文锋也列于作者名单中。


论文地址:https://arxiv.org/pdf/2512.24880

1架构创新解决了什么问题

这篇论文中提到,传统 Transformer 网络中的残差连接结构(即 x + F(x))因能维持恒等映射而保证信号稳定传递,是深度学习模型得以顺利训练的核心机制之一。然而,近年来提出的Hyper-Connections(超连接)虽然拓宽了残差流通道并增强了表达能力,但其无约束的连接矩阵破坏了恒等映射特性,在大规模训练中经常导致信号爆炸或梯度异常,影响训练稳定性和可扩展性。

DeepSeek 提出的mHC通过引入一种几何约束的思路,将传统 HC 的残差映射空间投影到特定的流形上,将连接矩阵限制在双随机矩阵(Birkhoff 多胞形)流形内。这一投影不仅恢复了恒等映射性质,还在数学上保证了信号范数的稳定性,有效避免了信号放大和梯度爆炸等数值问题。

核心技术实现上,研究团队采用了Sinkhorn-Knopp 算法进行投影约束,并结合内核融合、重计算和通信重叠等基础设施层面的优化手段,控制系统开销,从工程角度确保训练效率不会显著下降。

这款新架构“解决了什么问题”?在弄清楚这件事之前,首先是要搞清楚问题从哪里来:为什么传统 Hyper-Connections 会失控?

传统 Transformer 残差连接之所以能够支撑极深网络,其关键并不只是“有残差”,而在于残差结构中天然存在一个权重为 1 的恒等映射通路,这使得无论子模块在训练早期表现如何,主信号都可以稳定向前传播,信号范数不会随着层数增加而系统性放大或衰减。

超连接(Hyper-Connections)在此基础上进一步放宽结构假设,将单一残差流扩展为多条并行残差流,并通过一个可学习的连接矩阵在不同流之间进行线性组合,从表达能力角度看更具潜力,但问题也正是出在这里:当连接矩阵完全自由学习时,它不再保证包含恒等映射成分,其谱性质也无法受到约束,在大规模训练中极易导致信号放大、梯度爆炸或数值不稳定,这也是超连接在小模型中有效、但在十亿甚至百亿参数规模上频繁失效的根本原因。

mHC 的核心思路并不是否定多流残差,而是通过引入几何约束,重新为这种复杂连接结构建立稳定性边界。DeepSeek 将跨流连接矩阵的可行空间限制在双随机矩阵所构成的流形上,即要求矩阵的每一行和每一列元素之和都为 1,且所有元素非负。


这一约束对应于数学上的 Birkhoff 多胞形,其关键性质在于:单位矩阵本身就是双随机矩阵,因此传统残差结构仍然是该空间中的一个特例;同时,双随机矩阵的最大特征值为 1,意味着其不会系统性放大信号范数,本质上只能在不同残差流之间重新分配权重,而不能凭空放大或削弱整体能量。通过这种方式,多流超连接在保留表达灵活性的同时,重新获得了与经典残差连接相近的稳定性基础。

在实现层面,mHC 并未直接在受约束空间内进行复杂优化,而是采用了工程上成熟且可微的 Sinkhorn-Knopp 算法,对无约束的连接矩阵进行投影。

训练过程中,模型首先学习一个普通实值矩阵,然后在每次前向传播前,通过有限步 Sinkhorn 归一化,将其投影为近似双随机矩阵,从而保证连接始终位于安全的流形之内。由于 Sinkhorn-Knopp 算法本身计算结构简单、数值稳定,并且可以与主干计算进行融合和重叠,其引入的额外开销在整体训练中是可控的。

论文披露的实验结果显示,在 3B、9B 乃至 27B 参数规模下,mHC 不仅避免了传统超连接中常见的训练不收敛问题,还在多个任务上维持甚至提升了性能表现,表明这种“硬约束式”的几何投影在大模型场景中具有现实可行性。

从更宏观的角度看,mHC 的意义并不在于提出一种立刻取代 Transformer 的新范式,而在于为复杂残差拓扑的进一步探索提供了一种可扩展的理论与工程框架。

它表明,在大规模模型训练中,单纯依赖正则项或经验性初始化往往不足以抵御数值不稳定,而将模型结构显式限制在具备良好谱性质的几何空间内,反而能够系统性地解决稳定性问题。这一思路为未来更复杂的多流、多路径网络设计打开了空间,也为如何在“更强表达能力”与“可控可训性”之间取得平衡,提供了一种具有启发意义的解法。

2 网友怎么看?

论文发布后,在人工智能研究者与产业从业者中引发了广泛讨论。

多位业内人士在社交平台和技术社区中对 DeepSeek 提出的 mHC 架构进行了分析与解读,讨论重点集中在其对传统 Transformer 残差连接方式的改动,以及该方法在大模型扩展性和训练成本控制方面的潜在意义。也有观点指出,DeepSeek 近年来持续通过公开论文释放技术信号,其研究方向往往与后续模型迭代节奏密切相关。

在领英平台,有用户认为,这件事说明了一个趋势,中国 AI 公司之间越来越愿意把研究成果公开出来,这反映出中国人工智能公司之间日益开放、协作的文化。他感慨道:

中国人工智能初创公司 DeepSeek 在创始人梁文锋参与撰写的一份新论文中迎来了 2026 年。这篇论文建议重新思考用于训练基础人工智能模型的基本架构。这种名为 mHC 的方法,是这家杭州公司推动其模型更具成本效益的部分努力。DeepSeek 试图以此跟上资金更充裕、算力获取途径更深的其他竞争对手的步伐。

这也反映出中国人工智能公司之间日益开放、协作的文化,这些公司公开发表的研究成果所占比例越来越高。对于行业观察人士来说,DeepSeek 的论文往往为其下一个重要模型发布所采用的工程选择,提供了重要的早期信号。

在 2026 年 1 月 1 日(周四)发布的一篇论文中,DeepSeek 的 19 名研究人员组成的团队表示,他们在拥有 30 亿、90 亿和 270 亿参数的模型上测试了“流形约束超连接”方法,发现其扩展性良好,且没有增加显著的计算负担。


在 Reddit 平台,新年第一天就看到这类研究成果发布,令人印象深刻。


Reddit 用户名为 SlowFail2433 的用户是一位长期从事深度学习研究的评论者,他指出,在深层神经网络中,如果缺乏恒等残差连接,梯度往往会出现不稳定甚至“崩溃”的问题,这一现象不仅存在于大语言模型中,在卷积神经网络,尤其是 ResNet 架构中同样普遍。因此,如果 DeepSeek 提出的“流形约束超连接”方法能够在保持稳定性的同时实现良好扩展,其意义不容小觑。

不过他也强调,该论文在数学推导和底层实现上都具有较高复杂度。他表示:

为了保证效率,研究团队在 CUDA 内核层面进行了算子融合,并对训练流水线进行了专门优化,这类工作对工程能力提出了较高要求。有评论者直言,仅完全理解论文内容就可能需要数周时间,不过在进一步研读后发现,其核心主要围绕投影矩阵与流形约束展开,并非不可实现。


技术人的年度仪式感! 年度盘点与趋势洞察 启动!

《2025 年度盘点与趋势洞察》由 InfoQ 技术编辑组策划。覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。

力求以体系化视角帮助读者理解年度技术演化的底层逻辑、创新方向与落地价值,并为新一年决策提供参考。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果不是日媒披露,我都不敢相信,中国竟然强大到如此地步

如果不是日媒披露,我都不敢相信,中国竟然强大到如此地步

boss外传
2025-10-26 14:00:03
刚刚,深夜25家A股上市公司发布重大利好 利空消息,看看都有哪些?

刚刚,深夜25家A股上市公司发布重大利好 利空消息,看看都有哪些?

股市皆大事
2026-01-04 19:51:28
12月再交付22256台新车,蔚来全新ES8为何能成为爆款?

12月再交付22256台新车,蔚来全新ES8为何能成为爆款?

优视汽车
2026-01-03 11:11:50
60岁的老人要做好准备,从明年开始,老人或将面临3大现实问题

60岁的老人要做好准备,从明年开始,老人或将面临3大现实问题

蜉蝣说
2026-01-03 15:14:19
随着樊振东3-1打败日本的户上隼辅!德国杯:萨尔布吕肯杀进决赛

随着樊振东3-1打败日本的户上隼辅!德国杯:萨尔布吕肯杀进决赛

齐帅
2026-01-04 20:35:29
憋屈30年,中国终于掀桌子!一纸退货令甩出,澳洲巨头彻底慌神

憋屈30年,中国终于掀桌子!一纸退货令甩出,澳洲巨头彻底慌神

近史博览
2025-12-31 17:04:43
渝超联赛爆发冲突,有球员围着主裁追赶边裁,现场保安及时介入,重庆市体育局:正在开会处理

渝超联赛爆发冲突,有球员围着主裁追赶边裁,现场保安及时介入,重庆市体育局:正在开会处理

大风新闻
2026-01-04 15:25:03
《人民日报》:真正能给你撑腰的,是足够的金钱,稳定的情绪....

《人民日报》:真正能给你撑腰的,是足够的金钱,稳定的情绪....

诗词中国
2026-01-02 20:36:32
“最快女护士”张水华宣布辞职后,医院回应:已批准其辞职申请

“最快女护士”张水华宣布辞职后,医院回应:已批准其辞职申请

大风新闻
2026-01-04 11:44:14
前NBA冠军中锋坎贝尔辞世享年57岁,曾与科比、奥尼尔并肩作战

前NBA冠军中锋坎贝尔辞世享年57岁,曾与科比、奥尼尔并肩作战

体育妞世界
2025-12-04 09:56:49
韩国元老级演员去世!

韩国元老级演员去世!

奋斗在韩国
2026-01-04 19:36:26
美国袭击委内瑞拉造成至少40人死亡,在委华人超市老板:正常营业,这里的平民需要我们

美国袭击委内瑞拉造成至少40人死亡,在委华人超市老板:正常营业,这里的平民需要我们

极目新闻
2026-01-04 10:49:57
官宣!GDP突破10万亿,北方第一强省晋级了

官宣!GDP突破10万亿,北方第一强省晋级了

城市财经
2026-01-04 11:56:00
“冰雪+”“非遗+”“体育+” 元旦旅游市场实现“开门红”

“冰雪+”“非遗+”“体育+” 元旦旅游市场实现“开门红”

新华社
2026-01-03 21:58:11
法媒社论:打击委内瑞拉标志着“美国掠夺性帝国主义回归”

法媒社论:打击委内瑞拉标志着“美国掠夺性帝国主义回归”

环球网资讯
2026-01-04 22:11:40
马云预言兑现?2026年手上还握有存款的人,别忽视这三大现实

马云预言兑现?2026年手上还握有存款的人,别忽视这三大现实

来科点谱
2025-12-29 09:01:09
我今年46岁,老公常年在外,我不甘寂寞,每晚去公园

我今年46岁,老公常年在外,我不甘寂寞,每晚去公园

黑猫故事所
2026-01-04 21:27:57
收台的关键不在攻占台湾岛,而是开战之初,先解放这个不沉的航母

收台的关键不在攻占台湾岛,而是开战之初,先解放这个不沉的航母

鹤羽说个事
2025-12-30 11:30:11
乌军无人机突袭俄军汉斯卡亚机场,57架战机遭重创!

乌军无人机突袭俄军汉斯卡亚机场,57架战机遭重创!

世界探索者探索
2026-01-04 20:10:03
干不掉中国,那就扶持一个“中国”?美国看上了中国的这两个邻国

干不掉中国,那就扶持一个“中国”?美国看上了中国的这两个邻国

优趣纪史记
2025-11-14 15:34:45
2026-01-05 04:03:00
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
11902文章数 51680关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

家居
教育
数码
亲子
健康

家居要闻

黑白碰撞 个性多元冷冽风

教育要闻

备考27新传研究生需要知道的50件事。

数码要闻

快科技2025年度评奖:品牌整机篇

亲子要闻

同学们注意了!已被列入“黑名单”的6种饮料,一口都别再喝了!

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版