网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek 今年第一篇论文，到底在讲什么？

2026-01-03 23:55:33　来源: 赛博禅心

北京举报

0

分享至

DeepSeek 在 2026 年第一篇论文，梁文峰署名

让「多流残差」这个好想法，能真正在大模型上跑起来

私底下，某巨佬评价道：“牛逼”

https://arxiv.org/abs/2512.24880

要理解这篇论文，得先知道 Transformer 里的信息是怎么传的

Transformer 里的信息流

你问 ChatGPT 一个问题：今天天气怎么样，它怎么回答你的？

问题拆成一个个小单元，比如「今天」「天气」「怎么样」这样的片段

，可以点击下面的 svg，模拟交互

然后，每个片段会被转成一组向量，进入 Transformer，开始进行处理

数字从第一层进去，经过处理，传到第二层，再处理，再传到第三层...一直传到最后一层

最后一层输出的数字，决定了模型接下来要生成哪个词

大概就是这样

这个过程会循环往复，直到所有文字都生成完毕

你看到 ChatGPT 一个字一个字往外蹦，就是这个过程

所以中间这几十层的传递很关键。传到最后的数字如果不对，生成的内容就会跑偏

问题来了：层数一多，数字在传递过程中会越来越小，甚至趋近于零
传到后面，前面的信息就丢了

2015 年，ResNet 提出了一个办法：残差连接

做法很简单。每一层在输出的时候，把「这一层算出来的新数字」和「上一层传过来的原始数字」加在一起，再传给下一层

一个简单的示意图

这样，不管网络有多深，最开始的信息都能一路传到底

过去十年，几乎所有大模型都在用

字节的想法：一条路不够，搞四条

2024 年，字节发了一篇论文叫 Hyper-Connections（HC），入选了 ICLR 2025

他们说，一条残差通道不够用，要把这条路拓宽成四条，还得并行

同时的，这四条通道之间，可以互相交换信息，通过一个可学习的矩阵来混合

三种连接方式对比：左边是传统残差，中间是 HC，右边是 DeepSeek 的 mHC

听起来很合理，小模型上的实验效果也确实好

但...

boom 问题：信号爆炸

那个用来混合信息的矩阵，完全可学习，没有任何约束

一层没事，两层也还行

但层数一多，矩阵一乘，信号就飞了

信息每过一层，都要被这个矩阵处理一次。矩阵乘矩阵，再乘矩阵...

DeepSeek 在 27B 模型上复现了这个问题

训练到 12000 步左右，loss 突然飙升，梯度剧烈震荡，训练崩了

27B 模型训练曲线，HC 在 12k 步附近崩了

论文里给了一个指标，衡量信号在传递过程中被放大了多少倍

HC 在 27B 模型上，这个数能到多少？
3000 倍（理想情况下，不应该放大）

HC 的信号增益能飙到 3000 mHC：加一个约束

DeepSeek 的思路很直接
问题出在矩阵没有约束，那就加约束

加什么约束？
双随机矩阵

这个矩阵有个特点：
所有元素加起来，每一行的和等于 1，每一列的和也等于 1

换句话说，信息经过这个矩阵，可以在四条通道之间重新分配，但总量不变

信息可以流动，但总量守恒

不管模型有多少层，信号都不会爆炸，也不会消失

用了这个约束之后，27B 模型上的信号放大倍数从 3000 降到了 1.6

mHC 的信号增益稳定在 1 附近性

这就是 mHC
m 代表 Manifold，流形约束

工程优化

四条通道，意味着四倍的数据读写量

DeepSeek 做了一系列工程优化：内核融合、重计算策略、流水线调度...

细节不展开了

最终结果：
额外的训练时间开销只有 6.7%

实验效果

27B 模型，mHC 对比传统残差连接，loss 下降 0.021

下游任务上，推理能力（BBH）提升 2.1%，阅读理解（DROP）提升 2.3%

训练全程稳定

mHC 稳定下降，没崩说回这篇论文

字节的 HC 提出了一个好想法：把残差通道变宽
但没解决大规模训练的稳定性问题

DeepSeek 给出了数学上干净的解法，然后在工程上把开销压到了可接受的范围

这篇论文透露的信息：DeepSeek 在认真搞架构层的优化

下一代模型，DeepSeek 会不会用 mHC？不知道

但显然，他们在这个方向有投入

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

新智元 2026-01-05 13:38:04
0 跟贴 0
字节Seed：大概念模型来了，推理的何必是下一个token

量子位 2026-01-05 12:51:07
2 跟贴 2

华为开源7B多模态模型，视觉定位和OCR能力出色，昇腾端侧新甜点

量子位 2026-01-05 13:04:15
0 跟贴 0

AAAI 2026 Oral｜InfiGUI-G1模型来了，刷新GUI Grounding SOTA

机器之心Pro 2026-01-05 14:43:58
0 跟贴 0
身体发出的信号，千万别不当回事，早发现能救命！

呆酱爱搞笑 2026-01-05 08:40:32
0 跟贴 0

Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

量子位 2025-09-12 11:07:58
128 跟贴 128

字节“豆包”AI眼镜即将进入出货阶段将分版本推出

财联社 2026-01-05 14:54:08
70 跟贴 70
深度长文AI一键生成：实测字节扣子空间新功能

量子位 2025-09-07 13:16:56
0 跟贴 0

开年大涨！今天，市场释放六大积极信号——道达投资手记

每日经济新闻 2026-01-05 18:40:03
0 跟贴 0
孩子身上发出的信号父母要留意

彬彬有理1 2026-01-04 20:15:00
0 跟贴 0
一千多个模型都指向一个通用子空间

机器之心Pro 2025-12-16 18:23:47
0 跟贴 0
论文引用乱标注？3种方法避免查重飙升！

老盖实话升学 2026-01-05 00:41:25
0 跟贴 0
告别抽卡！一手实测字节刚放出的视频模型Seedance 1.5 pro

机器之心Pro 2025-12-18 17:49:18
0 跟贴 0
NI采集卡替代方案推荐，高精度测控系统指南

每日汽车道 2026-01-05 20:56:15
0 跟贴 0
新劲刚：公司的航天类产品主要聚焦于地面站及测控系统

每日经济新闻 2026-01-05 19:16:11
0 跟贴 0
一周上4天班，员工更爽，公司赚更多！全球最大规模实验结果出炉

狐狸先森讲升学规划 2026-01-05 20:12:26
0 跟贴 0
【DeepSeek谈艺】孙文刚·油画 | 风过画布，捎来旷野香与寻常烟火

文化视界网 2026-01-04 17:14:14
0 跟贴 0
孩子喊“看不见”“头晕”？别认为只是累着了！可能是癫痫早期信号

上海静安 2026-01-05 19:03:03
0 跟贴 0
DeepSeek谈艺丨王心悟：每一寸油彩都是与土地、时光与生命的对话

文化视界网 2026-01-05 15:27:45
0 跟贴 0
科技小院话兴农这群学生把论文写在田野上

人民资讯 2026-01-05 19:32:07
0 跟贴 0
钢珠破片手雷的模型

市井中人 2026-01-05 14:50:30
1 跟贴 1
哥伦比亚总统喊话特朗普：如果你想把我关进监狱试试能不能做到

海外网 2026-01-05 13:17:29
30880 跟贴 30880
男子放飞独角兽模型，成功飞到天空，被人拍到又说是UFO！

搞笑包租婆 2026-01-05 13:15:24
1 跟贴 1
谷歌创始人布林：当年发完Transformer论文，我们太不当回事了

机器之心Pro 2025-12-15 10:18:00
40 跟贴 40
曼联官方：阿莫林不再担任球队主帅，达伦·弗莱彻将担任代理主教练

极目新闻 2026-01-05 18:26:24
928 跟贴 928
武汉拟新增一所本科高校

极目新闻 2026-01-05 07:14:17
910 跟贴 910
斯托克顿不拦着历史助攻王也是詹姆斯的

北青网-北京青年报 2026-01-05 12:06:14
197 跟贴 197
山西太原商场倒立骏马雕塑被拆除

湖北经视 2026-01-05 15:43:56
94 跟贴 94
二氧化碳“烧”出高效电，中国团队攻克世界级难题

上观新闻 2026-01-05 06:40:13
320 跟贴 320
南京将适时开展南京大胜关大桥差异化收费研究

现代快报 2026-01-04 23:02:12
280 跟贴 280
委内瑞拉军队，讨论如何击退美军入侵，并在地图模型上指指点点

嘻嘻笑笑 2026-01-05 11:24:27
215 跟贴 215
一日四战全胜，力助萨尔布吕肯队登顶德国杯，樊振东收获旅德首冠

文汇报 2026-01-05 04:00:09
190 跟贴 190
新的一年12条长寿指标！

淑华写字 2026-01-04 11:14:55
0 跟贴 0
峨眉山全山寺院永久免费开放

界面新闻 2026-01-02 10:57:39
10881 跟贴 10881
可灵新功能火到海外快手股价应声大涨 AI应用“黄金元年”来了？

财联社 2026-01-05 18:15:10
0 跟贴 0
女子在长沙丢失30万手表，6天后巧遇捡表大叔，表依旧挂在树上！大叔拒收近万元红包

潇湘晨报 2026-01-05 16:26:22
1 跟贴 1
我国首次航天员洞穴训练圆满完成

央视新闻客户端 2026-01-05 07:40:33
7962 跟贴 7962
黑龙江三江口景区现3米高“冰封鱼墙”，中华鲟等20余种江鱼成“冰琥珀”，去年这些鱼展后还被竞拍

极目新闻 2026-01-03 14:18:11
844 跟贴 844
上海去年成交二手房超25万套，有人年末连夜看房下单，机构：大量刚需集中入场

每日经济新闻 2026-01-04 22:32:06
826 跟贴 826
雷军解释小米汽车“丢轮保车”，是很重要的安全策略，并嘱托：大家帮我们解释一下

观象视频 2026-01-04 14:53:25
1732 跟贴 1732

大家做好准备了，A股拐点来了，明天，周二股市行情预测！

大家做好准备了，A股拐点来了，明天，周二股市行情预测！

明心

2026-01-05 15:06:46

扔酱潮来袭，闫学晶坑惨代言厂家，佐香园上架新包装，法务行动了

扔酱潮来袭，闫学晶坑惨代言厂家，佐香园上架新包装，法务行动了

鋭娱之乐

2026-01-05 15:13:06

女网红在柬埔寨流浪已找到，前后反差，让人脊背发凉

女网红在柬埔寨流浪已找到，前后反差，让人脊背发凉

半耳聆

2026-01-05 11:56:23

打脸了！多地宣布居民医保缴费延期，400元真的交不起吗？

打脸了！多地宣布居民医保缴费延期，400元真的交不起吗？

财话连篇

2026-01-04 17:16:33

局地8级！北京3区发布大风蓝色预警，今年何时能上冰？各冰场回应

局地8级！北京3区发布大风蓝色预警，今年何时能上冰？各冰场回应

环球网资讯

2026-01-05 19:17:43

高峰也没想到，他当年抛弃的儿子，如今开始给那英争光了

高峰也没想到，他当年抛弃的儿子，如今开始给那英争光了

趣文说娱

2026-01-04 16:34:24

连郭有才都混到央视讲《道德经》了，现在文化还能有多少体面

连郭有才都混到央视讲《道德经》了，现在文化还能有多少体面

人格志

2026-01-05 00:07:39

理想汽车产品线大调整，从华为向丰田的转向

理想汽车产品线大调整，从华为向丰田的转向

晚点LatePost

2026-01-05 12:59:22

三人20+太阳终结雷霆4连胜，布克24+6+9送三分绝杀亚历山大25+6

三人20+太阳终结雷霆4连胜，布克24+6+9送三分绝杀亚历山大25+6

湖人崛起

2026-01-05 11:38:43

芯片天塌了。光刻机突然不金贵了。一条大新闻砸懵整个圈子。

芯片天塌了。光刻机突然不金贵了。一条大新闻砸懵整个圈子。

普陀动物世界

2026-01-04 12:02:53

傅作义原本拟授上将，毛主席没点头，最终周总理亲自找傅说明原因

傅作义原本拟授上将，毛主席没点头，最终周总理亲自找傅说明原因

历史龙元阁

2026-01-05 08:55:07

广东92年小伙领养12岁外甥女？当事人回应

广东92年小伙领养12岁外甥女？当事人回应

极目新闻

2026-01-04 19:33:43

下一个收拾谁？特朗普说出两个名字，话音刚落，中方送来“强音”

下一个收拾谁？特朗普说出两个名字，话音刚落，中方送来“强音”

通文知史

2026-01-04 21:50:03

破案了！邱彪罕见暴走摔西装要打裁判的原因找到，郭昊文是导火索

破案了！邱彪罕见暴走摔西装要打裁判的原因找到，郭昊文是导火索

后仰大风车

2026-01-05 07:15:06

美议员：这场仗绝不能让中国赢，如果我们输了，那全人类就都输了

美议员：这场仗绝不能让中国赢，如果我们输了，那全人类就都输了

墨兰史书

2025-12-23 06:25:05

马杜罗为何宁做美国阶下囚，不做俄罗斯座上宾

马杜罗为何宁做美国阶下囚，不做俄罗斯座上宾

民间胡扯老哥

2026-01-04 10:09:54

任素汐下半身欲望失控，终为自己的风流行为买单

任素汐下半身欲望失控，终为自己的风流行为买单

车窗起雾q

2026-01-01 20:12:16

唐嫣在国外很豪放！穿连体衣下面不系扣，难道不好好穿衣就时髦？

唐嫣在国外很豪放！穿连体衣下面不系扣，难道不好好穿衣就时髦？

章眽八卦

2026-01-05 12:27:07

东航：坚决拥护党中央决定

新京报政事儿

2026-01-05 13:19:25

“最美新生儿”火了，似乎在娘胎整容化妆一般，全网都想沾喜气

“最美新生儿”火了，似乎在娘胎整容化妆一般，全网都想沾喜气

菁妈育儿

2026-01-03 12:44:30

拜AI古佛，修赛博禅心

237文章数 12关注度

往期回顾全部

科技要闻

4100家科技企业集结赌城，CES揭开AI新战场

头条要闻

美对委动手致欧盟立场分裂两元首先后发文内容南辕北辙

头条要闻

美对委动手致欧盟立场分裂两元首先后发文内容南辕北辙

体育要闻

41岁詹皇26+10+6又迎里程碑湖媒赞GOAT

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡：中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

家居

房产

健康

艺术

手机要闻

荣耀Power2支持IP68/IP69/IP69K满级防尘防水：不怕浇不怕造

家居要闻

白色大理石奢华现代

房产要闻

再次登顶海南楼市！超越阿那亚的，只有阿那亚！

这些新疗法，让化疗不再那么痛苦

艺术要闻

19幅列宾美院学生优秀毕业作品

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版