网易首页 > 网易号 > 正文 申请入驻

DeepSeek与字节跳动踏进同一条河

0
分享至

本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议


新年前夕,DeepSeek发表了一篇聚焦神经网络架构创新的核心论文,梁文锋以通讯作者身份署名。论文提出了流形约束超连接(manifold-constrained HyperConnection, mHC)架构,直指大规模模型训练中的稳定性难题。

这一工作为硬件受限的中国 AI 企业开辟了一条兼顾性能与效率的路径,也与字节跳动早前在残差流优化上的探索形成关键呼应,二者均瞄准残差连接这一模型基础架构进行改造。

DeepSeek的研究,恰恰是对字节跳动“超连接”技术短板的系统性补位。这一成果不仅为大模型底层架构的工业化落地提供了新方案,再度印证了硬件约束可转化为创新动力的产业演进逻辑。

自2016年ResNet 提出以来,残差连接已成为深度学习的骨架式设计。其通过“捷径连接”绕过层层非线性变换,从根本上缓解了梯度消失或爆炸的难题,支撑起越来越深的模型结构。

长期以来,业界创新多集中于注意力机制、MoE(混合专家)等模块,残差流本身处于一种“静默的稳定”中,直至2024 年字节跳动以超连接(HyperConnection)技术打破这一局面。

字节跳动的超连接通过拓宽残差流宽度、构建多路并行信号流,并让模型学习流间的交互模式,显著提升了模型表达能力。然而,该技术在规模化训练中暴露出致命短板:信号发散

DeepSeek的测试显示,在270亿参数模型的训练中,约12000步后梯度范数剧烈波动,训练崩溃;更严重的是,信号强度在第60层膨胀至输入值的3000倍。问题的核心在于,超连接为追求表达力,放弃了残差连接原有的恒等映射约束——小规模下尚可调参掩盖,但在大规模训练中,这一缺陷被急剧放大。

mHC的核心创新,是将可学习的变换矩阵约束在双重随机矩阵(doubly stochastic matrix)构成的流形上。这相当于为信号传播设立“刚性预算”:矩阵每行、每列元素之和均为1且非负,确保输出信号强度严格介于输入信号的最大最小值之间,从而杜绝信号爆炸。

更关键的是,双重随机矩阵具有组合不变性——多层叠加后仍保持稳定。实验表明,在超连接出现3000倍信号放大的同一场景中,mHC的信号放大峰值仅为1..6倍。为控制计算开销,DeepSeek 采用Sinkhorn-Knopp 迭代进行投影,仅需20轮迭代即可收敛,额外训练成本被压制在6.7%

硬件约束倒逼的不只是算法创新,更是全链路的系统级优化。超连接拓宽残差流后,每层数据读写量倍增,在A800/A100的有限互联带宽下,芯片极易陷入“等待数据远多于计算”的效率陷阱。DeepSeek通过三项关键技术破局:

1.算子融合:将内存访问模式相近的操作合并为单一GPU内核,减少数据搬运;

2.反向传播重计算:不存储中间激活值,改为实时重算,以计算换内存;

3.流水线并行优化:重叠跨GPU通信与本地计算,用计算掩盖通信延迟。

这些优化将原本随层数线性增长的内存开销,转化为可由模块大小控制的有界开销。配合基于 TileLang 编写的混合精度内核(bfloat16 为主,float32 保关键精度),实现了全参数规模下的稳定性能提升。测试中,30亿至270 亿参数模型搭载mHC后均表现优异,270亿模型在BIG-Bench Hard复杂推理任务上提升 2..1%,在 DROP阅读理解任务上提升2.3%

此前,V3架构论文对应V3模型,R1推理论文对应R1模型;本次mHC论文在 2026 年春节前三周发布,外界普遍预期下一代旗舰模型(R2)即将亮相。

这种“论文先行”的策略,既通过同行评议建立技术公信力,又在复杂地缘环境中为原创性留下时间戳,更向全球传递一个明确信息:中国 AI 企业的核心竞争力,并非依赖尖端算力芯片

DeepSeek选择通过arXiv、Hugging Face等开放平台而非传统期刊发布成果,虽牺牲部分学术声望,却换来了技术传播的速度与可达性。这种开放模式加速了知识扩散,也对同行构成直接竞争压力:当 mHC 的性能增益可量化、实现可复现时,西方实验室要么跟进类似技术,要么必须论证自身路径的优越性。

此前R1 型已触发推理模型研发热潮,mHC架构很可能推动残差流优化进入新一轮迭代。更重要的是,这一模式向技术管制者传递了清晰信号:硬件限制并未扼杀创新,反而迫使中国 AI 企业走向“从数学根源解决问题”的最本质路径。

字节跳动与 DeepSeek,先后踏入同一条“突破传统残差流”的创新之河。前者率先探路,却止步于规模化瓶颈;后者在硬件约束的倒逼下,凭借数学约束与系统级优化,架起了一座可通航的技术之桥

距离2026年春节仅剩六周,R2模型的发布将检验mHC架构的工业化成色。无论最终基准测试结果如何,这条“在约束中创新”的路径已具备里程碑意义——它清晰证明,AI 竞赛不只有“烧钱堆算力”这一条赛道。硬件限制从不是创新的绊脚石,而是催生真正核心突破的催化剂。

转载开白 | 商务合作 | 内容交流
请添加微信:jinduan008
添加微信请备注姓名公司与来意

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张兰泪别台北:这经我不念了!我的孩子遍天下,不差汪小菲一个

张兰泪别台北:这经我不念了!我的孩子遍天下,不差汪小菲一个

丁丁鲤史纪
2026-03-05 11:15:38
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
西贝彻底摆烂了?缓发工资+强制待岗,打工人看完天塌了

西贝彻底摆烂了?缓发工资+强制待岗,打工人看完天塌了

雷科技
2026-03-04 16:04:01
向高市早苗示好不到24小时,张本底细被扒,父母的黑历史也被翻出

向高市早苗示好不到24小时,张本底细被扒,父母的黑历史也被翻出

古事寻踪记
2025-12-21 07:17:46
超级新秀4记三分,杰伦布朗20+11+7难救主,黄蜂大胜绿军夺6连胜

超级新秀4记三分,杰伦布朗20+11+7难救主,黄蜂大胜绿军夺6连胜

钉钉陌上花开
2026-03-05 10:48:02
74岁大爷:每月6500都给你花,但你要答应我一个要求 大妈:满足你

74岁大爷:每月6500都给你花,但你要答应我一个要求 大妈:满足你

人间百态大全
2026-02-15 06:40:03
场均27.9分创1历史纪录!小卡23分钟29分超猛 美记:34岁才入巅峰

场均27.9分创1历史纪录!小卡23分钟29分超猛 美记:34岁才入巅峰

颜小白的篮球梦
2026-03-05 20:20:19
美股三大股指期货短线拉升,标普500指数期货涨1.16%

美股三大股指期货短线拉升,标普500指数期货涨1.16%

每日经济新闻
2026-03-05 17:24:06
西尔斯基官宣:乌军挺过致命冬季,俄军三个月折损近9.3万

西尔斯基官宣:乌军挺过致命冬季,俄军三个月折损近9.3万

老马拉车莫少装
2026-03-03 00:37:50
迪丽热巴被困迪拜升级!工作人员直飞,只有她转机,网友再曝猛料

迪丽热巴被困迪拜升级!工作人员直飞,只有她转机,网友再曝猛料

林轻吟
2026-03-03 19:18:39
血债血偿!伊朗强势发起“斩首”行动反击,以色列喝水都成奢望?

血债血偿!伊朗强势发起“斩首”行动反击,以色列喝水都成奢望?

东极妙严
2026-03-05 08:43:38
伊拉克总理最新表态:绝不容忍任何试图将伊拉克拖入战争的行为

伊拉克总理最新表态:绝不容忍任何试图将伊拉克拖入战争的行为

环球网资讯
2026-03-05 13:39:08
特朗普镇不住,中国开始第一步行动!伊朗兄弟说了一句掏心窝子话

特朗普镇不住,中国开始第一步行动!伊朗兄弟说了一句掏心窝子话

音乐时光的娱乐
2026-03-05 18:59:53
打了5天,特朗普没想到,先扛不住的是美国,美媒已料到美军结局

打了5天,特朗普没想到,先扛不住的是美国,美媒已料到美军结局

无情有思可
2026-03-05 19:31:56
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
我花499找人上门安装OpenClaw,看到了AI时代最魔幻的一幕。

我花499找人上门安装OpenClaw,看到了AI时代最魔幻的一幕。

数字生命卡兹克
2026-03-04 10:14:18
一发瘫痪全美?美专家急喊中国停手,自己玩了60年却不让中国碰!

一发瘫痪全美?美专家急喊中国停手,自己玩了60年却不让中国碰!

李健政观察
2026-03-04 17:27:14
罕见,7家顶级施工单位同一天因围标串标被全军拉黑!

罕见,7家顶级施工单位同一天因围标串标被全军拉黑!

黯泉
2026-03-04 21:52:22
比烟草电网还低调的5个央国企:几乎不社招,但一进就是人生赢家

比烟草电网还低调的5个央国企:几乎不社招,但一进就是人生赢家

生活新鲜市
2026-02-26 05:03:46
首艘在实战中被鱼雷击沉的导弹舰,美确认伊朗德纳号被MK-48击沉

首艘在实战中被鱼雷击沉的导弹舰,美确认伊朗德纳号被MK-48击沉

啸鹰评
2026-03-05 16:10:00
2026-03-05 20:39:00
锦缎研究院 incentive-icons
锦缎研究院
专注上市公司价值发现与传播
2469文章数 10817关注度
往期回顾 全部

科技要闻

阿里内部邮件回应:批准林俊旸辞职

头条要闻

美军罕见公开袭击伊朗武器清单 专家:意对伊朗施加压

头条要闻

美军罕见公开袭击伊朗武器清单 专家:意对伊朗施加压

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

旅游
艺术
教育
亲子
游戏

旅游要闻

【澜湄之窗】梅里雪山:雪域高原的冰川奇迹

艺术要闻

2026年“浩瀚草原 亮丽北疆”美展

教育要闻

春招生源战:抢到先机的人,赢在系统能力

亲子要闻

周末带娃露营,助力宝宝健康成长

宝可梦新作翻车?满分100只得60,被吐槽为不够意思的缝合怪

无障碍浏览 进入关怀版