25年最后一天, deepseek 奉上了新年礼物 mHC,又是新的网络结构
如果不负责任地猜一下,这种对底层架构的深度魔改,加上他们之前MoE的积累,没准DeepSeek V4真的要搞个大新闻。
DeepSeek是真的厉害,要搞就搞底层创新,搞完MoE,现在盯上Transformer最基础的下水道:残差连接(Residual Connection)。
![]()
1、为什么要搞mHC
自从ResNet出来以后,残差连接就是深度学习的标配。Identity Mapping(恒等映射)保证了信号能无损传到深层,模型才能堆得深。
24年字节搞了个Hyper-Connections,觉得原来的残差流太细,信息不够跑。于是把残差流宽度扩大n倍(比如4倍),还加了各种可学习的线性映射矩阵(HH)来混合不同流的信息。这就好比把原来的单车道扩建成了四车道高速公路,不仅宽,车还能变道。
问题来了: 路是宽了,但车速控制不住了。原来那套完美的Identity Mapping属性被破坏了。当你层数一深,这些不受约束的矩阵乘起来,信号要么消失要么爆炸。图里HC跑到12k步loss直接起飞,梯度乱跳。显存访问开销也因为通道变宽暴增,撞上了Memory Wall。
![]()
2、核心思路:把矩阵关进“流形”里(Manifold Constraint)
这部分是论文的理论高光。DeepSeek这次的做法,给混合矩阵加约束,强制它必须是双随机矩阵(Doubly Stochastic Matrix)。
妙在哪里?1️⃣从几何角度,这相当于把信号的传递变成了一种“凸组合”。你可以把它想象成一种能量守恒系统,信号在层与层之间传递时,总量被严格控制住了,既不会凭空放大也不会莫名衰减。2️⃣ 双随机矩阵的谱范数≤1,意味着不会放大信号,梯度爆炸的风险大大降低。3️⃣多个双随机矩阵连乘,结果还是双随机矩阵,所以深层网络也能保持稳定
实现上用经典的Sinkhorn-Knopp算法,反复做行列归一化,迭代20次就够了。
![]()
3、工程优化
mHC显然需要大量对应的工程优化才能 work, 而且DeepSeek显然是要在实际生产环境里用这东西的,所以花了不少篇幅讲工程实现。
几个关键优化:Kernel Fusion(算子融合)、Recomputing(重计算)、DualPipe通信重叠(dualpipe 是 v3提的) 等等。
最终效果:在n=4时,mHC只增加6.7%的训练时间开销。这个数字对于大规模训练来说是可以接受的。
主要看27B模型的结果:
loss比baseline降0.021,比HC稳
梯度范数平稳,HC则剧烈波动
BBH、DROP、GSM8K等benchmark全面超baseline,多数超HC
信号增益幅度从HC的约3000降到约1.6,三个数量级
在 scaling实验中还做了3B、9B的模型,说明这套方法在大模型上是通用的,且随着算力增加优势依然存在,期待在百 b 甚至 T 以上的模型效果
感觉又要搞一波大的(是不是今年春节,DeepSeek V4要来了?)
作者:AI Dance
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.