刚刚过去的新年,DeepSeek团队又发表了一篇论文,是对于传统大模型结构的一次提升,效果不可谓不好,连老板梁文峰都署名了。
但我可能有点儿不够政治正确,因为这两年,大模型领域的新架构更新速度,已经快到一种微妙的程度。
不是“看不懂”, 而是你会开始怀疑一件事:
我真的还有必要,完整理解每一种新结构吗?
![]()
那一刻突然意识到: 这种感觉,可能并不只是我一个人的。
那位 Reddit 用户的原话,大意是这样的:这一切迟早会变成动态的,甚至由 LLM 直接生成。 尽管我对 DeepSeek 的工作印象深刻,但我已经懒得再去学习这些不断出现的新架构了。 我甚至怀疑自己是否还能真正做出贡献。 所以,我干脆把它们当作只有“参数”的黑盒来看。 ——真是令人叹为观止。
他的态度并不激烈,甚至算得上克制:
一方面,明确承认 DeepSeek 的工作很漂亮(impressed)
另一方面,也坦白了一种越来越常见的感受: 面对层出不穷的架构,学习意愿正在被消耗
于是,他对 architecture 的态度,回到了很多人最早对 deep learning 的直觉印象:
大量参数 + 不完全可解释 = 黑盒模型。
这番话很快收获了将近 40 个点踩。
原因也不难理解: 它不够技术、不够积极、不够昂扬, 不像一个“还在前沿冲锋”的研究者该说的话。
但说实话,我也是在认真看完论文之后,产生了类似的感觉
这种共鸣,并不是来自“我不想学了”。
恰恰相反,是在认真读完论文之后 。
PART 01
DeepSeek 工作的技术目标
当你把 DeepSeek 这项工作的技术目标拆解开,会发现它试图解决的,其实是一个 并不陌生的问题 : 传统 residual 结构的信息利用效率。
而这个问题, 字节豆包 团队其实在更早的时候,就已经给出过一个很有代表性的方向—— HC(Hyper-Connections) 。
PART 02
传统 residual 结构的特点
如果一定要打个不太严谨的比喻,我会说: 这更像是模型结构里的一种「富贵病」。
Residual:极其安全,但也极其保守
传统 residual 结构,有一个几乎无可替代的优点:
设计简单
单向叠加
极其稳定
几乎不会犯结构性错误
正因为如此,它才能成为深度网络里的标准配置 。
但代价也同样明显。
在很多情况下,一些本来可能有价值的信息, 并没有真正参与到后续的表示构建中, 而是被“安全地”传递、叠加,最终被淹没掉了。
![]()
PART 03
HC 与 mHC 的技术路径
HC(Hyper-Connections)的核心思路
HC(Hyper-Connections)的核心思路其实很直接:
既然信息会被浪费,那就把 residual 拆成多路, 让它们之间产生更充分的交互。
但问题也随之而来:
多路 residual 在深层叠加后
很容易引入数值不稳定
训练风险会快速放大
这并不是实现细节的问题,而是结构本身缺乏约束。
mHC(Manifold-Constrained Hyper-Connections)的改进
DeepSeek 提出的 mHC(Manifold-Constrained Hyper-Connections),在我看来,是一个非常漂亮、也非常“工程正确”的回应:
通过引入流形约束
把多路 residual 的交互限制在稳定空间内
让信息混合得更充分,但不至于失控
从设计角度说,这是一条 非常优雅的技术路径 。
PART 04
大模型发展的阶段判断
但整体感觉是:我们可能已经进入了「水多加面」阶段
给我的整体感受是—— 现在的大模型,已经进入了“水多加面,面多加水”的阶段。
在没有革命性新材料出现之前:
水和面的比例
只能靠一次次试错来逼近
换个数据、换个环境、换个人操作
最优解都可能不一样
对模型态度的转变
在这样的背景下,把模型重新视为一个带参数的黑盒, 并不意味着否定这些工作的价值。
它更像是一种位置上的战略回撤:
从执着于理解每一条内部连接, 转向关注系统的整体行为、稳定边界与可控性。
PART 05
Reddit 评论背后的趋势思考
那条 Reddit 评论,可能并不只是“疲惫”
再往前看一步,我反而会觉得:
那位 Reddit 用户的判断,未必只是情绪化的“我学不动了”, 而可能无意中触碰到了一个更长期的趋势 。
当前大模型的静态本质
当前的大模型——无论是 residual 的加法, 还是流形约束下的乘法——本质上仍然是静态结构 。
只要:
seed 固定
训练流程确定
模型的行为,在统计意义上就是高度可复现的。 此前也已经有研究指出,在这种前提下,模型输出的一致性是可以被严格保证的。
未来模型结构的动态化可能
如果真是这样,那么未来真正应该变化的, 或许就不该是某一种固定结构或固定配方。
也许真正该变的,是「结构本身是否能动态调整」
也许在更远的未来:
pre-train 会被某种“自定义的 LLM”部分取代
模型不再完全遵循预先写死的公式
而是能够在训练、甚至推理过程中 动态修改自己的结构、路径与参数分配方式
如果那一天真的到来,那么今天这些精妙却静态的架构,很可能都会成为 过渡形态 。
PART 06
对被点踩评论的再审视
回到那条被点踩的评论
现在再回头看那条 Reddit 评论,我反而觉得:
它之所以被点踩, 不是因为它错了, 而是因为它说得太早,也太直接了。
当模型已经进入「水多加面、面多加水」的阶段, 承认个体在架构层面的边际贡献正在下降, 也许并不是一种消极, 而是一种 对现实复杂度的诚实回应 。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.