我开始把大模型当成黑盒了从 DeepSeek 的一篇论文，说起|deepseek

我开始把大模型当成黑盒了从 DeepSeek 的一篇论文，说起

2026-01-04 15:07:02　来源: 平凡AI

海外举报

分享至

刚刚过去的新年，DeepSeek团队又发表了一篇论文，是对于传统大模型结构的一次提升，效果不可谓不好，连老板梁文峰都署名了。

但我可能有点儿不够政治正确，因为这两年，大模型领域的新架构更新速度，已经快到一种微妙的程度。

不是“看不懂”，而是你会开始怀疑一件事：

我真的还有必要，完整理解每一种新结构吗？

那一刻突然意识到：这种感觉，可能并不只是我一个人的。

那位 Reddit 用户的原话，大意是这样的：这一切迟早会变成动态的，甚至由 LLM 直接生成。尽管我对 DeepSeek 的工作印象深刻，但我已经懒得再去学习这些不断出现的新架构了。我甚至怀疑自己是否还能真正做出贡献。所以，我干脆把它们当作只有“参数”的黑盒来看。 ——真是令人叹为观止。

他的态度并不激烈，甚至算得上克制：

一方面，明确承认 DeepSeek 的工作很漂亮（impressed）

另一方面，也坦白了一种越来越常见的感受：面对层出不穷的架构，学习意愿正在被消耗

于是，他对 architecture 的态度，回到了很多人最早对 deep learning 的直觉印象：

大量参数 + 不完全可解释 = 黑盒模型。

这番话很快收获了将近 40 个点踩。

原因也不难理解：它不够技术、不够积极、不够昂扬，不像一个“还在前沿冲锋”的研究者该说的话。

但说实话，我也是在认真看完论文之后，产生了类似的感觉

这种共鸣，并不是来自“我不想学了”。

恰恰相反，是在认真读完论文之后。

PART 01

DeepSeek 工作的技术目标

当你把 DeepSeek 这项工作的技术目标拆解开，会发现它试图解决的，其实是一个并不陌生的问题：传统 residual 结构的信息利用效率。

而这个问题，字节豆包团队其实在更早的时候，就已经给出过一个很有代表性的方向—— HC（Hyper-Connections）。

PART 02

传统 residual 结构的特点

如果一定要打个不太严谨的比喻，我会说：这更像是模型结构里的一种「富贵病」。

Residual：极其安全，但也极其保守

传统 residual 结构，有一个几乎无可替代的优点：

设计简单

单向叠加

极其稳定

几乎不会犯结构性错误

正因为如此，它才能成为深度网络里的标准配置。

但代价也同样明显。

在很多情况下，一些本来可能有价值的信息，并没有真正参与到后续的表示构建中，而是被“安全地”传递、叠加，最终被淹没掉了。

PART 03

HC 与 mHC 的技术路径

HC（Hyper-Connections）的核心思路

HC（Hyper-Connections）的核心思路其实很直接：

既然信息会被浪费，那就把 residual 拆成多路，让它们之间产生更充分的交互。

但问题也随之而来：

多路 residual 在深层叠加后

很容易引入数值不稳定

训练风险会快速放大

这并不是实现细节的问题，而是结构本身缺乏约束。

mHC（Manifold-Constrained Hyper-Connections）的改进

DeepSeek 提出的 mHC（Manifold-Constrained Hyper-Connections），在我看来，是一个非常漂亮、也非常“工程正确”的回应：

通过引入流形约束

把多路 residual 的交互限制在稳定空间内

让信息混合得更充分，但不至于失控

从设计角度说，这是一条非常优雅的技术路径。

PART 04

大模型发展的阶段判断

但整体感觉是：我们可能已经进入了「水多加面」阶段

给我的整体感受是—— 现在的大模型，已经进入了“水多加面，面多加水”的阶段。

在没有革命性新材料出现之前：

水和面的比例

只能靠一次次试错来逼近

换个数据、换个环境、换个人操作

最优解都可能不一样

对模型态度的转变

在这样的背景下，把模型重新视为一个带参数的黑盒，并不意味着否定这些工作的价值。

它更像是一种位置上的战略回撤：

从执着于理解每一条内部连接，转向关注系统的整体行为、稳定边界与可控性。

PART 05

Reddit 评论背后的趋势思考

那条 Reddit 评论，可能并不只是“疲惫”

再往前看一步，我反而会觉得：

那位 Reddit 用户的判断，未必只是情绪化的“我学不动了”，而可能无意中触碰到了一个更长期的趋势。

当前大模型的静态本质

当前的大模型——无论是 residual 的加法，还是流形约束下的乘法——本质上仍然是静态结构。

只要：

seed 固定

训练流程确定

模型的行为，在统计意义上就是高度可复现的。此前也已经有研究指出，在这种前提下，模型输出的一致性是可以被严格保证的。

未来模型结构的动态化可能

如果真是这样，那么未来真正应该变化的，或许就不该是某一种固定结构或固定配方。

也许真正该变的，是「结构本身是否能动态调整」

也许在更远的未来：

pre-train 会被某种“自定义的 LLM”部分取代

模型不再完全遵循预先写死的公式

而是能够在训练、甚至推理过程中动态修改自己的结构、路径与参数分配方式

如果那一天真的到来，那么今天这些精妙却静态的架构，很可能都会成为过渡形态。

PART 06

对被点踩评论的再审视

回到那条被点踩的评论

现在再回头看那条 Reddit 评论，我反而觉得：

它之所以被点踩，不是因为它错了，而是因为它说得太早，也太直接了。

当模型已经进入「水多加面、面多加水」的阶段，承认个体在架构层面的边际贡献正在下降，也许并不是一种消极，而是一种对现实复杂度的诚实回应。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

我开始把大模型当成黑盒了从 DeepSeek 的一篇论文，说起

拥抱AI的"牛马"：边提效边自嘲"自费"上班

美国突发史无前例撤离令引外界担忧：终极空袭或来临

美国突发史无前例撤离令引外界担忧：终极空袭或来临

35轮后积分-7，他们遭遇史上最早的降级

谢娜霸气护夫：喊话薛之谦给张杰道歉

特朗普“不惜一切”！全球股债齐崩

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

苹果发布新款MacBook Air：搭载M5芯片！售价8499元起

万物互联 享科技福祉

狂销13亿!近百位三亚顶豪买家，都在All in超级地中海·憘悦？

转头就晕的耳石症，能开车上班吗？

万物互联享科技福祉