网易首页 > 网易号 > 正文 申请入驻

我开始把大模型当成黑盒了从 DeepSeek 的一篇论文,说起

0
分享至

刚刚过去的新年,DeepSeek团队又发表了一篇论文,是对于传统大模型结构的一次提升,效果不可谓不好,连老板梁文峰都署名了。

但我可能有点儿不够政治正确,因为这两年,大模型领域的新架构更新速度,已经快到一种微妙的程度。

不是“看不懂”, 而是你会开始怀疑一件事:

我真的还有必要,完整理解每一种新结构吗?


那一刻突然意识到: 这种感觉,可能并不只是我一个人的。

那位 Reddit 用户的原话,大意是这样的:这一切迟早会变成动态的,甚至由 LLM 直接生成。 尽管我对 DeepSeek 的工作印象深刻,但我已经懒得再去学习这些不断出现的新架构了。 我甚至怀疑自己是否还能真正做出贡献。 所以,我干脆把它们当作只有“参数”的黑盒来看。 ——真是令人叹为观止。

他的态度并不激烈,甚至算得上克制:

一方面,明确承认 DeepSeek 的工作很漂亮(impressed)

另一方面,也坦白了一种越来越常见的感受: 面对层出不穷的架构,学习意愿正在被消耗

于是,他对 architecture 的态度,回到了很多人最早对 deep learning 的直觉印象:

大量参数 + 不完全可解释 = 黑盒模型。

这番话很快收获了将近 40 个点踩。

原因也不难理解: 它不够技术、不够积极、不够昂扬, 不像一个“还在前沿冲锋”的研究者该说的话。

但说实话,我也是在认真看完论文之后,产生了类似的感觉

这种共鸣,并不是来自“我不想学了”。

恰恰相反,是在认真读完论文之后 。

PART 01

DeepSeek 工作的技术目标

当你把 DeepSeek 这项工作的技术目标拆解开,会发现它试图解决的,其实是一个 并不陌生的问题 : 传统 residual 结构的信息利用效率。

而这个问题, 字节豆包 团队其实在更早的时候,就已经给出过一个很有代表性的方向—— HC(Hyper-Connections) 。

PART 02

传统 residual 结构的特点

如果一定要打个不太严谨的比喻,我会说: 这更像是模型结构里的一种「富贵病」。

Residual:极其安全,但也极其保守

传统 residual 结构,有一个几乎无可替代的优点:

  • 设计简单

  • 单向叠加

  • 极其稳定

  • 几乎不会犯结构性错误

正因为如此,它才能成为深度网络里的标准配置 。

但代价也同样明显。

在很多情况下,一些本来可能有价值的信息, 并没有真正参与到后续的表示构建中, 而是被“安全地”传递、叠加,最终被淹没掉了。


PART 03

HC 与 mHC 的技术路径

HC(Hyper-Connections)的核心思路

HC(Hyper-Connections)的核心思路其实很直接:

既然信息会被浪费,那就把 residual 拆成多路, 让它们之间产生更充分的交互。

但问题也随之而来:

多路 residual 在深层叠加后

很容易引入数值不稳定

训练风险会快速放大

这并不是实现细节的问题,而是结构本身缺乏约束。

mHC(Manifold-Constrained Hyper-Connections)的改进

DeepSeek 提出的 mHC(Manifold-Constrained Hyper-Connections),在我看来,是一个非常漂亮、也非常“工程正确”的回应:

通过引入流形约束

把多路 residual 的交互限制在稳定空间内

让信息混合得更充分,但不至于失控

从设计角度说,这是一条 非常优雅的技术路径 。

PART 04

大模型发展的阶段判断

但整体感觉是:我们可能已经进入了「水多加面」阶段

给我的整体感受是—— 现在的大模型,已经进入了“水多加面,面多加水”的阶段。

在没有革命性新材料出现之前:

水和面的比例

只能靠一次次试错来逼近

换个数据、换个环境、换个人操作

最优解都可能不一样

对模型态度的转变

在这样的背景下,把模型重新视为一个带参数的黑盒, 并不意味着否定这些工作的价值。

它更像是一种位置上的战略回撤:

从执着于理解每一条内部连接, 转向关注系统的整体行为、稳定边界与可控性。

PART 05

Reddit 评论背后的趋势思考

那条 Reddit 评论,可能并不只是“疲惫”

再往前看一步,我反而会觉得:

那位 Reddit 用户的判断,未必只是情绪化的“我学不动了”, 而可能无意中触碰到了一个更长期的趋势 。

当前大模型的静态本质

当前的大模型——无论是 residual 的加法, 还是流形约束下的乘法——本质上仍然是静态结构 。

只要:

seed 固定

训练流程确定

模型的行为,在统计意义上就是高度可复现的。 此前也已经有研究指出,在这种前提下,模型输出的一致性是可以被严格保证的。

未来模型结构的动态化可能

如果真是这样,那么未来真正应该变化的, 或许就不该是某一种固定结构或固定配方。

也许真正该变的,是「结构本身是否能动态调整」

也许在更远的未来:

pre-train 会被某种“自定义的 LLM”部分取代

模型不再完全遵循预先写死的公式

而是能够在训练、甚至推理过程中 动态修改自己的结构、路径与参数分配方式

如果那一天真的到来,那么今天这些精妙却静态的架构,很可能都会成为 过渡形态 。

PART 06

对被点踩评论的再审视

回到那条被点踩的评论

现在再回头看那条 Reddit 评论,我反而觉得:

它之所以被点踩, 不是因为它错了, 而是因为它说得太早,也太直接了。

当模型已经进入「水多加面、面多加水」的阶段, 承认个体在架构层面的边际贡献正在下降, 也许并不是一种消极, 而是一种 对现实复杂度的诚实回应 。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
道指深夜重挫1200点,黄金跌破5000美元,白银狂泻10%,国际油价大涨8%

道指深夜重挫1200点,黄金跌破5000美元,白银狂泻10%,国际油价大涨8%

21世纪经济报道
2026-03-03 23:32:42
中国要做好战争准备,中国的下场战争不是印度菲律宾越南而是日本

中国要做好战争准备,中国的下场战争不是印度菲律宾越南而是日本

百态人间
2026-01-09 17:17:17
有存款100万,已经不是一般普通人了。

有存款100万,已经不是一般普通人了。

爱吃糖的猫cat
2026-01-12 19:08:47
10条惊人的父子定律:当爸越“不正经”,养出的孩子越优秀?

10条惊人的父子定律:当爸越“不正经”,养出的孩子越优秀?

户外阿毽
2026-03-03 00:36:17
Adobe急了!因不便人工智能阅读理解,PDF文件前景堪忧

Adobe急了!因不便人工智能阅读理解,PDF文件前景堪忧

宗熙先生
2026-03-03 13:33:57
街头已大量出现,不要踩!不要踩!

街头已大量出现,不要踩!不要踩!

南国今报
2026-03-01 20:00:00
终于知道女人出去挣钱重要还是陪孩子重要了,评论区我看到了自己

终于知道女人出去挣钱重要还是陪孩子重要了,评论区我看到了自己

夜深爱杂谈
2026-03-03 17:16:38
“特朗普以为靠军事震慑中方,然而…”

“特朗普以为靠军事震慑中方,然而…”

观察者网
2026-03-03 14:22:08
胡金秋重返俱乐部训练引热议!王博:必须强制让他休息几天

胡金秋重返俱乐部训练引热议!王博:必须强制让他休息几天

狼叔评论
2026-03-03 16:50:27
24年海口飞行员离奇失踪,目击证人爆料,女友崩溃痛哭,说明真相

24年海口飞行员离奇失踪,目击证人爆料,女友崩溃痛哭,说明真相

卡西莫多的故事
2025-02-02 21:15:43
特朗普称将于本月晚些时候访华,外交部回应

特朗普称将于本月晚些时候访华,外交部回应

中国网
2026-03-02 16:00:16
暂停开放!西安知名街区关闭改造

暂停开放!西安知名街区关闭改造

91.6陕西交通广播
2026-03-03 19:47:24
巴西环球体育:达维德-安切洛蒂将在本月正式回归巴西教练组

巴西环球体育:达维德-安切洛蒂将在本月正式回归巴西教练组

懂球帝
2026-03-03 06:25:22
见证历史,一场史诗级的绝杀!

见证历史,一场史诗级的绝杀!

君临财富
2026-03-02 09:44:11
宁可放弃中国市场,也不删镜头!《蜘蛛侠:英雄无归》没引进的真相终于来了

宁可放弃中国市场,也不删镜头!《蜘蛛侠:英雄无归》没引进的真相终于来了

小椰的奶奶
2026-03-02 10:32:14
教了那么多孩子,才敢告诉你,成绩中等的孩子跟学渣没什么区别!

教了那么多孩子,才敢告诉你,成绩中等的孩子跟学渣没什么区别!

好爸育儿
2026-03-03 17:54:20
斯诺克三月赛历!丁俊晖无球可打!世锦赛前练兵!吴宜泽迎新纪录

斯诺克三月赛历!丁俊晖无球可打!世锦赛前练兵!吴宜泽迎新纪录

篮球看比赛
2026-03-03 21:36:54
海港首轮!也是中超第一中场维塔尔VS纳萨里奥 之争

海港首轮!也是中超第一中场维塔尔VS纳萨里奥 之争

80后体育大蜀黍
2026-03-03 23:02:30
阿斯:虽然C罗的私人飞机抵达马德里,但球员本人仍留在沙特

阿斯:虽然C罗的私人飞机抵达马德里,但球员本人仍留在沙特

懂球帝
2026-03-03 21:38:12
鲁迅家是如何衰败的?鲁迅肯定不会告诉你,因为实在“太丢人”

鲁迅家是如何衰败的?鲁迅肯定不会告诉你,因为实在“太丢人”

顾史
2026-03-02 10:46:01
2026-03-04 04:43:00
平凡AI incentive-icons
平凡AI
高校AI从业者
65文章数 24关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

数码
家居
房产
健康
教育

数码要闻

苹果发布新款MacBook Air:搭载M5芯片!售价8499元起

家居要闻

万物互联 享科技福祉

房产要闻

狂销13亿!近百位三亚顶豪买家,都在All in超级地中海·憘悦?

转头就晕的耳石症,能开车上班吗?

教育要闻

最新数据:研究生扩招8.1万人!

无障碍浏览 进入关怀版