网易首页 > 网易号 > 正文 申请入驻

我开始把大模型当成黑盒了从 DeepSeek 的一篇论文,说起

0
分享至

刚刚过去的新年,DeepSeek团队又发表了一篇论文,是对于传统大模型结构的一次提升,效果不可谓不好,连老板梁文峰都署名了。

但我可能有点儿不够政治正确,因为这两年,大模型领域的新架构更新速度,已经快到一种微妙的程度。

不是“看不懂”, 而是你会开始怀疑一件事:

我真的还有必要,完整理解每一种新结构吗?


那一刻突然意识到: 这种感觉,可能并不只是我一个人的。

那位 Reddit 用户的原话,大意是这样的:这一切迟早会变成动态的,甚至由 LLM 直接生成。 尽管我对 DeepSeek 的工作印象深刻,但我已经懒得再去学习这些不断出现的新架构了。 我甚至怀疑自己是否还能真正做出贡献。 所以,我干脆把它们当作只有“参数”的黑盒来看。 ——真是令人叹为观止。

他的态度并不激烈,甚至算得上克制:

一方面,明确承认 DeepSeek 的工作很漂亮(impressed)

另一方面,也坦白了一种越来越常见的感受: 面对层出不穷的架构,学习意愿正在被消耗

于是,他对 architecture 的态度,回到了很多人最早对 deep learning 的直觉印象:

大量参数 + 不完全可解释 = 黑盒模型。

这番话很快收获了将近 40 个点踩。

原因也不难理解: 它不够技术、不够积极、不够昂扬, 不像一个“还在前沿冲锋”的研究者该说的话。

但说实话,我也是在认真看完论文之后,产生了类似的感觉

这种共鸣,并不是来自“我不想学了”。

恰恰相反,是在认真读完论文之后 。

PART 01

DeepSeek 工作的技术目标

当你把 DeepSeek 这项工作的技术目标拆解开,会发现它试图解决的,其实是一个 并不陌生的问题 : 传统 residual 结构的信息利用效率。

而这个问题, 字节豆包 团队其实在更早的时候,就已经给出过一个很有代表性的方向—— HC(Hyper-Connections) 。

PART 02

传统 residual 结构的特点

如果一定要打个不太严谨的比喻,我会说: 这更像是模型结构里的一种「富贵病」。

Residual:极其安全,但也极其保守

传统 residual 结构,有一个几乎无可替代的优点:

  • 设计简单

  • 单向叠加

  • 极其稳定

  • 几乎不会犯结构性错误

正因为如此,它才能成为深度网络里的标准配置 。

但代价也同样明显。

在很多情况下,一些本来可能有价值的信息, 并没有真正参与到后续的表示构建中, 而是被“安全地”传递、叠加,最终被淹没掉了。


PART 03

HC 与 mHC 的技术路径

HC(Hyper-Connections)的核心思路

HC(Hyper-Connections)的核心思路其实很直接:

既然信息会被浪费,那就把 residual 拆成多路, 让它们之间产生更充分的交互。

但问题也随之而来:

多路 residual 在深层叠加后

很容易引入数值不稳定

训练风险会快速放大

这并不是实现细节的问题,而是结构本身缺乏约束。

mHC(Manifold-Constrained Hyper-Connections)的改进

DeepSeek 提出的 mHC(Manifold-Constrained Hyper-Connections),在我看来,是一个非常漂亮、也非常“工程正确”的回应:

通过引入流形约束

把多路 residual 的交互限制在稳定空间内

让信息混合得更充分,但不至于失控

从设计角度说,这是一条 非常优雅的技术路径 。

PART 04

大模型发展的阶段判断

但整体感觉是:我们可能已经进入了「水多加面」阶段

给我的整体感受是—— 现在的大模型,已经进入了“水多加面,面多加水”的阶段。

在没有革命性新材料出现之前:

水和面的比例

只能靠一次次试错来逼近

换个数据、换个环境、换个人操作

最优解都可能不一样

对模型态度的转变

在这样的背景下,把模型重新视为一个带参数的黑盒, 并不意味着否定这些工作的价值。

它更像是一种位置上的战略回撤:

从执着于理解每一条内部连接, 转向关注系统的整体行为、稳定边界与可控性。

PART 05

Reddit 评论背后的趋势思考

那条 Reddit 评论,可能并不只是“疲惫”

再往前看一步,我反而会觉得:

那位 Reddit 用户的判断,未必只是情绪化的“我学不动了”, 而可能无意中触碰到了一个更长期的趋势 。

当前大模型的静态本质

当前的大模型——无论是 residual 的加法, 还是流形约束下的乘法——本质上仍然是静态结构 。

只要:

seed 固定

训练流程确定

模型的行为,在统计意义上就是高度可复现的。 此前也已经有研究指出,在这种前提下,模型输出的一致性是可以被严格保证的。

未来模型结构的动态化可能

如果真是这样,那么未来真正应该变化的, 或许就不该是某一种固定结构或固定配方。

也许真正该变的,是「结构本身是否能动态调整」

也许在更远的未来:

pre-train 会被某种“自定义的 LLM”部分取代

模型不再完全遵循预先写死的公式

而是能够在训练、甚至推理过程中 动态修改自己的结构、路径与参数分配方式

如果那一天真的到来,那么今天这些精妙却静态的架构,很可能都会成为 过渡形态 。

PART 06

对被点踩评论的再审视

回到那条被点踩的评论

现在再回头看那条 Reddit 评论,我反而觉得:

它之所以被点踩, 不是因为它错了, 而是因为它说得太早,也太直接了。

当模型已经进入「水多加面、面多加水」的阶段, 承认个体在架构层面的边际贡献正在下降, 也许并不是一种消极, 而是一种 对现实复杂度的诚实回应 。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
寿命短的糖尿病患者,大多有3个特征!若你没有,先恭喜!

寿命短的糖尿病患者,大多有3个特征!若你没有,先恭喜!

健康科普365
2026-01-01 07:10:08
撒切尔夫人在回忆录中坦言:当年并不想归还香港,考虑过发动战争

撒切尔夫人在回忆录中坦言:当年并不想归还香港,考虑过发动战争

泠泠说史
2025-12-15 18:05:17
防守杜兰特,被亚当斯抓出血痕,杨瀚森进步明显,已进入球队轮换

防守杜兰特,被亚当斯抓出血痕,杨瀚森进步明显,已进入球队轮换

爱体育
2026-01-08 22:41:30
田朴珺拿走人脉,王石只剩年龄

田朴珺拿走人脉,王石只剩年龄

深水财经社
2026-01-05 21:19:06
委内瑞拉不断对美让步,但跟中方“一刀两断”,这个命令恕不能从

委内瑞拉不断对美让步,但跟中方“一刀两断”,这个命令恕不能从

前沿天地
2026-01-08 19:29:25
1995年,河北男子花3万买10箱茅台,如今变卖“打水漂”

1995年,河北男子花3万买10箱茅台,如今变卖“打水漂”

涛哥美食汇
2025-12-23 14:28:27
本赛季意甲11场0球0助,斯基拉:39岁的哲科准备离开佛罗伦萨

本赛季意甲11场0球0助,斯基拉:39岁的哲科准备离开佛罗伦萨

懂球帝
2026-01-08 19:51:08
煮熟鸭子飞了:闫学晶儿子角色被换,揭开星二代“好日子”的终结

煮熟鸭子飞了:闫学晶儿子角色被换,揭开星二代“好日子”的终结

TVB的四小花
2026-01-07 12:19:15
拿下特斯拉大单,手握2家上市公司!“中国最大忽悠”要翻身了?

拿下特斯拉大单,手握2家上市公司!“中国最大忽悠”要翻身了?

品牌观察官
2025-12-07 20:49:20
73岁三浦友和近况曝光!不住豪宅不靠儿孙,只想陪着山口百惠老去

73岁三浦友和近况曝光!不住豪宅不靠儿孙,只想陪着山口百惠老去

代军哥哥谈娱乐
2026-01-07 10:31:39
MiuMiu15.2万镶钻围裙已被订购,网友辣评:村里赶大集也能买

MiuMiu15.2万镶钻围裙已被订购,网友辣评:村里赶大集也能买

现代快报
2026-01-08 16:41:07
香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

朝子亥
2026-01-06 11:35:03
这家境怎么破局?女子失业后回到一贫如洗的家,自责无助很痛苦

这家境怎么破局?女子失业后回到一贫如洗的家,自责无助很痛苦

唐小糖说情感
2026-01-06 15:30:09
美2027财年国防预算恐创纪录!特朗普批评国防公司研发武器“动作太慢收费太高”

美2027财年国防预算恐创纪录!特朗普批评国防公司研发武器“动作太慢收费太高”

红星新闻
2026-01-08 19:18:41
1971年,中央下死令封锁坠机消息,秦城监狱一位女犯人:不用瞒了,我知道是谁

1971年,中央下死令封锁坠机消息,秦城监狱一位女犯人:不用瞒了,我知道是谁

寄史言志
2026-01-05 13:33:13
看着挺大,为何委内瑞拉70%的土地都是无人区,人口全挤在海边?

看着挺大,为何委内瑞拉70%的土地都是无人区,人口全挤在海边?

经纬史观
2025-12-10 15:59:44
委内瑞拉人肠子悔青,如果这位总统还在,他们的国家何至于此?

委内瑞拉人肠子悔青,如果这位总统还在,他们的国家何至于此?

文史旺旺旺
2026-01-07 11:27:11
美威胁武力夺取格陵兰岛,丹麦回应:若遭入侵将“立即反击”

美威胁武力夺取格陵兰岛,丹麦回应:若遭入侵将“立即反击”

红星新闻
2026-01-08 13:22:13
好大一盘棋!赌王离世5年后,何超琼藏着的“私生子”还有大瓜?

好大一盘棋!赌王离世5年后,何超琼藏着的“私生子”还有大瓜?

小小李娱
2026-01-07 17:33:14
苏联攻克柏林后,斯大林没有选黄金,用3000列火车运走德国铁疙瘩

苏联攻克柏林后,斯大林没有选黄金,用3000列火车运走德国铁疙瘩

古书记史
2025-12-11 22:22:41
2026-01-09 01:23:00
平凡AI incentive-icons
平凡AI
高校AI从业者
59文章数 24关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

房产
教育
本地
数码
公开课

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

教育要闻

高二不救,基本原地告别高考

本地新闻

1986-2026,一通电话的时空旅程

数码要闻

CES 2026 | TCL实业携全球首创SQD-Mini LED显示技术亮相

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版