网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

2026-02-24 15:21:52　来源: 量子位

北京举报

0

分享至

闻乐发自凹非寺
量子位 | 公众号 QbitAI

字节Seed都开始用化学思想搞大模型了——

深度推理是共价键、自我反思是氢键、自我探索是范德华力？！

传统的大模型长思维链推理基本把AI的思考过程等同于线性结构。

但很多情况下，后续的一个关键结论，可能需要回过头去验证早早提出的假设。

CoT把这种非线性的依赖关系忽略了。

字节Seed在论文《The Molecular Structure of Thought》中首次给大模型的长链思维定义了分子式结构。

在这种分子拓扑中，三种键是怎么相互配合的？

好的推理像分子结构

团队把DeepSeek-R1、gpt-OSS等强推理模型的长链思维拆成一步一步的，然后给每一步之间的“跳跃”打上标签。

打完标签发现，所有有效的长链思维里，其实就三种基础动作来回组合。

第一种叫深度推理，像共价键一样结实。

通俗来说就是类似“因为A所以B，因为B所以C”的硬逻辑推进。

团队在语义空间里做了一个很形象的量化分析，把模型的每一步思考都当成一个点，看这些点最后会散成多大一个圈。

圈子越小，说明模型越没跑题，思考越聚焦。

结果发现，加上深度推理之后，这个散点圈直接缩水22%。

深度推理确实起到了收束杂念、锁定核心逻辑的关键作用。

第二种叫自我反思，像氢键一样有弹性但稳定。

类似于“等等，我刚才那步是不是想错了”“让我重新检查一下前面的假设”，能把后面的思考拐回来跟前面的节点呼应上，形成一种折叠感。

团队测了模型自我反思时的思维轨迹，把每一步思考都看成语义空间里的一个点，然后计算反思时会跳回多远、落在哪里。

发现81.72%的反思步骤，都会精准落回之前已经形成的靠谱思路区域里。

还对比了反思前后的思维范围，反思前，语义空间体积是35.2，反思后，直接压缩到31.2。

再看聚类结果就更清楚了，反思之后，同一类正确思路的点会紧紧抱团，而那些零散、跑偏的分支会被自动推开。

也就是说，自我反思氢键能把靠谱逻辑揉得更紧实、把跑偏想法筛出去、稳住整个推理大局，让长链思考不再松散混乱。

第三种叫自我探索，像范德华力一样弱，但覆盖面广。

这个就类似于“要不咱们试试这个角度”“有没有另一种可能性”，在语义空间里找新的解题路径。

量化分析显示，加上探索行为之后，模型在语义空间里的思维覆盖范围能从23.95扩大到29.22。

虽然思路一打开稳定性就会下降，容易跑偏想歪，但能让模型跳出死胡同，不卡在局部最优解里，真正找到全新的解题路线。

研究发现，所有强推理模型的三种思维行为比例和转换规律都高度一致，相关性超过0.9，说明有效长链推理存在通用的稳定拓扑结构。

你可能觉得“共价键”“氢键”只是个比喻，但论文发现，这个比喻背后藏着严格的数学对应。

在Transformer里，注意力权重的计算方式长这样：

眼熟吗？这和统计力学里的玻尔兹曼分布一模一样：

如果把负注意力分数看作能量，那么注意力权重就是模型在语义空间里按“能量”高低选择路径的概率就是能量越低，被选中的概率越高

论文进一步分析了三种行为对应的“注意力能量”。

深度推理通常发生在相邻步骤之间，能量最低;
自我反思会跳回较远的步骤，能量中等;
自我探索跳得更远，能量最高.

这就解释了为什么强推理模型的三种键比例如此稳定。

因为模型的注意力机制本身就在追求最低能量的推理路径，而深度推理、反思、探索正好对应了不同距离下的能量层级。

语义同分异构体和智能熵减

接着团队还抛出了语义同分异构体的概念。

这词儿是借的化学，同样的分子式，原子连接方式不同，就能搞出性质完全不同的物质。

放到推理里就是，同样的题目，同样的概念点，用不同的”化学键“组合去解，出来的推理链条可以完全不一样，但都能解对。

但不是所有异构体都适合拿来教模型。

这里就要引入一个关键概念熵减

在热力学里，孤立系统总是自发走向混乱（熵增），而一个有效的长链推理过程，本质上就是在语义空间里不断降低不确定性——

从一堆可能的方向中，逐步收敛到唯一正确的答案。这个过程就是“熵减”。

而“注意力能量”机制，正是模型实现熵减的工具。

模型的注意力天然偏好能量更低的路径。

当深度推理（低能量）被反复选中，反思（中等能量）把前后逻辑折叠起来，探索（高能量）偶尔探路但不喧宾夺主，整个系统的“推理熵”就会快速下降，逻辑火速收敛。

这如论文里说的，只有那些能推动熵快速降低的“化学键”组合，才是模型真正能学会、能持续进化的稳定态。

这在实验中有个很典型的现象，从R1和OSS两个不同强推理模型中蒸馏出的推理轨迹，语义层面的内容相似度高达95%，但混在一起训练，模型反而崩溃了。

这说明，长链推理的关键是思路结构必须稳定、统一，模型才能学得会。

MoLE-Syn：从零合成稳定推理结构

发现问题就要解决问题。

基于这一整套发现，团队搞了个叫MoLE-Syn的方法，来从零合成稳定的推理结构。

具体操作就两步。

第一步，从强推理模型（比如R1、QwQ、gpt-OSS）的推理链里，抽出一张行为转移概率图。

这张图里每个节点是一种推理行为（化学键），每条边是从一个行为跳到另一个行为的概率。

第二步，拿着这张图，让普通的指令模型照着图上画的概率去生成推理链。

用这个方法从零合成的训练数据，喂给Llama或者Qwen，效果逼近直接蒸馏R1的水平。

而且这么做有一个大好处就是成本低。只要拿到那张行为转移图，普通模型就能自己生产合格的长链推理数据。

团队把用MoLE-Syn初始化过的模型拿去做强化学习，发现跑起来还特别稳。

相比直接用蒸馏数据初始化的模型，MoLE-Syn版的在RL过程中收益持续增长，震荡也小得多。

这说明一开始植入的思维结构够稳，后面的强化学习就不会出现逻辑偏移。

这项研究的负责人为字节Seed算法专家黄文灏，曾在微软亚洲研究院担任研究员。

第一作者是哈尔滨工业大学博士、字节Seed实习研究员陈麒光

合作单位还包括北京大学、2077AI Foundation、南京大学、M-A-P、中南大学。

不得不说，这波操作有点当年薛定谔拿物理学公式推生物学那味儿了。

给大模型推理这个卷得飞起的领域，开了个挺清爽的新脑洞。

论文地址：https://arxiv.org/abs/2601.06002

— 完 —

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

ChatGPT突发封杀令！全球AI写手一夜断粮

新智元 2026-07-31 08:57:06
31 跟贴 31
给世界模型加上因果，她要让机器人真正理解“为什么”

DeepTech深科技 2026-06-20 11:32:15
0 跟贴 0

视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0

我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

量子位 2026-06-19 16:40:27
0 跟贴 0
GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

机器之心Pro 2026-06-14 19:24:09
0 跟贴 0

暴增389%！DeepSeek卷到白菜价，这家公司却靠卖Token赚翻了

新智元 2026-07-31 21:17:23
61 跟贴 61

DeepSeek又更新了，这次梁文锋没放大招

虎嗅APP 2026-08-01 03:02:12
20 跟贴 20
刚刚，即梦 Seedance 2.5来了！我狂测测测测

量子位 2026-07-31 16:46:44
3 跟贴 3

谁在成为人形机器人的Tier 1？

虎嗅APP 2026-08-01 04:12:24
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
南京大学张若洋副教授最新研究成果登《Nature》

TOP大学来了 2026-07-30 09:44:32
0 跟贴 0
金属界的密度“扛把子”，金子见了都得叫大哥！

哇喔小课堂 2026-07-28 17:17:27
13 跟贴 13
数字推理，2，3，6，18，109，（）

公考客栈店小二 2026-07-27 18:00:00
1 跟贴 1
见世面只有一种办法

记忆承载 2026-07-30 07:26:32
3 跟贴 3
机核《录音笔》VOL.754：推理是一场挑战认知常识的游戏

渡川5 2026-08-01 00:45:17
0 跟贴 0
沙特宣布：与科威特、巴林、卡塔尔、巴基斯坦、土耳其、埃及、约旦等13国组建联盟

鲁中晨报 2026-07-31 12:14:07
21904 跟贴 21904
有的时候看得更明白一些，事情也会更顺#强者思维逻辑 #认知提升

叫我金主编 2026-07-29 07:26:07
0 跟贴 0
女子在攀岩馆攀岩，动作流畅轻盈力量感十足

南阳日报 2026-07-31 18:24:24
21 跟贴 21
欧足联抵制所有国际足联赛事！

扬子晚报 2026-07-31 07:21:35
11780 跟贴 11780
好莱坞幕后制作团队，通过模型拍摄海啸侵袭城市场景

车马点兵V 2026-07-28 14:27:25
8 跟贴 8
5050亿参数！余承东开源盘古新模型，“世界第一”还有些距离

智东西 2026-07-31 15:48:26
26 跟贴 26
非牛顿流体，为什么能改变自身硬度？看完涨知识了

战争黑匣子 2026-07-28 12:43:34
0 跟贴 0
李挚辞去岳阳市市长职务

中国经济网 2026-07-31 19:38:02
70 跟贴 70
我发现，能红的人，都符合这个公式

全嘻嘻 2026-07-31 11:17:22
3 跟贴 3
Claude Code到底有多费token？对比实验来了：三大框架最多差30倍

机器之心Pro 2026-07-31 21:55:00
39 跟贴 39
美西方为什么敌视我们？这是标准答案

兵鉴史 2026-08-01 08:22:33
1 跟贴 1
马斯克拿下豆包，震惊行业！

互联网品牌官 2026-07-31 19:58:05
285 跟贴 285
DeepSeek-V4-Flash正式版来了！

机器之心Pro 2026-07-31 18:27:08
3 跟贴 3
Claude黑进三家真公司！Anthropic吓坏了

新智元 2026-08-01 08:28:14
0 跟贴 0
2004年考上西交大时，我曾以为自己以后会前途无量

那些无名之辈 2026-07-31 11:39:04
0 跟贴 0
河南一对双胞胎分别考上清华北大，弟弟：高中在班里当过倒数也当过第一，化学95分比较遗憾，本想冲着满分考

河南都市频道 2026-07-31 09:01:11
0 跟贴 0
中考化学实验

张国瑞 2026-07-31 18:01:37
0 跟贴 0
华东理工大学练成教授团队与巴克斯酒业合作利用分子热力学破译酒风味微观机制

化学加网 2026-07-30 15:18:48
0 跟贴 0
全球最贵的一加仑水卖12万美元，现代测温精度全得靠它

Ping值焦虑 2026-08-01 00:41:02
0 跟贴 0
消费者称购二手车后发现多处问题，瓜子二手车与“查博士”均承认检测失误

澎湃新闻 2026-07-31 16:14:27
697 跟贴 697
俄军一天压制10个旅夺下舍甫琴科：顿涅茨克战场的消耗战逻辑

一饮山河 2026-07-30 12:30:05
1 跟贴 1
中国电信、中国移动、中国联通：8月1日起，第三方互联网渠道不再提供号卡办理服务

南方都市报 2026-07-31 20:01:13
3957 跟贴 3957
硅基新物种的意识与文化植入：国别归属命题的辩证辨析

经济观察报 2026-08-01 09:13:39
0 跟贴 0
终于，张一鸣迎来了「豆包办公」时刻

虎嗅APP 2026-07-31 23:42:52
1 跟贴 1

“新佩佩”浮现！若5000万欧元签下他，皇马可打造超强铜墙铁壁！

“新佩佩”浮现！若5000万欧元签下他，皇马可打造超强铜墙铁壁！

黄小仙的搞笑视频

2026-08-01 09:56:54

这波桑拿天何时退场？青岛气象回应→

这波桑拿天何时退场？青岛气象回应→

先锋新闻

2026-08-01 07:09:13

泡泡玛特全球最大Crybaby特展落地北京

泡泡玛特全球最大Crybaby特展落地北京

北青网-北京青年报

2026-07-31 11:23:04

德国网友：中美是骗子，美国负债39万亿却装富，中国稳居第二哭穷

德国网友：中美是骗子，美国负债39万亿却装富，中国稳居第二哭穷

聊历史的阿稼

2026-08-01 07:59:27

黄一鸣自曝：王思聪每次约她，车费都给10万，来给5万，回再给5万

黄一鸣自曝：王思聪每次约她，车费都给10万，来给5万，回再给5万

汉史趣闻

2025-06-24 10:07:59

雷军一句“全系支持92号汽油”，引发群嘲，友商更怕的是另一句

雷军一句“全系支持92号汽油”，引发群嘲，友商更怕的是另一句

小李车评李建红

2026-07-30 08:00:03

5800万年轻人不交社保了：断缴的不是懒惰，是生存的算术

5800万年轻人不交社保了：断缴的不是懒惰，是生存的算术

互联网大观

2026-07-21 10:03:18

对王树国的举报，已经对福耀科大2026年招生产生了不小的负面影响

对王树国的举报，已经对福耀科大2026年招生产生了不小的负面影响

叒女紫121

2026-07-30 18:16:57

受贿1.24亿，南充市委原书记古正举被判无期

受贿1.24亿，南充市委原书记古正举被判无期

观察者网

2026-07-31 19:37:04

独家：原中国五矿集团总经理出大事这下热闹了！注意他曾任职的另一著名央企！他以前可是大权在握

独家：原中国五矿集团总经理出大事这下热闹了！注意他曾任职的另一著名央企！他以前可是大权在握

新浪财经

2026-07-31 14:18:45

别在小区“售水机”打水喝了，内行人曝光：水很脏，还不如自来水

别在小区“售水机”打水喝了，内行人曝光：水很脏，还不如自来水

室内设计师有料儿

2026-07-31 12:48:37

中国存款大势已定？若一切正常，明后年，居民储蓄或要变天了！

中国存款大势已定？若一切正常，明后年，居民储蓄或要变天了！

史之铭

2026-07-31 19:00:21

公务员大势已定不出意外的话，未来5年，体制内或将出现巨大变化

公务员大势已定不出意外的话，未来5年，体制内或将出现巨大变化

解说阿洎

2026-07-31 10:17:22

经纪公司官宣处罚！脱口秀演员房主任停演3个月，就不当言行致歉

经纪公司官宣处罚！脱口秀演员房主任停演3个月，就不当言行致歉

手工制作阿歼

2026-08-01 00:26:53

超强台风“白海豚”已达17级，5日夜间前对我国海区无影响

超强台风“白海豚”已达17级，5日夜间前对我国海区无影响

界面新闻

2026-08-01 09:23:20

唐屹峰任广东省委常委

新京报政事儿

2026-07-31 20:02:22

阿根廷4600万人口，拥有超1500万辆汽车，福建4200万人有多少？

阿根廷4600万人口，拥有超1500万辆汽车，福建4200万人有多少？

抽象派大师

2026-07-29 16:26:26

王俊寿不再担任湖南省副省长职务

王俊寿不再担任湖南省副省长职务

界面新闻

2026-07-31 15:29:09

美国民意转向：为何特朗普和共和党选民越来越看好乌克兰赢？

美国民意转向：为何特朗普和共和党选民越来越看好乌克兰赢？

高博新视野

2026-07-31 19:55:10

普京杜马告别演讲，俄罗斯大局已定！

普京杜马告别演讲，俄罗斯大局已定！

李荣茂

2026-08-01 07:24:39

追踪人工智能动态

13063文章数 176526关注度

往期回顾全部

科技要闻

DeepSeek又更新了，这次梁文锋没放大招

头条要闻

少年捐日军罪证遭“销户”威胁警方最新回应

头条要闻

少年捐日军罪证遭“销户”威胁警方最新回应

体育要闻

欧足联掀桌！因凡蒂诺这次真玩大了？

娱乐要闻

百花奖影帝影后即将决出

财经要闻

宇树造富盛宴：王兴兴将跻身百亿富豪

汽车要闻

听劝！换回机械门把手，这才是碳基生物该开的车！

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

教育

健康

公开课

本地新闻

神仙也“蓉”漂，哪吒与八仙，皆是成都出品！

旅游要闻

稻浪绘新景，济南东篱山耕荷花路基地稻田画上线

教育要闻

L7秋思辨课｜“躺平”浪潮之下，什么是孩子面对复杂未来的底层能力？

中风易复发！谈中风康复与二级预防

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版