网易首页 > 网易号 > 正文 申请入驻

姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致性

0
分享至

文章转载于量子位(QbitAI)
作者:西风

姚期智院士领衔,推出大模型新推理框架,CoT“王冠”戴不住了。

提出思维图(Diagram of Thought),让大模型思考更像人类。

团队更是为这种推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻辑一致性和合理性。

相比CoT将推理过程表示为线性序列,DoT更能捕捉人类推理的复杂性。

相比引入分支结构ToT和GoT,DoT不需要依赖外部控制机制或多个模型协作,训练部署更简单。

秘诀就在于,DoT将LLM中的迭代推理建模为在单一模型内构建有向无环图(DAG)。

DAG由代表命题、批评、精炼和验证的节点组成,边表示它们之间的逻辑关系或依赖关系,边都有方向,不存在任何循环路径。

这种无环的特性确保推理过程不受循环依赖的影响,能更真实反映合理的逻辑推导。

9.11和9.8哪个大、strawberry中有几个“r”等问题在DoT的帮助下全都迎刃而解了。

要知道,大模型最新“顶流”OpenAI o1目前被训练得原生具备生成CoT的能力,现在更强的DoT来了,是不是也可以通过强化学习内化到模型里,如此一来……

这项研究提出后得到了不小的关注。

网友纷纷表示这是一种正确的路径。

码住,码住,码住

具体来看看DoT长啥样。

1

大模型复杂推理新框架

如前所述,DoT将逻辑推理过程建模为在单个LLM内构建有向无环图(DAG)。

其框架内部管理三个关键角色:

  • 提议者:生成命题或推理步骤,添加新节点。

  • 批评者:评估命题,识别错误、不一致或逻辑谬误,并添加批评节点。

  • 总结者:将经过验证的命题综合成一个连贯的思维链,有效地执行DAG的拓扑排序(topological sort)以产出最终的推理输出。

这三个角色通过使用特殊token ,如 、 、 , 在模型的输出中被明确定义。LLM在生成过程中 在这些角色之间 无缝切换 ,利用其自回归能力根据上下文预测下一个token。

推理过程始于提议者引入一个命题,向DAG添加一个节点。

然后,由评论者评估验证或提供批评。如果提供了批评,将添加一个新节点,并在该命题和批评之间建立一个边。

基于批评,提议者生成一个精炼改进过的命题,表示为DAG中的一个新节点。

这一过程 重复进行, 命题不断被精炼直到得到验证 。

一旦建立了足够有效的命题,总结者就会综合这些推理,对DAG进行拓扑排序以产生一个连贯的思维链。

通过让模型接触正确和错误的推理,DoT允许LLM从错误中学习,随着时间的推移不断精炼其推理,这也更像人类解决问题的方式。

这种方法不仅捕捉了推理的非线性和迭代特性,还通过自然语言批评提供了比二元信号更丰富的反馈。

DoT的训练涉及使用格式化为DoT结构的训练样例,包括角色特定token和DAG表示。在推理过程中,模型基于上下文线索和角色特定token生成命题、批评和总结。

这种方法简化了部署,消除了对多LLM协作或外部控制机制的需求,同时与标准LLM训练范式保持一致,便于集成到现有工作流程中。

作者还为DoT框架提供了严格的数学基础,利用 Topos Theory 对推理过程进行了形式化描述。

在这个框架中,命题被建模为拓扑中终端对象的子对象,逻辑关系和推理步骤表示为态射,批评和改进过程分别对应到子对象分类器的态射和命题间的态射。

通过引入PreNet范畴,他们还成功捕捉了推理过程的动态和并发特性。

这种数学基础不仅确保了推理过程的逻辑一致性和完备性,还为设计下一代专门用于推理的AI模型提供了概念框架。

1

清华叉院姚期智、袁洋领衔

这篇论文由清华交叉信息研究院姚期智、袁洋领衔,论文第一作者为张伊凡。

张伊凡

张伊凡2021年本科毕业于于北京大学元培学院,现为清华大学交叉信息学院博士研究生,师从袁洋助理教授。

他的主要研究方向为基础模型(大语言模型)的理论和算法、自监督学习、可信人工智能。

袁洋

袁洋是清华大学交叉信息学院助理教授,博士生导师。

2012年毕业于北京大学计算机系;2018年获美国康奈尔大学计算机博士学位;2018-2019年前往麻省理工学院大数据科学学院做博士后。

他的主要研究方向是智能医疗、AI可解释性、AI大系统,在非凸优化理论、神经网络优化理论、机制设计等领域有颇多研究成果。

姚期智

姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获此殊荣的唯一华人计算机科学家。

姚期智教授2004年从普林斯顿辞去终身教职回到清华任教;2005年为清华本科生创立了计算机科学实验班“姚班”;2011年创建“清华量子信息中心”与“交叉信息研究院”;2019年再为清华本科生创立了人工智能学堂班,简称“智班”。

如今,他领导的清华大学交叉信息研究院早已声名远播,姚班、智班都隶属交叉信息院。

姚期智教授研究方向有算法、密码学、量子计算等,是这方面的国际先驱和权威。

1

One More Thing

一年前的差不多同一时间姚期智院士领衔提出了 (Cumulative Reasoning,CR)的方法。

DoT是对CR的进一步深化。

当时CR协调了一个涉及不同专业化大语言模型的迭代过程,由不同模型承担了提议者、验证者和报告者角色。

而DoT直接在单一模型内构建有向无环图,不依赖于外部控制机制或多个模型,训练和部署更简单。

且在DoT中,模型生成的批评反馈是自然语言形式的,而不是像CR那样只给出二值信号。这使得模型可以接收到关于错误的详细解释,有助于更有效地改进命题。

这次DoT还有了强有力的数学基础,阐明了DoT推理过程与范畴逻辑的关系,从理论上确保了推理的一致性和可靠性。

论文链接:https://arxiv.org/abs/2409.10038

参考链接:
[1]https://x.com/omarsar0/status/1835882277563179512
[2]https://hub.baai.ac.cn/users/16897
[3]https://hub.baai.ac.cn/users/19790

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
文班谈超远压哨三分:过去总是太仓促害怕被盖,但今天不一样了

文班谈超远压哨三分:过去总是太仓促害怕被盖,但今天不一样了

懂球帝
2026-05-25 14:28:29
德国战败后,古德里安为什么能无罪释放?他是一个有底线的军人!

德国战败后,古德里安为什么能无罪释放?他是一个有底线的军人!

小豫讲故事
2026-05-24 06:00:11
刘銮雄又拍卖佳酿卖了3685万,最贵一瓶65万,五年卖酒成交2.75亿

刘銮雄又拍卖佳酿卖了3685万,最贵一瓶65万,五年卖酒成交2.75亿

好贤观史记
2026-05-24 13:21:38
2026CBA总决赛:节奏之争?篮板之争?剩者为王!

2026CBA总决赛:节奏之争?篮板之争?剩者为王!

体坛周报
2026-05-25 17:17:37
劝大家极限储蓄吧,从5月开始!

劝大家极限储蓄吧,从5月开始!

林中木白
2026-05-25 10:06:15
燃油车集体大降价!45万元的奥迪降至26万元,宝马最高降超30万元!

燃油车集体大降价!45万元的奥迪降至26万元,宝马最高降超30万元!

新浪财经
2026-05-23 23:34:36
人民大会堂女服务万里挑一!她们是啥编制?选拔标准有多严?

人民大会堂女服务万里挑一!她们是啥编制?选拔标准有多严?

复转这些年
2026-05-20 19:44:43
小酒窝10岁生日排面足,多位明星到场庆祝,董璇张维伊合体露面

小酒窝10岁生日排面足,多位明星到场庆祝,董璇张维伊合体露面

扒虾侃娱
2026-05-25 12:56:54
首个“台独”政党宣示考虑成为中华人民共和国一部分,提了个条件

首个“台独”政党宣示考虑成为中华人民共和国一部分,提了个条件

琴音缭绕回
2026-05-25 17:59:36
都说叶剑英没带过兵,凭什么能当元帅?毛主席用一句话道破天机

都说叶剑英没带过兵,凭什么能当元帅?毛主席用一句话道破天机

鹤羽说个事
2026-05-23 22:53:52
中美法德都派人赴俄,泽连斯基暴怒:普京连话都说不清了,还打!

中美法德都派人赴俄,泽连斯基暴怒:普京连话都说不清了,还打!

小莜读史
2026-05-25 11:37:46
华为韬定律改写半导体规则!博主感慨1.4万买麒麟手机为支持 突破美国封锁这钱花的值

华为韬定律改写半导体规则!博主感慨1.4万买麒麟手机为支持 突破美国封锁这钱花的值

快科技
2026-05-25 15:52:16
医生私下也在用的5种降压药:长效、护心、副作用少,还进医保

医生私下也在用的5种降压药:长效、护心、副作用少,还进医保

观星赏月
2026-05-23 12:52:47
喜临门董事长陈阿裕跑路?回应来了

喜临门董事长陈阿裕跑路?回应来了

i黑马
2026-05-25 09:25:07
李显龙表示:新加坡是独立的,对华合作是因为利益,而非同宗同源

李显龙表示:新加坡是独立的,对华合作是因为利益,而非同宗同源

安安说
2026-05-25 11:02:48
中方深感遗憾!

中方深感遗憾!

海外网
2026-05-24 15:53:02
交完6000万赎金,香港富豪被扔进公海喂鱼!幕后黑手竟是退休警长

交完6000万赎金,香港富豪被扔进公海喂鱼!幕后黑手竟是退休警长

娱乐洞察点点
2026-05-25 16:03:34
女性的臀部和胸部,为何会对男性产生强烈的“性吸引力”?

女性的臀部和胸部,为何会对男性产生强烈的“性吸引力”?

宇宙时空
2026-05-15 22:15:06
5月25日,人社部关于2026年养老金调整通知会公布吗?有新动态吗

5月25日,人社部关于2026年养老金调整通知会公布吗?有新动态吗

社保小达人
2026-05-25 07:25:08
中国走得太及时!8500亿美债无人接盘,美国借新还旧玩砸了!

中国走得太及时!8500亿美债无人接盘,美国借新还旧玩砸了!

别人都叫我阿腈
2026-05-25 09:55:44
2026-05-25 19:47:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3107文章数 10499关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

纸包火的秘密:前发审委员的冒险游戏

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

健康
房产
教育
家居
数码

几百块一瓶的外泌体精华,涂脸上是“智商税”吗?

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

教育要闻

两个问题:23456志愿的选择与班型比较

家居要闻

生与命相依 旧公寓改造

数码要闻

除甲醛最好的空气净化器盘点哪个牌子好,推荐家用最佳品牌不踩坑

无障碍浏览 进入关怀版