网易首页 > 网易号 > 正文 申请入驻

基于Claude的思考链传递架构,赢了1题贵了15倍

0
分享至

ArXiv上一篇编号2604.25917的论文《RecursiveMAS》提出了一个好玩的想法:让AI智能体在协作时,不只传递最终答案,而是把内部推理过程中的潜在嵌入(latent embeddings)传给下一个智能体。下一个智能体基于前者的推理状态继续工作,这套方法在基准测试上的平均准确率提升了8.3个点。论文的结果不错,但有个前提——你得能用开源权重模型,推理时能拿出隐藏层状态。

Claude、GPT-4o、Gemini这类API服务都做不到。我尝试用Anthropic的扩展思考API来重新实现这套逻辑,思路是转移核心思想:论文管这叫内部状态共享,我这边做的是思考文本的中继传递。Claude的扩展思考文本块带有加密签名,绑定了原始对话。你没法把一个带签名的思考块硬塞进另一个智能体的消息数组里,API会直接拒绝。所以处理办法是:从思考块里把文本提出来,作为普通用户消息注入到下一个智能体中。签名不跟着过去,但推理内容传过去了。


我搭出的第一版架构是一套Planner→Critic→Solver的循环,每个智能体输出的不是原始思考文本,而是一份精简的脑内建模JSON。为什么这么设计?在1024个token的思考预算内,原始思考往往是压缩且碎片化的。我的假设是:150个token的结构化信号,每个token携带的信息量比1024个token的压缩散文更高。JSON结构里包含了智能体对问题的解读、关键步骤、被否决的尝试路径、置信度评分以及潜在错误点。其中,confidence和potential_errors是两个承重字段,它们告诉下游智能体该把质疑的力气花在哪里,而不需要下游去反刍完整的推理过程。

结果怎么样?准确率多了2个点。但代价是15倍的token消耗。在50道题的测试集里,这套结构化传递方案只比基线多赢了1道题。方向对,但成本比没法直接用。如果要为每个请求完整跑一遍Planner→Critic→Solver链,2个点的收益在n=50的样本量下撑不起这个开销。

显然下一步会想到:让智能体2在生成自己的答案之前先读智能体1的JSON报告。我没这么做。问题是锚定效应——智能体2在看到前一个人的答案后才形成自己的判断,就会倾向于附和确认,而不是提出独立质疑。整套实验指向一个关键的权衡:用结构化摘要传递推理线索,确实能让下游智能体更精准地定位可信度薄弱点,但token成本的膨胀幅度说明,这种做法的实际部署门槛还很高。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
文班亚马将签5000多万合同,马刺下赛季还能签超巨,保罗会后悔吗

文班亚马将签5000多万合同,马刺下赛季还能签超巨,保罗会后悔吗

体育大学僧
2026-06-02 11:10:25
彻底失控!美俄同时动手,两大战场同时炸了!

彻底失控!美俄同时动手,两大战场同时炸了!

大嘴说天下
2026-06-01 23:15:03
回国了我才敢说:印度,是我去过的所有国家里,最容易被轻视的

回国了我才敢说:印度,是我去过的所有国家里,最容易被轻视的

范剬舍长
2026-06-02 07:40:13
他是NBA现役最强防守教练,年龄和詹姆斯一样大 苦熬15年终迎转正

他是NBA现役最强防守教练,年龄和詹姆斯一样大 苦熬15年终迎转正

小秦哥聊体育
2026-06-02 14:27:00
荷兰没料到,闯中国领空这事没完,中方当着各国的面,开始问责

荷兰没料到,闯中国领空这事没完,中方当着各国的面,开始问责

福建睿平
2026-06-02 10:08:06
离谱啊!中考统一包车收费被网暴,网友:善意的教育,被苛责消磨

离谱啊!中考统一包车收费被网暴,网友:善意的教育,被苛责消磨

火山詩话
2026-06-01 15:27:10
农机手爬梯被偷后续:监控曝光,三轮车拉走梯子,村干部曝更多

农机手爬梯被偷后续:监控曝光,三轮车拉走梯子,村干部曝更多

瓜哥的动物日记
2026-06-02 00:49:19
原来他就是“京圈烈女”白百何的二婚老公,难怪白百何能逆风翻盘

原来他就是“京圈烈女”白百何的二婚老公,难怪白百何能逆风翻盘

白面书誏
2026-06-02 13:33:13
信号比地球强32倍,数量少3万倍:首个外星痕迹为何可能来自最不“地球”的行星?

信号比地球强32倍,数量少3万倍:首个外星痕迹为何可能来自最不“地球”的行星?

冷知识挖掘机21
2026-06-01 06:24:43
张兰高调为汪宝举办百日宴,邀请海外亲人参加,玥儿箖箖疑缺席

张兰高调为汪宝举办百日宴,邀请海外亲人参加,玥儿箖箖疑缺席

乡野小珥
2026-06-02 01:29:32
国乒女队未来领军人选已定!蒯曼陈熠难堪大任,14 岁小将潜力十足堪当重任

国乒女队未来领军人选已定!蒯曼陈熠难堪大任,14 岁小将潜力十足堪当重任

最爱乒乓球
2026-06-02 05:02:14
退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

混沌录
2026-04-22 19:51:07
已经消失的赤脚医生,要是按照毛主席的设想继续发展,如今会怎样

已经消失的赤脚医生,要是按照毛主席的设想继续发展,如今会怎样

史之铭
2026-05-31 18:59:58
转发扩散!遗骸容貌复原,烈士可能来自东北

转发扩散!遗骸容貌复原,烈士可能来自东北

极目新闻
2026-05-10 13:36:42
善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林已成笑话

善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林已成笑话

阿绐聊社会
2026-06-02 12:51:08
北京一女子患癌后担心自己死后丈夫再娶,便在去世前以1000元的价格把房子卖给大儿子,不料,去世后丈夫却被儿子赶出家门

北京一女子患癌后担心自己死后丈夫再娶,便在去世前以1000元的价格把房子卖给大儿子,不料,去世后丈夫却被儿子赶出家门

黎兜兜
2026-06-01 14:36:25
为什么人类都喜欢和高颜值的交配繁衍?

为什么人类都喜欢和高颜值的交配繁衍?

宇宙时空
2026-06-01 13:45:09
为什么宋朝皇帝不穿龙袍?

为什么宋朝皇帝不穿龙袍?

长风文史
2026-06-01 15:12:29
000586!临近午盘,直线涨停!600487,超40亿主力资金净流入!

000586!临近午盘,直线涨停!600487,超40亿主力资金净流入!

证券时报e公司
2026-06-02 12:21:56
《主角》刘红兵父亲中风,儿子重病,网友:编剧心太狠,看不下去

《主角》刘红兵父亲中风,儿子重病,网友:编剧心太狠,看不下去

阿纂看事
2026-06-02 14:04:25
2026-06-02 15:04:49
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
4439文章数 37关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

手机
房产
本地
公开课
军事航空

手机要闻

苹果 WWDC 2026 现场将特别放映《曼达洛人和古古》

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版