网易首页 > 网易号 > 正文 申请入驻

多智能体协作竟是陷阱?数学推理辩论轮次增加,集体答案反而跑偏

0
分享至

哈喽,大家好,杆哥这篇评论,主要来分析多智能体协作竟是陷阱?数学推理辩论轮次增加,集体答案反而跑偏

让多个 AI 模型组队辩论数学题,本以为能集思广益提升准确率,结果却令人大跌眼镜。



一项多所大学联合完成的研究发现,多智能体辩论不仅没让答案更正确,反而经常导致集体智力退化,就算强模型占多数,最终也会集体走向错误答案。

反常识现象:辩论越久,答案越错

研究团队在三个数据集上做了全面测试,涵盖算术推理和策略推理任务。



实验设计很直接:让多个大语言模型组成辩论小组,交换意见后通过多数投票定最终答案。

令人意外的是,随着辩论轮次增加,群体准确率不升反降,大量原本正确的答案在辩论中被 “污染”。



更扎心的是,异质性群体中,弱模型的存在会显著拖累强模型,整体结果甚至不如单个模型独立作答。



四大失败模式:AI 为何越辩越糊涂



首先是 “多数暴政” 效应,不管答案对错,少数派模型总倾向于服从多数,形成回声室效应。

模型更偏爱达成共识而非挑战错误推理,这种对一致的追求远超对真相的执着,让群体快速收敛到错误答案。

其次是顺序修正陷阱,模型看到同伴推理后,哪怕漏洞明显也会过度信任,轻易放弃自己原本正确的立场。

社会从众心理也在作祟,就算最初答案正确,面对多数派意见,模型也会迫于 “群体压力” 改变立场。



异质性群体:强模型也扛不住弱模型拖累



过去大家以为,不同能力的模型混合能互补,让强模型纠正弱模型的错误。

但现实恰恰相反,研究发现就算强模型数量占优,弱模型的错误推理也会在辩论中传播,误导强模型偏离正确轨道。



用 GPT-4 和 GPT-3.5 组合测试的结果显示,它们共同辩论的准确率,居然低于单独使用 GPT-4 的基线。

这意味着,让弱模型参与辩论不仅没价值,反而主动拉低了整个系统的性能。

争议背后:任务难度与模型架构成关键



这种集体退化现象,在复杂数学推理任务上表现最突出。

这类问题需要严格的逻辑链条,任何一步出错都会导致最终答案错误,而辩论中错误的中间步骤很容易被传播放大。

相比之下,简单算术题或事实性问答上,辩论的危害相对较小,但也没能提升准确性。



不同模型架构的反应也有差异,训练中被强化了协作和服从的模型,更容易在辩论中放弃自己的判断。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本皇室新年第二天齐聚皇宫阳台!91岁美智子也来了,爱子很惊艳

日本皇室新年第二天齐聚皇宫阳台!91岁美智子也来了,爱子很惊艳

时尚丽人风行
2026-01-02 17:20:46
65岁英达现状:俩孙子都姓宋,和巴图关系疏远,专心培养英如镝

65岁英达现状:俩孙子都姓宋,和巴图关系疏远,专心培养英如镝

绚丽的画卷
2026-01-02 11:37:07
人民日报:为什么要大量读书?这是我听到过最好的答案

人民日报:为什么要大量读书?这是我听到过最好的答案

职场生成法则
2025-12-21 17:35:03
55分后45分,伦纳德打疯了,打成联盟第一,给他1.5亿是有原因的

55分后45分,伦纳德打疯了,打成联盟第一,给他1.5亿是有原因的

大西体育
2026-01-02 15:21:37
他是蒋介石的恩人,儿子曾任上海市委书记,孙子被授予中将军衔

他是蒋介石的恩人,儿子曾任上海市委书记,孙子被授予中将军衔

浩渺青史
2025-12-29 00:42:37
就是他们的主张!酿成巨大贫富差距,让国企职工处境艰难?

就是他们的主张!酿成巨大贫富差距,让国企职工处境艰难?

老籣说体育
2025-12-17 07:13:35
29国反对军演,不许大陆武力收台!关键时刻,四个盟友对华交底了

29国反对军演,不许大陆武力收台!关键时刻,四个盟友对华交底了

墨兰史书
2026-01-02 04:20:03
涉毒艺人参演群星晚会,遭网友质疑后退出!

涉毒艺人参演群星晚会,遭网友质疑后退出!

新民周刊
2026-01-01 20:23:41
长大以后才发现语文课本里全是人生,网友:终是山猪品不了细糠

长大以后才发现语文课本里全是人生,网友:终是山猪品不了细糠

另子维爱读史
2026-01-01 22:55:19
苏富比5.9亿“稀世粉钻”惨遭流拍,西方巨头破防:河南负全责!

苏富比5.9亿“稀世粉钻”惨遭流拍,西方巨头破防:河南负全责!

诗意世界
2025-12-31 17:59:26
谁懂!你永远不知道你的顾客是干什么的,网友:在知识面前颤抖吧

谁懂!你永远不知道你的顾客是干什么的,网友:在知识面前颤抖吧

夜深爱杂谈
2025-12-20 16:51:40
拒甩锅!伊朗总统:民生不满根源在自身,失败源于管理不善

拒甩锅!伊朗总统:民生不满根源在自身,失败源于管理不善

老马拉车莫少装
2026-01-01 22:37:58
新年首击:圣彼得堡大面积断电!乌克兰摧毁黑海最大石油港

新年首击:圣彼得堡大面积断电!乌克兰摧毁黑海最大石油港

项鹏飞
2026-01-01 12:50:56
DeepSeek 把人工智能的下水道打通了

DeepSeek 把人工智能的下水道打通了

知识圈
2026-01-01 20:57:36
六年铁窗生涯结束,宋喆在河北老家县城的理发店里为顾客修剪头发

六年铁窗生涯结束,宋喆在河北老家县城的理发店里为顾客修剪头发

没有偏旁的常庆
2025-12-29 07:15:10
垄断行业多年,如今光环已经黯淡!一旦烟草行业倒了,军费怎么办

垄断行业多年,如今光环已经黯淡!一旦烟草行业倒了,军费怎么办

近史博览
2025-12-29 19:12:15
医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

深度报
2025-12-21 23:01:02
俄杜马议员:泽连斯基执政将成“乌克兰历史黑暗时期”

俄杜马议员:泽连斯基执政将成“乌克兰历史黑暗时期”

桂系007
2026-01-02 18:47:53
切尔西新帅候选名单出炉!11 人入围,巴萨名宿成最大热门

切尔西新帅候选名单出炉!11 人入围,巴萨名宿成最大热门

澜归序
2026-01-02 03:59:38
亏损超2亿?《用武之地》票房崩塌,我感慨:这块金字招牌算砸了

亏损超2亿?《用武之地》票房崩塌,我感慨:这块金字招牌算砸了

靠谱电影君
2025-12-31 21:42:18
2026-01-02 19:36:49
墨印斋
墨印斋
文化如灯塔,指引我们探索知识的海洋。
4508文章数 957关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

媒体:赖清德叫嚣"中共不敢越雷池" 转头就被狠抽耳光

头条要闻

媒体:赖清德叫嚣"中共不敢越雷池" 转头就被狠抽耳光

体育要闻

英超离谱夜?4战全平3场0-0 曼城红军翻车

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

8200亿扩产潮下的锂电供应链之战

汽车要闻

奇瑞汽车12月销量超23万辆 全年超263万辆

态度原创

健康
艺术
亲子
房产
公开课

元旦举家出行,注意防流感

艺术要闻

神似章子怡?这个越南模特火了,天生长了一张电影脸啊~

亲子要闻

宝蓝靠做家务领取印章获取奖励,爸爸带着宝蓝去超市购物!

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版