网易首页 > 网易号 > 正文 申请入驻

多智能体协作竟是陷阱?数学推理辩论轮次增加,集体答案反而跑偏

0
分享至

哈喽,大家好,杆哥这篇评论,主要来分析多智能体协作竟是陷阱?数学推理辩论轮次增加,集体答案反而跑偏

让多个 AI 模型组队辩论数学题,本以为能集思广益提升准确率,结果却令人大跌眼镜。



一项多所大学联合完成的研究发现,多智能体辩论不仅没让答案更正确,反而经常导致集体智力退化,就算强模型占多数,最终也会集体走向错误答案。

反常识现象:辩论越久,答案越错

研究团队在三个数据集上做了全面测试,涵盖算术推理和策略推理任务。



实验设计很直接:让多个大语言模型组成辩论小组,交换意见后通过多数投票定最终答案。

令人意外的是,随着辩论轮次增加,群体准确率不升反降,大量原本正确的答案在辩论中被 “污染”。



更扎心的是,异质性群体中,弱模型的存在会显著拖累强模型,整体结果甚至不如单个模型独立作答。



四大失败模式:AI 为何越辩越糊涂



首先是 “多数暴政” 效应,不管答案对错,少数派模型总倾向于服从多数,形成回声室效应。

模型更偏爱达成共识而非挑战错误推理,这种对一致的追求远超对真相的执着,让群体快速收敛到错误答案。

其次是顺序修正陷阱,模型看到同伴推理后,哪怕漏洞明显也会过度信任,轻易放弃自己原本正确的立场。

社会从众心理也在作祟,就算最初答案正确,面对多数派意见,模型也会迫于 “群体压力” 改变立场。



异质性群体:强模型也扛不住弱模型拖累



过去大家以为,不同能力的模型混合能互补,让强模型纠正弱模型的错误。

但现实恰恰相反,研究发现就算强模型数量占优,弱模型的错误推理也会在辩论中传播,误导强模型偏离正确轨道。



用 GPT-4 和 GPT-3.5 组合测试的结果显示,它们共同辩论的准确率,居然低于单独使用 GPT-4 的基线。

这意味着,让弱模型参与辩论不仅没价值,反而主动拉低了整个系统的性能。

争议背后:任务难度与模型架构成关键



这种集体退化现象,在复杂数学推理任务上表现最突出。

这类问题需要严格的逻辑链条,任何一步出错都会导致最终答案错误,而辩论中错误的中间步骤很容易被传播放大。

相比之下,简单算术题或事实性问答上,辩论的危害相对较小,但也没能提升准确性。



不同模型架构的反应也有差异,训练中被强化了协作和服从的模型,更容易在辩论中放弃自己的判断。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗:十多艘油轮无视警告,已被炮弹击中并烧毁!并发布“战果”称“击中美军驱逐舰使其熊熊燃烧”

伊朗:十多艘油轮无视警告,已被炮弹击中并烧毁!并发布“战果”称“击中美军驱逐舰使其熊熊燃烧”

扬子晚报
2026-03-04 09:42:52
尘埃落定!伊朗正式退出2026世界杯,亚洲足坛格局生变

尘埃落定!伊朗正式退出2026世界杯,亚洲足坛格局生变

体育见习官
2026-03-03 20:04:09
地球历史长达46亿年,是否诞生过其他智慧文明物种?

地球历史长达46亿年,是否诞生过其他智慧文明物种?

宇宙时空
2026-03-03 22:00:03
密春雷百亿帝国倒塌,董卿却在大年初二亲手下厨,是怎样心态?

密春雷百亿帝国倒塌,董卿却在大年初二亲手下厨,是怎样心态?

南权先生
2026-03-04 15:26:24
伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

环球网资讯
2026-03-03 07:00:20
事态升级!大家要提前做好准备

事态升级!大家要提前做好准备

大胡子说房
2026-03-04 12:12:21
元宵佳节寇振海携一家五口祝大家:阖家团圆,喜乐平安!

元宵佳节寇振海携一家五口祝大家:阖家团圆,喜乐平安!

阅识
2026-03-04 19:01:29
伊朗战争最新进展。。。

伊朗战争最新进展。。。

西楼饮月
2026-03-04 22:21:36
入睡快49%、夜醒降40%!强生新药横空出世,3亿失眠人迎来救星?

入睡快49%、夜醒降40%!强生新药横空出世,3亿失眠人迎来救星?

思思夜话
2026-03-03 16:45:57
不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

混沌录
2025-10-22 21:54:06
可以抄底了

可以抄底了

独孤老赵的笔记
2026-03-04 16:35:49
问界、尊界双双涨价!首发像素级激光雷达,尚界 Z7 内饰一并公布

问界、尊界双双涨价!首发像素级激光雷达,尚界 Z7 内饰一并公布

爱范儿
2026-03-04 18:14:43
复制粘贴,青岛一家三口街头散步“齐头并进”,爸爸儿子女儿身高统一1米82;网友:建议每个人分我5厘米

复制粘贴,青岛一家三口街头散步“齐头并进”,爸爸儿子女儿身高统一1米82;网友:建议每个人分我5厘米

台州交通广播
2026-03-04 20:20:50
女租户失联,房屋散发恶臭被严重损坏,昆明房东报警:损失预估2万以上,她曾自称刚毕业,手头紧;物业:屋内狗彻夜狂叫,邻居曾报警

女租户失联,房屋散发恶臭被严重损坏,昆明房东报警:损失预估2万以上,她曾自称刚毕业,手头紧;物业:屋内狗彻夜狂叫,邻居曾报警

大风新闻
2026-03-04 21:23:17
问政深圳|人才公园湖水泛泡沫?园方回应:多种原因形成,会加强巡查及时清理

问政深圳|人才公园湖水泛泡沫?园方回应:多种原因形成,会加强巡查及时清理

深圳晚报
2026-03-04 08:06:01
越扒越深!去世母亲和舅舅"结婚",河南鲁山离奇事件剑指当地高层

越扒越深!去世母亲和舅舅"结婚",河南鲁山离奇事件剑指当地高层

派大星纪录片
2026-03-04 15:24:28
哈梅内伊身亡现场照片曝光

哈梅内伊身亡现场照片曝光

名人苟或
2026-03-02 10:37:43
美国敢于猎杀伊朗高层,俄罗斯却不敢解决泽连斯基,关键输在一点

美国敢于猎杀伊朗高层,俄罗斯却不敢解决泽连斯基,关键输在一点

碳基生物关怀组织
2026-03-02 23:29:48
1949年,毛主席做出批示:人民英雄纪念碑,不允许提及中国共产党

1949年,毛主席做出批示:人民英雄纪念碑,不允许提及中国共产党

鹤羽说个事
2026-03-04 20:08:23
伊朗遭袭,俄成最大赢家,美媒一语惊人,伊朗对中国没那么重要?

伊朗遭袭,俄成最大赢家,美媒一语惊人,伊朗对中国没那么重要?

娱乐圈的笔娱君
2026-03-04 19:41:44
2026-03-04 23:20:49
墨印斋
墨印斋
文化如灯塔,指引我们探索知识的海洋。
5250文章数 1219关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

教育
家居
时尚
数码
军事航空

教育要闻

别再等孩子突然醒悟,开窍其实有“流程表”

家居要闻

极简无界 静居自安然

女人不管多大年纪,都要准备一条黑裙子,百搭舒适又显气质

数码要闻

苹果最亲民笔记本!MacBook Neo正式发布:4599元起

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版