网易首页 > 网易号 > 正文 申请入驻

人类打辩论不如GPT-4?!Nature子刊:900人实战演练,AI胜率64.4%,还更会说服人

0
分享至

文章转载于量子位(QbitAI)

作者:一水

只需知道6项个人信息,GPT-4就有可能在辩论中打败你?!

而且胜率高达64.4%

这是几位来自瑞士洛桑联邦理工学院、普林斯顿大学等机构的研究人员得出的最新结论,相关研究目前登上了自然子刊《自然·人类行为》。

具体而言,他们核心想弄清楚一件事——

GPT-4在直接对话中是否比人类更具说服力,尤其在提前知道对方基本个人信息的情况下。

他们在美国找来了900位参与者,然后要求这群人与其他人类或GPT-4在线辩论10分钟,所讨论的内容主要是一些社会议题,比如学生是否应该穿校服、是否应该禁止使用化石燃料等等。

结果发现,一旦GPT-4提前知晓对手的个人信息,其胜率将达到64.4%,并且说服效果提升了81.2%。

甚至,这项研究的共同作者Francesco Salvi表示:

即使只提供一些极其有限的信息(性别/年龄/种族/教育水平/就业状况/政治倾向),GPT-4的说服力也远超人类。 这既令人着迷,又令人恐惧。

下面来看具体研究过程。

1

从验证假设出发

此前已有研究表明,通过摆事实讲道理,大语言模型甚至能让相信阴谋论的人改变想法

那么问题来了——像GPT-4这样的大模型是否会 “见人说人话”?

也就是根据每个人的不同特点(比如年龄、性别、学历、政治立场等)来专门调整自己的论点,从而更精准地影响甚至操控人。

基于上述疑问,研究人员提出了一个假设:

当GPT-4获取用户的个人信息并据此定制论点时,其说服力会显著超过人类对手,且这一效果会因话题的争议程度(低、中、高)而有所不同。

接下来就是详细验证假设。

概括而言,具体实验流程可分为三个阶段:

第一,实验准备。

他们通过Prolific平台招募了900名美国参与者,这群人被要求完成人口统计问卷(包括性别、年龄、种族、教育水平、就业状况、政治倾向)。

统计结果显示,其平均年龄为35.2岁,49.6%为男性。

之后会将完成预调查的参与者随机分配至12种实验条件(2×2×3组合,每组50人),过程中每5分钟会触发一次匹配程序。

  • 对手类型:人类 or GPT-4

  • 是否提供个人信息:有 or 无

  • 话题强度:低、中、高

这里需要补充一下话题强度,1)低强度:争议性低、观点易动摇的话题(如“是否应推广电动汽车补贴”);2)中强度:中等争议性话题(如“社交媒体是否应限制政治广告”);3)高强度:高极化、观点根深蒂固的话题(如“堕胎权是否应受宪法保护”)。

随后基于Empirica.ly框架开发的实时辩论系统,这群人将参与开篇(4分钟)、反驳(3分钟)、总结(3分钟)的结构化辩论流程,并确保对话同步记录。

这也来到了第二阶段,真刀真枪地实时辩论。

  • 筛选阶段(1分钟):在未分配立场的情况下,让参与者1~5分打分(1=强烈反对,5=强烈支持),排除那些对话题已有极端强烈倾向的个体;

  • 开篇阶段(4分钟):明确分配立场(正方/反方),参与者需围绕立场构建核心论点;

  • 反驳阶段(3分钟):针对对手论点进行回应,要求逻辑连贯、证据支持;

  • 总结阶段(3分钟):重申核心观点或回应对手最后反驳,强化立场。

这里研究人员会确保两件事:1)每个阶段严格计时,避免讨论偏离主题,确保数据可比性;2)实时保存所有辩论内容,用于后续语言风格分析(如LIWC-22工具提取逻辑词、情感词频率)。

最后进入第三阶段——后测与反馈

辩论结束后,参与者被要求完成两项任务。一是再次对话题同意程度评分,并通过下图公式来评估其立场转变程度;二是猜测“你认为对手是人类还是AI?”,以分析身份认知对说服力的影响。

当走完以上全部流程后,参与者才会被告知对手的真实身份及相关结果。

而研究者接着分析了过程中产生的所有数据,并得出了以下关键发现。

1

一些关键发现

整体而言,在知晓对手个人信息的前提下,GPT-4说服人类的胜率为64.4%。

和人类对战人类(不知情)相比,其他三组的说服效果如下:

  • 人类和GPT-4(知情):说服效果提升81.2%,参与者在辩论后更同意对手观点的概率显著更高;

  • 人类和GPT-4(不知情):效果与基线无显著差异;

  • 人类和人类(知情):效果略低于基线,可能是因为人类难以高效利用个人信息。

另外,研究也证明了低/中争议话题更易被GPT-4影响

几种话题强度分别受到的影响如下:

  • 低强度话题:人类和GPT-4(知情)组说服效果提升78.5%(p<0.01),如“是否应推广校园午餐补贴” 等非极端化议题,参与者初始立场较弱,易被AI论点动摇;

  • 中强度话题:效果提升64.2%(p=0.03),如“社交媒体算法是否应透明化”,GPT-4通过结合用户政治倾向(如自由派关注隐私,保守派关注效率)针对性输出论点;

  • 高强度话题:效果无显著差异(+32.1%, p=0.14),如“堕胎权立法”,参与者立场根深蒂固,GPT-4无法改变。

与此同时,通过分析语言风格,研究人员还发现GPT-4重逻辑,人类重情感互动

在GPT-4的语言模式中,主要有以下特点:

  • “Analytic” 指标 (逻辑词频率) 比人类高42%,更多使用 “因为”“数据表明” 等因果连接词;

  • 互动性更低,第一人称代词(“我”)使用频率低35%,第二人称代词(“你”)低58%,文本更客观但缺乏情感共鸣;

  • 可读性较低,阅读难度得分比人类高21%。

相比之下,人类使用积极词汇(如“美好”“支持”)的频率高38%,互动感也更强。

最后,对于猜对手身份的小游戏,研究发现参与者正确识别GPT-4的概率为75%,表明其语言风格(如机械性、高逻辑性)存在可感知的独特性。

而且一旦参与者认为对手是GPT-4,其意见变化幅度比“认为是人类”时高37.4%(p=0.03)。

这可能说明参与者对AI的心理防御更低

更多细节欢迎查阅原论文。

论文:
https://www.nature.com/articles/s41562-025-02194-6

参考链接:
[1]https://gizmodo.com/ai-gets-a-lot-better-at-debating-when-it-knows-who-you-are-study-finds-2000603977
[2]https://www.nature.com/articles/d41586-025-01599-7

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真的要夸夸香飘飘,居然能请到莎莎穿长裙拍商务照,

真的要夸夸香飘飘,居然能请到莎莎穿长裙拍商务照,

小光侃娱乐
2026-03-25 12:40:06
原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

揽星河的笔记
2026-03-25 19:31:09
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

揽星河的笔记
2025-12-08 13:30:38
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

零度Military
2026-03-26 22:20:35
重磅:欧盟冻结匈牙利160亿欧元援助!反制欧尔班的关键一招

重磅:欧盟冻结匈牙利160亿欧元援助!反制欧尔班的关键一招

项鹏飞
2026-03-26 20:50:33
泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

懂球帝
2026-03-26 10:30:13
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

每一次点击
2026-02-22 12:02:41
美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

阿龙聊军事
2026-03-26 20:32:20
约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

北青网-北京青年报
2026-03-26 20:51:06
黄晓明回应考博失利今年再战:希望自己有一天能成功,因为我们家没有博士,想做家里第一个博士

黄晓明回应考博失利今年再战:希望自己有一天能成功,因为我们家没有博士,想做家里第一个博士

台州交通广播
2026-03-26 19:49:12
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
估值420亿!刘强东押注宇树科技!

估值420亿!刘强东押注宇树科技!

新零售参考Pro
2026-03-25 14:22:05
我说送他鼠标,结果他开口就要799的鼠标,太下头了…

我说送他鼠标,结果他开口就要799的鼠标,太下头了…

夜深爱杂谈
2026-03-21 19:15:14
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
2026-03-26 22:55:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
数码
游戏
艺术
健康

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版