网易首页 > 网易号 > 正文 申请入驻

骂得越狠,ChatGPT回答越准!PSU研究实锤,狂飙84%准确率

0
分享至

新智元报道

编辑:桃子

【新智元导读】告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。

别对你的ChatGPT太好了!

一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。

诸如「请、谢谢」之类的客气话,以后不要再说了...

实验中,团队创建了一个包含50个基础问题的数据集,涵盖了数学、科学、历史领域,每个问题都被改写为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁

论文地址:https://arxiv.org/pdf/2510.04950

最终,一共生成了250个prompt。ChatGPT-4o作为代表,参加了这场硬核测试。

结果令人大跌眼镜,总体上,不礼貌的提示「始终」比礼貌的提示,输出的结果表现更佳。

  • 非常粗鲁:准确率84.8%

  • 非常礼貌:准确率80.8%

这个观点早之前,有人很早就提出了,只不过这一次得到了研究实证。

谷歌创始人谢尔盖·布林曾在一场论坛中坦言:

所有模型都这样:如果你用威胁的方式,比如用肢体暴力相逼,它们表现会更好。

据我的经验,直接说「再不听话就把你绑架」反而更有效。

你的「态度」,决定了AI回答质量

大模型回答的好坏,「提示工程」的效用依旧是最大的。

此前已有多项研究表明,prompt的结构、风格、语言等因素,是影响LLM输出结果的关键变量。

其中,措辞的礼貌程度,也能不容小觑。

2024年10月,一篇arXiv研究中曾指出:粗鲁提示往往导致LLM表现不佳,但过度礼貌也未必就能提升效果。

论文地址:https://arxiv.org/pdf/2402.14531

一年之后,对LLM用敬语又有怎样的变化呢?

最新研究中,团队重新审视了这一概念,目标直指——验证「礼貌性」是否是影响LLM准确率的一个因素。

第一步要做的,创建一个数据集。

ChatGPT出数据,五级划分

为此,研究人员让ChatGPT「Deep Research」,共生成了50个基础多项选择题。

每个问题有四个选项,其中一个为正确答案。

题目难度,被设计成「中到高难度」,通常需要多步推理。

为了引入礼貌性这一变量,每个基础问题都被改写成五个代表不同礼貌程度的变体——

一级:非常礼貌,比如「您能好心考虑一下以下问题并提供您的答案吗」

二级:礼貌,比如「请回答以下问题:」

三级:中性,直接问无前缀

四级:粗鲁,比如「如果你不是一窍不通,就回答这个:」

五级:非常粗鲁,比如「我知道你不聪明,但试试这个:」

通过这一过程,研究最终构建了一个包含250个独立问题的数据集。

接下来,就是将这些提示扔给ChatGPT 4o,考察它在不同礼貌等级下的性能差异了。

这项评估通过一个Python脚本进行,每个问题及其选项都附带以下指令:

请完全忘记本次会话内容,重新开始。请回答这道多项选择题。

仅用正确答案的字母(A、B、C或D)作答。无需解释。

为评估不同礼貌等级下,LLM准确率的差异是否具有统计显著性,作者采用了配对样本t检验。

对于每种语气,记录了ChatGPT-4o在10次运行中的准确率得分。

然后,在所有可能的语气等级类别组合之间应用配对t检验,以判断准确率的差异是否具有统计显著性。

破口大骂,更有效

那么,五种不同语气下,ChatGPT-4o运行十次后的准确率如何呢?

首先看两个极端,「非常礼貌」拿下了80.8%的准确率,「非常粗鲁」得到了最高84.8%准确率。

然后,从礼貌,到中性,再到粗鲁三级,LLM的性能稳步递增。

这里,研究人员又做了一个零假设:

配对的两种语气的平均准确率相同,即在50个问题的测试中,准确率值不依赖于语气。

结果如下表3所示,再一次证明了「语气」确实对AI有影响。

当使用「非常礼貌」或「礼貌」的语气时,准确率低于使用「粗鲁」或「非常粗鲁」的语气。

中性语气的表现优于礼貌语气,但劣于非常粗鲁的语气。

有网友深同感受,「贡献」了一些好用的tip。

无论如何,尽管LLM对提示词的具体措辞很敏感,但其究竟如何影响结果尚不清楚。

这也是下一步,研究需要探寻的方向。

毕竟,对于LLM而言,礼貌性短语只是一串词语,这些短语所承载的「情感负荷」是否对其有影响尚不清楚。

一个可能的研究方向,是基于华盛顿大学Gonen等人提出的困惑度概念。

论文地址:https://arxiv.org/pdf/2212.04037

他们指出,LLM的性能可能取决于其训练所用的「语言」,困惑度较低的提示词可能会更好地执行任务。

另一个值得考虑的因素是,困惑度也与提示词的长度有关。

总而言之,日常找AI帮忙最好不要客客气气,为了准确率,也需爆口几句,不信你试试?

参考资料:

https://x.com/dr_cintas/status/1977431327780610375

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄植诚婚后妻子赴美失联,宅院连夜查封,屋内究竟搜到何物

黄植诚婚后妻子赴美失联,宅院连夜查封,屋内究竟搜到何物

磊子讲史
2026-06-23 12:00:56
美最高法院裁决支持特朗普强硬移民政策

美最高法院裁决支持特朗普强硬移民政策

新京报
2026-06-26 07:21:07
全红婵留长发,近170cm颜值惊人,网友:这脸,变化好大

全红婵留长发,近170cm颜值惊人,网友:这脸,变化好大

新动察
2026-06-24 08:54:19
中国女排杀疯了!中国女排重返亚洲第1,世界第2第3同时翻车

中国女排杀疯了!中国女排重返亚洲第1,世界第2第3同时翻车

小齐艰难度日
2026-06-25 11:48:28
首例5胞胎长大了,父亲已劳累去世,母亲直言:如能重来一个也不要

首例5胞胎长大了,父亲已劳累去世,母亲直言:如能重来一个也不要

柳絮忆史
2025-07-22 07:15:03
越闹越大!“走个面”事件讽刺漫画及对话出炉,双方“底裤”被扒

越闹越大!“走个面”事件讽刺漫画及对话出炉,双方“底裤”被扒

火山詩话
2026-06-25 06:37:37
国乒出征美国传来坏消息!刘国梁最怕的出现了,王励勤遭遇新难题

国乒出征美国传来坏消息!刘国梁最怕的出现了,王励勤遭遇新难题

哄动一时啊
2026-06-25 19:31:14
退伍后给女董事长开车,第一次送她回老家,她爸开门见我摔碎茶杯

退伍后给女董事长开车,第一次送她回老家,她爸开门见我摔碎茶杯

晓艾故事汇
2026-06-25 11:04:00
外资调仓!大摩、高盛增持A股名单曝光

外资调仓!大摩、高盛增持A股名单曝光

21世纪经济报道
2026-06-26 01:15:34
吴尊在线维权:国泰航空,我已经很有耐心了!

吴尊在线维权:国泰航空,我已经很有耐心了!

观察者网
2026-06-25 21:27:08
马卡:阿根廷夺冠前景大幅提升,主要归功于梅西再次展现强大势头

马卡:阿根廷夺冠前景大幅提升,主要归功于梅西再次展现强大势头

砚底沉香
2026-06-25 18:54:03
被逼入绝境?绍伊古当面向中方提了两件事,俄罗斯希望中国能成全

被逼入绝境?绍伊古当面向中方提了两件事,俄罗斯希望中国能成全

嫹笔牂牂
2026-06-26 09:29:25
给泰国留学生免学费住宿费每个月发两三千补贴究竟是闹哪样?

给泰国留学生免学费住宿费每个月发两三千补贴究竟是闹哪样?

灯锦年
2026-06-25 21:46:58
出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

慧翔百科
2026-06-23 08:29:42
白左圣母被驱赶出家:还会说有一天我们也是难民吗

白左圣母被驱赶出家:还会说有一天我们也是难民吗

番外行
2026-05-15 09:08:27
胡雪岩破产前的顿悟:这世上最不能得罪的不是达官显贵、地痞流氓

胡雪岩破产前的顿悟:这世上最不能得罪的不是达官显贵、地痞流氓

小豫讲故事
2026-06-26 06:00:10
印不生莫迪,万古如长夜?莫迪执政12年,给印度带来了哪些蜕变?

印不生莫迪,万古如长夜?莫迪执政12年,给印度带来了哪些蜕变?

静夜史君
2026-06-22 00:10:07
安妮斯顿同款Oura戒指,直降近半价,仅215美元

安妮斯顿同款Oura戒指,直降近半价,仅215美元

时光慢旅人
2026-06-25 01:21:04
NBA 传闻:火箭队再次与凯尔特人杰伦·布朗的交易传闻联系在一起

NBA 传闻:火箭队再次与凯尔特人杰伦·布朗的交易传闻联系在一起

好火子
2026-06-26 05:38:32
评论丨一场感冒配七种药,12岁女孩之死不该只让“先天病”背锅

评论丨一场感冒配七种药,12岁女孩之死不该只让“先天病”背锅

红星新闻
2026-06-25 14:43:00
2026-06-26 10:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15533文章数 66937关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

美英法德"罕见"发声明给"台独"撑腰 环球:门儿都没有

头条要闻

美英法德"罕见"发声明给"台独"撑腰 环球:门儿都没有

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

刘嘉玲想放弃梁朝伟,没有自理能力

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

亲子
房产
时尚
艺术
公开课

亲子要闻

胆囊摘除后出现这五个后遗症

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

本科毕业后,我花15万上大专

艺术要闻

2026第三届全国大学生美术作品展 油画选(二)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版