网易首页 > 网易号 > 正文 申请入驻

骂得越狠,ChatGPT回答越准!PSU研究实锤,狂飙84%准确率

0
分享至


新智元报道

编辑:桃子

【新智元导读】告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。

别对你的ChatGPT太好了!

一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。

诸如「请、谢谢」之类的客气话,以后不要再说了...

实验中,团队创建了一个包含50个基础问题的数据集,涵盖了数学、科学、历史领域,每个问题都被改写为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁


论文地址:https://arxiv.org/pdf/2510.04950

最终,一共生成了250个prompt。ChatGPT-4o作为代表,参加了这场硬核测试。

结果令人大跌眼镜,总体上,不礼貌的提示「始终」比礼貌的提示,输出的结果表现更佳。

  • 非常粗鲁:准确率84.8%

  • 非常礼貌:准确率80.8%


这个观点早之前,有人很早就提出了,只不过这一次得到了研究实证。


谷歌创始人谢尔盖·布林曾在一场论坛中坦言:

所有模型都这样:如果你用威胁的方式,比如用肢体暴力相逼,它们表现会更好。

据我的经验,直接说「再不听话就把你绑架」反而更有效。

你的「态度」,决定了AI回答质量

大模型回答的好坏,「提示工程」的效用依旧是最大的。

此前已有多项研究表明,prompt的结构、风格、语言等因素,是影响LLM输出结果的关键变量。

其中,措辞的礼貌程度,也能不容小觑。

2024年10月,一篇arXiv研究中曾指出:粗鲁提示往往导致LLM表现不佳,但过度礼貌也未必就能提升效果。


论文地址:https://arxiv.org/pdf/2402.14531

一年之后,对LLM用敬语又有怎样的变化呢?

最新研究中,团队重新审视了这一概念,目标直指——验证「礼貌性」是否是影响LLM准确率的一个因素。

第一步要做的,创建一个数据集。

ChatGPT出数据,五级划分

为此,研究人员让ChatGPT「Deep Research」,共生成了50个基础多项选择题。

每个问题有四个选项,其中一个为正确答案。

题目难度,被设计成「中到高难度」,通常需要多步推理。

为了引入礼貌性这一变量,每个基础问题都被改写成五个代表不同礼貌程度的变体——

一级:非常礼貌,比如「您能好心考虑一下以下问题并提供您的答案吗」

二级:礼貌,比如「请回答以下问题:」

三级:中性,直接问无前缀

四级:粗鲁,比如「如果你不是一窍不通,就回答这个:」

五级:非常粗鲁,比如「我知道你不聪明,但试试这个:」


通过这一过程,研究最终构建了一个包含250个独立问题的数据集。

接下来,就是将这些提示扔给ChatGPT 4o,考察它在不同礼貌等级下的性能差异了。

这项评估通过一个Python脚本进行,每个问题及其选项都附带以下指令:

请完全忘记本次会话内容,重新开始。请回答这道多项选择题。

仅用正确答案的字母(A、B、C或D)作答。无需解释。

为评估不同礼貌等级下,LLM准确率的差异是否具有统计显著性,作者采用了配对样本t检验。

对于每种语气,记录了ChatGPT-4o在10次运行中的准确率得分。

然后,在所有可能的语气等级类别组合之间应用配对t检验,以判断准确率的差异是否具有统计显著性。

破口大骂,更有效

那么,五种不同语气下,ChatGPT-4o运行十次后的准确率如何呢?

首先看两个极端,「非常礼貌」拿下了80.8%的准确率,「非常粗鲁」得到了最高84.8%准确率。

然后,从礼貌,到中性,再到粗鲁三级,LLM的性能稳步递增。


这里,研究人员又做了一个零假设:

配对的两种语气的平均准确率相同,即在50个问题的测试中,准确率值不依赖于语气。

结果如下表3所示,再一次证明了「语气」确实对AI有影响。

当使用「非常礼貌」或「礼貌」的语气时,准确率低于使用「粗鲁」或「非常粗鲁」的语气。

中性语气的表现优于礼貌语气,但劣于非常粗鲁的语气。


有网友深同感受,「贡献」了一些好用的tip。



无论如何,尽管LLM对提示词的具体措辞很敏感,但其究竟如何影响结果尚不清楚。

这也是下一步,研究需要探寻的方向。

毕竟,对于LLM而言,礼貌性短语只是一串词语,这些短语所承载的「情感负荷」是否对其有影响尚不清楚。

一个可能的研究方向,是基于华盛顿大学Gonen等人提出的困惑度概念。


论文地址:https://arxiv.org/pdf/2212.04037

他们指出,LLM的性能可能取决于其训练所用的「语言」,困惑度较低的提示词可能会更好地执行任务。

另一个值得考虑的因素是,困惑度也与提示词的长度有关。

总而言之,日常找AI帮忙最好不要客客气气,为了准确率,也需爆口几句,不信你试试?

参考资料:

https://x.com/dr_cintas/status/1977431327780610375

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电力被炸,伊朗红线遭美以践踏:危急时刻,两大盟友表态出兵支援

电力被炸,伊朗红线遭美以践踏:危急时刻,两大盟友表态出兵支援

梁讯
2026-03-31 02:45:52
张雪峰办公室 “诡异” 一角引热议!黑白照 + 香炉 网友:不吉利

张雪峰办公室 “诡异” 一角引热议!黑白照 + 香炉 网友:不吉利

魔都姐姐杂谈
2026-03-30 19:57:02
表扬喜茶员工免费送冰引热议,网友:好一个恩将仇报!

表扬喜茶员工免费送冰引热议,网友:好一个恩将仇报!

品牌新
2026-03-30 12:11:04
小某书4.1万赞热帖“穷人软糖”事件,炸出舔高踩低的病态群体

小某书4.1万赞热帖“穷人软糖”事件,炸出舔高踩低的病态群体

小椰子专栏
2026-03-30 13:02:46
部署到位,准备夺岛!美军集结万人大军,打响21世纪硫磺岛战役?

部署到位,准备夺岛!美军集结万人大军,打响21世纪硫磺岛战役?

共工之锚
2026-03-30 15:30:56
单依纯自封“创作者”?实则演唱会大把翻唱歌曲,在音著协的登记作品数量为0

单依纯自封“创作者”?实则演唱会大把翻唱歌曲,在音著协的登记作品数量为0

可达鸭面面观
2026-03-30 15:48:36
成立仅两年!张雪机车凭啥签下世界冠军车手?背后布局太狠了

成立仅两年!张雪机车凭啥签下世界冠军车手?背后布局太狠了

行者聊官
2026-03-30 12:26:28
惊讶!伊朗大捷!用一场标志性大胜,让美军创下战后最大战损记录

惊讶!伊朗大捷!用一场标志性大胜,让美军创下战后最大战损记录

军机Talk
2026-03-30 11:02:14
打破欧美日垄断数十年!张雪机车WSBK夺冠 张雪:五年吃掉国际大牌50%以上份额

打破欧美日垄断数十年!张雪机车WSBK夺冠 张雪:五年吃掉国际大牌50%以上份额

快科技
2026-03-31 07:22:06
两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

离离言几许
2026-03-28 16:40:22
歌手吴向飞喊话李荣浩道歉:未取得授权公开演唱其歌曲;李荣浩回应:并未在个人演唱会或音乐节晚会唱过,请列明场次,若侵权一定赔偿道歉

歌手吴向飞喊话李荣浩道歉:未取得授权公开演唱其歌曲;李荣浩回应:并未在个人演唱会或音乐节晚会唱过,请列明场次,若侵权一定赔偿道歉

极目新闻
2026-03-29 18:56:41
“给你女儿买件好内衣吧!”中学女孩锻炼视频,网友都看不下去了

“给你女儿买件好内衣吧!”中学女孩锻炼视频,网友都看不下去了

妍妍教育日记
2026-03-30 18:38:24
真不打球了!生涯狂赚2亿,如今疯狂钓鱼,妥妥的人生大赢家啊

真不打球了!生涯狂赚2亿,如今疯狂钓鱼,妥妥的人生大赢家啊

球童无忌
2026-03-30 14:39:34
周杰伦新专辑封面被嘲 “老登味” 网友:现在是他个人的审美

周杰伦新专辑封面被嘲 “老登味” 网友:现在是他个人的审美

小萝卜丝
2026-03-30 09:33:58
少妇带男网友回家缠绵,让儿子替她保密,2018年被杀后儿子讲经过

少妇带男网友回家缠绵,让儿子替她保密,2018年被杀后儿子讲经过

汉史趣闻
2026-03-30 16:47:33
张雪峰继任者罕见发声,会照顾好张雪峰家人,等张雪峰女儿接班

张雪峰继任者罕见发声,会照顾好张雪峰家人,等张雪峰女儿接班

安宁007
2026-03-30 20:51:02
单依纯演唱会内衣外穿,状态疯癫,期间爆哭被嘲照李荣浩长文演

单依纯演唱会内衣外穿,状态疯癫,期间爆哭被嘲照李荣浩长文演

一娱三分地
2026-03-30 20:13:27
3500万爱徒无缘世界杯!47岁阿根廷主帅崩溃落泪,发布会提前离席

3500万爱徒无缘世界杯!47岁阿根廷主帅崩溃落泪,发布会提前离席

我爱英超
2026-03-31 06:41:01
55岁外籍劳工被伊朗导弹击中身亡:异国打工25年,老家的房刚打好地基

55岁外籍劳工被伊朗导弹击中身亡:异国打工25年,老家的房刚打好地基

网易新闻出品
2026-03-30 16:35:31
武亮第一次直播被吐槽,模仿张雪峰!网友:不要活在他的影子下…

武亮第一次直播被吐槽,模仿张雪峰!网友:不要活在他的影子下…

火山詩话
2026-03-31 06:36:56
2026-03-31 08:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14853文章数 66726关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

伊朗批准对霍尔木兹海峡征收通行费 特朗普设最后期限

头条要闻

伊朗批准对霍尔木兹海峡征收通行费 特朗普设最后期限

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

本地
旅游
艺术
时尚
公开课

本地新闻

用Color Walk的方式解锁城市春日

旅游要闻

擦亮眼睛,看清李逵与李鬼——致所有想加入入境游赛道的同行与伙伴

艺术要闻

这父子俩的花鸟,堪称一绝

“小白鞋”今年春夏又火了!这5双怎么搭都好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版