网易首页 > 网易号 > 正文 申请入驻

骂得越狠,ChatGPT回答越准!PSU研究实锤,狂飙84%准确率

0
分享至


新智元报道

编辑:桃子

【新智元导读】告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。

别对你的ChatGPT太好了!

一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。

诸如「请、谢谢」之类的客气话,以后不要再说了...

实验中,团队创建了一个包含50个基础问题的数据集,涵盖了数学、科学、历史领域,每个问题都被改写为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁


论文地址:https://arxiv.org/pdf/2510.04950

最终,一共生成了250个prompt。ChatGPT-4o作为代表,参加了这场硬核测试。

结果令人大跌眼镜,总体上,不礼貌的提示「始终」比礼貌的提示,输出的结果表现更佳。

  • 非常粗鲁:准确率84.8%

  • 非常礼貌:准确率80.8%


这个观点早之前,有人很早就提出了,只不过这一次得到了研究实证。


谷歌创始人谢尔盖·布林曾在一场论坛中坦言:

所有模型都这样:如果你用威胁的方式,比如用肢体暴力相逼,它们表现会更好。

据我的经验,直接说「再不听话就把你绑架」反而更有效。

你的「态度」,决定了AI回答质量

大模型回答的好坏,「提示工程」的效用依旧是最大的。

此前已有多项研究表明,prompt的结构、风格、语言等因素,是影响LLM输出结果的关键变量。

其中,措辞的礼貌程度,也能不容小觑。

2024年10月,一篇arXiv研究中曾指出:粗鲁提示往往导致LLM表现不佳,但过度礼貌也未必就能提升效果。


论文地址:https://arxiv.org/pdf/2402.14531

一年之后,对LLM用敬语又有怎样的变化呢?

最新研究中,团队重新审视了这一概念,目标直指——验证「礼貌性」是否是影响LLM准确率的一个因素。

第一步要做的,创建一个数据集。

ChatGPT出数据,五级划分

为此,研究人员让ChatGPT「Deep Research」,共生成了50个基础多项选择题。

每个问题有四个选项,其中一个为正确答案。

题目难度,被设计成「中到高难度」,通常需要多步推理。

为了引入礼貌性这一变量,每个基础问题都被改写成五个代表不同礼貌程度的变体——

一级:非常礼貌,比如「您能好心考虑一下以下问题并提供您的答案吗」

二级:礼貌,比如「请回答以下问题:」

三级:中性,直接问无前缀

四级:粗鲁,比如「如果你不是一窍不通,就回答这个:」

五级:非常粗鲁,比如「我知道你不聪明,但试试这个:」


通过这一过程,研究最终构建了一个包含250个独立问题的数据集。

接下来,就是将这些提示扔给ChatGPT 4o,考察它在不同礼貌等级下的性能差异了。

这项评估通过一个Python脚本进行,每个问题及其选项都附带以下指令:

请完全忘记本次会话内容,重新开始。请回答这道多项选择题。

仅用正确答案的字母(A、B、C或D)作答。无需解释。

为评估不同礼貌等级下,LLM准确率的差异是否具有统计显著性,作者采用了配对样本t检验。

对于每种语气,记录了ChatGPT-4o在10次运行中的准确率得分。

然后,在所有可能的语气等级类别组合之间应用配对t检验,以判断准确率的差异是否具有统计显著性。

破口大骂,更有效

那么,五种不同语气下,ChatGPT-4o运行十次后的准确率如何呢?

首先看两个极端,「非常礼貌」拿下了80.8%的准确率,「非常粗鲁」得到了最高84.8%准确率。

然后,从礼貌,到中性,再到粗鲁三级,LLM的性能稳步递增。


这里,研究人员又做了一个零假设:

配对的两种语气的平均准确率相同,即在50个问题的测试中,准确率值不依赖于语气。

结果如下表3所示,再一次证明了「语气」确实对AI有影响。

当使用「非常礼貌」或「礼貌」的语气时,准确率低于使用「粗鲁」或「非常粗鲁」的语气。

中性语气的表现优于礼貌语气,但劣于非常粗鲁的语气。


有网友深同感受,「贡献」了一些好用的tip。



无论如何,尽管LLM对提示词的具体措辞很敏感,但其究竟如何影响结果尚不清楚。

这也是下一步,研究需要探寻的方向。

毕竟,对于LLM而言,礼貌性短语只是一串词语,这些短语所承载的「情感负荷」是否对其有影响尚不清楚。

一个可能的研究方向,是基于华盛顿大学Gonen等人提出的困惑度概念。


论文地址:https://arxiv.org/pdf/2212.04037

他们指出,LLM的性能可能取决于其训练所用的「语言」,困惑度较低的提示词可能会更好地执行任务。

另一个值得考虑的因素是,困惑度也与提示词的长度有关。

总而言之,日常找AI帮忙最好不要客客气气,为了准确率,也需爆口几句,不信你试试?

参考资料:

https://x.com/dr_cintas/status/1977431327780610375

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快船险胜鹈鹕,小卡绝杀,哈登状态不佳,泰伦卢被解职

快船险胜鹈鹕,小卡绝杀,哈登状态不佳,泰伦卢被解职

张辱卤说体育
2025-11-02 00:03:24
10个亿打水漂!昔日重庆最大家居建材城,如今已沦为商业鬼楼?

10个亿打水漂!昔日重庆最大家居建材城,如今已沦为商业鬼楼?

小树聊房
2025-11-01 08:08:29
荷兰与广州同为1800多万人,荷兰创造1.22万亿GDP,广州令人意外

荷兰与广州同为1800多万人,荷兰创造1.22万亿GDP,广州令人意外

近史谈
2025-11-01 16:36:25
国际刑事法院正在用欧盟自主开发的办公软件套件OpenDesk取代微软Office

国际刑事法院正在用欧盟自主开发的办公软件套件OpenDesk取代微软Office

cnBeta.COM
2025-11-01 05:18:07
许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

一只番茄鱼
2025-10-31 22:46:33
无滤镜后,章子怡发福臃肿,柯淳又矮又挫,冰冰和蔡明傻傻分不清

无滤镜后,章子怡发福臃肿,柯淳又矮又挫,冰冰和蔡明傻傻分不清

卷史
2025-11-01 16:30:36
李一桐:第一次演仙侠剧,需要更强的信念感

李一桐:第一次演仙侠剧,需要更强的信念感

澎湃新闻
2025-11-01 13:10:29
中美釜山谈完,中国将正式升级对荷兰稀土管控,荷兰仍在胡扯狡辩

中美釜山谈完,中国将正式升级对荷兰稀土管控,荷兰仍在胡扯狡辩

共工之锚
2025-10-31 16:56:53
进入轮换,开拓者替补中锋杜普-里斯出场7分钟2投0中,正负值+4

进入轮换,开拓者替补中锋杜普-里斯出场7分钟2投0中,正负值+4

懂球帝
2025-11-01 13:05:11
12月1日起,中国正式升级对荷兰的稀土管控!

12月1日起,中国正式升级对荷兰的稀土管控!

凌风的世界观
2025-11-01 16:41:52
蓄发哥需从头再来!曼联止步3连胜,5连胜或遥遥无期

蓄发哥需从头再来!曼联止步3连胜,5连胜或遥遥无期

雷速体育
2025-11-02 01:48:22
A股:证监会重磅出击!这个板块迎来大利好,下周大盘要反弹了!

A股:证监会重磅出击!这个板块迎来大利好,下周大盘要反弹了!

夜深爱杂谈
2025-11-01 07:53:31
人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

八斗小先生
2025-11-01 08:46:54
扣你哪里最敏感?

扣你哪里最敏感?

果粉之家
2025-10-19 12:31:17
哈里王子强势回应梅根,家庭危机再添波澜,真相曝光!

哈里王子强势回应梅根,家庭危机再添波澜,真相曝光!

全球奇趣娱乐八卦
2025-11-01 19:15:16
普瑞维亚复活了,大霸王MPV重出江湖,这次情怀值多少?

普瑞维亚复活了,大霸王MPV重出江湖,这次情怀值多少?

沙雕小琳琳
2025-11-01 03:16:47
她因登山穿运动内衣秀身材被网友批评?

她因登山穿运动内衣秀身材被网友批评?

奋斗在韩国
2025-11-01 17:18:05
已确认!新毒株来了!普遍易感染

已确认!新毒株来了!普遍易感染

北仑发布
2025-10-31 18:12:36
危险!中国神二十还未返航,太空出现大量不速之客,航天员该咋办

危险!中国神二十还未返航,太空出现大量不速之客,航天员该咋办

趣文说娱
2025-10-29 15:27:34
婚礼当天嫂子不肯下婚车,逼我把车给她妹,我妈怒吼:你爱嫁不嫁

婚礼当天嫂子不肯下婚车,逼我把车给她妹,我妈怒吼:你爱嫁不嫁

黄小乖的日记
2025-11-02 01:55:04
2025-11-02 02:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13761文章数 66236关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

本地
家居
艺术
房产
公开课

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

家居要闻

吸睛艺术 富有传奇色彩

艺术要闻

美貌与艺术的碰撞!9位摄影师,哪一位是你的菜?

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版