网易首页 > 网易号 > 正文 申请入驻

骂得越狠,ChatGPT回答越准!PSU研究实锤,狂飙84%准确率

0
分享至


新智元报道

编辑:桃子

【新智元导读】告诉你一个反直觉事实:对ChatGPT越凶,它回答的越准!来自宾夕法尼亚州立大学团队实证,4o在非常粗鲁情况下,拿下84.8%准确率。

别对你的ChatGPT太好了!

一项来自PSU的最新研究,给所有人当头一棒——对LLM越粗鲁,它回答得就越给力。

诸如「请、谢谢」之类的客气话,以后不要再说了...

实验中,团队创建了一个包含50个基础问题的数据集,涵盖了数学、科学、历史领域,每个问题都被改写为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁


论文地址:https://arxiv.org/pdf/2510.04950

最终,一共生成了250个prompt。ChatGPT-4o作为代表,参加了这场硬核测试。

结果令人大跌眼镜,总体上,不礼貌的提示「始终」比礼貌的提示,输出的结果表现更佳。

  • 非常粗鲁:准确率84.8%

  • 非常礼貌:准确率80.8%


这个观点早之前,有人很早就提出了,只不过这一次得到了研究实证。


谷歌创始人谢尔盖·布林曾在一场论坛中坦言:

所有模型都这样:如果你用威胁的方式,比如用肢体暴力相逼,它们表现会更好。

据我的经验,直接说「再不听话就把你绑架」反而更有效。

你的「态度」,决定了AI回答质量

大模型回答的好坏,「提示工程」的效用依旧是最大的。

此前已有多项研究表明,prompt的结构、风格、语言等因素,是影响LLM输出结果的关键变量。

其中,措辞的礼貌程度,也能不容小觑。

2024年10月,一篇arXiv研究中曾指出:粗鲁提示往往导致LLM表现不佳,但过度礼貌也未必就能提升效果。


论文地址:https://arxiv.org/pdf/2402.14531

一年之后,对LLM用敬语又有怎样的变化呢?

最新研究中,团队重新审视了这一概念,目标直指——验证「礼貌性」是否是影响LLM准确率的一个因素。

第一步要做的,创建一个数据集。

ChatGPT出数据,五级划分

为此,研究人员让ChatGPT「Deep Research」,共生成了50个基础多项选择题。

每个问题有四个选项,其中一个为正确答案。

题目难度,被设计成「中到高难度」,通常需要多步推理。

为了引入礼貌性这一变量,每个基础问题都被改写成五个代表不同礼貌程度的变体——

一级:非常礼貌,比如「您能好心考虑一下以下问题并提供您的答案吗」

二级:礼貌,比如「请回答以下问题:」

三级:中性,直接问无前缀

四级:粗鲁,比如「如果你不是一窍不通,就回答这个:」

五级:非常粗鲁,比如「我知道你不聪明,但试试这个:」


通过这一过程,研究最终构建了一个包含250个独立问题的数据集。

接下来,就是将这些提示扔给ChatGPT 4o,考察它在不同礼貌等级下的性能差异了。

这项评估通过一个Python脚本进行,每个问题及其选项都附带以下指令:

请完全忘记本次会话内容,重新开始。请回答这道多项选择题。

仅用正确答案的字母(A、B、C或D)作答。无需解释。

为评估不同礼貌等级下,LLM准确率的差异是否具有统计显著性,作者采用了配对样本t检验。

对于每种语气,记录了ChatGPT-4o在10次运行中的准确率得分。

然后,在所有可能的语气等级类别组合之间应用配对t检验,以判断准确率的差异是否具有统计显著性。

破口大骂,更有效

那么,五种不同语气下,ChatGPT-4o运行十次后的准确率如何呢?

首先看两个极端,「非常礼貌」拿下了80.8%的准确率,「非常粗鲁」得到了最高84.8%准确率。

然后,从礼貌,到中性,再到粗鲁三级,LLM的性能稳步递增。


这里,研究人员又做了一个零假设:

配对的两种语气的平均准确率相同,即在50个问题的测试中,准确率值不依赖于语气。

结果如下表3所示,再一次证明了「语气」确实对AI有影响。

当使用「非常礼貌」或「礼貌」的语气时,准确率低于使用「粗鲁」或「非常粗鲁」的语气。

中性语气的表现优于礼貌语气,但劣于非常粗鲁的语气。


有网友深同感受,「贡献」了一些好用的tip。



无论如何,尽管LLM对提示词的具体措辞很敏感,但其究竟如何影响结果尚不清楚。

这也是下一步,研究需要探寻的方向。

毕竟,对于LLM而言,礼貌性短语只是一串词语,这些短语所承载的「情感负荷」是否对其有影响尚不清楚。

一个可能的研究方向,是基于华盛顿大学Gonen等人提出的困惑度概念。


论文地址:https://arxiv.org/pdf/2212.04037

他们指出,LLM的性能可能取决于其训练所用的「语言」,困惑度较低的提示词可能会更好地执行任务。

另一个值得考虑的因素是,困惑度也与提示词的长度有关。

总而言之,日常找AI帮忙最好不要客客气气,为了准确率,也需爆口几句,不信你试试?

参考资料:

https://x.com/dr_cintas/status/1977431327780610375

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

富贵说
2026-01-18 20:36:47
“陈真”饰演者梁小龙去世,前一天还与好友吃火锅,曝最后露面照

“陈真”饰演者梁小龙去世,前一天还与好友吃火锅,曝最后露面照

180视角
2026-01-18 17:12:09
大米江湖的暗战:那些超市里的“陷阱米”,正在偷走你的钱和健康

大米江湖的暗战:那些超市里的“陷阱米”,正在偷走你的钱和健康

富贵说
2026-01-18 20:36:10
伊朗总统:任何对伊朗最高领袖的攻击都将引发全面战争;此前特朗普放话“是时候为伊朗寻找新领导人了”

伊朗总统:任何对伊朗最高领袖的攻击都将引发全面战争;此前特朗普放话“是时候为伊朗寻找新领导人了”

扬子晚报
2026-01-19 07:27:33
好消息要来了!中小学终于迎来新改革,学生表示:幸福回来了!

好消息要来了!中小学终于迎来新改革,学生表示:幸福回来了!

老特有话说
2026-01-18 15:46:30
杜兰特18分6板8助攻火箭击败鹈鹕2连胜,史密斯32分申京21分8篮板

杜兰特18分6板8助攻火箭击败鹈鹕2连胜,史密斯32分申京21分8篮板

湖人崛起
2026-01-19 10:15:42
美博主想不明白:为什么中国人日常做的这7件事,在美国却不能做

美博主想不明白:为什么中国人日常做的这7件事,在美国却不能做

科普100克克
2026-01-16 14:15:10
杨瀚森高开低走!首节攻守存在感拉满,次节灾难性,篮板保护太差

杨瀚森高开低走!首节攻守存在感拉满,次节灾难性,篮板保护太差

篮球资讯达人
2026-01-19 11:13:26
家属称男子三年前右脑出血被开左脑,医生发现出错又开右脑 希望认定责任、赔偿并追责

家属称男子三年前右脑出血被开左脑,医生发现出错又开右脑 希望认定责任、赔偿并追责

红星新闻
2026-01-19 11:47:22
程序员上班睡觉、吃外卖被监控拍下,两天收到4份警告被开除!该公司在办公区域装监控,专门派人盯管,法院:公司赔偿11.3万余元

程序员上班睡觉、吃外卖被监控拍下,两天收到4份警告被开除!该公司在办公区域装监控,专门派人盯管,法院:公司赔偿11.3万余元

扬子晚报
2026-01-19 07:22:35
包钢稀土钢板材厂爆炸后有附近居民称一罐装物体落在家附近:距离厂区大约两公里

包钢稀土钢板材厂爆炸后有附近居民称一罐装物体落在家附近:距离厂区大约两公里

潇湘晨报
2026-01-19 10:53:12
68死伤5失联!包钢爆炸内部画面流出,原因曝光,大量隐情披露

68死伤5失联!包钢爆炸内部画面流出,原因曝光,大量隐情披露

博士观察
2026-01-18 20:59:39
皇马3500万红星崩溃 故意勺子点球踢丢绝杀 非洲杯失冠后含泪领奖

皇马3500万红星崩溃 故意勺子点球踢丢绝杀 非洲杯失冠后含泪领奖

我爱英超
2026-01-19 07:08:25
央媒就扶起老人反被讹发声!如果要自证清白,公安机关要主动介入

央媒就扶起老人反被讹发声!如果要自证清白,公安机关要主动介入

小熊侃史
2026-01-19 07:35:08
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
惹众怒!女子在上海外滩占道直播跳舞,巡逻无人机喊话15分钟仍无动于衷!网友:不止这一处

惹众怒!女子在上海外滩占道直播跳舞,巡逻无人机喊话15分钟仍无动于衷!网友:不止这一处

新民晚报
2026-01-19 10:46:42
牢A讲述美国华裔之:活着的“清朝人”,一个颠覆认知的逆天群体

牢A讲述美国华裔之:活着的“清朝人”,一个颠覆认知的逆天群体

元爸体育
2026-01-19 01:28:27
插播一条日本新闻,弥补了国内未见报道的遗憾

插播一条日本新闻,弥补了国内未见报道的遗憾

生活时尚导刊
2026-01-18 01:02:26
西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

极目新闻
2026-01-18 21:02:37
南非宣布进入“国家灾难状态”

南非宣布进入“国家灾难状态”

财联社
2026-01-19 01:50:47
2026-01-19 12:23:01
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14360文章数 66514关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

《狮子王》导演在家中去世,终年76岁

财经要闻

GDP增长5%!统计局正在解读

汽车要闻

2026款福特烈马上市 售价29.98-39.98万元

态度原创

艺术
手机
教育
时尚
房产

艺术要闻

有一种美,叫做中国园林!

手机要闻

9月新机发布 小米18系列首发骁龙8 Elite Gen6

教育要闻

加州百年艺术名校将于2027年关闭,范德堡大学接管旧金山校区!

50+女人的穿搭封神技巧来了,抓准这4点,轻松穿出简约高级感

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

无障碍浏览 进入关怀版