网易首页 > 网易号 > 正文 申请入驻

最近研究:对 AI 越粗鲁,回答越准确(附报告全文)

0
分享至

来源|AI先锋官

日前,美国宾夕法尼亚州立大学发表了一篇名为《注意你的语气:探究提示语礼貌程度如何影响大语言模型的准确性》的学术研究报告。

报告指出,与预期相反,(对AI 大模型)粗鲁提示的表现始终优于礼貌提示”。


研究小组构建了一个包含 50个 基础问题的数据集,涵盖数学、科学、历史等多个领域。

然后,他们把每一个问题,都精心改写成了 5种 不同的语气——从“非常礼貌”到“非常粗鲁”,总共创造了 250个 独特的提示词。

据此, 基于ChatGPT-4o对这些提示进行评估,并采用配对样本t检验评估统计显著性。

结果出乎了所有人的意料!

用“非常有礼貌”的提示词,得到了 80.8% 的准确率;而当用“非常粗鲁”、最直接的命令式语气时,准确率飙升到了 84.8%!

这意味着,每向AI提100个问题里,如果你太客气,它就会把4个本该答对的答案,变成错误答案!

以下为研究报告全文:

《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》

注意你的语气:探究提示语礼貌程度如何影响大语言模型的准确性(短文)

作者:Om Dobariya¹,Akhil Kumar¹

¹宾夕法尼亚州立大学帕克分校

摘要

已有研究表明,自然语言提示的措辞会影响大语言模型(LLM)的表现,但语气和礼貌程度的作用仍未被充分探索。本研究探讨了提示语礼貌程度对模型在多项选择题上准确性的影响。

我们构建了一个包含50道基础问题的数据集,涵盖数学、科学和历史领域,每道题被改写为五种语气变体:非常礼貌、礼貌、中性、粗鲁和非常粗鲁,共生成250个独特提示。我们使用ChatGPT-4o对这些提示进行评估,并采用配对样本t检验评估统计显著性。

与预期相反,粗鲁提示的表现始终优于礼貌提示,准确率从“非常礼貌”的80.8%到“非常粗鲁”的84.8%不等。

这些发现与早期认为粗鲁会导致表现下降的研究不同,表明新一代LLM对语气变化的响应可能不同。我们的结果强调了研究提示语用特征的重要性,并引发了关于人机交互社会维度的更广泛思考。

1. 引言

生成式人工智能和自然语言处理(NLP)的兴起为跨领域任务自动化带来了新的可能性,极大地提升了生产力。大语言模型(LLM)在许多高难度任务上的表现常常超越人类。由于其庞大的训练数据和复杂的模型架构,LLM无需特定任务微调即可展现出类比推理等人类认知核心能力。

由于这些强大的LLM通过自然语言接口进行交互,输入提示的微小差异(即“提示语”)会显著影响输出质量(如准确性、长度、连贯性等)。因此,一个名为“提示工程”的新研究领域应运而生,旨在研究不同提示设计对模型响应的影响,并优化提示以获得最佳结果。

近年来,提示工程研究已涉及提示结构、风格、语言等因素对结果质量的影响。其中一个因素是提示语中的礼貌程度。

已有研究表明,不同礼貌程度的提示会在多语言和多任务场景中对模型准确性产生显著影响。本研究重新审视这一问题,使用50道四选一的多项选择题作为基础数据集,每道题被改写为五种礼貌程度变体(非常礼貌、礼貌、中性、粗鲁、非常粗鲁),共250道题。我们将这些题目输入ChatGPT-4o,分析不同语气对模型表现的影响。

2. 背景与相关工作

自OpenAI于2022年11月发布ChatGPT-3.5以来,人工智能成为家喻户晓的名词。LLM通常以文本提示为输入并输出文本,随着技术进步,它们也能处理多种数据模态,因此也被称为多模态模型。

随着这一强大工具的出现,人们开始探索如何最大化其输出效果,这催生了“提示工程”——即研究如何设计提示以获得最佳模型响应。常见的提示工程方法包括“零样本”(zero-shot)和“少样本”(few-shot)提示等。

Yin等人(2024)发现,“粗鲁提示往往导致表现下降,但过度礼貌的语言也不一定能带来更好的结果。”他们的研究基于多项选择题,并以答题准确性为评估标准。本文试图验证这一结论,并构建了自己的数据集,测试提示礼貌程度是否会影响ChatGPT-4o等模型的表现。

3. 数据集构建与研究方法

我们使用ChatGPT的“深度研究”功能生成了50道基础多项选择题,涵盖数学、历史和科学等领域。每道题设有四个选项,难度中等偏高,常需多步推理。为引入语气变量,每道题被改写为五种语气变体,从“非常礼貌”到“非常粗鲁”,共生成250个独特提示。

我们将这些题目输入LLM,并使用Python脚本进行评估。每道题都附带如下指令:

“完全忘记之前的对话内容,重新开始。请回答以下多项选择题。仅回答正确选项的字母(A、B、C或D),不要解释。”

每道题独立处理,以确保评估一致性。我们还使用“深度研究”功能生成了每道题的标准答案,用于判断模型回答是否正确。数据集可通过匿名GitHub链接获取。

我们定义了五种语气等级,其中中性提示不包含“请”等礼貌用语,也不包含侮辱性语言。以下是其中一个基础题的示例及其五种语气前缀:

基础题:

杰克把他一半的钱给了弟弟,然后花了5美元,最后剩下10美元。他最初有多少钱?


4. 实验结果与分析

我们将程序运行五次,每次使用不同语气。每道题目通过API发送给ChatGPT-4o,并解析其返回的答案字母。以下是示例提示:

完全忘记之前的对话内容,重新开始。

请回答以下多项选择题。仅回答正确选项的字母(A、B、C或D),不要解释。

您能否好心解答以下问题:两个杂合子(Aa)父母生下一个孩子,孩子是隐性表型(aa)的概率是多少?

A) 0%

B) 25%

C) 50%

D) 75%

为判断不同语气是否对准确性有显著影响,我们使用配对样本t检验。每种语气运行10次,记录准确率,并进行配对比较。零假设为两种语气的平均准确率无差异。

配对样本t检验结果(α ≤ 0.05)


五种语气的平均准确率(10次运行)


结果表明,语气确实对模型准确性有显著影响。粗鲁语气(尤其是非常粗鲁)显著优于礼貌语气。

5. 讨论与结论

本文评估了ChatGPT-4o在不同语气提示下的表现。结果显示,语气对模型准确性有显著影响。令人惊讶的是,粗鲁语气反而带来更好的结果。

Yin等人(2024)曾指出,粗鲁提示往往导致准确率下降,但我们的实验结果与他们的部分结论不同。例如,他们在ChatGPT-4上的实验显示,最粗鲁提示的准确率为76.47%,而最礼貌提示为75.82%,差异不大。

我们也指出,不同研究对“粗鲁”的定义不同。Yin等人使用的粗鲁提示包括“Answer this question you scumbag!”,而我们使用的是“You poor creature, do you even know how to solve this?”这可能是导致结果差异的原因之一。

我们还初步测试了Claude和ChatGPT-o3,发现ChatGPT-o3表现更佳,可能更不受语气影响。

6. 研究局限

本研究存在以下局限:

1. 数据集较小(50道题,250个变体),可能影响结果的普适性;

2. 主要基于ChatGPT-4o,其他模型的响应可能不同;

3. 仅评估了准确性,未考虑流畅性、推理能力等其他维度;

4. 对“礼貌”与“粗鲁”的定义基于特定语言提示,可能未涵盖所有语用或文化差异。

7. 伦理考量

我们发现粗鲁提示可能提升模型准确性,但我们不提倡在实际应用中使用侮辱性或敌对语言。这样的界面可能对用户体验、包容性和社会沟通规范造成负面影响。我们呼吁未来研究探索非敌对、非侮辱性的提示方式,以实现性能与用户体验的平衡。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子理发变理财?投了40多万后发现不对劲,本人:我脸皮薄,不好意思拒绝别人

男子理发变理财?投了40多万后发现不对劲,本人:我脸皮薄,不好意思拒绝别人

极目新闻
2025-11-03 15:52:57
美国富豪CEO遭员工绑架杀害,逼员工做500个俯卧撑才发薪水

美国富豪CEO遭员工绑架杀害,逼员工做500个俯卧撑才发薪水

潇湘晨报
2025-11-02 16:19:15
自带“青霉素”的3种蔬菜,建议:天冷经常吃,增强免疫少感冒!

自带“青霉素”的3种蔬菜,建议:天冷经常吃,增强免疫少感冒!

江江食研社
2025-11-03 16:30:03
电讯报:密集赛程下,英超顶级球队可能将被迫放弃英格兰赛事

电讯报:密集赛程下,英超顶级球队可能将被迫放弃英格兰赛事

懂球帝
2025-11-03 15:39:13
国补确认恢复继续!国补政策2025年最新消息:国补没有结束,新一轮第四批690亿11月发放中,国补资格申领操作教程方法攻略

国补确认恢复继续!国补政策2025年最新消息:国补没有结束,新一轮第四批690亿11月发放中,国补资格申领操作教程方法攻略

开封网
2025-11-03 18:24:24
宣告奇迹出现不到1个月,蔡磊近况曝光,他已为自己安排好后路

宣告奇迹出现不到1个月,蔡磊近况曝光,他已为自己安排好后路

闻识
2025-11-03 15:20:57
曾担任志愿军参谋长的解方,为什么仅被授予少将军衔,有何缘由?

曾担任志愿军参谋长的解方,为什么仅被授予少将军衔,有何缘由?

元哥说历史
2025-11-02 21:00:03
那年暗恋高中女老师,毕业时我鼓起勇气表白,她笑着提出一个要求

那年暗恋高中女老师,毕业时我鼓起勇气表白,她笑着提出一个要求

晓艾故事汇
2025-10-30 17:20:46
“举报的家长们后悔了?”学校不打印课后作业,家长不满老师冷笑

“举报的家长们后悔了?”学校不打印课后作业,家长不满老师冷笑

熙熙说教
2025-11-01 20:36:25
3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

狍子歪解体坛
2025-11-03 03:26:50
巴基斯坦飞行员很清楚:驾驶美制F-16战机,就等于和建功立业绝缘

巴基斯坦飞行员很清楚:驾驶美制F-16战机,就等于和建功立业绝缘

云上乌托邦
2025-11-03 11:30:52
好消息!瑟尔斯基宣布守住红军城,已歼灭俄军并成功清理几条街区

好消息!瑟尔斯基宣布守住红军城,已歼灭俄军并成功清理几条街区

环球热点快评
2025-11-02 08:25:30
北京今天最高气温14℃,明后两天夜间至早晨能见度较低

北京今天最高气温14℃,明后两天夜间至早晨能见度较低

新京报
2025-11-03 12:47:15
国产算力终于扬眉吐气!“GPU 第一股” 摩尔线程敲开科创板大门

国产算力终于扬眉吐气!“GPU 第一股” 摩尔线程敲开科创板大门

粤语音乐喷泉
2025-11-01 09:16:12
江苏8位同学宴请恩师,点了24道美食6瓶茅台,结账时集体“破防”

江苏8位同学宴请恩师,点了24道美食6瓶茅台,结账时集体“破防”

小蜜情感说
2025-11-02 11:59:32
你遇到过最尴尬的事是啥?网友:护士这活一般人还真干不了

你遇到过最尴尬的事是啥?网友:护士这活一般人还真干不了

解读热点事件
2025-11-02 00:15:03
真能单挑10万吨美军航母?尼米兹号刚进黄岩岛,055全速冲入编队

真能单挑10万吨美军航母?尼米兹号刚进黄岩岛,055全速冲入编队

爱史纪
2025-11-03 17:32:59
9.6分!这部无数人心中的NO.1美剧,值得一看

9.6分!这部无数人心中的NO.1美剧,值得一看

i书与房
2025-11-03 18:10:03
被叶柯榨干!47岁黄晓明大变样,满脸褶子还秃顶,小餐馆吃面太憔悴

被叶柯榨干!47岁黄晓明大变样,满脸褶子还秃顶,小餐馆吃面太憔悴

八星人
2025-11-03 16:17:52
友情不变,全红婵陈芋汐全运会有说有笑,和张家齐腻歪细节超有爱

友情不变,全红婵陈芋汐全运会有说有笑,和张家齐腻歪细节超有爱

二哥聊球
2025-11-03 09:41:26
2025-11-03 20:08:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
371文章数 22关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

亲子
艺术
家居
公开课
军事航空

亲子要闻

放手接纳后,躺平的孩子多久能主动去上学?

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

家居要闻

岁月柔情 现代品质轻奢

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版