来源|AI先锋官
日前,美国宾夕法尼亚州立大学发表了一篇名为《注意你的语气:探究提示语礼貌程度如何影响大语言模型的准确性》的学术研究报告。
报告指出,“与预期相反,(对AI 大模型)粗鲁提示的表现始终优于礼貌提示”。
![]()
研究小组构建了一个包含 50个 基础问题的数据集,涵盖数学、科学、历史等多个领域。
然后,他们把每一个问题,都精心改写成了 5种 不同的语气——从“非常礼貌”到“非常粗鲁”,总共创造了 250个 独特的提示词。
据此, 基于ChatGPT-4o对这些提示进行评估,并采用配对样本t检验评估统计显著性。
结果出乎了所有人的意料!
用“非常有礼貌”的提示词,得到了 80.8% 的准确率;而当用“非常粗鲁”、最直接的命令式语气时,准确率飙升到了 84.8%!
这意味着,每向AI提100个问题里,如果你太客气,它就会把4个本该答对的答案,变成错误答案!
以下为研究报告全文:
《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》
注意你的语气:探究提示语礼貌程度如何影响大语言模型的准确性(短文)
作者:Om Dobariya¹,Akhil Kumar¹
¹宾夕法尼亚州立大学帕克分校
摘要
已有研究表明,自然语言提示的措辞会影响大语言模型(LLM)的表现,但语气和礼貌程度的作用仍未被充分探索。本研究探讨了提示语礼貌程度对模型在多项选择题上准确性的影响。
我们构建了一个包含50道基础问题的数据集,涵盖数学、科学和历史领域,每道题被改写为五种语气变体:非常礼貌、礼貌、中性、粗鲁和非常粗鲁,共生成250个独特提示。我们使用ChatGPT-4o对这些提示进行评估,并采用配对样本t检验评估统计显著性。
与预期相反,粗鲁提示的表现始终优于礼貌提示,准确率从“非常礼貌”的80.8%到“非常粗鲁”的84.8%不等。
这些发现与早期认为粗鲁会导致表现下降的研究不同,表明新一代LLM对语气变化的响应可能不同。我们的结果强调了研究提示语用特征的重要性,并引发了关于人机交互社会维度的更广泛思考。
1. 引言
生成式人工智能和自然语言处理(NLP)的兴起为跨领域任务自动化带来了新的可能性,极大地提升了生产力。大语言模型(LLM)在许多高难度任务上的表现常常超越人类。由于其庞大的训练数据和复杂的模型架构,LLM无需特定任务微调即可展现出类比推理等人类认知核心能力。
由于这些强大的LLM通过自然语言接口进行交互,输入提示的微小差异(即“提示语”)会显著影响输出质量(如准确性、长度、连贯性等)。因此,一个名为“提示工程”的新研究领域应运而生,旨在研究不同提示设计对模型响应的影响,并优化提示以获得最佳结果。
近年来,提示工程研究已涉及提示结构、风格、语言等因素对结果质量的影响。其中一个因素是提示语中的礼貌程度。
已有研究表明,不同礼貌程度的提示会在多语言和多任务场景中对模型准确性产生显著影响。本研究重新审视这一问题,使用50道四选一的多项选择题作为基础数据集,每道题被改写为五种礼貌程度变体(非常礼貌、礼貌、中性、粗鲁、非常粗鲁),共250道题。我们将这些题目输入ChatGPT-4o,分析不同语气对模型表现的影响。
2. 背景与相关工作
自OpenAI于2022年11月发布ChatGPT-3.5以来,人工智能成为家喻户晓的名词。LLM通常以文本提示为输入并输出文本,随着技术进步,它们也能处理多种数据模态,因此也被称为多模态模型。
随着这一强大工具的出现,人们开始探索如何最大化其输出效果,这催生了“提示工程”——即研究如何设计提示以获得最佳模型响应。常见的提示工程方法包括“零样本”(zero-shot)和“少样本”(few-shot)提示等。
Yin等人(2024)发现,“粗鲁提示往往导致表现下降,但过度礼貌的语言也不一定能带来更好的结果。”他们的研究基于多项选择题,并以答题准确性为评估标准。本文试图验证这一结论,并构建了自己的数据集,测试提示礼貌程度是否会影响ChatGPT-4o等模型的表现。
3. 数据集构建与研究方法
我们使用ChatGPT的“深度研究”功能生成了50道基础多项选择题,涵盖数学、历史和科学等领域。每道题设有四个选项,难度中等偏高,常需多步推理。为引入语气变量,每道题被改写为五种语气变体,从“非常礼貌”到“非常粗鲁”,共生成250个独特提示。
我们将这些题目输入LLM,并使用Python脚本进行评估。每道题都附带如下指令:
“完全忘记之前的对话内容,重新开始。请回答以下多项选择题。仅回答正确选项的字母(A、B、C或D),不要解释。”
每道题独立处理,以确保评估一致性。我们还使用“深度研究”功能生成了每道题的标准答案,用于判断模型回答是否正确。数据集可通过匿名GitHub链接获取。
我们定义了五种语气等级,其中中性提示不包含“请”等礼貌用语,也不包含侮辱性语言。以下是其中一个基础题的示例及其五种语气前缀:
基础题:
杰克把他一半的钱给了弟弟,然后花了5美元,最后剩下10美元。他最初有多少钱?
![]()
4. 实验结果与分析
我们将程序运行五次,每次使用不同语气。每道题目通过API发送给ChatGPT-4o,并解析其返回的答案字母。以下是示例提示:
完全忘记之前的对话内容,重新开始。
请回答以下多项选择题。仅回答正确选项的字母(A、B、C或D),不要解释。
您能否好心解答以下问题:两个杂合子(Aa)父母生下一个孩子,孩子是隐性表型(aa)的概率是多少?
A) 0%
B) 25%
C) 50%
D) 75%
为判断不同语气是否对准确性有显著影响,我们使用配对样本t检验。每种语气运行10次,记录准确率,并进行配对比较。零假设为两种语气的平均准确率无差异。
配对样本t检验结果(α ≤ 0.05)
![]()
五种语气的平均准确率(10次运行)
![]()
结果表明,语气确实对模型准确性有显著影响。粗鲁语气(尤其是非常粗鲁)显著优于礼貌语气。
5. 讨论与结论
本文评估了ChatGPT-4o在不同语气提示下的表现。结果显示,语气对模型准确性有显著影响。令人惊讶的是,粗鲁语气反而带来更好的结果。
Yin等人(2024)曾指出,粗鲁提示往往导致准确率下降,但我们的实验结果与他们的部分结论不同。例如,他们在ChatGPT-4上的实验显示,最粗鲁提示的准确率为76.47%,而最礼貌提示为75.82%,差异不大。
我们也指出,不同研究对“粗鲁”的定义不同。Yin等人使用的粗鲁提示包括“Answer this question you scumbag!”,而我们使用的是“You poor creature, do you even know how to solve this?”这可能是导致结果差异的原因之一。
我们还初步测试了Claude和ChatGPT-o3,发现ChatGPT-o3表现更佳,可能更不受语气影响。
6. 研究局限
本研究存在以下局限:
1. 数据集较小(50道题,250个变体),可能影响结果的普适性;
2. 主要基于ChatGPT-4o,其他模型的响应可能不同;
3. 仅评估了准确性,未考虑流畅性、推理能力等其他维度;
4. 对“礼貌”与“粗鲁”的定义基于特定语言提示,可能未涵盖所有语用或文化差异。
7. 伦理考量
我们发现粗鲁提示可能提升模型准确性,但我们不提倡在实际应用中使用侮辱性或敌对语言。这样的界面可能对用户体验、包容性和社会沟通规范造成负面影响。我们呼吁未来研究探索非敌对、非侮辱性的提示方式,以实现性能与用户体验的平衡。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.