网易首页 > 网易号 > 正文 申请入驻

J.P.Morgan研究院发现:让AI少出错的秘密藏在问题的说话方式里

0
分享至


这项由J.P.Morgan人工智能研究院主导的研究发表于2026年2月的arXiv预印本平台,论文编号为2602.20300v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当你向ChatGPT或其他AI助手提问时,是否发现有时它会给出看似合理但实际错误的答案?这种现象被称为"幻觉",就像AI在做白日梦一样编造信息。J.P.Morgan的研究团队决定从一个全新角度解决这个问题:既然我们无法完全阻止AI犯错,那能否通过改变提问方式来降低出错概率呢?

研究团队花费大量时间分析了将近37万个真实用户提问,这些问题涵盖了13个不同的问答数据集。他们的发现颠覆了许多人的认知:原来问题本身的"说话方式"会显著影响AI的可靠性。这就像同一道数学题,用不同方式提问可能得到截然不同的答案质量。

传统上,人们认为AI出现幻觉主要是模型本身的缺陷,或者解码策略有问题。但这项研究证明,问题的表达方式同样重要。研究团队从经典语言学理论中汲取灵感,提出了一个大胆的观点:听者(包括AI模型)的回应很大程度上会受到问题形式的影响。

研究团队开发了一套包含17个维度的问题特征分析系统,就像给每个问题做了一次全面的"语言体检"。这套系统能够识别问题中的各种语言特征,比如句子结构复杂程度、词汇稀有度、是否包含代词指代、是否使用否定句、问题的可回答性以及意图明确程度等等。

一、问题的"风险地貌":哪些说话方式让AI更容易犯错

通过对海量数据的分析,研究团队绘制出了一幅详细的"风险地貌图"。这张图清晰地显示了不同类型的问题表达方式与AI出错概率之间的关系,就像天气预报图一样直观。

研究发现,某些语言特征确实会显著增加AI产生幻觉的风险。首先是"缺乏具体性"的问题,这类问题就像在茫茫大海中没有灯塔指引。当你问"告诉我关于特斯拉的信息"时,AI可能不知道你指的是公司、汽车、股票还是那位发明家本人,这种模糊性会让AI更容易编造信息。相反,如果你问"总结特斯拉公司2024年第四季度财报的五个要点",问题就变得具体明确,AI出错的可能性会大大降低。

句子结构复杂性是另一个重要风险因素。复杂的从句嵌套就像俄罗斯套娃一样,层层包裹让AI难以准确理解真正的询问重点。比如"如果试验成功的话,根据那份泄露的备忘录,哪些监管机构会首先批准它"这样的问题,包含了多个条件和修饰成分,增加了AI理解错误的可能性。

否定句的使用也会提高风险。人类大脑处理否定信息本身就需要额外的认知资源,AI同样如此。当问题中包含"不是"、"没有"、"并非"等否定词时,AI更容易在逻辑推理中出现偏差。

令人意外的是,一些传统上被认为会困扰人类理解的语言特征,对AI的影响却相对较小。比如罕见词汇、最高级表达、复杂否定等,虽然可能让人类读者感到困惑,但AI似乎能够较好地处理这些情况。这表明人类和AI的"困难点"并不完全相同。

二、什么样的问题让AI更可靠

研究同时揭示了哪些问题特征能够降低AI出错的风险。意图明确的问题就像给AI一张清晰的地图,让它知道确切的目标在哪里。当你在问题中明确使用"总结"、"比较"、"提取"、"分类"等动词时,AI就能更准确地理解你的需求。

可回答性是另一个关键的保护因素。那些基于现有信息能够给出明确答案的问题,比如"《路》这本书的作者是谁"或"17×19等于多少",AI几乎不会出错。相反,那些需要主观判断或预测未来的问题,比如"我应该搬到纽约吗"或"X股票下个月会崩盘吗",AI更容易产生不可靠的回答。

有趣的是,研究还发现句子长度和结构复杂性之间存在微妙的平衡关系。适度的长度和结构复杂性实际上能够提供更多上下文信息,帮助AI更好地理解问题。这就像烹饪时的调料,太少缺乏味道,太多则会掩盖本味,适量使用才能达到最佳效果。

三、不同任务类型的风险模式

研究团队分析了三种不同的任务类型,发现它们展现出截然不同的风险模式。提取式任务就像从文章中找特定信息,由于有明确的参考材料,AI很少出现幻觉。大多数这类问题都被归类为"安全"级别。

选择题任务介于中等风险水平。这类任务的特点是有干扰选项的存在,AI需要在多个备选答案中做出选择。虽然有一定的约束性,但干扰项的存在确实会增加AI犯错的可能性。

抽象式任务的风险最高,这类任务缺乏外部参考材料,完全依赖AI的内部知识储备。当被要求总结、分析或创造性回答时,AI更容易"天马行空",产生看似合理但实际错误的内容。研究显示,这类任务中有44.5%被标记为"高风险"。

更有趣的是,研究发现问题长度与风险之间存在依赖于任务类型的关系。在抽象式任务中,问题越长,AI出错的概率越高,这种关系呈现出明显的上升趋势。而在提取式任务中,问题长度对风险的影响微乎其微,风险水平始终保持在较低水平。

四、语言特征的相互关系网络

通过深入分析,研究团队发现这17个语言特征并非独立存在,而是形成了复杂的相互关系网络。这些特征可以大致分为几个主要群组,每个群组内的特征往往同时出现,共同影响AI的表现。

语法复杂性群组包括问题长度、依赖深度、解析树高度和从句数量等特征。这些特征高度相关,形成了一个紧密的特征集合。有趣的是,这个群组与AI幻觉风险呈现负相关关系,这意味着适度的语法复杂性实际上能提供更丰富的上下文信息,帮助AI更好地理解问题。

语义基础群组包括意图明确性、可回答性和上下文约束等特征。这个群组与较低的幻觉风险密切相关,证实了语义清晰性对AI可靠性的重要作用。

模糊性群组包括缺乏具体性、问题场景不匹配、多义词和语用特征等。这个群组中的特征经常一起出现,共同增加AI产生幻觉的风险。

五、实用的问题优化策略

基于这些发现,研究团队提出了三个简单但有效的问题优化原则。第一个原则是增加消歧约束,具体来说就是在问题中明确时间、地点和实体信息。与其问"告诉我关于Java的信息",不如问"解释Java编程语言的主要特性"。

第二个原则是明确表达意图。在问题中使用明确的动词,比如"总结"、"比较"、"提取"、"验证"等,让AI知道你期望什么样的回答形式。这就像给厨师一份详细的菜谱,而不是简单说"做点好吃的"。

第三个原则是预先解决多义性问题。当问题中包含可能有多重含义的词汇时,要提前进行澄清。比如问"比较Python和Java在Web开发中的优劣",而不是简单问"Python和Java哪个更好"。

这些策略的应用效果在研究中得到了验证。通过对高风险问题进行重写优化,可以显著降低AI产生幻觉的概率。重要的是,这些优化策略不需要修改AI模型本身,只需要用户在提问时稍加注意即可。

六、跨数据集的稳定性验证

为了确保研究结果的可靠性,研究团队采用了"留一数据集"的交叉验证方法。这种方法就像轮流让每个数据集"坐冷板凳",用其余数据集训练模型,然后测试在"坐冷板凳"的数据集上的表现。

验证结果令人鼓舞:所有主要发现在不同数据集上都保持了一致性。缺乏具体性、句子复杂性和问题场景不匹配始终与较高的幻觉风险相关,而可回答性和意图明确性始终起到保护作用。这种跨数据集的稳定性表明,研究发现的"风险地貌"具有普遍适用性,而不仅仅是特定数据集的偶然现象。

特别值得注意的是,即使在不同的应用领域和问题类型中,这些语言特征与AI可靠性之间的关系依然保持稳定。这为制定通用的问题优化指南提供了坚实的基础。

七、模型校准和预测能力

研究团队还验证了他们开发的风险预测模型的准确性。通过可靠性曲线分析,他们发现模型能够很好地校准风险预测,也就是说,当模型预测某个问题有70%的风险时,实际风险确实接近70%。

这种校准能力使得风险预测系统具有实用价值。用户或系统可以在AI回答问题之前,先评估问题的风险等级,对于高风险问题采取额外的验证措施,或者引导用户重新表述问题。

模型的预测能力在不同特征层次上都表现出色。无论是针对单个特征的影响,还是多个特征的组合效应,模型都能提供可靠的风险评估。这为开发实时的问题质量检测工具奠定了基础。

八、领域特异性的有趣发现

研究中一个令人意外的发现是领域特异性特征的表现。传统观点认为,专业领域的问题会增加AI出错的风险,因为这些问题需要专业知识。然而,研究结果显示,领域特异性与幻觉风险之间的关系是混合的,很大程度上取决于AI模型对特定领域的熟悉程度。

在AI训练数据中常见的领域,比如计算机科学和数学,专业性问题的风险相对较低。而在训练数据中较少涉及的领域,专业性问题确实会增加风险。这一发现提醒我们,AI的可靠性不仅取决于问题的表达方式,也与其知识储备的深度和广度密切相关。

这个发现对实际应用具有重要意义。在使用AI处理专业领域问题时,用户需要特别注意该领域是否在AI的"舒适区"内,并相应调整对答案可靠性的期望。

九、未来应用前景

这项研究的成果已经为开发更智能的AI交互系统铺平了道路。研究团队设想的应用场景包括实时问题风险评估、自动问题重写建议和智能问题路由等功能。

实时风险评估功能就像一个智能的"问题顾问",在用户提交问题之前就能预测AI回答的可靠性。对于高风险问题,系统可以提醒用户需要额外验证,或者建议使用其他信息源进行交叉验证。

自动问题重写功能更进一步,它不仅能识别风险,还能主动建议更好的表达方式。比如,当用户输入模糊的问题时,系统可以建议几种更具体、更明确的表达方式供用户选择。

智能问题路由功能可以根据问题的特征和风险等级,将其分配给最适合的处理方式。低风险问题可以直接交给AI处理,中等风险问题可能需要检索增强,而高风险问题可能需要人工审核或者引导用户提供更多上下文信息。

说到底,这项研究揭示了一个简单而深刻的道理:与AI对话的艺术不仅仅在于拥有正确的信息,更在于用正确的方式提出问题。就像与人交流一样,清晰、具体、有目的的表达总是能获得更好的回应。随着AI技术的不断发展,掌握这种"提问的艺术"将成为每个人都需要学习的重要技能。这项研究不仅为我们理解AI的工作机制提供了新视角,更为我们在AI时代的有效沟通提供了实用指南。通过简单地改变我们的提问方式,我们就能显著提高AI助手的可靠性,让人机协作变得更加高效和可信。研究团队的工作证明,有时候解决复杂技术问题的钥匙,竟然就藏在我们日常语言使用的细节之中。

Q&A

Q1:什么语言特征会让AI更容易产生错误回答?

A:主要有三类风险特征。首先是缺乏具体性,比如问"告诉我关于特斯拉的信息"而不明确指公司、汽车还是发明家。其次是复杂的句子结构,包含多层嵌套从句会让AI难以理解重点。第三是使用否定句,"不是"、"没有"等否定词会增加AI逻辑推理出错的可能性。

Q2:如何通过改变提问方式来提高AI回答的准确性?

A:有三个简单有效的原则。首先是增加具体约束,明确时间、地点、实体信息,比如问"总结特斯拉公司2024年第四季度财报要点"而不是泛泛询问。其次是明确表达意图,使用"总结"、"比较"、"提取"等明确动词。最后是预先解决多义性,当词汇可能有多重含义时要提前澄清。

Q3:不同类型的AI任务哪种最容易出错?

A:抽象式任务风险最高,有44.5%被标记为高风险,因为缺乏外部参考材料,完全依赖AI内部知识。提取式任务风险最低,因为有明确参考材料支撑。选择题任务介于中等风险水平,虽有约束但干扰选项会增加出错可能。问题长度在抽象式任务中会显著增加风险,而在提取式任务中影响很小。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

红星新闻
2026-04-20 18:03:39
日本一观光直升机坠入火山口,2名中国台湾游客与1名日本机长失踪已3月,日媒称生还可能性极低,拟动用无人机重机具进入火口作业

日本一观光直升机坠入火山口,2名中国台湾游客与1名日本机长失踪已3月,日媒称生还可能性极低,拟动用无人机重机具进入火口作业

大风新闻
2026-04-20 15:11:31
北约31国集体访日,高市早苗连夜修宪,最危险的信号已经到来!

北约31国集体访日,高市早苗连夜修宪,最危险的信号已经到来!

易玄
2026-04-20 02:45:44
英国超新星穆迪抢丁俊晖风头,戴维斯:他或破最年轻世界冠军纪录

英国超新星穆迪抢丁俊晖风头,戴维斯:他或破最年轻世界冠军纪录

杨华评论
2026-04-20 21:00:34
全场哗然!29岁女子在相亲舞台称“娶我一定让你爽”,王婆也懵了

全场哗然!29岁女子在相亲舞台称“娶我一定让你爽”,王婆也懵了

火山詩话
2026-04-19 06:42:57
突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

新浪财经
2026-04-20 04:31:06
日本将地震震级调整至7.5级

日本将地震震级调整至7.5级

界面新闻
2026-04-20 16:30:33
国际奥委会明确表态,对2036年奥运会的申办情况很是失望

国际奥委会明确表态,对2036年奥运会的申办情况很是失望

安安说
2026-04-20 11:09:20
日本地震震级修正为7.7级

日本地震震级修正为7.7级

界面新闻
2026-04-20 18:59:43
为什么全国人民都在拒接电话?

为什么全国人民都在拒接电话?

黯泉
2026-04-18 17:00:56
太扎心了!上海男子年薪百万失业引不满,新婚3个月女子就想离婚

太扎心了!上海男子年薪百万失业引不满,新婚3个月女子就想离婚

火山詩话
2026-04-20 06:12:18
人心散了!34分惨败引发内讧,赵继伟发社媒表达不满,怒喷队友

人心散了!34分惨败引发内讧,赵继伟发社媒表达不满,怒喷队友

南海浪花
2026-04-20 23:37:05
普京访华行程敲定,特朗普已下命令,中国向全球通告,无惧美国

普京访华行程敲定,特朗普已下命令,中国向全球通告,无惧美国

桑启红原
2026-04-20 20:19:05
海外版“砍一刀”被美国消费者疯狂吐槽:这质量就是中国制造?

海外版“砍一刀”被美国消费者疯狂吐槽:这质量就是中国制造?

可达鸭面面观
2026-04-20 16:18:29
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
贝索斯火箭回收成功,卫星却丢了

贝索斯火箭回收成功,卫星却丢了

野生运营
2026-04-20 02:38:54
小学生拒绝借车遭殴打搜家,一名施暴者及家长上门道歉,教育局称校园欺凌专干介入,警方:“入室抢劫案”仍在调查

小学生拒绝借车遭殴打搜家,一名施暴者及家长上门道歉,教育局称校园欺凌专干介入,警方:“入室抢劫案”仍在调查

极目新闻
2026-04-20 16:20:59
揭开“白左圣母”的真面目

揭开“白左圣母”的真面目

名人苟或
2026-04-20 07:08:34
那番绝境,大帝终究还要面对

那番绝境,大帝终究还要面对

虚声
2026-04-20 08:08:29
原雷神山院长落马,其“权色交易”的背后,坑害了多少女医护家庭

原雷神山院长落马,其“权色交易”的背后,坑害了多少女医护家庭

长安一孤客
2026-04-20 18:58:28
2026-04-21 04:56:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8068文章数 562关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

手机
艺术
本地
时尚
公开课

手机要闻

OPPO影像旗舰高端发力 Find X9 Ultra走出国门

艺术要闻

沙特官宣:全球最大单体建筑,延期十年!网友:又是画饼?

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版