J.P.Morgan研究院发现：让AI少出错的秘密藏在问题的说话方式里|复杂性|上下文|可靠性

分享至

这项由J.P.Morgan人工智能研究院主导的研究发表于2026年2月的arXiv预印本平台，论文编号为2602.20300v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当你向ChatGPT或其他AI助手提问时，是否发现有时它会给出看似合理但实际错误的答案？这种现象被称为"幻觉"，就像AI在做白日梦一样编造信息。J.P.Morgan的研究团队决定从一个全新角度解决这个问题：既然我们无法完全阻止AI犯错，那能否通过改变提问方式来降低出错概率呢？

研究团队花费大量时间分析了将近37万个真实用户提问，这些问题涵盖了13个不同的问答数据集。他们的发现颠覆了许多人的认知：原来问题本身的"说话方式"会显著影响AI的可靠性。这就像同一道数学题，用不同方式提问可能得到截然不同的答案质量。

传统上，人们认为AI出现幻觉主要是模型本身的缺陷，或者解码策略有问题。但这项研究证明，问题的表达方式同样重要。研究团队从经典语言学理论中汲取灵感，提出了一个大胆的观点：听者（包括AI模型）的回应很大程度上会受到问题形式的影响。

研究团队开发了一套包含17个维度的问题特征分析系统，就像给每个问题做了一次全面的"语言体检"。这套系统能够识别问题中的各种语言特征，比如句子结构复杂程度、词汇稀有度、是否包含代词指代、是否使用否定句、问题的可回答性以及意图明确程度等等。

一、问题的"风险地貌"：哪些说话方式让AI更容易犯错

通过对海量数据的分析，研究团队绘制出了一幅详细的"风险地貌图"。这张图清晰地显示了不同类型的问题表达方式与AI出错概率之间的关系，就像天气预报图一样直观。

研究发现，某些语言特征确实会显著增加AI产生幻觉的风险。首先是"缺乏具体性"的问题，这类问题就像在茫茫大海中没有灯塔指引。当你问"告诉我关于特斯拉的信息"时，AI可能不知道你指的是公司、汽车、股票还是那位发明家本人，这种模糊性会让AI更容易编造信息。相反，如果你问"总结特斯拉公司2024年第四季度财报的五个要点"，问题就变得具体明确，AI出错的可能性会大大降低。

句子结构复杂性是另一个重要风险因素。复杂的从句嵌套就像俄罗斯套娃一样，层层包裹让AI难以准确理解真正的询问重点。比如"如果试验成功的话，根据那份泄露的备忘录，哪些监管机构会首先批准它"这样的问题，包含了多个条件和修饰成分，增加了AI理解错误的可能性。

否定句的使用也会提高风险。人类大脑处理否定信息本身就需要额外的认知资源，AI同样如此。当问题中包含"不是"、"没有"、"并非"等否定词时，AI更容易在逻辑推理中出现偏差。

令人意外的是，一些传统上被认为会困扰人类理解的语言特征，对AI的影响却相对较小。比如罕见词汇、最高级表达、复杂否定等，虽然可能让人类读者感到困惑，但AI似乎能够较好地处理这些情况。这表明人类和AI的"困难点"并不完全相同。

二、什么样的问题让AI更可靠

研究同时揭示了哪些问题特征能够降低AI出错的风险。意图明确的问题就像给AI一张清晰的地图，让它知道确切的目标在哪里。当你在问题中明确使用"总结"、"比较"、"提取"、"分类"等动词时，AI就能更准确地理解你的需求。

可回答性是另一个关键的保护因素。那些基于现有信息能够给出明确答案的问题，比如"《路》这本书的作者是谁"或"17×19等于多少"，AI几乎不会出错。相反，那些需要主观判断或预测未来的问题，比如"我应该搬到纽约吗"或"X股票下个月会崩盘吗"，AI更容易产生不可靠的回答。

有趣的是，研究还发现句子长度和结构复杂性之间存在微妙的平衡关系。适度的长度和结构复杂性实际上能够提供更多上下文信息，帮助AI更好地理解问题。这就像烹饪时的调料，太少缺乏味道，太多则会掩盖本味，适量使用才能达到最佳效果。

三、不同任务类型的风险模式

研究团队分析了三种不同的任务类型，发现它们展现出截然不同的风险模式。提取式任务就像从文章中找特定信息，由于有明确的参考材料，AI很少出现幻觉。大多数这类问题都被归类为"安全"级别。

选择题任务介于中等风险水平。这类任务的特点是有干扰选项的存在，AI需要在多个备选答案中做出选择。虽然有一定的约束性，但干扰项的存在确实会增加AI犯错的可能性。

抽象式任务的风险最高，这类任务缺乏外部参考材料，完全依赖AI的内部知识储备。当被要求总结、分析或创造性回答时，AI更容易"天马行空"，产生看似合理但实际错误的内容。研究显示，这类任务中有44.5%被标记为"高风险"。

更有趣的是，研究发现问题长度与风险之间存在依赖于任务类型的关系。在抽象式任务中，问题越长，AI出错的概率越高，这种关系呈现出明显的上升趋势。而在提取式任务中，问题长度对风险的影响微乎其微，风险水平始终保持在较低水平。

四、语言特征的相互关系网络

通过深入分析，研究团队发现这17个语言特征并非独立存在，而是形成了复杂的相互关系网络。这些特征可以大致分为几个主要群组，每个群组内的特征往往同时出现，共同影响AI的表现。

语法复杂性群组包括问题长度、依赖深度、解析树高度和从句数量等特征。这些特征高度相关，形成了一个紧密的特征集合。有趣的是，这个群组与AI幻觉风险呈现负相关关系，这意味着适度的语法复杂性实际上能提供更丰富的上下文信息，帮助AI更好地理解问题。

语义基础群组包括意图明确性、可回答性和上下文约束等特征。这个群组与较低的幻觉风险密切相关，证实了语义清晰性对AI可靠性的重要作用。

模糊性群组包括缺乏具体性、问题场景不匹配、多义词和语用特征等。这个群组中的特征经常一起出现，共同增加AI产生幻觉的风险。

五、实用的问题优化策略

基于这些发现，研究团队提出了三个简单但有效的问题优化原则。第一个原则是增加消歧约束，具体来说就是在问题中明确时间、地点和实体信息。与其问"告诉我关于Java的信息"，不如问"解释Java编程语言的主要特性"。

第二个原则是明确表达意图。在问题中使用明确的动词，比如"总结"、"比较"、"提取"、"验证"等，让AI知道你期望什么样的回答形式。这就像给厨师一份详细的菜谱，而不是简单说"做点好吃的"。

第三个原则是预先解决多义性问题。当问题中包含可能有多重含义的词汇时，要提前进行澄清。比如问"比较Python和Java在Web开发中的优劣"，而不是简单问"Python和Java哪个更好"。

这些策略的应用效果在研究中得到了验证。通过对高风险问题进行重写优化，可以显著降低AI产生幻觉的概率。重要的是，这些优化策略不需要修改AI模型本身，只需要用户在提问时稍加注意即可。

六、跨数据集的稳定性验证

为了确保研究结果的可靠性，研究团队采用了"留一数据集"的交叉验证方法。这种方法就像轮流让每个数据集"坐冷板凳"，用其余数据集训练模型，然后测试在"坐冷板凳"的数据集上的表现。

验证结果令人鼓舞：所有主要发现在不同数据集上都保持了一致性。缺乏具体性、句子复杂性和问题场景不匹配始终与较高的幻觉风险相关，而可回答性和意图明确性始终起到保护作用。这种跨数据集的稳定性表明，研究发现的"风险地貌"具有普遍适用性，而不仅仅是特定数据集的偶然现象。

特别值得注意的是，即使在不同的应用领域和问题类型中，这些语言特征与AI可靠性之间的关系依然保持稳定。这为制定通用的问题优化指南提供了坚实的基础。

七、模型校准和预测能力

研究团队还验证了他们开发的风险预测模型的准确性。通过可靠性曲线分析，他们发现模型能够很好地校准风险预测，也就是说，当模型预测某个问题有70%的风险时，实际风险确实接近70%。

这种校准能力使得风险预测系统具有实用价值。用户或系统可以在AI回答问题之前，先评估问题的风险等级，对于高风险问题采取额外的验证措施，或者引导用户重新表述问题。

模型的预测能力在不同特征层次上都表现出色。无论是针对单个特征的影响，还是多个特征的组合效应，模型都能提供可靠的风险评估。这为开发实时的问题质量检测工具奠定了基础。

八、领域特异性的有趣发现

研究中一个令人意外的发现是领域特异性特征的表现。传统观点认为，专业领域的问题会增加AI出错的风险，因为这些问题需要专业知识。然而，研究结果显示，领域特异性与幻觉风险之间的关系是混合的，很大程度上取决于AI模型对特定领域的熟悉程度。

在AI训练数据中常见的领域，比如计算机科学和数学，专业性问题的风险相对较低。而在训练数据中较少涉及的领域，专业性问题确实会增加风险。这一发现提醒我们，AI的可靠性不仅取决于问题的表达方式，也与其知识储备的深度和广度密切相关。

这个发现对实际应用具有重要意义。在使用AI处理专业领域问题时，用户需要特别注意该领域是否在AI的"舒适区"内，并相应调整对答案可靠性的期望。

九、未来应用前景

这项研究的成果已经为开发更智能的AI交互系统铺平了道路。研究团队设想的应用场景包括实时问题风险评估、自动问题重写建议和智能问题路由等功能。

实时风险评估功能就像一个智能的"问题顾问"，在用户提交问题之前就能预测AI回答的可靠性。对于高风险问题，系统可以提醒用户需要额外验证，或者建议使用其他信息源进行交叉验证。

自动问题重写功能更进一步，它不仅能识别风险，还能主动建议更好的表达方式。比如，当用户输入模糊的问题时，系统可以建议几种更具体、更明确的表达方式供用户选择。

智能问题路由功能可以根据问题的特征和风险等级，将其分配给最适合的处理方式。低风险问题可以直接交给AI处理，中等风险问题可能需要检索增强，而高风险问题可能需要人工审核或者引导用户提供更多上下文信息。

说到底，这项研究揭示了一个简单而深刻的道理：与AI对话的艺术不仅仅在于拥有正确的信息，更在于用正确的方式提出问题。就像与人交流一样，清晰、具体、有目的的表达总是能获得更好的回应。随着AI技术的不断发展，掌握这种"提问的艺术"将成为每个人都需要学习的重要技能。这项研究不仅为我们理解AI的工作机制提供了新视角，更为我们在AI时代的有效沟通提供了实用指南。通过简单地改变我们的提问方式，我们就能显著提高AI助手的可靠性，让人机协作变得更加高效和可信。研究团队的工作证明，有时候解决复杂技术问题的钥匙，竟然就藏在我们日常语言使用的细节之中。

Q&A

Q1：什么语言特征会让AI更容易产生错误回答？

A：主要有三类风险特征。首先是缺乏具体性，比如问"告诉我关于特斯拉的信息"而不明确指公司、汽车还是发明家。其次是复杂的句子结构，包含多层嵌套从句会让AI难以理解重点。第三是使用否定句，"不是"、"没有"等否定词会增加AI逻辑推理出错的可能性。

Q2：如何通过改变提问方式来提高AI回答的准确性？

A：有三个简单有效的原则。首先是增加具体约束，明确时间、地点、实体信息，比如问"总结特斯拉公司2024年第四季度财报要点"而不是泛泛询问。其次是明确表达意图，使用"总结"、"比较"、"提取"等明确动词。最后是预先解决多义性，当词汇可能有多重含义时要提前澄清。

Q3：不同类型的AI任务哪种最容易出错？

A：抽象式任务风险最高，有44.5%被标记为高风险，因为缺乏外部参考材料，完全依赖AI内部知识。提取式任务风险最低，因为有明确参考材料支撑。选择题任务介于中等风险水平，虽有约束但干扰选项会增加出错可能。问题长度在抽象式任务中会显著增加风险，而在提取式任务中影响很小。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.