摩根大通AI研究院开发智能查询改写系统，让AI回答更准确|算法|翻译|大模型|摩根汽车

分享至

这项由摩根大通AI研究院的研究团队完成的突破性工作发表于2026年国际学习表征会议（ICLR 2026），论文编号为arXiv:2602.20332v1。研究团队开发了一个名为QueryBandits的智能系统，能够根据问题的语言特征自动选择最佳的问题改写策略，显著提高大型语言模型回答问题的准确性。

在我们与人工智能的日常互动中，经常会遇到这样的困扰：明明问了一个很清楚的问题，AI却给出了错误或者胡编乱造的答案。这就像是你问路人"最近的银行在哪里"，对方却指向了一个根本不存在的地方。这种现象被研究者称为"幻觉"，是目前AI技术面临的最大挑战之一。

更让人头疼的是，现在市场上主流的AI模型，比如GPT-4或者Claude，都是"黑盒子"式的服务。你只能向它们提问，但无法像修理汽车引擎那样打开hood去调整内部设置。这就像是你租了一辆车，发现方向盘有点问题，但你既不能拆开方向盘检查，也不能调整内部机制，只能通过改变自己的握方向盘的方式来适应。

摩根大通的研究团队就是在这样的背景下开始了他们的探索之旅。他们发现了一个有趣的现象：同一个问题，如果换个说法来问，AI的回答准确性会有天壤之别。比如问"6到74/5之间有多少个整数"，AI可能会给出错误答案，但如果把问题展开为"给定数学表达式74/5（表示74除以5），你能计算出从6开始到这个除法结果之间包含多少个完整数字吗"，AI就能给出正确答案。

这个发现让研究团队意识到，问题的"问法"本身就像是一把钥匙，不同的钥匙能打开不同质量的答案门。但这里面有个关键难题：没有一把万能钥匙能适用于所有类型的问题。有时候你需要把问题说得更详细，有时候需要简化表达，有时候需要消除歧义，每种情况都不一样。

一、智能改写的奥秘：让AI读懂问题的"潜台词"

研究团队的核心洞察是：每个问题都有自己的"性格特征"，就像每个人都有自己的性格一样。有些问题天生就模糊不清，容易引起误解；有些问题包含了太多专业术语，普通AI理解起来有困难；还有些问题虽然表面看起来简单，但实际上隐藏了复杂的逻辑关系。

为了让计算机能够识别问题的这些"性格特征"，研究团队开发了一个包含17个维度的特征识别系统。这就像是给每个问题做了一次全面的"体检"，从语言结构、逻辑复杂度、专业程度等多个角度来分析问题的特点。

比如说，系统会检查问题中是否包含"这个"、"那个"这样的指代词（研究者称为"回指现象"），因为这类词汇往往会让AI搞不清楚究竟指的是什么。系统还会分析问题是否包含多重嵌套的从句结构，因为过于复杂的语法会增加AI理解的难度。此外，系统还会判断问题是否需要专门领域的知识才能回答，比如法律或医学问题。

基于这些特征分析，QueryBandits系统就像一个经验丰富的翻译，能够为每个问题选择最合适的"改写策略"。系统总共有五种不同的改写方式，每种都有自己的专长领域。

第一种策略叫做"释义重写"，就像是用同义词替换原问题中的表达，但保持意思完全不变。这种方法特别适用于那些表达方式可能引起AI误解的问题。第二种是"简化重写"，把复杂冗长的句子拆解成简单直接的表达，就像把绕口令改成普通话。

第三种策略是"消歧重写"，专门处理那些含义模糊的问题。系统会把"这个"、"那个"这样的词替换成具体的名词，把模糊的时间表达改成精确的日期。第四种是"扩展重写"，为过于简略的问题补充必要的背景信息和限定条件，就像是给电报式的短句补充完整的上下文。

最后一种是"术语澄清重写"，专门针对包含专业术语的问题，在保持专业性的同时添加简短的解释，帮助AI更好地理解专业概念。

二、智能选择的艺术：如何让机器学会"因材施教"

QueryBandits系统的核心创新在于它不是盲目地应用某种固定的改写策略，而是像一个聪明的老师，能够根据学生的具体情况选择最合适的教学方法。这种智能选择机制基于一种叫做"情境强盗算法"的技术框架。

为了理解这个算法的工作原理，我们可以用一个赌场的比喻来类比。设想你走进一个有五台老虎机的赌场，每台机器在不同情况下的中奖概率都不一样。有些机器在天气晴朗时中奖率高，有些在雨天表现更好，有些则在特定时间段更容易中奖。

QueryBandits系统面临的情况就很类似。它有五种"改写机器"（对应五种改写策略），而每个问题就像是一种特定的"天气条件"（通过17维特征向量表示）。系统需要学会在面对不同类型的问题时，选择最可能产生准确答案的改写策略。

算法的学习过程是这样的：每当系统遇到一个新问题，它首先分析问题的特征，然后根据过往经验选择一种改写策略。改写后，系统将新问题提交给AI模型获得答案，然后评估这个答案的质量。如果答案准确，系统就会记住"在这种类型的问题上，这种改写策略是有效的"。如果答案不准确，系统就会降低对该策略的信任度。

评估答案质量的方法也很有意思。研究团队开发了一个综合评分系统，就像是给答案的准确性打分。这个评分系统结合了三个不同的评判标准：首先让另一个AI模型充当"裁判"，判断答案是否正确；其次使用模糊匹配技术，检查答案与标准答案之间的相似度；最后使用词汇重叠度分析，确保答案在用词上与正确答案保持一致。

最终的评分是这三个分数的加权平均，权重分别是0.6、0.3和0.1。研究团队通过大量实验确定了这个最优配比，确保评分系统能够准确反映答案的真实质量。这就像是给一道菜的味道评分时，60%看口感，30%看外观，10%看香气，最终得出一个综合评价。

三、实验验证：从理论到实践的华丽转身

为了验证QueryBandits系统的有效性，研究团队进行了大规模的实验测试，就像是给这个新发明的"智能翻译器"做全面的性能测试。

实验的规模非常庞大，涵盖了13个不同类型的问答数据集，总共包含16种不同的测试场景。这些测试场景就像是不同类型的"考试"，有些考察常识推理能力，有些考察数学计算，有些考察科学知识，还有些考察逻辑分析能力。通过如此全面的测试，研究团队能够确保QueryBandits在各种类型的问题上都能表现出色。

实验设置非常严格。研究团队使用GPT-4o作为底层的AI模型，这是目前最先进的大型语言模型之一。他们让不同的改写策略和算法在相同的问题上进行竞争，就像是让不同的运动员在同一个赛道上比赛，确保比较结果的公平性和可靠性。

实验结果令人印象深刻。最优秀的QueryBandits版本（使用汤普森采样算法）在与不进行任何改写的基准版本对比时，取得了87.5%的胜率。这意味着在大部分情况下，经过智能改写的问题都能让AI给出更准确的答案。

更有意思的是，QueryBandits不仅战胜了不改写的基准版本，还大幅超越了那些使用固定改写策略的方法。与始终使用"释义重写"策略的方法相比，QueryBandits的准确率提升了42.6%；与始终使用"扩展重写"策略的方法相比，提升幅度达到了60.3%。

这些数字背后的含义很重要：它们证明了"一刀切"的改写策略是不可行的。就像医生不能给所有病人开同一种药一样，不同类型的问题需要不同的改写方法。QueryBandits的成功正是因为它学会了"因材施教"，为每个问题选择最合适的处理方式。

研究团队还发现了一个有趣的现象：某些固定的改写策略甚至比不进行任何改写的效果还要差。这就像是用错了钥匙不仅打不开门，反而可能把锁搞坏。这个发现进一步强调了智能选择策略的重要性。

四、深入分析：揭开智能改写的运作机理

为了更深入地理解QueryBandits系统的工作机理，研究团队进行了详细的分析，就像是拆解一台精密仪器来研究每个零件的作用。

分析结果显示，不同类型的问题确实需要不同的改写策略，而且这种需求差异是可以通过语言特征来预测的。比如，当问题包含"领域专业化"特征（即需要专门知识才能理解的术语）时，"扩展重写"策略的效果最好，因为添加解释和背景信息能够帮助AI更好地理解专业概念。相反，对于这类问题使用"简化重写"策略效果很差，因为过度简化会丢失关键的专业信息。

另一个有趣的发现是关于"歧义性"特征。当问题存在多种可能的理解方式时，"消歧重写"策略表现最佳，因为它专门用来澄清模糊表达。但是，如果问题本身就很明确，使用"消歧重写"反而可能引入不必要的复杂性，降低回答质量。

研究团队还通过实验验证了17维特征向量的重要性。当他们移除这些特征信息，让系统盲目选择改写策略时，性能显著下降。这就像是让一个医生在不了解病人症状的情况下开药，效果自然大打折扣。

特别值得注意的是，研究团队发现了不同改写策略之间的"特征敏感性"差异。一些策略对某些语言特征特别敏感，而对其他特征相对不敏感。比如，"释义重写"策略对"可回答性"特征最为敏感，因为只有当问题本身就有明确答案时，简单的词汇替换才能保持问题的有效性。

通过分析大量的实验数据，研究团队绘制出了一幅详细的"策略效果地图"，展示了在不同特征组合下各种策略的表现。这就像是制作了一个精密的导航系统，能够在复杂的问题空间中为系统指出最优路径。

五、技术优势：为什么QueryBandits与众不同

QueryBandits系统的独特之处在于它解决了一个长期困扰AI应用的实际问题：如何在无法修改AI模型内部的情况下提升其性能。

传统的AI改进方法就像是给汽车换发动机，需要拆开机器的内部结构进行调整。这种方法虽然效果可能很好，但对于那些无法获得源代码的商业AI服务来说根本不可行。QueryBandits采用的方法更像是给司机提供更好的驾驶指导，通过改进"输入"来优化"输出"，而不需要碰触AI的内部机制。

这种设计选择具有重要的现实意义。目前市场上最强大的AI模型，如GPT-4、Claude或者Google的Bard，都是作为云服务提供的。用户只能通过API接口与这些模型交互，无法获得模型的源代码或内部参数。QueryBandits的"黑盒子友好"设计让它能够与这些主流AI服务完美配合。

另一个显著优势是系统的自适应学习能力。不像那些需要人工设定规则的传统方法，QueryBandits能够通过与AI模型的实际交互来学习和改进自己的策略。这就像是一个学习型的个人助理，会根据你的使用习惯逐渐了解什么样的问法能够得到更好的回答。

研究团队还特别强调了系统的计算效率。整个改写和选择过程的计算开销很小，平均每个问题只需要大约0.00035美元的API调用费用。这个成本主要包括特征提取、改写操作、答案生成和质量评估等步骤的费用。相对于获得更准确答案带来的价值，这个成本是完全可以接受的。

更重要的是，QueryBandits的改进效果是立竿见影的。不需要重新训练AI模型（这通常需要数周时间和大量计算资源），只要部署QueryBandits系统，就能立即看到问答质量的提升。这种即时性对于商业应用来说具有重要价值。

六、实际应用潜力：从实验室到现实世界

QueryBandits系统的应用潜力远不止停留在学术研究层面，它在现实世界中有着广阔的应用前景。

在客服系统领域，QueryBandits可以显著提升自动问答的准确性。当客户提出问题时，系统可以自动分析问题的特征，选择最合适的改写策略，然后将优化后的问题提交给AI客服系统。这样可以大大减少因为问题理解错误导致的客户不满，提升客服效率和用户体验。

在教育技术应用中，QueryBandits可以帮助学生更有效地与AI学习助手互动。当学生提出学习问题时，系统可以自动将问题改写成更容易让AI理解和回答的形式，从而提供更准确和有用的学习指导。这对于那些还不太会"问问题"的学生来说特别有价值。

在专业咨询服务中，QueryBandits可以作为一个智能中介，帮助非专业用户与专业AI系统进行更有效的沟通。比如在法律咨询、医疗咨询或技术支持等领域，用户往往不知道如何准确表达自己的需求，QueryBandits可以帮助将这些模糊的表达转换成专业AI系统能够准确理解的形式。

对于企业知识管理系统，QueryBandits可以提升员工查询企业知识库的效率。员工提出的问题往往带有很强的个人表达习惯，QueryBandits可以将这些个性化的表达转换成标准化的查询格式，提高知识检索的准确性。

在科研领域，QueryBandits可以帮助研究人员更有效地与AI研究助手互动。科研问题往往具有很高的专业性和复杂性，QueryBandits可以帮助将这些复杂问题重新组织，使得AI系统能够提供更准确和有用的研究建议。

值得注意的是，QueryBandits的模块化设计使得它可以很容易地集成到现有的AI应用系统中。开发人员不需要重写整个系统，只需要在用户输入和AI模型之间添加QueryBandits模块，就能立即获得性能提升。

七、未来展望：智能问答的新篇章

QueryBandits的成功开启了AI问答系统优化的新方向，也为未来的研究和应用指明了道路。

研究团队已经在探索如何扩展系统的功能。目前的版本主要针对文本问答任务，未来可能会扩展到多模态问题，比如包含图片、音频或视频的复合问题。这需要开发新的特征识别方法和改写策略，以处理更复杂的信息类型。

另一个有趣的发展方向是个性化适应。不同用户的提问习惯和表达方式可能有很大差异，未来的QueryBandits可能会为每个用户建立个性化的改写策略，就像是为每个人定制的专属翻译器。

研究团队还在考虑如何将QueryBandits的理念应用到其他AI任务中。比如在图像生成、代码编写或文档翻译等任务中，输入的质量同样会显著影响输出的质量。QueryBandits的核心思想——根据输入特征智能选择处理策略——可能在这些领域也有很大的应用潜力。

从更宏观的角度来看，QueryBandits代表了一种新的AI系统优化思路：不是通过改造AI模型本身来提升性能，而是通过优化与AI模型的交互方式来实现提升。这种"外部优化"的方法可能会成为未来AI应用发展的重要趋势，特别是在商业AI服务越来越普及的背景下。

随着AI技术的不断发展，我们可能会看到更多类似QueryBandits这样的"AI增强器"出现，它们不改变AI模型的核心，而是通过智能化的输入处理、输出优化或交互管理来提升整体性能。这种发展模式不仅更加实用，也为AI技术的普及应用提供了更多可能性。

说到底，QueryBandits的核心价值在于它让我们意识到，与AI的对话不仅仅是简单的问答交互，而是一门需要技巧的沟通艺术。通过掌握这门艺术，我们可以让AI成为更加可靠和有用的助手。在AI技术日益融入我们日常生活的今天，这样的研究成果显得尤为珍贵。它不仅提升了技术性能，更重要的是，它让普通用户也能更好地享受到AI技术带来的便利。对于那些希望深入了解这项研究技术细节的读者，可以通过论文编号arXiv:2602.20332v1查询完整的学术论文。

Q&A

Q1：QueryBandits系统是如何知道要选择哪种改写策略的？

A：QueryBandits通过分析问题的17个语言特征来做决策，就像医生通过检查不同症状来诊断疾病。系统会检查问题是否包含专业术语、是否有歧义表达、语法结构是否复杂等，然后根据以往的经验选择最有效的改写方法。随着使用次数增加，系统会越来越准确地知道什么样的问题适合什么样的改写策略。

Q2：普通用户可以使用QueryBandits来提升与AI对话的效果吗？

A：目前QueryBandits还处于研究阶段，普通用户暂时无法直接使用。不过这项技术很可能会被集成到未来的AI应用中，用户可能在不知不觉中就享受到了这种智能改写带来的好处。研究团队设计了模块化的系统架构，使得它可以很容易地添加到现有的AI产品中。

Q3：QueryBandits能够处理中文问题吗？

A：论文中的实验主要基于英文数据集，但QueryBandits的核心思路——根据语言特征选择改写策略——理论上适用于任何语言。不过要处理中文问题，需要重新设计适合中文语法和表达习惯的特征识别系统和改写策略，这是一个值得进一步研究的方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.