网易首页 > 网易号 > 正文 申请入驻

摩根大通AI研究院开发智能查询改写系统,让AI回答更准确

0
分享至


这项由摩根大通AI研究院的研究团队完成的突破性工作发表于2026年国际学习表征会议(ICLR 2026),论文编号为arXiv:2602.20332v1。研究团队开发了一个名为QueryBandits的智能系统,能够根据问题的语言特征自动选择最佳的问题改写策略,显著提高大型语言模型回答问题的准确性。

在我们与人工智能的日常互动中,经常会遇到这样的困扰:明明问了一个很清楚的问题,AI却给出了错误或者胡编乱造的答案。这就像是你问路人"最近的银行在哪里",对方却指向了一个根本不存在的地方。这种现象被研究者称为"幻觉",是目前AI技术面临的最大挑战之一。

更让人头疼的是,现在市场上主流的AI模型,比如GPT-4或者Claude,都是"黑盒子"式的服务。你只能向它们提问,但无法像修理汽车引擎那样打开hood去调整内部设置。这就像是你租了一辆车,发现方向盘有点问题,但你既不能拆开方向盘检查,也不能调整内部机制,只能通过改变自己的握方向盘的方式来适应。

摩根大通的研究团队就是在这样的背景下开始了他们的探索之旅。他们发现了一个有趣的现象:同一个问题,如果换个说法来问,AI的回答准确性会有天壤之别。比如问"6到74/5之间有多少个整数",AI可能会给出错误答案,但如果把问题展开为"给定数学表达式74/5(表示74除以5),你能计算出从6开始到这个除法结果之间包含多少个完整数字吗",AI就能给出正确答案。

这个发现让研究团队意识到,问题的"问法"本身就像是一把钥匙,不同的钥匙能打开不同质量的答案门。但这里面有个关键难题:没有一把万能钥匙能适用于所有类型的问题。有时候你需要把问题说得更详细,有时候需要简化表达,有时候需要消除歧义,每种情况都不一样。

一、智能改写的奥秘:让AI读懂问题的"潜台词"

研究团队的核心洞察是:每个问题都有自己的"性格特征",就像每个人都有自己的性格一样。有些问题天生就模糊不清,容易引起误解;有些问题包含了太多专业术语,普通AI理解起来有困难;还有些问题虽然表面看起来简单,但实际上隐藏了复杂的逻辑关系。

为了让计算机能够识别问题的这些"性格特征",研究团队开发了一个包含17个维度的特征识别系统。这就像是给每个问题做了一次全面的"体检",从语言结构、逻辑复杂度、专业程度等多个角度来分析问题的特点。

比如说,系统会检查问题中是否包含"这个"、"那个"这样的指代词(研究者称为"回指现象"),因为这类词汇往往会让AI搞不清楚究竟指的是什么。系统还会分析问题是否包含多重嵌套的从句结构,因为过于复杂的语法会增加AI理解的难度。此外,系统还会判断问题是否需要专门领域的知识才能回答,比如法律或医学问题。

基于这些特征分析,QueryBandits系统就像一个经验丰富的翻译,能够为每个问题选择最合适的"改写策略"。系统总共有五种不同的改写方式,每种都有自己的专长领域。

第一种策略叫做"释义重写",就像是用同义词替换原问题中的表达,但保持意思完全不变。这种方法特别适用于那些表达方式可能引起AI误解的问题。第二种是"简化重写",把复杂冗长的句子拆解成简单直接的表达,就像把绕口令改成普通话。

第三种策略是"消歧重写",专门处理那些含义模糊的问题。系统会把"这个"、"那个"这样的词替换成具体的名词,把模糊的时间表达改成精确的日期。第四种是"扩展重写",为过于简略的问题补充必要的背景信息和限定条件,就像是给电报式的短句补充完整的上下文。

最后一种是"术语澄清重写",专门针对包含专业术语的问题,在保持专业性的同时添加简短的解释,帮助AI更好地理解专业概念。

二、智能选择的艺术:如何让机器学会"因材施教"

QueryBandits系统的核心创新在于它不是盲目地应用某种固定的改写策略,而是像一个聪明的老师,能够根据学生的具体情况选择最合适的教学方法。这种智能选择机制基于一种叫做"情境强盗算法"的技术框架。

为了理解这个算法的工作原理,我们可以用一个赌场的比喻来类比。设想你走进一个有五台老虎机的赌场,每台机器在不同情况下的中奖概率都不一样。有些机器在天气晴朗时中奖率高,有些在雨天表现更好,有些则在特定时间段更容易中奖。

QueryBandits系统面临的情况就很类似。它有五种"改写机器"(对应五种改写策略),而每个问题就像是一种特定的"天气条件"(通过17维特征向量表示)。系统需要学会在面对不同类型的问题时,选择最可能产生准确答案的改写策略。

算法的学习过程是这样的:每当系统遇到一个新问题,它首先分析问题的特征,然后根据过往经验选择一种改写策略。改写后,系统将新问题提交给AI模型获得答案,然后评估这个答案的质量。如果答案准确,系统就会记住"在这种类型的问题上,这种改写策略是有效的"。如果答案不准确,系统就会降低对该策略的信任度。

评估答案质量的方法也很有意思。研究团队开发了一个综合评分系统,就像是给答案的准确性打分。这个评分系统结合了三个不同的评判标准:首先让另一个AI模型充当"裁判",判断答案是否正确;其次使用模糊匹配技术,检查答案与标准答案之间的相似度;最后使用词汇重叠度分析,确保答案在用词上与正确答案保持一致。

最终的评分是这三个分数的加权平均,权重分别是0.6、0.3和0.1。研究团队通过大量实验确定了这个最优配比,确保评分系统能够准确反映答案的真实质量。这就像是给一道菜的味道评分时,60%看口感,30%看外观,10%看香气,最终得出一个综合评价。

三、实验验证:从理论到实践的华丽转身

为了验证QueryBandits系统的有效性,研究团队进行了大规模的实验测试,就像是给这个新发明的"智能翻译器"做全面的性能测试。

实验的规模非常庞大,涵盖了13个不同类型的问答数据集,总共包含16种不同的测试场景。这些测试场景就像是不同类型的"考试",有些考察常识推理能力,有些考察数学计算,有些考察科学知识,还有些考察逻辑分析能力。通过如此全面的测试,研究团队能够确保QueryBandits在各种类型的问题上都能表现出色。

实验设置非常严格。研究团队使用GPT-4o作为底层的AI模型,这是目前最先进的大型语言模型之一。他们让不同的改写策略和算法在相同的问题上进行竞争,就像是让不同的运动员在同一个赛道上比赛,确保比较结果的公平性和可靠性。

实验结果令人印象深刻。最优秀的QueryBandits版本(使用汤普森采样算法)在与不进行任何改写的基准版本对比时,取得了87.5%的胜率。这意味着在大部分情况下,经过智能改写的问题都能让AI给出更准确的答案。

更有意思的是,QueryBandits不仅战胜了不改写的基准版本,还大幅超越了那些使用固定改写策略的方法。与始终使用"释义重写"策略的方法相比,QueryBandits的准确率提升了42.6%;与始终使用"扩展重写"策略的方法相比,提升幅度达到了60.3%。

这些数字背后的含义很重要:它们证明了"一刀切"的改写策略是不可行的。就像医生不能给所有病人开同一种药一样,不同类型的问题需要不同的改写方法。QueryBandits的成功正是因为它学会了"因材施教",为每个问题选择最合适的处理方式。

研究团队还发现了一个有趣的现象:某些固定的改写策略甚至比不进行任何改写的效果还要差。这就像是用错了钥匙不仅打不开门,反而可能把锁搞坏。这个发现进一步强调了智能选择策略的重要性。

四、深入分析:揭开智能改写的运作机理

为了更深入地理解QueryBandits系统的工作机理,研究团队进行了详细的分析,就像是拆解一台精密仪器来研究每个零件的作用。

分析结果显示,不同类型的问题确实需要不同的改写策略,而且这种需求差异是可以通过语言特征来预测的。比如,当问题包含"领域专业化"特征(即需要专门知识才能理解的术语)时,"扩展重写"策略的效果最好,因为添加解释和背景信息能够帮助AI更好地理解专业概念。相反,对于这类问题使用"简化重写"策略效果很差,因为过度简化会丢失关键的专业信息。

另一个有趣的发现是关于"歧义性"特征。当问题存在多种可能的理解方式时,"消歧重写"策略表现最佳,因为它专门用来澄清模糊表达。但是,如果问题本身就很明确,使用"消歧重写"反而可能引入不必要的复杂性,降低回答质量。

研究团队还通过实验验证了17维特征向量的重要性。当他们移除这些特征信息,让系统盲目选择改写策略时,性能显著下降。这就像是让一个医生在不了解病人症状的情况下开药,效果自然大打折扣。

特别值得注意的是,研究团队发现了不同改写策略之间的"特征敏感性"差异。一些策略对某些语言特征特别敏感,而对其他特征相对不敏感。比如,"释义重写"策略对"可回答性"特征最为敏感,因为只有当问题本身就有明确答案时,简单的词汇替换才能保持问题的有效性。

通过分析大量的实验数据,研究团队绘制出了一幅详细的"策略效果地图",展示了在不同特征组合下各种策略的表现。这就像是制作了一个精密的导航系统,能够在复杂的问题空间中为系统指出最优路径。

五、技术优势:为什么QueryBandits与众不同

QueryBandits系统的独特之处在于它解决了一个长期困扰AI应用的实际问题:如何在无法修改AI模型内部的情况下提升其性能。

传统的AI改进方法就像是给汽车换发动机,需要拆开机器的内部结构进行调整。这种方法虽然效果可能很好,但对于那些无法获得源代码的商业AI服务来说根本不可行。QueryBandits采用的方法更像是给司机提供更好的驾驶指导,通过改进"输入"来优化"输出",而不需要碰触AI的内部机制。

这种设计选择具有重要的现实意义。目前市场上最强大的AI模型,如GPT-4、Claude或者Google的Bard,都是作为云服务提供的。用户只能通过API接口与这些模型交互,无法获得模型的源代码或内部参数。QueryBandits的"黑盒子友好"设计让它能够与这些主流AI服务完美配合。

另一个显著优势是系统的自适应学习能力。不像那些需要人工设定规则的传统方法,QueryBandits能够通过与AI模型的实际交互来学习和改进自己的策略。这就像是一个学习型的个人助理,会根据你的使用习惯逐渐了解什么样的问法能够得到更好的回答。

研究团队还特别强调了系统的计算效率。整个改写和选择过程的计算开销很小,平均每个问题只需要大约0.00035美元的API调用费用。这个成本主要包括特征提取、改写操作、答案生成和质量评估等步骤的费用。相对于获得更准确答案带来的价值,这个成本是完全可以接受的。

更重要的是,QueryBandits的改进效果是立竿见影的。不需要重新训练AI模型(这通常需要数周时间和大量计算资源),只要部署QueryBandits系统,就能立即看到问答质量的提升。这种即时性对于商业应用来说具有重要价值。

六、实际应用潜力:从实验室到现实世界

QueryBandits系统的应用潜力远不止停留在学术研究层面,它在现实世界中有着广阔的应用前景。

在客服系统领域,QueryBandits可以显著提升自动问答的准确性。当客户提出问题时,系统可以自动分析问题的特征,选择最合适的改写策略,然后将优化后的问题提交给AI客服系统。这样可以大大减少因为问题理解错误导致的客户不满,提升客服效率和用户体验。

在教育技术应用中,QueryBandits可以帮助学生更有效地与AI学习助手互动。当学生提出学习问题时,系统可以自动将问题改写成更容易让AI理解和回答的形式,从而提供更准确和有用的学习指导。这对于那些还不太会"问问题"的学生来说特别有价值。

在专业咨询服务中,QueryBandits可以作为一个智能中介,帮助非专业用户与专业AI系统进行更有效的沟通。比如在法律咨询、医疗咨询或技术支持等领域,用户往往不知道如何准确表达自己的需求,QueryBandits可以帮助将这些模糊的表达转换成专业AI系统能够准确理解的形式。

对于企业知识管理系统,QueryBandits可以提升员工查询企业知识库的效率。员工提出的问题往往带有很强的个人表达习惯,QueryBandits可以将这些个性化的表达转换成标准化的查询格式,提高知识检索的准确性。

在科研领域,QueryBandits可以帮助研究人员更有效地与AI研究助手互动。科研问题往往具有很高的专业性和复杂性,QueryBandits可以帮助将这些复杂问题重新组织,使得AI系统能够提供更准确和有用的研究建议。

值得注意的是,QueryBandits的模块化设计使得它可以很容易地集成到现有的AI应用系统中。开发人员不需要重写整个系统,只需要在用户输入和AI模型之间添加QueryBandits模块,就能立即获得性能提升。

七、未来展望:智能问答的新篇章

QueryBandits的成功开启了AI问答系统优化的新方向,也为未来的研究和应用指明了道路。

研究团队已经在探索如何扩展系统的功能。目前的版本主要针对文本问答任务,未来可能会扩展到多模态问题,比如包含图片、音频或视频的复合问题。这需要开发新的特征识别方法和改写策略,以处理更复杂的信息类型。

另一个有趣的发展方向是个性化适应。不同用户的提问习惯和表达方式可能有很大差异,未来的QueryBandits可能会为每个用户建立个性化的改写策略,就像是为每个人定制的专属翻译器。

研究团队还在考虑如何将QueryBandits的理念应用到其他AI任务中。比如在图像生成、代码编写或文档翻译等任务中,输入的质量同样会显著影响输出的质量。QueryBandits的核心思想——根据输入特征智能选择处理策略——可能在这些领域也有很大的应用潜力。

从更宏观的角度来看,QueryBandits代表了一种新的AI系统优化思路:不是通过改造AI模型本身来提升性能,而是通过优化与AI模型的交互方式来实现提升。这种"外部优化"的方法可能会成为未来AI应用发展的重要趋势,特别是在商业AI服务越来越普及的背景下。

随着AI技术的不断发展,我们可能会看到更多类似QueryBandits这样的"AI增强器"出现,它们不改变AI模型的核心,而是通过智能化的输入处理、输出优化或交互管理来提升整体性能。这种发展模式不仅更加实用,也为AI技术的普及应用提供了更多可能性。

说到底,QueryBandits的核心价值在于它让我们意识到,与AI的对话不仅仅是简单的问答交互,而是一门需要技巧的沟通艺术。通过掌握这门艺术,我们可以让AI成为更加可靠和有用的助手。在AI技术日益融入我们日常生活的今天,这样的研究成果显得尤为珍贵。它不仅提升了技术性能,更重要的是,它让普通用户也能更好地享受到AI技术带来的便利。对于那些希望深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2602.20332v1查询完整的学术论文。

Q&A

Q1:QueryBandits系统是如何知道要选择哪种改写策略的?

A:QueryBandits通过分析问题的17个语言特征来做决策,就像医生通过检查不同症状来诊断疾病。系统会检查问题是否包含专业术语、是否有歧义表达、语法结构是否复杂等,然后根据以往的经验选择最有效的改写方法。随着使用次数增加,系统会越来越准确地知道什么样的问题适合什么样的改写策略。

Q2:普通用户可以使用QueryBandits来提升与AI对话的效果吗?

A:目前QueryBandits还处于研究阶段,普通用户暂时无法直接使用。不过这项技术很可能会被集成到未来的AI应用中,用户可能在不知不觉中就享受到了这种智能改写带来的好处。研究团队设计了模块化的系统架构,使得它可以很容易地添加到现有的AI产品中。

Q3:QueryBandits能够处理中文问题吗?

A:论文中的实验主要基于英文数据集,但QueryBandits的核心思路——根据语言特征选择改写策略——理论上适用于任何语言。不过要处理中文问题,需要重新设计适合中文语法和表达习惯的特征识别系统和改写策略,这是一个值得进一步研究的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楚钦晋级WTT新加坡大满贯男单决赛

王楚钦晋级WTT新加坡大满贯男单决赛

极目新闻
2026-03-01 16:32:36
美伊冲突引市场巨震,油价或历史性飙升,未来48小时决定金价走势,比特币近15万人爆仓

美伊冲突引市场巨震,油价或历史性飙升,未来48小时决定金价走势,比特币近15万人爆仓

21世纪经济报道
2026-02-28 23:56:17
哈梅内伊四位亲属据称在袭击中身亡!伊南部一体育馆遭空袭,20名女排球员丧生,伊方:科威特美海军基地所有基础设施被摧毁,大量美军伤亡

哈梅内伊四位亲属据称在袭击中身亡!伊南部一体育馆遭空袭,20名女排球员丧生,伊方:科威特美海军基地所有基础设施被摧毁,大量美军伤亡

每日经济新闻
2026-03-01 09:22:18
一只都不行,湖北男子采蘑菇发现20厘米的洞,刨洞抓2只熏成腊肉

一只都不行,湖北男子采蘑菇发现20厘米的洞,刨洞抓2只熏成腊肉

万象硬核本尊
2026-02-28 19:08:40
又一个“扶弟魔”!订婚宴上彩礼临时涨价38万,男方被逼直接退婚

又一个“扶弟魔”!订婚宴上彩礼临时涨价38万,男方被逼直接退婚

丫头舫
2026-02-28 11:22:55
伊朗发射法塔赫高超音速导弹

伊朗发射法塔赫高超音速导弹

财联社
2026-02-28 23:52:20
伊朗轰炸:抢了聚光灯,懂王很生气

伊朗轰炸:抢了聚光灯,懂王很生气

美第奇效应
2026-02-28 17:19:07
人形机器人概念股火了,这路资金大幅加仓!

人形机器人概念股火了,这路资金大幅加仓!

数据宝
2026-03-01 13:40:27
“我已泪洒机场!”多航班返航,中东改签长龙数百米

“我已泪洒机场!”多航班返航,中东改签长龙数百米

小李子体育
2026-03-01 14:09:47
为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

Ck的蜜糖
2026-02-28 01:00:58
对内脱离群众,对美心存幻想——伊朗神权政治失败的原因与教训

对内脱离群众,对美心存幻想——伊朗神权政治失败的原因与教训

星空区块链
2026-03-01 12:24:25
英军战机中东紧急升空,美以肆意空袭后,斯塔默为何急于划清界线?

英军战机中东紧急升空,美以肆意空袭后,斯塔默为何急于划清界线?

Ck的蜜糖
2026-03-01 16:16:53
“备胎”浮出水面:谁将接住哈梅内伊的权杖?

“备胎”浮出水面:谁将接住哈梅内伊的权杖?

识局Insight
2026-03-01 13:25:29
为什么《金瓶梅》里的人都像疯了一样纵欲?

为什么《金瓶梅》里的人都像疯了一样纵欲?

乐言悦读
2026-02-23 21:25:15
日本能源面临“灭绝”?高市意外批下16亿资金,普京连夜转变枪口

日本能源面临“灭绝”?高市意外批下16亿资金,普京连夜转变枪口

知法而形
2026-03-01 10:02:37
伊朗将由总统等三人领导:医学出身总统是单亲爸爸,三天前表示伊朗不会走核武之路

伊朗将由总统等三人领导:医学出身总统是单亲爸爸,三天前表示伊朗不会走核武之路

红星新闻
2026-03-01 13:37:22
医保卡沦为“药贩子”敛财工具,2026年医保监管再升级

医保卡沦为“药贩子”敛财工具,2026年医保监管再升级

21世纪经济报道
2026-02-28 12:41:05
突发重磅!周末黑天鹅突袭,影响哪些板块?下周又该何去何从?

突发重磅!周末黑天鹅突袭,影响哪些板块?下周又该何去何从?

虎哥闲聊
2026-03-01 08:37:38
为了拯救沙化草原,我们一口气养了5万只鸡,结果很快被打脸

为了拯救沙化草原,我们一口气养了5万只鸡,结果很快被打脸

果壳
2026-02-26 16:26:23
伊朗4000枚导弹蓄势待发,对美以疯狂报复已开始

伊朗4000枚导弹蓄势待发,对美以疯狂报复已开始

看尽人间百态
2026-03-01 16:22:25
2026-03-01 17:16:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1970文章数 162关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

哈梅内伊"回归天国" 美以如何确认其行踪引发内鬼猜测

头条要闻

哈梅内伊"回归天国" 美以如何确认其行踪引发内鬼猜测

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

艺术
亲子
房产
本地
军事航空

艺术要闻

2025第四届“精神·图式”——中国写意油画双年展 | 入选油画选刊

亲子要闻

一起长大的岁月,我们是彼此最甜蜜的负担,也是最坚实的依靠

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

本地新闻

津南好·四时总相宜

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版