SAP团队：如何提升AI工具识别精度？|调用|消歧|大模型|ai工具|sap团队

分享至

这项由SAP实验室的Ashutosh Hathidara、Julien Yu和Sebastian Schreiber共同完成的研究发表于2025年7月，论文标题为《Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky》。有兴趣深入了解的读者可以通过arXiv:2507.03336v1访问完整论文。

在现代企业环境中，AI助手正变得越来越重要，它们需要能够调用各种企业API来帮助员工完成工作。然而，目前的AI助手面临一个严重问题：当遇到功能相似的工具时，它们往往会选错工具或者要求不够明确的参数，这在企业环境中可能造成严重后果。就像一个新员工初来乍到时，面对公司里功能相似的系统和工具时经常会搞混一样，AI助手也会在面对企业中成千上万个相似API时感到困惑。

研究团队发现了一个有趣的现象：现有的工具调用基准测试就像是给AI助手出的"开卷考试"——所有信息都已经准备好，AI只需要按部就班地执行即可。但现实中的企业场景更像是"闭卷考试"，用户的请求往往模糊不清，缺少关键信息，AI助手需要主动询问来澄清用户意图并收集必要参数。这种差距导致现有的AI助手在实际企业应用中表现不佳。

为了解决这个问题，研究团队开发了一个名为DIAFORGE（对话框架用于有机响应生成与评估）的创新系统。这个系统就像是专门为AI助手设计的"企业实习培训营"，通过三个阶段的训练让AI助手学会在复杂的企业环境中准确识别和调用合适的工具。

研究团队还构建了一个名为DIABENCH的动态评估基准，这个基准不同于传统的静态测试，它会实时模拟真实的用户交互场景，就像让AI助手参加真实的工作面试一样。实验结果显示，经过DIAFORGE训练的模型在工具调用成功率方面比GPT-4o高出27个百分点，比Claude-3.5-Sonnet高出49个百分点，这是一个相当显著的提升。

一、企业AI助手面临的现实挑战

现代企业就像一座巨大的工具库，里面存放着成千上万个不同的API工具。这些工具往往功能相似但又有细微差别，就像工具箱里有很多型号相近的螺丝刀，每个都有特定的用途。比如，一个企业可能同时拥有CreateCustomer（创建客户）和CreateUser（创建用户）这两个API，虽然名字相似，但实际功能和所需参数可能完全不同。

传统的AI助手在面对这种情况时就像一个没有经验的实习生，经常会选错工具或者在参数不完整的情况下盲目执行操作。这种错误在企业环境中可能造成严重后果，比如误删重要数据、创建错误订单或者泄露敏感信息。更糟糕的是，企业用户在提出请求时往往使用内部术语或缩写，而且经常省略重要信息，这让AI助手的任务变得更加困难。

研究团队深入分析了现有工具调用基准测试的局限性。这些测试就像让学生做已经准备好答案的练习题，每个测试用例都包含预先写好的对话内容，AI只需要按照既定脚本执行即可，不需要处理任何意外情况。然而，真实的企业场景完全不同，用户的请求往往含糊不清，需要AI主动询问来澄清意图和收集缺失的信息。

这种差距导致了一个严重问题：即使在静态测试中表现优秀的AI模型，在面对真实的多轮对话和模糊请求时也会频繁出错。就像一个只会按照食谱做菜的厨师，当顾客说"我想要一道有肉的菜"时就不知道该怎么办了，因为菜谱上没有写如何处理这种模糊的要求。

二、DIAFORGE：AI助手的"实战训练营"

为了解决这些问题，研究团队设计了DIAFORGE系统，这是一个专门针对工具调用中的歧义消解问题而设计的三阶段训练流程。整个系统的设计理念就像为AI助手建立了一个完整的企业实习项目，从数据生成到模型训练再到实战评估，每一步都紧密围绕着提高AI在复杂企业环境中的表现。

DIAFORGE的第一个核心组件是UTC-GEN（统一工具调用生成器），这是一个专门用于合成高质量训练对话的多智能体引擎。这个引擎的工作方式非常巧妙：它首先选择一个目标工具作为"正确答案"，然后故意添加几个功能相似的"干扰工具"，就像在考试中设置迷惑性选项一样。接着，系统会模拟一个企业用户角色，这个用户会故意提出模糊不清的请求，迫使AI助手通过提问来逐步澄清用户意图。

在对话生成过程中，系统采用了两阶段策略。第一阶段是工具选择阶段，用户代理会故意提供模糊的信息，只给出足够让AI助手缩小候选工具范围的线索，但不足以让它直接确定正确工具。这就像玩猜谜游戏一样，AI助手需要通过提问来逐步排除错误选项。第二阶段是参数收集阶段，一旦工具确定后，AI助手需要收集执行该工具所需的所有必要参数，这个过程也需要通过多轮对话来完成。

为了确保生成的训练数据质量，DIAFORGE采用了严格的多层验证机制。每个生成的对话都需要通过格式验证器、相关性验证器和LLM评估器的检查，只有完全符合要求的对话才会被纳入训练数据集。这就像质量控制流水线一样，确保每个训练样本都达到标准。

三、突破性的动态评估方法

传统的AI评估方法就像让学生做标准化考试——所有题目都是固定的，答案也是预先确定的。但DIAFORGE引入了一种全新的动态评估方法，这种方法更像是让AI助手参加实际的工作面试，需要实时应对各种意外情况。

在动态评估中，AI助手被放置在一个完整的对话循环中，需要与模拟的企业用户进行真实交互。这个过程中，用户的响应不是预先写好的脚本，而是根据AI助手的回答实时生成的。这意味着AI助手的每一个错误都可能导致对话走向错误的方向，就像现实中一样，错误会产生连锁反应。

研究团队设计了DIABENCH评估基准，包含119个来自真实生产环境的工具，每个都配有对应的多轮推理标注对话。这些工具都来自实际的企业助手系统，具有很高的现实意义。评估过程中，系统会跟踪多个关键指标：准确率（ACC）衡量AI是否选择了正确的工具并提供了完整准确的参数；假阳性工具调用率（FTR）捕捉AI错误调用工具的情况；工具调用抽象率（TAR）反映AI未能完成工具调用任务的情况。

为了解决动态评估中用户代理可能出现幻觉的问题，研究团队还开发了一套多采样投票机制。系统会为每个用户话语生成多个候选回应，然后通过投票机制选择最佳回应，这大大提高了评估的稳定性和可靠性。

四、令人瞩目的实验结果

研究团队在六个不同规模的开源模型上验证了DIAFORGE方法的有效性，包括从3B到70B参数的各种模型。实验结果显示，DIAFORGE训练显著提升了所有模型的工具调用能力，而且这种提升在动态评估中比在静态评估中更加明显，这证明了该方法确实解决了真实应用场景中的核心问题。

最引人注目的结果来自与当前最先进的商业模型的比较。在动态评估中，经过DIAFORGE训练的Llama-3.3-Nemotron-49B模型达到了89%的准确率，而GPT-4o在相同测试中只有62%的准确率，Claude-3.5-Sonnet更是只有40%的准确率。这意味着经过专门训练的开源模型在企业工具调用任务上已经超越了目前最好的商业模型。

有趣的是，研究发现模型大小并不是决定性能的唯一因素。经过DIAFORGE训练的较小模型（如Llama-3.2-3B）在某些情况下甚至比未经训练的大型模型表现更好。这说明针对特定任务的专门训练比简单增加模型参数更加有效，就像一个经验丰富的专科医生往往比全科医生在特定领域表现更出色一样。

研究团队还发现，DIAFORGE训练不仅提高了工具调用的准确性，还显著降低了错误调用和调用失败的风险。在企业环境中，这种风险降低具有重要意义，因为错误的工具调用可能造成数据损失、安全漏洞或业务中断等严重后果。

五、技术创新的深层价值

DIAFORGE方法的创新不仅体现在技术层面，更重要的是它代表了AI助手训练理念的根本转变。传统方法关注的是让AI学会执行预定义的任务，而DIAFORGE关注的是让AI学会在不确定性中做出正确决策。这种转变就像从训练士兵执行标准操作程序转向训练指挥官在复杂战场环境中做出战术决策。

该方法的另一个重要贡献是提供了一个完整的企业级AI助手开发框架。从数据生成到模型训练再到评估部署，DIAFORGE提供了端到端的解决方案。研究团队还公开了包含约5000个生产级企业API规范及其对应对话的数据集，为后续研究提供了宝贵资源。

在实际应用方面，DIAFORGE训练的模型表现出了更好的对话连贯性和用户体验。这些模型不会在信息不足时贸然执行操作，而是会主动寻求澄清，这种行为模式更符合人类期望，也更安全可靠。

研究还揭示了一个重要发现：专门的消歧训练可以显著提高AI助手在复杂多轮对话中的表现。这对于开发真正实用的企业AI助手具有重要指导意义，说明我们需要将更多注意力放在处理歧义和不确定性上，而不是仅仅追求在标准化测试中的高分。

六、面向未来的意义与展望

DIAFORGE研究的意义远远超越了技术本身，它为企业AI助手的发展指明了新方向。在数字化转型的浪潮中，企业迫切需要能够理解复杂业务需求、准确执行操作的AI助手。DIAFORGE提供的解决方案不仅提高了AI助手的能力，更重要的是提高了它们的可靠性和安全性。

从更广阔的视角来看，这项研究代表了人工智能从"执行指令"向"理解意图"的重要进步。传统AI系统更像是高级计算器，只能按照明确指令执行操作；而经过DIAFORGE训练的AI系统更像是有经验的助理，能够理解模糊需求并主动寻求澄清。

研究团队也坦诚地指出了当前方法的局限性。比如，DIAFORGE目前主要关注单工具消歧，未来需要扩展到多工具组合使用的场景。另外，动态评估虽然更贴近现实，但需要人工验证来排除用户代理的幻觉，这在大规模应用中可能成为瓶颈。

尽管存在这些挑战，DIAFORGE为企业AI助手的发展奠定了坚实基础。随着企业对AI助手需求的不断增长，这种专注于消歧和安全性的训练方法将变得越来越重要。可以预见，未来的企业AI助手将不再是简单的命令执行器，而是真正能够理解业务需求、主动消除歧义、安全可靠地完成复杂任务的智能伙伴。

说到底，DIAFORGE研究解决的是一个看似简单却极其重要的问题：如何让AI助手在面对不确定性时做出正确选择。在企业环境中，这种能力的价值不可估量。当AI助手能够准确理解用户意图、正确选择工具、安全执行操作时，它们就真正成为了企业数字化转型的有力助手。这项研究为实现这一愿景迈出了重要一步，相信随着技术的不断完善，我们很快就能看到更加智能、可靠的企业AI助手走进现实。

Q&A

Q1：DIAFORGE是什么？它解决了什么问题？ A：DIAFORGE是SAP实验室开发的AI助手训练系统，专门解决企业环境中AI助手容易选错工具的问题。它通过三阶段训练让AI学会在面对相似工具时主动询问用户来澄清需求，避免盲目执行错误操作。

Q2：为什么企业AI助手容易选错工具？ A：企业中往往有成千上万个功能相似的API工具，比如CreateCustomer和CreateUser，名字相似但功能不同。而且用户请求通常模糊不清，缺少关键信息，现有AI助手缺乏主动澄清的能力，就容易选错工具或参数。

Q3：DIAFORGE训练的AI助手效果如何？ A：实验显示效果非常显著。经过DIAFORGE训练的模型在工具调用准确率上比GPT-4o高27个百分点，比Claude-3.5-Sonnet高49个百分点，在企业场景的实际应用中表现远超当前最先进的商业模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.