ServiceNow团队让网页机器人省下80%的阅读时间

分享至

这项研究来自ServiceNow Research、Mila魁北克AI研究所、McGill大学、蒙特利尔理工学院等多个知名机构的联合团队，第一作者Imene Kerboua来自里昂国立应用科学学院和Esker公司，研究团队包括Sahar Omidi Shayegan、Megh Thakkar、Xing Han Lù等多位研究人员，该研究于2025年10月发表在arXiv预印本平台，论文编号为arXiv:2510.03204v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象一下你正在阅读一本厚厚的百科全书，要从中找到解决特定问题的关键信息。如果每次都要从头到尾仔细阅读每一页，那会耗费大量时间和精力。现在，研究人员面临着类似的挑战，只不过他们要解决的是让人工智能机器人学会高效浏览网页的问题。

当今的AI网页机器人就像那个必须阅读整本百科全书的学生一样，它们在执行任务时需要处理网页上的海量信息。一个普通的现代网页可能包含数万个文字符号，这对AI来说就像要求一个人在短时间内消化一整本厚重的教科书。更糟糕的是，这种"全文通读"的方式不仅效率低下，成本高昂，还存在安全风险——恶意网站可能在页面中藏入"毒药"，诱骗AI做出错误行为。

ServiceNow研究团队开发了一个名为FocusAgent的智能系统，它的核心思想就像训练一个优秀的图书管理员，能够快速定位和提取最相关的信息。这个系统的巧妙之处在于使用了一个"小助手"AI来充当筛选员，专门负责从繁杂的网页内容中挑选出完成任务真正需要的部分，然后再交给"主力"AI来执行具体操作。

研究团队的实验结果相当令人鼓舞。在WorkArena和WebArena这两个专业测试平台上，FocusAgent不仅保持了与传统方法相同的任务完成率，还将需要处理的信息量减少了超过50%，在某些情况下甚至能减少80%以上。这就好比原本需要阅读100页文档的工作，现在只需要阅读20页就能获得同样的效果。

更重要的是，这种"精读"策略显著增强了AI系统的安全性。当遇到带有恶意攻击内容的网页时，FocusAgent能够像一个警觉的保安一样，自动过滤掉那些可疑的"毒药"内容，将攻击成功率从原来的80%以上降低到仅仅1%左右，同时几乎不影响正常任务的完成。

一、网页机器人的"阅读理解"难题

现代网页就像一座信息迷宫，充满了各种各样的元素：导航菜单、广告横幅、用户评论、产品介绍、购买按钮等等。对于人类用户来说，我们能够凭借经验和直觉快速识别出哪些内容与当前目标相关，哪些可以直接忽略。但对于AI机器人而言，这种看似简单的"筛选"能力却是一个巨大的挑战。

目前的网页机器人通常采用一种名为"可访问性树"（AxTree）的技术来理解网页结构。这种技术就像给网页制作了一份"目录清单"，比直接分析网页原始代码要高效约10倍。然而，即便如此，这份"清单"往往仍然包含数万个条目，远超AI系统的理想处理范围。

更棘手的问题在于，现有的信息筛选方法存在明显缺陷。一些系统试图通过语义相似度来筛选内容，就像通过关键词搜索来找资料一样，但这种方法往往会遗漏那些表面上看起来不相关，实际上却对任务完成至关重要的信息。另一些系统则采用简单粗暴的"截断"策略，直接丢弃页面底部的内容，这种做法就像撕掉书的后半部分一样，可能会错过关键信息。

传统方法的另一个重大缺陷是缺乏对网页"状态"的理解。网页不是静态的文档，而是会根据用户操作动态变化的交互界面。当用户点击某个按钮或填写表单后，页面内容会发生相应变化，这些变化反映了操作的结果和当前的页面状态。传统的筛选方法往往忽视了这种动态特性，无法准确理解哪些信息对后续操作具有重要意义。

安全性问题则为这一挑战增添了新的复杂性。恶意网站可能在页面中植入精心设计的"提示注入攻击"，这些攻击内容对普通用户不可见，但会误导AI系统执行错误操作。这就像在路标上贴上虚假指示，让导航系统把司机带向错误的目的地。现有的防护措施通常采用"一刀切"的策略，一旦检测到攻击就立即停止所有操作，这种做法虽然安全，但也导致了很多正常任务无法完成。

二、FocusAgent的"智能筛选"机制

FocusAgent的核心创新在于引入了一个专门的"筛选助手"，这个助手是一个轻量级的大语言模型，专门负责从网页内容中提取最相关的信息。这种设计就像在图书馆里配备了一位经验丰富的研究助理，他能够根据你的研究目标快速定位到最有用的资料，而不需要你亲自翻阅每一本书。

整个系统采用两阶段工作流程。在第一阶段，筛选助手接收完整的网页信息，包括当前的任务目标和可选的操作历史记录，然后运用自己的"专业知识"来判断哪些内容与任务相关。这个过程类似于一位资深编辑在审阅稿件时，能够敏锐地识别出哪些段落对文章主题至关重要，哪些只是装饰性内容。

筛选助手在工作时会为网页的每一行内容分配一个唯一的编号，就像给图书馆的每本书编上索书号一样。然后，它会仔细分析任务目标，结合当前页面的状态信息，运用类似"链式思考"的推理过程来确定相关内容的范围。这种推理过程不是简单的关键词匹配，而是一种更深层次的理解，能够考虑到任务的整体逻辑和页面元素之间的关联关系。

系统的提示策略采用了一种被研究团队称为"软检索"的方法。这种策略鼓励筛选助手在遇到不确定情况时，宁可保留更多信息也不要遗漏重要内容。这就像医生在诊断时宁可多做几项检查也不愿意遗漏任何可能的病因一样。这种策略有效避免了过度删减导致的信息丢失，确保后续的任务执行有足够的信息支撑。

在第二阶段，经过筛选的精简信息被传递给主力AI系统，这个系统负责实际的任务执行，比如点击按钮、填写表单或浏览页面。由于接收到的信息已经经过精心筛选，主力AI能够更专注于任务本身，而不会被无关信息干扰。这种分工协作的模式就像专业厨房里的配菜师和主厨之间的合作，配菜师负责准备所需的食材，主厨则专注于烹饪过程。

对于超长页面的处理，FocusAgent具备很好的扩展性。当页面内容超出筛选助手的处理能力时，系统可以将页面分成若干部分，分别进行筛选，然后将结果合并。这种方法确保了系统能够处理各种规模的网页，不会因为内容过多而失效。

三、实验验证与性能表现

研究团队在两个权威的测试平台上对FocusAgent进行了全面评估。WorkArena L1是一个专注于日常办公任务的测试环境，包含330个不同的任务场景，比如创建报告、管理日程、处理邮件等。WebArena则是一个更综合的测试平台，包含812个涵盖各种网络应用的复杂任务。

为了确保比较的公平性，研究团队设计了多个对比基线。其中包括使用传统底部截断策略的GenericAgent，以及基于嵌入向量和关键词匹配的检索方法。这些基线系统代表了当前主流的网页信息处理技术，为FocusAgent的性能评估提供了可靠的参照标准。

实验结果显示了FocusAgent的显著优势。在WorkArena L1测试中，FocusAgent达到了51.5%的任务成功率，与使用完整网页信息的传统方法（53.0%）几乎持平，但信息处理量减少了51%。更令人印象深刻的是，传统的嵌入向量检索方法只能达到40.3%的成功率，关键词检索方法也仅有40.6%，这说明FocusAgent的筛选策略远比简单的相似度匹配更加有效。

在WebArena的测试中，FocusAgent同样表现出色，将信息处理量减少了59%，同时保持了32.3%的任务成功率。这个成功率虽然看起来不高，但要考虑到WebArena包含了许多极其复杂的多步骤任务，这样的表现已经相当不错。

研究团队还发现了一个有趣的现象：信息减少的程度与原始页面的长度没有直接关系。这意味着FocusAgent的筛选能力是基于内容的相关性，而不是简单的长度压缩。在一些情况下，即使原始页面相对较短，FocusAgent仍然能够识别出大量无关内容并将其过滤掉。

特别值得注意的是，FocusAgent在不同类型的任务中表现出了不同的筛选模式。对于排序类任务，系统通常会过滤掉大量的数据表格，保留率约为20%。对于筛选类任务，由于需要保留更多的页面元素用于比较和选择，保留率通常在80%左右。这种自适应的筛选行为证明了系统确实理解了不同任务的信息需求特点。

成本效益分析显示，FocusAgent在经济层面也具有显著优势。当信息减少幅度超过20%时，整个系统的运行成本就会低于传统方法。考虑到FocusAgent通常能够减少50%以上的信息量，其成本节约效果是相当可观的。这对于需要大规模部署网页机器人的企业来说具有重要的实际意义。

四、安全防护能力的突破

网页机器人面临的安全威胁就像潜伏在网络世界中的陷阱，看似无害的网页内容可能隐藏着恶意代码，试图操控AI系统执行错误操作。研究团队使用DoomArena测试框架来评估FocusAgent的安全防护能力，这个框架专门设计用于测试AI系统对各种网络攻击的抵抗力。

DoomArena包含了两种主要的攻击类型。横幅攻击将恶意指令伪装成图片的替代文本，这些文本对普通用户不可见，但会被AI系统读取。弹窗攻击则通过突然出现的对话框来展示误导性信息，试图诱使AI系统偏离原定任务。这两种攻击方式在现实网络环境中都相当常见，对AI系统构成了严重威胁。

传统的防护方法通常采用"守门员"策略，在AI系统执行任务之前先用另一个AI来检测是否存在攻击。一旦发现可疑内容，整个任务就会被立即终止。这种方法虽然安全，但代价高昂——即使在没有真正威胁的情况下，许多正常任务也会被误判为有风险而遭到中断。

FocusAgent采用了一种更加智能的防护策略。系统不是简单地检测和阻止攻击，而是通过智能筛选来"绕过"攻击内容。这就像一位经验丰富的登山者在面对危险路段时，不是原路返回，而是寻找更安全的替代路线。FocusAgent的筛选机制能够识别出那些与任务目标无关的恶意内容，将其从信息流中剔除，同时保留完成任务所需的关键信息。

实验结果显示了这种策略的卓越效果。面对横幅攻击时，传统的GenericAgent系统有32.4%的概率被攻击成功，而FocusAgent将这一比例降低到了仅0.9%。在任务完成方面，GenericAgent的成功率从正常情况下的51.8%下降到34.8%，而FocusAgent仍然保持了42.1%的成功率。

面对更具挑战性的弹窗攻击时，FocusAgent的优势更加明显。传统系统的攻击成功率高达90.4%，基本上完全失去了抵抗力，而FocusAgent将攻击成功率控制在1.0%的极低水平。虽然弹窗攻击对任务完成造成了一定影响，但FocusAgent仍然能够在大多数情况下保持基本的功能。

研究团队深入分析了FocusAgent的防护机制。对于弹窗攻击，系统的策略是直接忽略包含攻击内容的弹窗元素，专注于页面的主要内容。这种方法确实能够避免被攻击，但也带来了一个副作用：由于弹窗通常会覆盖页面的其他元素，忽略弹窗可能导致无法与底层页面进行正常交互。

对于横幅攻击，FocusAgent表现出了更强的适应性。大多数情况下，系统能够成功识别并过滤攻击内容，同时保留足够的页面信息来完成任务。只有在极端情况下，比如页面几乎完全被攻击内容占据时，系统才会遇到困难。

这种防护策略的核心优势在于它不需要专门的攻击检测机制，而是通过任务导向的信息筛选来自然地排除恶意内容。这就像一个专注的学生在图书馆里学习时，会自然地忽略周围的噪音和干扰，专注于与学习目标相关的内容。

五、技术细节与设计选择

FocusAgent的设计过程涉及了许多精心考虑的技术选择，每一个决定都对系统的最终性能产生重要影响。研究团队通过大量的对比实验来确定最优的配置方案，这个过程就像调试一台精密仪器，需要不断微调各个参数直到达到最佳状态。

在提示策略的选择上，研究团队测试了三种不同的方法。"激进策略"指示筛选助手尽可能多地删除内容，只保留绝对必要的信息。"中性策略"则要求系统识别相关内容，但不特别强调删除或保留。"温和策略"鼓励系统在不确定时倾向于保留更多信息。

实验结果显示，温和策略在大多数情况下表现最佳。在WorkArena测试中，三种策略的表现相对接近，但在更复杂的WebArena环境中，温和策略的优势变得明显。激进策略虽然能够实现更高的信息压缩率，但经常会删除重要信息，导致任务失败。中性策略在WebArena中的表现较差，可能是因为缺乏明确的指导原则使得筛选结果不够稳定。

关于是否包含操作历史信息的决定也很有趣。直觉上，了解之前的操作步骤应该有助于筛选助手更好地理解当前的任务状态。然而，实验结果显示，加入历史信息反而会降低系统性能。研究团队推测这可能是因为历史信息增加了处理复杂性，特别是当主力AI系统生成的思考过程包含大量细节时，可能会干扰筛选助手的判断。

在输出格式的处理上，研究团队探索了三种不同的方法。最直接的方法是完全删除无关内容，只保留筛选出的相关行。第二种方法保留无关行的标识符，用占位符代替具体内容。第三种方法同时保留标识符和元素类型信息。

实验结果表明，保留标识符和类型信息的方法能够获得最高的任务成功率，尽管这种方法的信息压缩效果最小。这个发现提示了一个重要原则：过度的信息删减可能会破坏网页结构的完整性，影响AI系统对页面布局的理解。因此，在追求效率的同时，保持信息结构的完整性同样重要。

模型选择方面，研究团队比较了不同规模的语言模型作为筛选助手的效果。较小的模型（如GPT-4.1-mini）在成本控制方面具有优势，而较大的模型在理解复杂页面结构方面表现更好。实验显示，使用GPT-4.1-mini作为筛选助手已经能够获得良好的效果，这使得整个系统在实际部署时具有很好的经济可行性。

系统的扩展性设计考虑了处理超长页面的需求。当页面内容超出筛选助手的处理能力时，系统可以将内容分块处理，然后合并结果。虽然在当前的实验中没有遇到需要分块处理的情况，但这种设计为将来处理更复杂的网页提供了保障。

六、实际应用价值与未来展望

FocusAgent的成功不仅仅是一个技术突破，更代表了网页自动化技术发展的新方向。这种智能筛选方法解决了当前AI系统在处理复杂网页时面临的核心难题，为构建更高效、更安全的网页机器人奠定了基础。

从实际应用的角度来看，FocusAgent的价值体现在多个方面。首先是成本控制，超过50%的信息量减少直接转化为处理成本的大幅降低。对于需要大规模部署网页机器人的企业来说，这种成本节约具有重要的商业意义。一家电商公司如果需要自动化处理成千上万个产品页面，FocusAgent能够将AI处理成本减少一半以上。

处理速度的提升同样重要。减少信息量不仅降低了计算成本，还显著提高了响应速度。这对于需要实时或准实时处理的应用场景特别有价值，比如自动化客户服务、实时价格监控或紧急信息提取等。

安全性的改善可能是FocusAgent最重要的贡献之一。随着网络攻击手段越来越复杂，传统的"一刀切"防护策略已经无法满足实际需求。FocusAgent提供了一种更加精细和智能的防护方法，能够在保持功能完整性的同时抵御恶意攻击。这种能力对于部署在开放网络环境中的AI系统来说至关重要。

研究团队已经将FocusAgent的实现代码开源，这为整个AI社区的发展做出了重要贡献。开源代码使得其他研究者和开发者能够在FocusAgent的基础上进行进一步的改进和创新，加速相关技术的发展和应用。

当然，FocusAgent也存在一些局限性。系统的性能很大程度上依赖于提示工程，随着大语言模型的不断更新，可能需要相应调整提示策略。此外，虽然筛选机制能够有效移除攻击内容，但无法保证生成完全清洁的网页，仍然可能存在残留的恶意内容。

未来的发展方向包括几个有前景的领域。首先是筛选精度的进一步提升，通过更sophisticated的理解能力来更准确地识别相关内容。其次是多模态信息的处理，目前的系统主要处理文本信息，未来可以扩展到图像、视频等其他媒体类型。

另一个重要方向是自适应能力的增强。理想情况下，系统应该能够根据不同的任务类型和网页特征自动调整筛选策略，而不需要人工干预。这需要更深入的任务理解和网页分析能力。

长期来看，FocusAgent代表的智能筛选思想可能会影响到更广泛的AI应用领域。任何需要从大量信息中提取相关内容的AI系统都可能受益于类似的方法，比如文档分析、数据挖掘、知识提取等。

归根结底，FocusAgent的成功证明了一个重要原则：在AI系统设计中，有时候"做减法"比"做加法"更有价值。通过智能地减少需要处理的信息量，我们不仅能够提高效率、降低成本，还能够增强安全性和可靠性。这种设计哲学为未来AI系统的发展提供了有益的启示，提醒我们在追求更强大的AI能力时，也要关注效率和实用性的平衡。

Q&A

Q1：FocusAgent是什么？它解决了什么问题？

A：FocusAgent是由ServiceNow Research等机构开发的智能网页机器人系统。它主要解决AI处理网页时信息过载的问题——现代网页往往包含数万个信息元素，AI需要全部处理导致成本高、速度慢、还容易被恶意内容攻击。FocusAgent通过智能筛选，只保留与任务相关的关键信息。

Q2：FocusAgent能减少多少信息处理量？效果如何？

A：FocusAgent平均能减少50%以上的信息处理量，在某些情况下甚至能减少80%以上。重要的是，在大幅减少信息量的同时，任务成功率几乎没有下降。比如在WorkArena测试中，成功率从53%仅下降到51.5%，但处理的信息量减少了51%。

Q3：FocusAgent如何防御网络攻击？安全性表现如何？

A：FocusAgent通过智能筛选自动过滤掉恶意攻击内容，而不是简单地停止任务。面对横幅攻击时，攻击成功率从32.4%降到0.9%；面对弹窗攻击时，从90.4%降到1.0%。同时还能保持较高的正常任务完成率，避免了传统防护方法"一刀切"导致的功能损失。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.