北大等高校联手打造"最难"AI浏览器测试|跳转|全模态|搜索引擎

分享至

在如今这个信息爆炸的时代，我们每天都在网上搜索各种信息。但你有没有想过，让人工智能来代替我们上网搜索会是什么样子？最近，北京大学联合香港科技大学(广州)、中科院自动化所等多家顶尖学术机构发布了一项令人瞩目的研究成果，他们创建了一个名为BrowseComp-V3的超级难题集，专门用来测试AI到底有多会"上网冲浪"。这项研究发表于2026年2月的arXiv预印本平台，论文编号为arXiv:2602.12876v1，有兴趣深入了解的读者可以通过这个编号查询完整论文。

研究团队发现，即使是目前最先进的AI模型GPT-5.2，面对这套测试题时也显得相当吃力，准确率仅达到36%。这个结果着实令人意外，因为我们通常认为AI在信息处理方面应该比人类更加出色。但事实证明，当AI需要像人类一样在网络世界中穿梭，寻找散布在不同网页上的图片和文字线索，并将它们巧妙组合以回答复杂问题时，它们的表现远没有我们想象中那么完美。

这项研究的意义远超学术范畴。在日常生活中，我们经常需要在网上搜索复杂信息，比如查找某个明星参加过哪些电影，这些电影的票房如何，导演又拍过什么其他作品等等。这种搜索往往需要我们在多个网页之间跳转，结合图片和文字信息，进行推理分析。研究团队正是希望通过这套测试，了解AI是否真的能够胜任这种复杂的信息搜索任务。

为了确保测试的公平性和实用性，研究团队制定了极其严格的标准。他们要求所有测试题目中涉及的关键信息都必须能够通过公开的搜索引擎找到，这样任何人都可以验证答案的正确性。同时，他们还为每道题目设计了详细的搜索路径，就像给每道数学题提供标准解答步骤一样，这样就能精确判断AI在哪个环节出现了问题。

一、像侦探一样拼图：AI如何在网络世界中寻找线索

现代的AI模型就像是配备了各种高科技设备的超级侦探，它们不仅能理解人类的语言，还能"看懂"图片，甚至能使用各种网络工具来搜索信息。这些能力让它们逐渐从简单的问答机器人进化成了能够独立探索网络世界的智能助手。

然而，现有的测试方法就像是让这些"超级侦探"去解决一些过于简单的案件，比如只需要查看一两个网页就能找到答案的问题。这样的测试虽然简单易行，但却无法真实反映AI在面对复杂信息搜索任务时的真实水平。正如一个侦探的真正实力不是看他能否找到明摆在桌上的证据，而是看他能否从纷繁复杂的线索中抽丝剥茧，找出隐藏的真相。

为了弥补这个不足，研究团队深入分析了现有测试方法的局限性。他们发现，许多现有的测试要么过于简单，只需要在搜索引擎中输入关键词就能找到答案；要么测试中的关键信息存储在视频或者私有文档中，普通的搜索工具根本无法获取，这就导致测试结果缺乏实用性。

更重要的是，大多数现有测试只关注最终答案是否正确，却忽略了AI在搜索过程中的表现。这就好比只看学生的考试成绩，却不关心他们的解题思路是否正确。这种评价方式让我们很难了解AI到底在哪个环节出现了问题，也无法针对性地改进它们的能力。

正是基于这些观察，研究团队决定创建一套全新的测试标准。他们希望这套测试能够像一面镜子，清晰地映射出AI在复杂信息搜索任务中的真实表现，既能展现它们的优势，也能暴露它们的不足。这样的测试不仅有助于研究人员了解AI的能力边界，也能为改进AI技术提供明确的方向。

二、精心设计的超级难题：300道让AI头疼的问题

BrowseComp-V3就像是一座专门为AI设计的迷宫，包含了300道精心crafted的复杂问题。这些问题覆盖了科学、技术、社会、文化和生活等五个主要领域，每个领域又细分为多个子类别，确保测试的全面性和代表性。

研究团队在设计这些问题时，采用了一种叫做"多维度跨模态覆盖"的策略，这听起来很复杂，但其实就像是设计一个需要同时使用视觉和听觉线索的寻宝游戏。在现实生活中，当我们搜索信息时，往往需要结合文字描述和图片内容，有时候答案的不同部分散布在不同的网页上，需要我们像拼图一样把它们组合在一起。

为了模拟这种真实的搜索场景，研究团队将问题的复杂程度分为三个级别。第一级就像是在同一张图片的不同区域寻找相关信息，比如在一张体育比赛的照片中同时识别运动员和比赛场地。第二级则需要在同一个网页的不同图片和文字之间建立联系，就像看一篇新闻报道时需要结合标题、正文和配图来理解完整信息。第三级是最具挑战性的，需要跨越多个网页，将不同来源的图片和文字信息串联起来，形成完整的答案链条。

研究团队还引入了"过程导向的细粒度评估"机制。这就像是不仅要看学生的考试成绩，还要仔细检查他们的解题步骤。他们为每道题目设计了详细的子目标，就像是将一个复杂任务分解成多个小步骤，这样就能精确定位AI在哪个环节出现了问题。

更加值得称道的是，研究团队坚持"高可靠性和可重现性"的原则。他们确保所有题目中的关键证据都能通过公开搜索引擎找到，并且这些信息相对稳定，不会因为网页内容的频繁更新而影响测试结果。同时，他们还要求所有答案都必须是客观、明确的，避免主观判断带来的争议。

三、建造智能浏览助手：OmniSeeker的诞生

除了创建测试题目，研究团队还开发了一个名为OmniSeeker的智能浏览助手框架。如果说BrowseComp-V3是一座考验AI能力的迷宫，那么OmniSeeker就像是为AI配备的一套完整的探险装备。

OmniSeeker集成了五种核心工具，每种工具都有其独特的作用。文本搜索工具就像是传统的图书管理员，能够快速在海量网页中找到包含特定关键词的内容。网页访问工具则像是一个能够阅读和理解网页内容的智能助手，不仅能提取文字信息，还能理解网页的结构和布局。

图片搜索工具的功能更加有趣，它能够根据图片内容在网络上寻找相似或相关的图片，就像是一个具有超强记忆力的摄影师，能够从无数照片中找出你想要的那一张。图片裁剪工具则能够精确提取图片中的特定区域，专注于最重要的信息部分。反向图片搜索工具更是神奇，它能够通过一张图片找到这张图片的来源、相关信息和背景故事。

这五种工具的组合使得AI能够像人类一样进行多元化的信息搜索。当面对一个复杂问题时，AI可以先使用文本搜索找到相关网页，然后通过网页访问工具深入阅读内容，如果发现有用的图片，可以使用图片工具进一步挖掘信息，最后通过反向搜索验证信息的可靠性。

OmniSeeker的设计哲学是提供一个统一、透明的框架，让不同的AI模型都能够公平地接受测试。这就像是为所有参赛者提供相同的装备，确保比赛结果真实反映各个AI模型的核心能力差异，而不是因为工具差异造成的偏见。

四、令人意外的测试结果：AI还有很长的路要走

测试结果着实让人大跌眼镜。即使是目前最先进的AI模型，在这套测试中的表现也远低于预期。GPT-5.2作为当前的顶级模型，成功率仅达到36%，而人类专家的平均成功率则达到了68%。这个巨大的差距清晰地展现了当前AI技术的局限性。

更有趣的是，研究团队发现不同类型的AI模型表现出截然不同的模式。那些没有外部工具辅助的AI模型，就像是被困在图书馆里但不能翻书的学生，只能凭借之前记忆的知识来回答问题，结果大多数模型的成功率都在10%以下。这说明仅仅依靠训练时学到的知识，AI根本无法处理需要实时信息搜索的复杂任务。

而那些配备了网络搜索功能的AI模型表现明显更好，但仍然存在显著问题。研究团队通过详细分析发现，AI在处理多模态信息整合方面存在严重缺陷。简单来说，就是当AI需要同时理解文字和图片，并将它们结合起来得出结论时，经常会出现理解偏差或逻辑断层。

过程评分的引入揭示了一个有趣现象：大多数AI模型在完成单个子任务方面表现不错，但在将多个子任务的结果整合成最终答案时却经常失败。这就像是一个学生能够正确回答考试中的每个小问题，但却无法将这些答案组合成对整体问题的正确理解。

开源模型和闭源模型之间的差距也值得关注。虽然闭源的商业模型整体表现更好，但一些高质量的开源模型，特别是字节跳动的Doubao-Seed-1.8模型，在使用OmniSeeker工具后也达到了33.67%的成功率，显示出开源AI技术的巨大潜力。

五、深入剖析：AI到底卡在了哪里

为了更深入地理解AI的能力边界，研究团队进行了详细的错误分析。他们发现，AI在处理这些复杂搜索任务时主要面临四大类问题。

视觉理解和定位错误是最普遍的问题。当AI需要在复杂的网页或图片中定位特定信息时，经常会出现"看错地方"或"理解错误"的情况。这就像是让一个人在嘈杂的人群中寻找特定的面孔，AI往往会被无关的视觉信息干扰，导致注意力分散或判断错误。

图片感知失败是另一个严重问题。在网络环境中，图片的质量往往参差不齐，有些图片可能因为分辨率低、光线不佳或角度特殊而难以识别。AI在处理这些"困难"图片时的表现远不如人类，经常完全无法理解图片内容，或者产生错误的理解。

候选实体混淆问题体现了AI在逻辑推理方面的不足。当搜索结果中出现多个相似的人物、地点或事件时，AI经常会将它们混淆，就像是一个脸盲症患者很难区分长相相似的人。这种混淆不仅影响信息的准确性，还可能导致完全错误的推理链条。

最复杂的是推理错误问题。即使AI能够正确获取所有必要信息，它们在将这些信息按照逻辑关系组合成最终答案时也经常出错。这反映了当前AI在多步骤逻辑推理方面的根本性局限。

有趣的是，闭源模型和开源模型呈现出不同的错误模式。闭源模型在视觉理解方面表现更好，但在长期规划和复杂推理方面仍然存在显著问题。开源模型则主要受限于基础的视觉感知能力，一旦解决了这个问题，它们的表现可能会有显著提升。

六、测试时间的魔力：给AI更多机会会怎样

研究团队还探索了一个有趣的问题：如果给AI更多时间和机会，它们的表现会有多大改善？就像学生考试时如果有更多时间思考，可能会得出更好的答案。

实验发现，增加AI的交互轮次确实能显著提升性能。当允许AI进行更多轮的搜索和思考时，一些原本无法解决的问题变得可以解决。特别是那些参数更多的大型模型，在获得更多交互机会时表现出更强的扩展能力，这说明它们具有更好的长期推理和自我修正能力。

采样一致性测试则展现了另一个有趣现象。当研究团队让同一个AI模型多次尝试同一个问题，然后从中选择最佳答案时，成功率有了明显提升。这就像是让一个学生多次参加同一场考试，然后取最好的成绩，结果确实比单次考试要好得多。

这些发现对于AI技术的实际应用具有重要意义。它们暗示着通过增加计算资源和优化搜索策略，现有的AI模型仍有很大的改进空间。同时，这也为开发更高效的AI助手提供了思路：与其追求一次性给出完美答案，不如让AI进行多轮迭代，逐步提升答案质量。

七、人类与AI：不同的优势和短板

通过对比人类和AI的表现模式，研究团队发现了一些令人深思的差异。人类在面对搜索深度增加时表现出急剧的性能下降，这主要是因为注意力和记忆容量的限制。当需要在多个网页之间跳转，记住大量信息片段时，人类很容易感到疲劳和困惑。

相比之下，AI模型的性能下降更加平缓。虽然它们在处理复杂任务时也会遇到困难，但不会像人类那样因为认知负荷过重而急剧恶化。这表明AI具有更好的"耐力"，能够持续处理大量信息而不会疲劳。

能力边界分析揭示了更细致的差异。人类的主要瓶颈在于文本处理，特别是当需要阅读和理解大量文字信息时，人类的效率会显著下降。这主要是因为阅读速度和注意力持续时间的生理限制。

而AI的主要瓶颈则在于多模态信息整合。当需要同时理解文字、图片和它们之间的关系时，AI经常会出现理解错误或逻辑断层。这反映了当前AI技术在跨模态推理方面的根本性不足。

这种对比告诉我们，人类和AI各有优势和局限。理想的智能助手可能需要结合两者的优势：利用AI的强大信息处理能力和持久的专注力，同时借鉴人类在直觉理解和创造性思维方面的优势。

说到底，这项研究为我们揭示了AI技术发展的一个重要侧面。尽管AI在许多单一任务上已经达到或超越了人类水平，但在需要综合运用多种能力的复杂任务中，它们仍然面临巨大挑战。BrowseComp-V3不仅是一个测试基准，更像是一面镜子，让我们清楚地看到了AI技术的现状和未来发展方向。

这个发现对普通人的生活具有直接意义。它告诉我们，虽然AI助手在简单的信息查询方面已经相当可靠，但当我们需要它们处理真正复杂的搜索任务时，仍然需要保持谨慎和批判性思维。同时，这也为AI技术的未来发展指明了方向：提升多模态理解能力和长链推理能力将是下一个重要突破点。

研究团队开发的OmniSeeker框架也为业界提供了一个宝贵的工具。它展示了如何构建一个公平、透明的AI评测系统，这种系统不仅能够客观评估AI的能力，还能帮助研究人员识别具体的改进方向。这对于推动整个AI行业的健康发展具有重要意义。

归根结底，这项研究提醒我们，AI技术的发展仍然任重道远。虽然我们已经见证了AI在图像识别、自然语言处理等单一领域的卓越表现，但要让AI真正成为人类在复杂信息搜索任务中的可靠助手，还需要在多模态融合、长期推理和知识整合等方面取得更多突破。这不仅需要技术的进步，也需要像BrowseComp-V3这样的高质量测试基准来指引方向和衡量进展。对于有兴趣了解更多技术细节的读者，可以通过论文编号arXiv:2602.12876v1查询这项研究的完整内容。

Q&A

Q1：BrowseComp-V3到底是什么东西？

A：BrowseComp-V3是北京大学等机构联合开发的AI测试题库，包含300道超级复杂的问题，专门用来测试AI是否真的会像人类一样上网搜索信息。这些题目需要AI在多个网页之间跳转，结合图片和文字线索来找答案，比传统的AI测试要困难得多。

Q2：为什么连最先进的GPT-5.2都只能答对36%的题目？

A：因为这些题目太复杂了，需要AI同时具备视觉理解、文字分析和逻辑推理等多种能力。AI经常在理解图片内容、整合不同来源信息或者进行多步推理时出错。就像让一个人同时当侦探、翻译和数学家一样困难。

Q3：OmniSeeker工具对普通人有什么用处吗？

A：目前OmniSeeker主要是研究工具，普通人暂时还不能直接使用。但它展示了AI助手的发展方向，未来可能会有类似功能的智能搜索工具，能够帮助我们更高效地在网上寻找复杂信息，比如规划旅行、研究产品或者学习新知识。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.