![]()
编辑|冷猫
2026 开年至今,人工智能圈子最火的是一只小龙虾 Clawdbot 。
从 Clawdbot 到 OpenClaw,历经两次改名都无法阻挡大家对它的热情,一种全球性的集体渴望正在浮现 —— 人们迫切希望拥有一个更高级、更通用、更可靠的超级智能体
过去的一年里,Agent 层出不穷,2025 年甚至被称为是「AI 智能体元年」。 衡量一款智能体的真正实力,既要看通用场景的综合解决能力,也需要考量垂直领域的核心专项能力,而 GAIA 通用智能基准榜单和 BrowseComp-Plus 深度研究基准榜单,比任何概念讨论都更加直接。
去年,创业公司 Manus 的智能体爆火,也一并带火了 GAIA 榜单。自此以后似乎每家的智能体都会试着在 GAIA 上刷个榜。而聚焦深度研究与网页浏览能力的 BrowseComp-Plus 基准测试,也凭借严苛的评测标准,成为智能体检索能力的核心比拼赛场。
最近,我们在翻阅两大榜单时发现,榜首位置均迎来了新突破:基于 openJiuwen 这一新兴开源项目构建的 DeepAgent 和 DeepSearch 双双登顶 GAIA 和 BrowseComp-Plus 榜首。
DeepAgent 登顶 GAIA 榜首
基于 openJiuwen 构建的DeepAgent 以 91.69% 的成绩登顶 GAIA 榜首。一举超越英伟达 Nemotron,以及一众海内外领先的智能体。
![]()
- 榜单链接:https://gaia-benchmark-leaderboard.hf.space/
GAIA 打榜:直面 Agent 最大的挑战
GAIA 并不是一个讨好大模型的榜单。
![]()
GAIA 是一个由Meta 与 Hugging Face联合打造、专门面向 通用 Agent 能力 的评测基准,覆盖 长程任务规划、多模态理解、工具调用、复杂推理、执行鲁棒性等 12 类核心能力,设置 Level 1-3 三个等级难度,Level 3 级别的任务难度已接近人类水平,评测采用封闭测试集和自动化评分机制,全面而严苛地考核智能体的综合能力水平。
根据 Hugging Face 上对 GAIA 评测的简介信息,人类参与者在这一基准测试上平均成功率大约达到 92%,而 GPT-4 即使有插件的帮助,也只能达到约 15% 左右的表现。
GAIA 的评测设计有几个鲜明特点,它与传统 AI 基准的区别非常明显,能够将大量「看起来很聪明」的智能体挡在门外。
1.真实世界难度(Real-world difficulty):任务不仅涉及语言理解,还要求 推理、计划、多模态处理、工具调用和执行行为,逼近真实场景中智能体需要完成的工作。
2.人类可解释性(Human interpretability):尽管任务对于 AI 很难理解,但对人类而言概念清晰、可验证;这使得评估结果更可信,也有助于对比人机差距。
3.防刷榜策略(Non-gameability):GAIA 强调的是任务执行全过程的质量,正确答案需要完整执行任务,「暴力破解」的方法无效。
openJiuwen-deepagent 以 91.69% 的分数的登顶,已经几乎无限接近人类参与者在 GAIA 测试上的约 92% 的成绩。
这一成绩意味着它在 规划、执行稳定性、工具协同、多模态理解与任务闭环等维度形成了系统级优势,意味着通用智能体已经能够达到接近人类的任务执行能力。
DeepAgent 实际表现。任务:基于 youtube 做菜视频,自动分析并购买食材。
以一个典型的 browser use 任务为例,就能直观看出 DeepAgent 的「执行力天花板」。
用户只需下发一个指令,DeepAgent 就能够实现解析 YouTube 美食视频,自动识别食材清单;随后在电商网站中按清单逐项搜索、加购,并实时进行比价校验。待所有食材准备就绪后,Agent 将操作权交还给用户确认支付,整个流程一气呵成,展现出在真实复杂场景中的稳定执行能力。
DeepAgent 背后:解锁霸榜能力
DeepAgent 能够登顶 GAIA,并不是偶然,而是因为它在设计之初就已正中榜单「命门」。在 GAIA 评测中,高分意味着同时满足几个苛刻条件:
- 能理解模糊、长链路、多约束的自然语言任务
- 能进行多步规划,而不是线性执行
- 能稳定调用工具、访问网页、处理文件、执行代码
- 能在失败或信息缺失时自我修正,避免崩溃或幻觉
三大核心理念,揭开了 DeepAgent「霸榜 GAIA」的秘密。
1、Agent 动态自演进引擎:从「线性执行」到「闭环自治」
在实际任务中,Agent 面对的是自然语言指令,需要将自然语言指令结构化,把模糊需求拆解为可落地的步骤。在执行任务时,Agent 必须能够根据实时反馈动态调整计划,确保任务在变化中能够顺利完成。
为此,DeepAgent 同时运行「规划 — 执行」与「观测 — 反思」两条闭环:它不只是将自然语言指令结构化拆解,更像是一位拥有「监控室」的指挥官:在运行时持续审视执行结果。一旦感知到环境异常或逻辑偏移,系统会立即触发局部回滚与自我修复,避免智能体陷入「不撞南墙不回头」的典型失败模式。
同时,基于openJiuwen 的 Agent 自演进能力,DeepAgent 为其核心引擎装上了可演进外置记忆模块作为「数字大脑」。这不只是简单的数据存储,而是一个具备自愈能力的认知中心:可精准诊断任务执行错误的症结,依托外置记忆的反馈机制实现逻辑的闭环修正,自主生成优化策略后驱动后续执行能力持续迭代提升。
![]()
2、多层级上下文引擎:保障 Agent 认知一致性
在 GAIA 这类高难度任务中,真正的挑战往往在于「是否基于可靠信息持续推理」。为此,DeepAgent 设计了一套分层融合、全程可溯、长程一致的上下文系统。将会话记录、项目知识、领域规则与实体关系分层存储与动态关联,形成结构化体系。每个推理步骤附加来源证据链,确保输出结果的可解释性。
同时,基于openJiuwen 上下文压缩能力,在长程任务中,及时压缩与卸载无关上下文,使 Agent 在长程任务中保持内在一致性和可信度,而不是越走越「失真」。
3、异步工具编排总线:实现异构工具的统一调度与可靠执行
面对复杂工具链,凌乱的 API 调用往往是系统崩溃的诱因,Agent 必须具备像调度团队一样调用不同的专家模块,各司其职。同时,它也必须能够在合适的时机使用外部工具和系统,确保执行既高效又可靠。
GAIA 的任务大量涉及真实环境操作,DeepAgent 并未将这些能力零散地「外包」给各类独立工具,而是通过统一的工具网关与编排机制,把外部 API、系统与数据库抽象为标准化能力节点,不仅支持高并发的异步调度,更实现了工具调用的可控、可查、可回放,支持执行过程复盘与可靠性审计。
在 GAIA 的真实环境操作中,DeepAgent 像调度专家团队一样精准分配任务,确保每一次工具输出都能转化为稳定得分的生产力。
![]()
整个任务流程下来,这些能力像一串解锁的技能树,共同支撑智能体在 GAIA 的复杂任务中稳稳得分。在 Agent 进入生产力时代的拐点上,真正决定上限的,不是模型,而是智能体能力设计的深度。
DeepSearch 登顶 BrowseComp-Plus 榜首
基于 openJiuwen 构建的DeepSearch 以 80% 的准确率登顶 BrowseComp-Plus 榜首
![]()
- 榜单链接:https://huggingface.co/spaces/Tevatron/BrowseComp-Plus
BrowseComp-Plus 榜单:攻坚深度搜索核心考验
BrowseComp-Plus 是业内衡量智能体深度搜索、研究与网页浏览能力的核心权威基准,作为OpenAI BrowseComp基准的升级版本,覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力。考验智能体从海量语料中高效挖掘有效信息、排除干扰并形成精准答案的实战能力。
BrowseComp-Plus 评分机制极具科学性:
1. 采用固定人工验证语料库搭建测试环境,每个测试问题均配套人类验证的支撑文档与高难度干扰文档,彻底规避实时网络动态性带来的评测偏差。
2. 以严格准确率为核心评分维度,辅以检索调用效率指标综合判定,通过标准化自动化评分体系全程无人工干预。
3.结果可验证,依托固定化的人工验证语料库,所有答案均有明确的溯源依据,彻底规避实时网络动态性带来的评测偏差,让评测结果可复现、可审计,最大程度保障评测公平性。
凭借专业的评测设计,BrowseComp-Plus 榜单已成为全球顶尖机构检验深度搜索智能体真实实力的重要依据。openJiuwen-deepsearch 以 80% 的准确率登顶,意味着它在多跳深度搜索、跨源信息整合、干扰信息甄别、网页内容理解等维度形成了核心技术优势,标志着智能体在深度搜索与网页交互领域的实用能力实现了突破性提升。
DeepSearch 背后:深度研究的标杆引擎
真实世界的搜索,往往意味着:
- 多轮追问与反复验证
- 跨来源信息比对与溯源
- 大量噪声与误导信息干扰
- 长链路推理与证据闭环构建
DeepSearch 通过构建三大核心引擎,将复杂查询问题建模为状态空间,通过动态扩展与探索,像人类专家一样多角度思考,每个搜索动作都基于实时状态生成。
1、实体认知引擎:自动识别关键实体,建立可追踪的状态演变历史
深度研究的第一步,是理解问题结构。识别关键实体,并通过线索引用关系建立关联。系统会抽取人物、机构、事件等核心变量,建立线索之间的引用关系并持续跟踪每个实体的状态演化轨迹。
基于openJiuwen 的上下文引擎,系统将问题状态统一建模为可持续更新的结构化上下文。每一次搜索动作都会触发状态增量更新,使实体关系与推理进展保持一致性与可追踪性。
![]()
2、并行推理路径管理:将复杂问题分解为多分支推理路径,动态维护动作池
面对复杂多跳问题,DeepSearch 不像传统检索那样沿着单一路径前进,而是构建多角度推理树,在 openJiuwen 的多工作流控制机制下,并发探索多个可能的解决方案路径,维护一个动态扩展的动作池(Action Pool),集中资源探索高潜力路径,大幅提升检索效率。
系统能够同时保留多条候选路径,并发探索不同信息来源,持续评估路径价值,通过概率采样机制,系统优先执行高价值路径,低价值路径自然被边缘化。以此能够让系统在复杂环境中保持稳定探索能力
![]()
3、智能行动探索系统:异步并发与自适应调度,动态调整搜索动作优先级,平衡探索深度与路径多样性
深度搜索最大的挑战之一,是一个两难问题。搜太少,容易错过关键证据;搜太多,又会被噪声淹没。
为了平衡效率与覆盖率,DeepSearch 构建了智能采样与调度体系:
- 广度与深度动态平衡,防止过早收敛到局部最优解
- 基于置信度的概率引导采样,优先选择高分行动路径,同时保持探索多样性
- 并行探索多个推理路径,缩短复杂检索任务的解决时间
DeepSearch 的这一设计,核心在于以工程化方式模拟研究型推理过程
系统化拆解、并行假设验证、长链路证据整合与可回放、可审计的推理轨迹,共同支撑着智能体在 BrowseComp-Plus 榜单上荣获桂冠。
冲榜背后:openJiuwen 提供核心支撑
剖析登顶 GAIA 的 DeepAgent 和摘得 BrowseComp-Plus 榜首的 DeepSearch,我们发现两款智能体的硬核实力背后,均依托同一个「技术底座」—— openJiuwen。
作为面向生产环境打造的开源平台,openJiuwen 聚焦智能体的高精准、高可控执行,构建了从开发、调度、执行到优化的全链路能力体系。这意味着,任何团队都可以在同样的系统能力之上,尝试构建自己的「DeepAgent」和 「DeepSearch」,把复杂任务拆解、组合,并稳定交付。
- openJiuwen 官网:https://www.openJiuwen.com/
- 开源地址:https://gitcode.com/openJiuwen
从平台设计来看,openJiuwen 是为原生支持多智能体协同和智能体自演进而设计,其打造的智能体控制器作为智能体的中枢神经,结合上下文引擎的异步压缩与动态卸载能力,让 DeepAgent、DeepSearch 在多智能体协作、长时异步执行的复杂任务中实现高效调度,完美适配两大榜单对智能体任务规划与执行鲁棒性的考核要求。
同时,openJiuwen 创新性地将Agent 自演进融入架构原生设计,支持上下文、工具、记忆等多元要素在同一框架下协同工作,并参与到闭环的自主优化过程中。针对执行过程中的异常或失败,能自动归因并将更新信号精准分配到对应要素,完成 Agent 的全链路自优化,让智能体能够持续演进、可控迭代、并越用越好,从底层保障了智能体在榜单严苛评测中的稳定表现。
我们注意到,openJiuwen 已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地,赋能了鸿蒙智能体的开发。除此以外,openJiuwen 的能力已经逐步进入金融、制造等行业的核心生产系统。
总结:智能体的分水岭
当下,Agent 领域已经有了一条清晰的分水岭。
一边,是仍停留在「语言交互」的智能体;另一边,是已经能够 规划任务、调度资源、稳定执行、自我修复的生产级系统。
基于 openJiuwen 构建的 DeepAgent 和 DeepSearch 凭借系统性架构设计,在两大权威榜单的严苛评测和评分机制中脱颖而出,双双登顶,也让 openJiuwen 的定位愈发清晰:为生产级智能体提供一个高准确、高可用、高效率的一站式 AI Agent 平台
无论是刚刚入门的 Agent 开发者,还是深耕 Agentic AI 的资深团队,都可以在这一底座之上构建复杂、可靠的智能体应用。
这或许正是「AI 智能体元年」后,智能体行业真正的打开方式。
https://huggingface.co/papers/2311.12983
https://huggingface.co/learn/agents-course/en/unit4/what-is-gaia
https://arxiv.org/abs/2506.15741v2
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.