网易首页 > 网易号 > 正文 申请入驻

腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖

0
分享至

腾讯AI Lab 投稿
量子位 | 公众号 QbitAI

深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式。

然而,现有开源智能体框架多依赖付费工具,限制了可复现性和普适性。

腾讯AI Lab全新推出的Cognitive Kernel-Pro,一款全开源、多模块、层次化的智能体框架,为深度研究智能体的开发与训练提供了突破性解决方案。

在GAIA基准全集上,Cognitive Kernel-Pro超越开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,展现出卓越的综合能力。在GAIA-text上,训练的8B模型超越WebDancer和WebSailor-7B。

相关论文排上当日HuggingFace热榜第一。

此外,腾讯AI Lab公开了Agent Foundation Model的训练配方,为社区提供可复现的训练路径。

相关技术报告及代码已开源于GitHub,详细链接可见文末。

全开源智能体框架

Cognitive Kernel-Pro以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力。

其核心设计包括以下四点。

1、模块化架构:框架采用两层多模块设计,包含主智能体和多个子智能体(如网页导航智能体、文件处理智能体)。主智能体负责任务分解和信息整合,子智能体专注于特定任务(如网页浏览、文件操作),确保模块独立性和扩展性。

2、状态管理与规划:通过“进度状态”(Progress State)机制,智能体能够记录已完成步骤、待办任务、历史经验和关键信息。这种结构化状态管理显著提升了复杂任务的处理效率。

3、标准化任务接口:主智能体与子智能体通过简洁的文本接口通信,子智能体以Python函数形式定义,输入任务字符串,输出格式化结果和日志,便于协作与调试。

4、测试时优化:框架引入反思机制(Reflection)和投票机制(Voting),通过评估和优化动作轨迹,提升任务完成质量。反思机制允许智能体审查和修正先前动作,投票机制则通过多轮轨迹比较选择最优结果,显著增强了网页浏览等高随机性任务的稳定性。

上表显示了Agent框架工具的使用和能力情况。

比较专有工具时,Google Search API(可以轻松切换到 DuckDuckGo 等免费 API)被排除在外,它是搜索相关任务的必备功能。

注:WebDancer 和 WebSailor 主要关注Web Agent,支持 PDF 获取和简单处理,但缺乏通用文件Agent功能。

许多现有智能体框架依赖付费工具,增加了使用成本并限制了广泛应用。而Cognitive Kernel-Pro框架尽可能使用免费、开源工具,使用LLM的python代码生成能力和理解能力对智能体任务进行处理。

创新训练方法

Cognitive Kernel-Pro不仅提供了强大的框架,还设计了全面的训练流程,覆盖网页导航、文件处理、代码生成和推理等多个领域。

关键创新包括:

  • 高质量Web Agent数据构建
  • 通过构造可验证的查询-答案对,结合中间过程提示和基于提示的拒绝采样,显著提升训练数据的质量和相关性.
  • Persona Hub数据增强
  • 利用Persona Hub生成多样化的合成查询,结合跨系统验证,增强训练数据的多样性和鲁棒性。
  • 推理数据优化
  • 对现有数据集(如NumiaMath、LogicCot、TACO)进行精细化处理,适配智能体任务格式,确保训练数据与实际应用场景一致。
  • 轨迹采样
  • 以GPT-4.1为骨干模型生成智能体轨迹,并通过相似度匹配进行拒绝采样,最大化训练数据的有效性。

性能优势

Cognitive Kernel-Pro在网页信息检索、文件处理和复杂推理等任务中表现出色,尤其在GAIA基准上超越SmolAgents,接近依赖付费工具的智能体框架。

相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架,Cognitive Kernel-Pro强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源。

上图的技术报告中对比了多个AI智能体框架,显示Cognitive Kernel-Pro在功能全面性和开源程度上具有显著优势。框架支持灵活切换免费API(如DuckDuckGo),进一步提升了可访问性。

上表展示了Cognitive Kernel-Pro与其他开源 Agent基础模型的性能对比。

Cognitive Kernel-Pro 在 GAIA-text基准测试中取得了优异的成绩,超越了WebDancer和WebSailor类似大小模型,体现了框架、模型训练方法的优越性。

首先,Cognitive Kernel-Pro是一个通用Agent框架,有更好的文件Agent、Code Agent的处理能力,在框架上比整体上是Web Agent的WebThinker、WebDancer、WebSailor要能处理更复杂的情况。

其次,在训练对应的开源模型CK-Pro-8B时,更通用、丰富的Agent数据被包含进训练集,共同提升了Agent基座模型的能力。

上表展示了测试Cognitive Kernel-Pro反思功能的消融实验。

更强的模型,例如GPT-4.1,可以提供更好的反思信号,但开源模型例如Qwen-3-32B已经能提供相当GPT-4.1的反思效果。

Cognitive Kernel-Pro的研究团队表示,未来工作将关注在将反思能力蒸馏到同一个Agent基座模型中。

GitHub:https://github.com/Tencent/CognitiveKernel-Pro
Arxiv:https://arxiv.org/pdf/2508.00414

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朝鲜战争最尴尬参战国:派兵5453充当投名状,2小时被歼3千余人!

朝鲜战争最尴尬参战国:派兵5453充当投名状,2小时被歼3千余人!

小莜读史
2026-02-27 20:34:47
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
这是唱的哪出戏?委内瑞拉代理女总统宣布大赦

这是唱的哪出戏?委内瑞拉代理女总统宣布大赦

史政先锋
2026-01-31 22:15:37
郑钦文迟早重返世界前十!总分仅输大魔王6分ACE球制胜分占优

郑钦文迟早重返世界前十!总分仅输大魔王6分ACE球制胜分占优

篮球看比赛
2026-02-27 14:07:31
历史正剧持续发力,《太平年》后,讲述南北朝故事的《江山大同》要来了

历史正剧持续发力,《太平年》后,讲述南北朝故事的《江山大同》要来了

红星新闻
2026-02-27 12:13:29
李斯被腰斩当日,秦二世问他:你辅佐先帝多年,可有遗言留世?

李斯被腰斩当日,秦二世问他:你辅佐先帝多年,可有遗言留世?

近史谈
2026-02-17 10:14:36
踢回442的申花,热身赛9-2战胜山东泰山,但能否以五外援投入新赛季令人担忧

踢回442的申花,热身赛9-2战胜山东泰山,但能否以五外援投入新赛季令人担忧

五星体育
2026-02-27 21:10:08
209记三分球!克神创造历史,这么打下去,库里的纪录也保不住了

209记三分球!克神创造历史,这么打下去,库里的纪录也保不住了

陌识
2026-02-27 11:57:41
3天暴涨56%!昔日A股最强赛道,又杀回来了

3天暴涨56%!昔日A股最强赛道,又杀回来了

财经锐眼
2026-02-27 18:14:14
iPhone官方测网速功能上线了!

iPhone官方测网速功能上线了!

果粉之家
2026-02-26 12:18:16
美国女议员:谷爱凌生在美国却不尊重美国 不回中国还要回美国

美国女议员:谷爱凌生在美国却不尊重美国 不回中国还要回美国

念洲
2026-02-26 08:33:10
黑社会去哪了?原来都藏在这4个场所,老百姓千万别惹

黑社会去哪了?原来都藏在这4个场所,老百姓千万别惹

小彭的灿烂笔记1
2026-02-05 18:20:18
猪蹄被关注!医生发现:癌症患者吃猪蹄,不出2月,或有这4变化

猪蹄被关注!医生发现:癌症患者吃猪蹄,不出2月,或有这4变化

王二哥老搞笑
2026-02-24 20:18:54
2胜8负,净输65分!东部霸主变成纸老虎,这么打东部悬念就不大了

2胜8负,净输65分!东部霸主变成纸老虎,这么打东部悬念就不大了

老梁体育漫谈
2026-02-26 23:05:40
39岁卡瓦尼表现平平遭博卡球迷狂嘘,名宿直言他该退役

39岁卡瓦尼表现平平遭博卡球迷狂嘘,名宿直言他该退役

懂球帝
2026-02-26 23:12:05
小学党委书记教育部发布会做分享:毕业班孩子平均比11年前长高5.52厘米

小学党委书记教育部发布会做分享:毕业班孩子平均比11年前长高5.52厘米

红星新闻
2026-02-27 17:25:29
邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

我心纵横天地间
2026-02-23 23:04:29
贵州美女袁羽去世!仅31岁,好友曝原因,男友磕头跪求不要火化

贵州美女袁羽去世!仅31岁,好友曝原因,男友磕头跪求不要火化

社会日日鲜
2026-02-27 07:20:36
我国著名主持人赴瑞士安乐死,儿子讲述其死前惨状:我非常后悔

我国著名主持人赴瑞士安乐死,儿子讲述其死前惨状:我非常后悔

阿讯说天下
2026-02-21 12:35:11
结婚不到一年,娶了“白月光”的李国庆,口碑彻底反转了

结婚不到一年,娶了“白月光”的李国庆,口碑彻底反转了

萧鑟科普解说
2026-02-26 06:07:11
2026-02-27 21:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12209文章数 176397关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

殡仪馆工作人员红衣、黄发主持老人告别仪式 馆方致歉

头条要闻

殡仪馆工作人员红衣、黄发主持老人告别仪式 馆方致歉

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

亲子
手机
时尚
健康
本地

亲子要闻

这个社会允许幼儿哭闹的年龄是几岁

手机要闻

摩托罗拉新机曝光,后盖有世界杯标志

冬季穿搭要避开臃肿感!配色不老气、穿衣不随意,越看越高级

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

无障碍浏览 进入关怀版