网易首页 > 网易号 > 正文 申请入驻

腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖

0
分享至

腾讯AI Lab 投稿
量子位 | 公众号 QbitAI

深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式。

然而,现有开源智能体框架多依赖付费工具,限制了可复现性和普适性。

腾讯AI Lab全新推出的Cognitive Kernel-Pro,一款全开源、多模块、层次化的智能体框架,为深度研究智能体的开发与训练提供了突破性解决方案。



在GAIA基准全集上,Cognitive Kernel-Pro超越开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,展现出卓越的综合能力。在GAIA-text上,训练的8B模型超越WebDancer和WebSailor-7B。

相关论文排上当日HuggingFace热榜第一。



此外,腾讯AI Lab公开了Agent Foundation Model的训练配方,为社区提供可复现的训练路径。

相关技术报告及代码已开源于GitHub,详细链接可见文末。

全开源智能体框架



Cognitive Kernel-Pro以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力。

其核心设计包括以下四点。

1、模块化架构:框架采用两层多模块设计,包含主智能体和多个子智能体(如网页导航智能体、文件处理智能体)。主智能体负责任务分解和信息整合,子智能体专注于特定任务(如网页浏览、文件操作),确保模块独立性和扩展性。

2、状态管理与规划:通过“进度状态”(Progress State)机制,智能体能够记录已完成步骤、待办任务、历史经验和关键信息。这种结构化状态管理显著提升了复杂任务的处理效率。

3、标准化任务接口:主智能体与子智能体通过简洁的文本接口通信,子智能体以Python函数形式定义,输入任务字符串,输出格式化结果和日志,便于协作与调试。

4、测试时优化:框架引入反思机制(Reflection)和投票机制(Voting),通过评估和优化动作轨迹,提升任务完成质量。反思机制允许智能体审查和修正先前动作,投票机制则通过多轮轨迹比较选择最优结果,显著增强了网页浏览等高随机性任务的稳定性。



上表显示了Agent框架工具的使用和能力情况。

比较专有工具时,Google Search API(可以轻松切换到 DuckDuckGo 等免费 API)被排除在外,它是搜索相关任务的必备功能。

注:WebDancer 和 WebSailor 主要关注Web Agent,支持 PDF 获取和简单处理,但缺乏通用文件Agent功能。

许多现有智能体框架依赖付费工具,增加了使用成本并限制了广泛应用。而Cognitive Kernel-Pro框架尽可能使用免费、开源工具,使用LLM的python代码生成能力和理解能力对智能体任务进行处理。

创新训练方法



Cognitive Kernel-Pro不仅提供了强大的框架,还设计了全面的训练流程,覆盖网页导航、文件处理、代码生成和推理等多个领域。

关键创新包括:

  • 高质量Web Agent数据构建
  • 通过构造可验证的查询-答案对,结合中间过程提示和基于提示的拒绝采样,显著提升训练数据的质量和相关性.
  • Persona Hub数据增强
  • 利用Persona Hub生成多样化的合成查询,结合跨系统验证,增强训练数据的多样性和鲁棒性。
  • 推理数据优化
  • 对现有数据集(如NumiaMath、LogicCot、TACO)进行精细化处理,适配智能体任务格式,确保训练数据与实际应用场景一致。
  • 轨迹采样
  • 以GPT-4.1为骨干模型生成智能体轨迹,并通过相似度匹配进行拒绝采样,最大化训练数据的有效性。

性能优势



Cognitive Kernel-Pro在网页信息检索、文件处理和复杂推理等任务中表现出色,尤其在GAIA基准上超越SmolAgents,接近依赖付费工具的智能体框架。

相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架,Cognitive Kernel-Pro强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源。

上图的技术报告中对比了多个AI智能体框架,显示Cognitive Kernel-Pro在功能全面性和开源程度上具有显著优势。框架支持灵活切换免费API(如DuckDuckGo),进一步提升了可访问性。



上表展示了Cognitive Kernel-Pro与其他开源 Agent基础模型的性能对比。

Cognitive Kernel-Pro 在 GAIA-text基准测试中取得了优异的成绩,超越了WebDancer和WebSailor类似大小模型,体现了框架、模型训练方法的优越性。

首先,Cognitive Kernel-Pro是一个通用Agent框架,有更好的文件Agent、Code Agent的处理能力,在框架上比整体上是Web Agent的WebThinker、WebDancer、WebSailor要能处理更复杂的情况。

其次,在训练对应的开源模型CK-Pro-8B时,更通用、丰富的Agent数据被包含进训练集,共同提升了Agent基座模型的能力。



上表展示了测试Cognitive Kernel-Pro反思功能的消融实验。

更强的模型,例如GPT-4.1,可以提供更好的反思信号,但开源模型例如Qwen-3-32B已经能提供相当GPT-4.1的反思效果。

Cognitive Kernel-Pro的研究团队表示,未来工作将关注在将反思能力蒸馏到同一个Agent基座模型中。

GitHub:https://github.com/Tencent/CognitiveKernel-Pro
Arxiv:https://arxiv.org/pdf/2508.00414

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惊艳!全红婵 “换头式” 长大,长发披肩秒变甜妹

惊艳!全红婵 “换头式” 长大,长发披肩秒变甜妹

带你逛体坛
2025-12-31 08:03:04
扔酱潮来袭,闫学晶坑惨代言厂家,佐香园上架新包装,法务行动了

扔酱潮来袭,闫学晶坑惨代言厂家,佐香园上架新包装,法务行动了

银河史记
2026-01-05 23:07:41
凯美瑞新增车型上市 售价19.48-21.18万元

凯美瑞新增车型上市 售价19.48-21.18万元

车质网
2026-01-07 14:41:06
美国官员:美方正在扣押悬挂俄国旗的油轮

美国官员:美方正在扣押悬挂俄国旗的油轮

新京报
2026-01-07 22:08:03
年过69不能吃核桃?医生提醒:不想进医院,这3种坚果最好少吃!

年过69不能吃核桃?医生提醒:不想进医院,这3种坚果最好少吃!

观星赏月
2026-01-08 04:47:06
比商业航天还猛?核聚变密度极限被突破   10大隐形冠军深度卡位

比商业航天还猛?核聚变密度极限被突破 10大隐形冠军深度卡位

元芳说投资
2026-01-08 06:00:12
女子开车不慎掉进池塘,71岁大爷跳河救人,事后女子上门感谢,竟在大爷家中看见自己小时候的照片.....

女子开车不慎掉进池塘,71岁大爷跳河救人,事后女子上门感谢,竟在大爷家中看见自己小时候的照片.....

乔话
2026-01-06 22:36:58
U23国足22点亚洲杯首秀 近10年最强一代誓破咒 5后卫首发战伊拉克

U23国足22点亚洲杯首秀 近10年最强一代誓破咒 5后卫首发战伊拉克

我爱英超
2026-01-08 06:43:30
联合国回应特朗普涉格陵兰岛言论:坚信成员国领土完整的不可侵犯性

联合国回应特朗普涉格陵兰岛言论:坚信成员国领土完整的不可侵犯性

澎湃新闻
2026-01-07 10:18:06
中国对日最强制裁,军民两用物品禁止对日军事出口,警惕日本动武

中国对日最强制裁,军民两用物品禁止对日军事出口,警惕日本动武

胖福的小木屋
2026-01-07 11:13:22
美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

小熊侃史
2026-01-05 10:37:37
比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

揽星河的笔记
2026-01-07 19:21:08
45岁董洁街头打电话被拍!苹果肌下垂褶子多,皱眉撇嘴一脸凶相

45岁董洁街头打电话被拍!苹果肌下垂褶子多,皱眉撇嘴一脸凶相

仙味少女心
2026-01-06 23:50:40
意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

罗掌柜体育
2026-01-08 06:10:03
婚姻里的“哄”,是最高级的浪漫

婚姻里的“哄”,是最高级的浪漫

青苹果sht
2025-12-27 05:12:18
什么情况?广东男篮外援麦考尔与史密斯赛后爆发口角冲突引关注

什么情况?广东男篮外援麦考尔与史密斯赛后爆发口角冲突引关注

狼叔评论
2026-01-07 22:38:06
李在明带火上海,上海老表评韩国游客:嗓门大了点,但花钱爽快

李在明带火上海,上海老表评韩国游客:嗓门大了点,但花钱爽快

叹知
2026-01-08 10:41:36
零容忍!国家出手官媒批评闫学晶毫不留情句句捅心窝子引百姓共鸣

零容忍!国家出手官媒批评闫学晶毫不留情句句捅心窝子引百姓共鸣

娱乐小丸子
2026-01-08 09:36:28
各地都在取消期末统考,我在想:当教育变成“开盲盒”,我们该如何突围?

各地都在取消期末统考,我在想:当教育变成“开盲盒”,我们该如何突围?

萌芽研究所BUD
2026-01-07 22:48:46
不坐班,年赚几十万,他们专坑小微企业

不坐班,年赚几十万,他们专坑小微企业

中国新闻周刊
2026-01-07 10:51:07
2026-01-08 12:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
11984文章数 176357关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

手机
家居
游戏
公开课
军事航空

手机要闻

6.99mm影像旗舰!联想moto X70 Air Pro DXO评分出炉:164分并列第六

家居要闻

理性主义 冷调自由居所

生存恐怖RPG《寄生种》Steam试玩DEMO发布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版