网易首页 > 网易号 > 正文 申请入驻

AI斩获6枚金牌!华为Kaggle大师级智能体诞生,自主解决数据科学难题

0
分享至

继 OpenAI o1 成为首个达到 Kaggle 特级大师的人工智能(AI)模型后, 另一个 Kaggle 大师级 AI 也诞生了

根据 Kaggle 的晋级系统, 由华为诺亚方舟实验室和伦敦大学学院团队联合推出的端到端自主数据科学智能体(agent)——Agent K v1.0 ,已经能够获得 6 枚金牌、3 枚银牌和 7 枚铜牌。

论文链接:https://arxiv.org/abs/2411.03562

据介绍, Agent K v1.0 具备动态、多步骤处理复杂问题的能力 ,通过动态管理记忆并从经验中持续学习,能够完全自动化数据科学流程,并在不依赖微调的情况下,通过环境反馈不断优化决策, 实现对各种数据科学任务的自动化、优化和泛化。

Agent K v1.0:一个自主数据科学智能体

当前,虽然 LLM 在自然语言交互方面展现优秀性能,但 如何使 LLM 能够基于智能体处理具有序列或并行任务模块的系统性数据科学任务,构建能对各种数据科学任务进行自动化、优化和泛化的LLM 智能体 ,从而实现动态、多步骤的问题解决仍然是个挑战。

为解决这个问题, 研究团队提出了一个灵活的基于经验学习推理的替代框架 ,借鉴了强化学习中的马尔可夫决策过程(MDP)概念,不过其独特性在于引入了结构化推理和长期记忆机制。这一创新举措避免了传统思维链或思维图方法对反向传播和微调的依赖,使得智能体能够在不更改 LLM 核心参数的情况下,实现动态学习与适应。

图|结构化推理的示意图与标准的思维链(CoT)方法形成对比。

在 Agent K v1.0 的框架体系中, 智能体具备三种类型的动作,分别为长期记忆动作、内部动作以及外部动作 。长期记忆动作用于对外部数据库的内容进行管理,将过往经验转化为指导当下决策的珍贵信息;内部动作则旨在更新工作记忆,塑造智能体的推理过程;外部动作直接与环境进行交互,执行任务并获取奖励。

智能体通过与环境的互动,收集状态、工作记忆以及外部数据库的轨迹信息。 随后,利用 LLM 的内部策略来更新工作记忆和长期记忆。这些策略能够依据环境反馈,动态调整智能体的推理过程,使其可以根据具体情况做出最优决策,从而最大限度地实现回报。

总体而言,Agent K v1.0 的学习框架凭借结构化推理和长期记忆机制,达成了 LLM 在复杂数据科学任务中的高效学习与适应,为构建自动化、高效且可扩展的数据科学智能体开辟了崭新的途径。

此外, Agent K v1.0 具有全新的自动化数据科学任务处理方式。

图|Agent K v1.0 自动设计、编码和执行的整体数据科学流程。

首先, 在数据科学任务设置的自动化阶段,Agent K v1.0 能够将数据科学任务精细分解为多个阶段 ,如数据抓取、数据摘要、模态检测、数据预处理以及特征工程等。

同时,利用单元测试对每个阶段的正确性进行严格验证。而当单元测试失败时,Agent K v1.0 会利用 LLM 生成解释错误原因的思考,并依据这些思考重新执行之前步骤,直至找到并修复错误。

图|自动设置阶段的主要步骤。

之后, 在数据科学任务解决的优化阶段,Agent K v1.0 根据任务所涉及的模态类型,选择不同的工具和方法生成解决方案 。对于表格数据任务,它使用 AutoML 工具自动生成预测;对于计算机视觉、自然语言处理和跨模态任务,则采用深度神经网络模型。此外,它还集成了多种工具,如 HEBO 进行超参数优化,以及利用 HuggingFace 的 Torchvision 和 Torchtext 库处理不同模态的数据。

不仅如此, Agent K v1.0 在多任务和持续学习方面也表现出色 。它可以处理多个不同领域的数据科学任务,通过共享长期记忆实现知识迁移。同时,它会根据之前的经验选择下一个任务,构建难度逐渐增加的课程,以实现持续学习和知识积累。

图|Agent K v1.0 作为一个多模态、持续学习的数据科学智能体,能够在多轮操作中进行任务。

为了客观评估 Agent K v1.0 的性能,研究团队构建了一个基于 Kaggle 竞赛的竞争性数据科学基准。 该基准涵盖了 Kaggle 平台上多达 65 个多样化的数据科学任务,涵盖表格数据、计算机视觉、自然语言处理以及跨模态任务等多个领域。

此外, 该基准还评估了 Agent K v1.0 自动设置数据科学任务的能力 ,涵盖数据抓取、数据预处理、特征工程和模型训练等步骤。并通过单元测试来验证每个阶段的正确性,并评估智能体在不同模态和任务类型上的自动化成功率。

图|基准测试中 Kaggle 任务的分布饼图。

在性能评估方面,该基准使用 Kaggle 平台的公开和私有分数来评估 Agent K v1.0 的性能。 根据 Kaggle 的排名系统,将智能体的表现与其他 Kaggle 用户进行比较,并计算其 Elo-MMR 积分,以评估其在 Kaggle 用户群体中的相对位置。

为确保公平比较,该基准考虑了竞赛规模,不同竞赛的参与者和提交数量可能不同,因此需使用 Elo-MMR 积分来进行比较;以及竞赛类型,社区竞赛、练习场竞赛和特色竞赛的难度和竞争程度不同,因此需使用 Kaggle 的排名系统来进行评估。

图|该表格描述了Kaggle的晋升系统,遵循Kaggle的指南和风格。

Kaggle 大师级水平 AI 智能体

研究团队还在 65 个 Kaggle 竞赛中对 Agent K v1.0 进行了测试 。这些比赛可以由智能体自主设置,并且可以生成至少一个提交。与之前的工作不同,测试遵循了标准的 Kaggle 竞赛指南,其中智能体创建一个提交文件,并使用 Kaggle API 自动提交其解决方案。

智能体的解决方案在提交后被评估和排名在排行榜上,其性能将与参与者进行量化比较。为了确保公平性,这些量化指标基于可用的私人排行榜,并且仅使用公共排行榜结果来决定保留的提交,这反映了据科学家在 Kaggle 平台上的标准做法。

为了提高其性能, Agent K 使用基于内部训练数据拆分的验证损失 。该损失和智能体内存中已有的代码帮助 LLM 反思并生成更成功的代码,最终提高其排名。

图|展示了 Agent Kv1.0 在各类比赛中的表现,涵盖了表格、计算机视觉、自然语言处理和多模态任务。y 轴为比赛的 ID;x 轴为根据 Kaggle 的私人排行榜衡量出的分位数表现,分位数越高,智能体表现越好。

根据 Kaggle 的评估方法,Agent K v1.0 获得了相当于 6 枚金牌、3 枚银牌和 7 枚铜牌的成绩。 整体表现与 Kaggle 高级用户相当,甚至超过了部分顶级 Grandmaster 用户的水平。在 22 个任务中,Agent K v1.0 取得了超过 80% 的量化指标,在 62% 的竞赛中取得了超过 50% 的量化指标。

不足与展望

虽然 Agent K v1.0 在 Kaggle 数据科学竞赛中取得了令人瞩目的成绩,达到了 Kaggle 大师级水平,但其仍然存在一些不足之处。

第一,任务设置过程反馈单一 。目前 Agent K v1.0 在设置任务时仅基于单元测试和元单元测试的反馈。未来将通过进一步引入反馈机制,识别哪些代码和数据预处理步骤能有效提升模型性能,从而优化任务设置的智能性。

第二,工具扩展与性能反馈机制依托工具简单 。当前 Agent K 使用了一些现有工具(如 HEBO、RAMP 等)进行超参数优化和特征工程。未来计划引入更多工具,特别是能支持视频和音频处理的新模块,并研究更加有效的基于性能反馈的结构来优化 LLMs 的使用。

第三,目前的持续学习机制主要基于任务设置优化 ,后续计划将性能反馈融入任务选择的决策中,使 Agent K 能根据历史经验来评估任务难度及潜在表现,更好地利用知识积累来提升任务处理能力。

未来, 研究团队计划进一步扩展现有的评估基准 ,不仅增加处理任务的数量,还将多模态挑战如音频和视频数据纳入其中,力求覆盖更广泛的真实场景,以提升系统的多样性和实用性。研究还将使 Agent K v1.0 更适应“可运行的notebook”竞赛要求,提升其在多种竞赛环境中的灵活性和适应性,并计划参与实时竞赛来更精准地验证系统的实际竞争力。

通过这些优化,Agent K v1.0 有望在多种任务和领域中进一步提升其自主数据科学能力,逐步向真正的 Kaggle 大师级目标迈进。

作者:阮文韵 责编:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
能者上庸者下!土耳其天才新星渐遭皇马冷落,法国妖星取而代之

能者上庸者下!土耳其天才新星渐遭皇马冷落,法国妖星取而代之

零度眼看球
2026-01-15 13:49:41
深度揭秘 | “规划女王”高杨,把自己“规划”到了监狱——一个“技术官僚”的腐败折叠

深度揭秘 | “规划女王”高杨,把自己“规划”到了监狱——一个“技术官僚”的腐败折叠

一分为三看人生
2025-12-20 00:10:11
大误判,袁绍不懂底层人,董卓不懂上层人

大误判,袁绍不懂底层人,董卓不懂上层人

掠影后有感
2026-01-10 13:59:33
宋美龄价值2亿的麻花手镯,戴到离世:第一任主人仅花费4万大洋

宋美龄价值2亿的麻花手镯,戴到离世:第一任主人仅花费4万大洋

史之铭
2026-01-13 22:55:09
全世界最狠的骗局,莫过于贷款买房。

全世界最狠的骗局,莫过于贷款买房。

流苏晚晴
2026-01-08 18:18:57
10点睡觉是错误的?医生建议:过了63岁,睡觉尽量要做到这5点

10点睡觉是错误的?医生建议:过了63岁,睡觉尽量要做到这5点

蜉蝣说
2026-01-15 11:01:13
伊朗反派公布伊朗未来路线图:放弃核武、承认以色列、靠拢美国

伊朗反派公布伊朗未来路线图:放弃核武、承认以色列、靠拢美国

桂系007
2026-01-15 10:50:58
被吐槽的平庸之王:为何满身瑕疵的F-35,目前依然能统治全球天空

被吐槽的平庸之王:为何满身瑕疵的F-35,目前依然能统治全球天空

形上谓道
2026-01-12 10:25:18
离春节不到2月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

离春节不到2月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

妙知
2026-01-14 17:52:53
1955年,毛主席一笔划掉二野刘邓之下的3号人物:此人不予授衔!

1955年,毛主席一笔划掉二野刘邓之下的3号人物:此人不予授衔!

卿昀
2025-11-24 21:26:43
合川呆呆收入曝光,一夜暴富,几辈子都花不完

合川呆呆收入曝光,一夜暴富,几辈子都花不完

辣条小剧场
2026-01-14 04:31:12
天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

梁讯
2026-01-13 11:58:55
我爸重男轻女,把家产全给了堂哥。拆迁队来时,他求我回去签字

我爸重男轻女,把家产全给了堂哥。拆迁队来时,他求我回去签字

真实人物采访
2026-01-14 09:00:07
突发!李雪琴名下公司均已注销

突发!李雪琴名下公司均已注销

投资时间网
2026-01-15 11:10:11
21年几位空军子弟看望林豆豆,罕见曝出几张合影,众人身份引热议

21年几位空军子弟看望林豆豆,罕见曝出几张合影,众人身份引热议

历史甄有趣
2026-01-14 14:45:08
福建一县委书记李亚容,拟任新职(附简历)

福建一县委书记李亚容,拟任新职(附简历)

人民资讯
2026-01-15 11:51:09
小雷:这是哲凯赖什的美妙夜晚;比赛本该早早失去悬念

小雷:这是哲凯赖什的美妙夜晚;比赛本该早早失去悬念

懂球帝
2026-01-15 09:47:08
90后体育生卖水饺,一年狂揽GMV超60亿

90后体育生卖水饺,一年狂揽GMV超60亿

雷达财经
2026-01-14 21:15:08
再见,程序员!硅谷全员AI Coding,卡帕西宣告9级地震来了

再见,程序员!硅谷全员AI Coding,卡帕西宣告9级地震来了

新智元
2026-01-14 20:21:03
你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

夜深爱杂谈
2025-12-21 17:37:52
2026-01-15 14:07:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

本地
家居
旅游
亲子
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

自在自宅 个性自由

旅游要闻

冬暖花开游云南丨玉溪冬日的幸福旅程

亲子要闻

辅酶q10备孕吃了多久有效果?高龄备孕吃什么有助于怀孕?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版