网易首页 > 网易号 > 正文 申请入驻

龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一

0
分享至


新智元报道

编辑:LRST

【新智元导读】UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。

近日,加州大学圣地亚哥分校的研究团队开发了AIBuildAI智能体,可以全自动构建AI模型(包括模型设计,代码实现,模型训练,调参,性能评估,迭代优化)。团队成员包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及该校副教授Pengtao Xie。

开发一个高性能AI模型非常耗时费力,工程师需要反复设计模型、写代码实现模型、构建训练流水线、执行超参数搜索,并根据实验结果对模型进行迭代优化。

这一过程对专业知识的依赖程度极高,人力成本也居高不下,非常耗费时间。

为了解决这一问题,UCSD的研究团队开发了AIBuildAI智能体,充当虚拟的AI工程师或AI科学家,全自动构建AI模型。用户无需编程,只需要用自然语言对任务进行描述,AIBuildAI自动设计模型,写代码实现模型,训练模型,调节超参数,评估模型性能,并根据实验结果对模型进行迭代优化。


项目地址:https://github.com/aibuildai/AI-Build-AI

论文链接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

OpenAI MLE-Bench测评结果:https://github.com/openai/mle-bench/pull/126

AIBuildAI在OpenAI MLE-Bench基准测试的75个任务上以63.1%的获奖率位居榜首,其表现可媲美经验丰富的AI工程师,实现了从任务描述到可部署模型的端到端自动化。



AIBuildAI的设计灵感来源于真实的AI研究团队的工作流程。在典型的AI项目中,技术负责人统筹多条并行探索路线,研究员提出建模策略,工程师实现训练流水线,负责人定期评审结果、分配资源。AIBuildAI将这一工作流抽象为一个多智能体搜索过程:将整个开发周期分解为多个专职智能体协作执行,并通过集中化的管理器进行统一调度。


技术核心

管理智能体(Manager Agent)

扮演项目运行负责人的角色,全程不直接写代码或执行训练任务,而是通过读取磁盘上的实验记录来做出下一步决策。他在两种模式之间切换:协调模式下决定下一步应该调用哪一个子智能体;筛选模式下依据训练信号保留有潜力的候选方案并终止无效方案来节约时间以及计算成本,并在进展停滞时触发修订或者终止。

研究员智能体(Designer Agent)

负责想方案和改方案两项核心任务。在设计模式下,他直接探索数据集特征,提出多个差异化、可行性强的建模计划;在修订模式下,他仔细诊断失败原因(过拟合、欠拟合、收敛问题或者数据异常),并提出具体的改进方案供编码智能体重新实现。

编码智能体(Coder Agent)

将设计方案转化为可运行的训练与推理流水线。编码智能体的目标是确保代码正确完整,而非追求最终性能。他会在写完代码后执行一次短时验证运行以确保流水线可以端到端运行,随后将完整训练交由调优器处理。

调优器智能体(Tuner Agent)

接管训练过程,在已有代码基础上专注于性能提升。它采用先快速校准、再决定是否投入的策略:先跑一段简短的热身训练观察学习曲线,再决定是延长当前方案还是进行超参数调整。整个过程在固定计算预算内完成。

系统设计

AIBuildAI在系统层面还具备三项关键特征:

  • 并行效率:多条解决方案轨迹在独立工作空间中并发运行,避免互相干扰,允许系统同时探索多个方法并将资源集中于表现好的候选方案。

  • 可复现性:所有智能体通过存储于磁盘中产出物(方案文档、配置文件、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作均可事后审查与复现。

  • 安全性:智能体仅被允许写入自身轨迹目录,数据集以只读方式挂载,每次调用均生成可审计的操作日志。


实验结果


AIBuildAI在OpenAI MLE-Bench基准测试上进行了评估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了来自Kaggle竞赛的真实任务,涵盖图像分类,目标检测/分割、自然语言理解与生成、时序信号建模以及结构化表格预测等多个类别,共75个任务,要求系统完成从原始数据到可提交模型的全流程开发。目前,AIBuildAI以63.1%的综合获奖率位居MLE-Bench总榜第一。上图展示了AIBuildAI(橙条)的综合性能在所有的对比方法中实现了性能最佳。


上图展示了AIBuildAI 在语言理解与生成任务上的详细结果。上半部分以Billion Word Imputation为例,完整呈现了 AIBuildAI 各智能体的运行轨迹:Manager依次调度Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终Aggregator以RoBERTa-large为基础生成提交文件,取得5.5060的最优分数。下半部分对比了AIBuildAI与AIRA-dojo、MLEvolve在10个具体语言任务上的性能表现。

AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多个任务上均取得最优成绩,充分验证了 AIBuildAI 在多样化语言任务上的泛化能力。

总结

AIBuildAI通过将AI开发流程分配到包括设计、编码、调优与协调等任务的专职智能体,并以基于产出物的状态管理将各个智能体紧密协同,实现了端到端自动化AI工程。

不同于以往将代码生成作为核心范式的单体系统,AIBuildAI显示建模了训练动态监控、早停机制与超参数调整等关键环节,更贴近真实工程师团队的工作方式。

AIBuildAI在MLE-Bench的75个任务上,以63.1%的获奖率位居第一,证明了结构化多智能体协作在复杂工程工作自动化上的可行性,也为迈向媲美人类专业工程师的自动AI系统提供了清晰的技术路线。

参考资料:

https://github.com/aibuildai/AI-Build-AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
兰州擒获杀人恶魔:八名特警破门而入,搏斗十分钟,情节堪比武侠剧

兰州擒获杀人恶魔:八名特警破门而入,搏斗十分钟,情节堪比武侠剧

陇史荟王文元
2026-04-11 07:34:39
妻子给我戴绿帽,我问她那个男人哪里比我强,她的回答让我崩溃

妻子给我戴绿帽,我问她那个男人哪里比我强,她的回答让我崩溃

徐侠客有话说
2026-05-07 11:32:35
五一小长假第4天,过气艺人沦为景区NPC打工人,看看都有谁?

五一小长假第4天,过气艺人沦为景区NPC打工人,看看都有谁?

削桐作琴
2026-05-05 01:30:13
67岁毕福剑泰州农村商演!亲自为70岁老人贺寿,曝出场费20几万

67岁毕福剑泰州农村商演!亲自为70岁老人贺寿,曝出场费20几万

裕丰娱间说
2026-05-06 13:29:12
646亿财务造假终被抓,儿子投资来源不明,实业报国六年骗局

646亿财务造假终被抓,儿子投资来源不明,实业报国六年骗局

玲儿爱唱歌
2026-05-07 05:07:45
老话说“一地菜花蛇,十里无毒蛇”,菜花蛇这么厉害?它能打赢眼镜王蛇吗?

老话说“一地菜花蛇,十里无毒蛇”,菜花蛇这么厉害?它能打赢眼镜王蛇吗?

农夫也疯狂
2026-05-03 16:17:27
美国汽油价格突破每加仑4.50美元

美国汽油价格突破每加仑4.50美元

界面新闻
2026-05-06 15:38:11
五一假期突传噩耗!4位名人相继离世,平均年龄未满60令人惋惜

五一假期突传噩耗!4位名人相继离世,平均年龄未满60令人惋惜

林轻吟
2026-05-06 14:41:30
林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

浩渺青史
2026-04-17 13:55:15
A股:大家要做好准备了,明天(5月8日),不出意外会这么走

A股:大家要做好准备了,明天(5月8日),不出意外会这么走

财经大拿
2026-05-07 13:51:54
20年代,林徽因与冰心郊游的唯一合影,这是他们的真实容颜

20年代,林徽因与冰心郊游的唯一合影,这是他们的真实容颜

以茶带书
2026-04-25 19:22:44
尴尬!家长因孩子膝盖磕破责怪老师被回怼,“是五一假期磕破的”

尴尬!家长因孩子膝盖磕破责怪老师被回怼,“是五一假期磕破的”

火山詩话
2026-05-06 06:39:14
歌手王嘉尔食物中毒,称“再也不吃那些垃圾食品了”,曾因食用生腌酱蟹被送往急诊

歌手王嘉尔食物中毒,称“再也不吃那些垃圾食品了”,曾因食用生腌酱蟹被送往急诊

花样TV
2026-05-07 16:09:06
一杯茶蒸发300亿!霸王茶姬泡沫破裂,创始人套现进7亿离场

一杯茶蒸发300亿!霸王茶姬泡沫破裂,创始人套现进7亿离场

谢纶邮轮摄影
2026-04-17 15:33:57
三星开始推送稳定版One UI 8.5 首批覆盖7款Galaxy设备

三星开始推送稳定版One UI 8.5 首批覆盖7款Galaxy设备

CNMO科技
2026-05-07 13:24:15
理想CEO李想:呼吁所有增程车企同行,共同推广5C增程技术

理想CEO李想:呼吁所有增程车企同行,共同推广5C增程技术

IT之家
2026-05-07 16:36:07
1941年,日本为啥不全力压垮中国,非要转头偷袭美国?

1941年,日本为啥不全力压垮中国,非要转头偷袭美国?

贱议你读史
2026-05-01 02:05:03
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

千秋文化
2026-05-03 20:27:24
毁三观!体坛 4 大丑闻曝光:贪财好色、婚内出轨,比娱乐圈还乱

毁三观!体坛 4 大丑闻曝光:贪财好色、婚内出轨,比娱乐圈还乱

橙星文娱
2026-04-27 16:46:45
2026-05-07 17:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15151文章数 66844关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

费高云落马:任市委书记仅一年多 曾因爆炸事故被问责

头条要闻

费高云落马:任市委书记仅一年多 曾因爆炸事故被问责

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

理想为什么不做轿车,有了解释……

态度原创

房产
手机
亲子
教育
公开课

房产要闻

负债23亿,抵押482亩地!海南这家巨头,惨遭拍卖!

手机要闻

苹果画饼AI功能被罚17亿!中国用户一分都没有?

亲子要闻

沪12区幼儿园今日启动报名验证!完善信息与验证材料

教育要闻

再说一次:这其实是几何题

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版