网易首页 > 网易号 > 正文 申请入驻

龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一

0
分享至


新智元报道

编辑:LRST

【新智元导读】UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。

近日,加州大学圣地亚哥分校的研究团队开发了AIBuildAI智能体,可以全自动构建AI模型(包括模型设计,代码实现,模型训练,调参,性能评估,迭代优化)。团队成员包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及该校副教授Pengtao Xie。

开发一个高性能AI模型非常耗时费力,工程师需要反复设计模型、写代码实现模型、构建训练流水线、执行超参数搜索,并根据实验结果对模型进行迭代优化。

这一过程对专业知识的依赖程度极高,人力成本也居高不下,非常耗费时间。

为了解决这一问题,UCSD的研究团队开发了AIBuildAI智能体,充当虚拟的AI工程师或AI科学家,全自动构建AI模型。用户无需编程,只需要用自然语言对任务进行描述,AIBuildAI自动设计模型,写代码实现模型,训练模型,调节超参数,评估模型性能,并根据实验结果对模型进行迭代优化。


项目地址:https://github.com/aibuildai/AI-Build-AI

论文链接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

OpenAI MLE-Bench测评结果:https://github.com/openai/mle-bench/pull/126

AIBuildAI在OpenAI MLE-Bench基准测试的75个任务上以63.1%的获奖率位居榜首,其表现可媲美经验丰富的AI工程师,实现了从任务描述到可部署模型的端到端自动化。



AIBuildAI的设计灵感来源于真实的AI研究团队的工作流程。在典型的AI项目中,技术负责人统筹多条并行探索路线,研究员提出建模策略,工程师实现训练流水线,负责人定期评审结果、分配资源。AIBuildAI将这一工作流抽象为一个多智能体搜索过程:将整个开发周期分解为多个专职智能体协作执行,并通过集中化的管理器进行统一调度。


技术核心

管理智能体(Manager Agent)

扮演项目运行负责人的角色,全程不直接写代码或执行训练任务,而是通过读取磁盘上的实验记录来做出下一步决策。他在两种模式之间切换:协调模式下决定下一步应该调用哪一个子智能体;筛选模式下依据训练信号保留有潜力的候选方案并终止无效方案来节约时间以及计算成本,并在进展停滞时触发修订或者终止。

研究员智能体(Designer Agent)

负责想方案和改方案两项核心任务。在设计模式下,他直接探索数据集特征,提出多个差异化、可行性强的建模计划;在修订模式下,他仔细诊断失败原因(过拟合、欠拟合、收敛问题或者数据异常),并提出具体的改进方案供编码智能体重新实现。

编码智能体(Coder Agent)

将设计方案转化为可运行的训练与推理流水线。编码智能体的目标是确保代码正确完整,而非追求最终性能。他会在写完代码后执行一次短时验证运行以确保流水线可以端到端运行,随后将完整训练交由调优器处理。

调优器智能体(Tuner Agent)

接管训练过程,在已有代码基础上专注于性能提升。它采用先快速校准、再决定是否投入的策略:先跑一段简短的热身训练观察学习曲线,再决定是延长当前方案还是进行超参数调整。整个过程在固定计算预算内完成。

系统设计

AIBuildAI在系统层面还具备三项关键特征:

  • 并行效率:多条解决方案轨迹在独立工作空间中并发运行,避免互相干扰,允许系统同时探索多个方法并将资源集中于表现好的候选方案。

  • 可复现性:所有智能体通过存储于磁盘中产出物(方案文档、配置文件、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作均可事后审查与复现。

  • 安全性:智能体仅被允许写入自身轨迹目录,数据集以只读方式挂载,每次调用均生成可审计的操作日志。


实验结果


AIBuildAI在OpenAI MLE-Bench基准测试上进行了评估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了来自Kaggle竞赛的真实任务,涵盖图像分类,目标检测/分割、自然语言理解与生成、时序信号建模以及结构化表格预测等多个类别,共75个任务,要求系统完成从原始数据到可提交模型的全流程开发。目前,AIBuildAI以63.1%的综合获奖率位居MLE-Bench总榜第一。上图展示了AIBuildAI(橙条)的综合性能在所有的对比方法中实现了性能最佳。


上图展示了AIBuildAI 在语言理解与生成任务上的详细结果。上半部分以Billion Word Imputation为例,完整呈现了 AIBuildAI 各智能体的运行轨迹:Manager依次调度Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终Aggregator以RoBERTa-large为基础生成提交文件,取得5.5060的最优分数。下半部分对比了AIBuildAI与AIRA-dojo、MLEvolve在10个具体语言任务上的性能表现。

AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多个任务上均取得最优成绩,充分验证了 AIBuildAI 在多样化语言任务上的泛化能力。

总结

AIBuildAI通过将AI开发流程分配到包括设计、编码、调优与协调等任务的专职智能体,并以基于产出物的状态管理将各个智能体紧密协同,实现了端到端自动化AI工程。

不同于以往将代码生成作为核心范式的单体系统,AIBuildAI显示建模了训练动态监控、早停机制与超参数调整等关键环节,更贴近真实工程师团队的工作方式。

AIBuildAI在MLE-Bench的75个任务上,以63.1%的获奖率位居第一,证明了结构化多智能体协作在复杂工程工作自动化上的可行性,也为迈向媲美人类专业工程师的自动AI系统提供了清晰的技术路线。

参考资料:

https://github.com/aibuildai/AI-Build-AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
堂哥在家族群通知年夜饭我买单,我反手取消包厢,大伯炸锅

堂哥在家族群通知年夜饭我买单,我反手取消包厢,大伯炸锅

小秋情感说
2026-03-26 09:28:29
2005年,韩国把“汉城”改为首尔,全世界为何只要求中国改称呼?

2005年,韩国把“汉城”改为首尔,全世界为何只要求中国改称呼?

咸説历史
2026-03-19 07:06:34
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
张雪峰离世1天后,才发现女儿名字取得很有意思,字字都有原因!

张雪峰离世1天后,才发现女儿名字取得很有意思,字字都有原因!

热心市民小黄
2026-03-25 22:30:06
赖清德天塌了!参会身份已定,4国与台断交,台当局10年努力白费

赖清德天塌了!参会身份已定,4国与台断交,台当局10年努力白费

娱乐小可爱蛙
2026-03-25 17:08:42
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

鱼崖大话篮球
2026-03-26 11:49:12
独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

犀利辣椒
2026-03-19 06:40:31
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

聚焦风暴来袭
2026-03-26 09:51:50
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
我德国姑娘,嫁给中国小伙,被迫带俩娃来中国,这里生活百闻一见

我德国姑娘,嫁给中国小伙,被迫带俩娃来中国,这里生活百闻一见

带你领略快乐真谛
2026-03-25 22:14:51
马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

我是一个养虾人
2026-03-25 23:32:20
以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

林子说事
2026-03-24 00:50:49
大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

风起见你
2026-03-20 02:22:40
爆冷击败2号种子!中国女网15岁小花崛起:追赶郑钦文王欣瑜?

爆冷击败2号种子!中国女网15岁小花崛起:追赶郑钦文王欣瑜?

李喜林篮球绝杀
2026-03-25 17:21:56
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

蓝色海边
2026-03-26 11:01:31
祝福胖虎!卡塞米罗获国米邀约,初步同意转战意甲!

祝福胖虎!卡塞米罗获国米邀约,初步同意转战意甲!

海浪星体育
2026-03-25 11:29:59
午评:沪指半日冲高回落跌0.58% 锂电材料、电力板块逆势活跃

午评:沪指半日冲高回落跌0.58% 锂电材料、电力板块逆势活跃

财联社
2026-03-26 11:32:21
2026-03-26 13:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
健康
艺术
房产
时尚

数码要闻

海盗船MAKR PRO 75霍尔效应磁轴键盘国行上市,1999元

转头就晕的耳石症,能开车上班吗?

艺术要闻

哪一座桥不是风景?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

2026年了,最好看的还是“这件针织”!

无障碍浏览 进入关怀版