网易首页 > 网易号 > 正文 申请入驻

这个AI能自己造AI,十几分钟写完代码,一天交付可用模型

0
分享至

近日,在 OpenAI 发布的机器学习工程师基准测试(MLE-bench)中,一个名为 AIBuildAI 的智能体系统以 63.11% 的整体得分稳居第一。

AIBuildAI 是一个可以自动构建 AI 模型的 AI 智能体。这意味着,你只需给它一个自然语言任务描述和数据文件夹,它就能在一天内独立完成模型设计、代码生成、模型训练、超参数调优、性能评估,并持续迭代改进模型性能。


(来源:受访者提供)

这个“AI 工程师”背后的主要负责人,正是加州大学圣地亚哥分校(UCSD)电气与计算机工程系副教授谢澎涛(Pengtao Xie)。他拥有卡内基梅隆大学机器学习系博士背景,研究方向聚焦人类学习技能启发的机器学习,并将其应用于大语言模型、基础模型以及生物医学领域。

据谢澎涛介绍,AIBuildAI 的诞生,最初是为了解决实验室内部一个非常现实的困境。

“我们团队有两类学生。一类是生物医学背景的,他们希望用 AI 预测 RNA 功能、蛋白质结构等具体问题,但缺乏建模和编程能力;另一类是 AI 方法背景的,虽然能自己写代码,却要花好几天甚至几周反复实验。”谢澎涛告诉 DeepTech。

“如果有一个智能体,能让用户只用自然语言描述任务,后续所有步骤——模型架构设计、代码编写、训练、超参数调优、性能评估、甚至自我复盘改进——全部自动完成,那对两类学生都是巨大解放。”他补充道。

于是,AIBuildAI 项目正式启动。“智能体本身大约做了半年,但底层的推理、合成数据等技术我们已经积累了好几年。”谢澎涛透露,团队对于这款智能体的定位也十分明确:基于成熟 AI 模块组合设计模型,解决落地性强的常规任务。

据悉,AIBuildAI 是一套模块化、可闭环运行的 AI 智能体系统,整体分为三层,各司其职又深度联动,实现从任务理解到模型交付的全流程无人干预。

顶层是任务理解与决策层。当用户输入“预测 RNA 功能”或“蛋白质酶分类”等自然语言指令时,这一层负责解析意图、判断任务类型并拆解执行步骤。它是整个系统的“指挥中心”,决定了建模的方向和逻辑。

在这一核心中枢的选择上,团队选用了 Claude-Opus-4.6 大模型。“我们测试对比了多个模型,虽然 GPT-5 在某些设计思路上表现出色,但在智能体最关键的环节——‘写代码’上,Claude 的稳定性、长流程逻辑理解和结构化指令执行力是最适配建模场景的。”

中层是推理与代码生成层,也是 AIBuildAI 的技术核心,搭载团队自研的 Dream PRM(过程奖励模型)、Dream ORM(结果奖励模型)推理模块,负责模型设计、代码编写、迭代复盘。PRM 负责步骤级精准推理,ORM 负责结果校验与优化建议,双重保障每一步执行不出错,避免“一步错、全流程崩”的问题,也是实现自动复盘改进的关键。

底层是执行与训练层,其承接中层生成的代码和方案,自动完成数据加载、模型训练、超参数调优、性能评估、结果输出,同时管控硬件资源和算力消耗。这一层把上层的“设计思路”转化为可运行、可部署的实际模型。


(来源:受访者提供)

为了验证 AIBuildAI 的能力,团队在 MLE-bench 的 75 个任务(涵盖医疗、物理、生物等多个学科)中进行了测试。MLE-Bench 是 OpenAI 推出的全球顶尖的全自动机器学习测评平台,专门考核 AI 智能体 “独立构建有效 AI 模型” 的能力,测评覆盖简单(Low)、中等(Medium)、高难度(High) 三类真实 AI 任务,最终按整体准确率排名,是行业内公认的“全自动 ML 能力试金石”。

AIBuildAI 在这个测评中交出了亮眼的成绩,在无测试数据泄露的前提下排名第一。其中简单任务准确率77.27%;中等任务准确率 61.40%;高难度任务准确率 46.67%;整体综合准确率 63.11%。

以“蛋白质酶类别预测”为例,该任务基于发表在 Science 论文的数据集,AIBuildAI 自动构建的模型,效果完全对标论文成果,普通用户借助简化数据集就能快速复现。

“对比学生手动写代码需要好几天,AIBuildAI 十几分钟就能完成代码编写,大多数数据量不大的任务,一天内就能落地。”谢澎涛介绍道。

目前,AIBuildAI 已深度融入团队实验室工作,主要服务生物医学背景的研究者,完美适配分类、回归、序列分析等单模态任务,无论是生物信息数据分析,还是产业界的预测建模需求,都能轻松胜任。但对于 AI方向博士生的前沿研究、多模态融合任务,目前仍无法完全满足,团队仍在持续迭代优化。

针对用户关心的系统适配问题,谢澎涛表示,现阶段 AIBuildAI 仅支持 Linux 系统,暂无适配 Mac、Windows 的计划。“AI 模型训练依赖 GPU,而 99% 的 GPU 环境都部署在 Linux 上,足以覆盖绝大多数使用场景。”

据悉,AIBuildAI 已开启中小企业试用,收获了不少真实反馈,也明确了下一步优化方向。用户反馈的核心问题集中在两点:数据处理能力不足,难以应对缺失值、标注混乱等问题;对用户意图理解不够精准。

谢澎涛坦言,数据处理的技术难点并不大,通过增加数据质量检查工具就能逐步优化,但现实场景中数据问题繁杂,实现泛化适配仍有挑战。这也是团队接下来的重点攻坚方向。

对于 AIBuildAI 的长远未来,谢澎涛有着更宏大的构想:让智能体具备自我学习、自我进化的能力。“未来它能主动阅读最新论文,归纳新知识、转化为自身技能,不用人工干预就能实现能力升级。”

1.https://pengtaoxie.github.io/

2.https://github.com/aibuildai/AI-Build-AI

3.https://github.com/openai/mle-bench/pull/126

4.https://www.science.org/doi/10.1126/science.adf2465

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰经典语录:句句都是人间清醒

张雪峰经典语录:句句都是人间清醒

山东教育
2026-03-26 08:07:56
尊严不容践踏,对日打击必须是毁灭性的,绝不能手下留情!

尊严不容践踏,对日打击必须是毁灭性的,绝不能手下留情!

李光满说
2026-03-25 17:27:16
我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

番外行
2026-03-24 13:04:28
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
2米15内线抵达与球队会和,正式加盟CBA

2米15内线抵达与球队会和,正式加盟CBA

刺猬篮球
2026-03-27 09:27:23
那些年岛国不喜欢骑马的步兵女老师,你更钟意谁?

那些年岛国不喜欢骑马的步兵女老师,你更钟意谁?

碧波万览
2026-03-27 00:50:03
马龙刚到香港,张怡宁直接破例,这场家宴藏着体坛最真的交情

马龙刚到香港,张怡宁直接破例,这场家宴藏着体坛最真的交情

大鱼娱乐观
2026-03-25 23:45:34
中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

咣当地球
2026-03-26 16:10:46
山西一学校职工举报自己吃空饷:没上班领6年工资,无人追查,无人监管!多方回应

山西一学校职工举报自己吃空饷:没上班领6年工资,无人追查,无人监管!多方回应

大象新闻
2026-03-27 00:45:05
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
魔笛J罗再相聚!皇马两代10号拥抱寒暄 赛后交换球衣

魔笛J罗再相聚!皇马两代10号拥抱寒暄 赛后交换球衣

叶青足球世界
2026-03-27 11:17:22
以色列斩首后伊朗背书,伊朗撒谎后转身就不再提

以色列斩首后伊朗背书,伊朗撒谎后转身就不再提

移光幻影
2026-03-27 10:26:04
《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

娱乐故事
2026-03-26 17:11:11
加拿大宣布对伊朗实施新制裁

加拿大宣布对伊朗实施新制裁

每日经济新闻
2026-03-27 08:32:12
人很朴素!93年女未婚先孕,孩子出生58天,征有房有车男士引热议

人很朴素!93年女未婚先孕,孩子出生58天,征有房有车男士引热议

火山詩话
2026-03-27 09:46:14
101枚导弹砸向美国航母,伊朗打出了开战以来最强势的一拳

101枚导弹砸向美国航母,伊朗打出了开战以来最强势的一拳

乐享人生风雨
2026-03-27 10:07:40
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
90万中国人定居日本,40%永住资格

90万中国人定居日本,40%永住资格

雪中风车
2026-03-27 09:49:39
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
伊朗军方知情人士:已组织超100万人,为地面战斗做准备,大量青年提交参战申请!

伊朗军方知情人士:已组织超100万人,为地面战斗做准备,大量青年提交参战申请!

每日经济新闻
2026-03-27 00:54:11
2026-03-27 12:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514800关注度
往期回顾 全部

科技要闻

OpenAI果断砍掉"成人模式",死磕生产力

头条要闻

牛弹琴:一直赢的特朗普心里更慌了 又给自己续了10天

头条要闻

牛弹琴:一直赢的特朗普心里更慌了 又给自己续了10天

体育要闻

近29战23胜!这支黄蜂有多强?

娱乐要闻

张雪峰灵堂内景曝光,四周摆满了鲜花

财经要闻

很反常!油价向上,黄金向下

汽车要闻

与众08,金标大众不能输的一战

态度原创

艺术
健康
本地
时尚
公开课

艺术要闻

2025“殊相”——中国油画学会创作研修作品展 | 作品选刊(一)

转头就晕的耳石症,能开车上班吗?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

张雪峰曾经“5次谈猝死”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版