网易首页 > 网易号 > 正文 申请入驻

这个AI能自己造AI,十几分钟写完代码,一天交付可用模型

0
分享至

近日,在 OpenAI 发布的机器学习工程师基准测试(MLE-bench)中,一个名为 AIBuildAI 的智能体系统以 63.11% 的整体得分稳居第一。

AIBuildAI 是一个可以自动构建 AI 模型的 AI 智能体。这意味着,你只需给它一个自然语言任务描述和数据文件夹,它就能在一天内独立完成模型设计、代码生成、模型训练、超参数调优、性能评估,并持续迭代改进模型性能。


(来源:受访者提供)

这个“AI 工程师”背后的主要负责人,正是加州大学圣地亚哥分校(UCSD)电气与计算机工程系副教授谢澎涛(Pengtao Xie)。他拥有卡内基梅隆大学机器学习系博士背景,研究方向聚焦人类学习技能启发的机器学习,并将其应用于大语言模型、基础模型以及生物医学领域。

据谢澎涛介绍,AIBuildAI 的诞生,最初是为了解决实验室内部一个非常现实的困境。

“我们团队有两类学生。一类是生物医学背景的,他们希望用 AI 预测 RNA 功能、蛋白质结构等具体问题,但缺乏建模和编程能力;另一类是 AI 方法背景的,虽然能自己写代码,却要花好几天甚至几周反复实验。”谢澎涛告诉 DeepTech。

“如果有一个智能体,能让用户只用自然语言描述任务,后续所有步骤——模型架构设计、代码编写、训练、超参数调优、性能评估、甚至自我复盘改进——全部自动完成,那对两类学生都是巨大解放。”他补充道。

于是,AIBuildAI 项目正式启动。“智能体本身大约做了半年,但底层的推理、合成数据等技术我们已经积累了好几年。”谢澎涛透露,团队对于这款智能体的定位也十分明确:基于成熟 AI 模块组合设计模型,解决落地性强的常规任务。

据悉,AIBuildAI 是一套模块化、可闭环运行的 AI 智能体系统,整体分为三层,各司其职又深度联动,实现从任务理解到模型交付的全流程无人干预。

顶层是任务理解与决策层。当用户输入“预测 RNA 功能”或“蛋白质酶分类”等自然语言指令时,这一层负责解析意图、判断任务类型并拆解执行步骤。它是整个系统的“指挥中心”,决定了建模的方向和逻辑。

在这一核心中枢的选择上,团队选用了 Claude-Opus-4.6 大模型。“我们测试对比了多个模型,虽然 GPT-5 在某些设计思路上表现出色,但在智能体最关键的环节——‘写代码’上,Claude 的稳定性、长流程逻辑理解和结构化指令执行力是最适配建模场景的。”

中层是推理与代码生成层,也是 AIBuildAI 的技术核心,搭载团队自研的 Dream PRM(过程奖励模型)、Dream ORM(结果奖励模型)推理模块,负责模型设计、代码编写、迭代复盘。PRM 负责步骤级精准推理,ORM 负责结果校验与优化建议,双重保障每一步执行不出错,避免“一步错、全流程崩”的问题,也是实现自动复盘改进的关键。

底层是执行与训练层,其承接中层生成的代码和方案,自动完成数据加载、模型训练、超参数调优、性能评估、结果输出,同时管控硬件资源和算力消耗。这一层把上层的“设计思路”转化为可运行、可部署的实际模型。


(来源:受访者提供)

为了验证 AIBuildAI 的能力,团队在 MLE-bench 的 75 个任务(涵盖医疗、物理、生物等多个学科)中进行了测试。MLE-Bench 是 OpenAI 推出的全球顶尖的全自动机器学习测评平台,专门考核 AI 智能体 “独立构建有效 AI 模型” 的能力,测评覆盖简单(Low)、中等(Medium)、高难度(High) 三类真实 AI 任务,最终按整体准确率排名,是行业内公认的“全自动 ML 能力试金石”。

AIBuildAI 在这个测评中交出了亮眼的成绩,在无测试数据泄露的前提下排名第一。其中简单任务准确率77.27%;中等任务准确率 61.40%;高难度任务准确率 46.67%;整体综合准确率 63.11%。

以“蛋白质酶类别预测”为例,该任务基于发表在 Science 论文的数据集,AIBuildAI 自动构建的模型,效果完全对标论文成果,普通用户借助简化数据集就能快速复现。

“对比学生手动写代码需要好几天,AIBuildAI 十几分钟就能完成代码编写,大多数数据量不大的任务,一天内就能落地。”谢澎涛介绍道。

目前,AIBuildAI 已深度融入团队实验室工作,主要服务生物医学背景的研究者,完美适配分类、回归、序列分析等单模态任务,无论是生物信息数据分析,还是产业界的预测建模需求,都能轻松胜任。但对于 AI方向博士生的前沿研究、多模态融合任务,目前仍无法完全满足,团队仍在持续迭代优化。

针对用户关心的系统适配问题,谢澎涛表示,现阶段 AIBuildAI 仅支持 Linux 系统,暂无适配 Mac、Windows 的计划。“AI 模型训练依赖 GPU,而 99% 的 GPU 环境都部署在 Linux 上,足以覆盖绝大多数使用场景。”

据悉,AIBuildAI 已开启中小企业试用,收获了不少真实反馈,也明确了下一步优化方向。用户反馈的核心问题集中在两点:数据处理能力不足,难以应对缺失值、标注混乱等问题;对用户意图理解不够精准。

谢澎涛坦言,数据处理的技术难点并不大,通过增加数据质量检查工具就能逐步优化,但现实场景中数据问题繁杂,实现泛化适配仍有挑战。这也是团队接下来的重点攻坚方向。

对于 AIBuildAI 的长远未来,谢澎涛有着更宏大的构想:让智能体具备自我学习、自我进化的能力。“未来它能主动阅读最新论文,归纳新知识、转化为自身技能,不用人工干预就能实现能力升级。”

1.https://pengtaoxie.github.io/

2.https://github.com/aibuildai/AI-Build-AI

3.https://github.com/openai/mle-bench/pull/126

4.https://www.science.org/doi/10.1126/science.adf2465

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军机陆续撤离以色列最大国际机场

美军机陆续撤离以色列最大国际机场

鲁中晨报
2026-07-03 15:38:04
效率王,贡萨洛-拉莫斯在世界杯出场187分钟贡献4球1助攻

效率王,贡萨洛-拉莫斯在世界杯出场187分钟贡献4球1助攻

懂球帝
2026-07-03 09:46:28
民营医院大批量倒闭,根本不是经营不善

民营医院大批量倒闭,根本不是经营不善

华庭讲美食
2026-07-02 15:26:05
官媒发声!没想到,2026才刚过半,董明珠竟在欧洲发了笔"横财"

官媒发声!没想到,2026才刚过半,董明珠竟在欧洲发了笔"横财"

往史过眼云烟
2026-07-03 09:55:17
三星S27放弃京东方面板:内部激烈反对导致合作告吹

三星S27放弃京东方面板:内部激烈反对导致合作告吹

快科技
2026-07-01 15:06:26
SpaceX官方视频:星舰S40六引擎60秒点火成功,IFT-13倒计时

SpaceX官方视频:星舰S40六引擎60秒点火成功,IFT-13倒计时

三体引力波
2026-07-03 12:35:32
气质出众,巴萨女足传奇普特利亚斯现场观战西班牙队比赛

气质出众,巴萨女足传奇普特利亚斯现场观战西班牙队比赛

懂球帝
2026-07-03 04:14:23
65岁老头用零食哄骗小女孩,对其侵害长达两年,12岁女孩怀孕产子

65岁老头用零食哄骗小女孩,对其侵害长达两年,12岁女孩怀孕产子

易玄
2026-06-27 01:06:14
失踪近一年后,美国一实验室员工被曝曾参与量子物理项目:让物质“同时存在于两个地方”

失踪近一年后,美国一实验室员工被曝曾参与量子物理项目:让物质“同时存在于两个地方”

红星新闻
2026-07-03 14:00:10
世界杯场场爆满,数万票价不减热度,美国经济真的不行了吗?

世界杯场场爆满,数万票价不减热度,美国经济真的不行了吗?

青松解局
2026-07-02 15:16:40
马丁内斯:我们不认为自己是冠军热门,但我们会不断反思进步

马丁内斯:我们不认为自己是冠军热门,但我们会不断反思进步

懂球帝
2026-07-03 12:46:11
冬瓜和它是绝配,一碗下肚,湿气全跑光,皮肤都亮了

冬瓜和它是绝配,一碗下肚,湿气全跑光,皮肤都亮了

今日养生之道
2026-07-03 12:19:30
中方猛捶日本,反制措施再加码,高市扛不住,找到绕开中国的办法

中方猛捶日本,反制措施再加码,高市扛不住,找到绕开中国的办法

墨子翟的日记y
2026-07-03 15:09:35
财政部回应“世行将逐步停止对华贷款”

财政部回应“世行将逐步停止对华贷款”

环球时报国际
2026-07-03 09:26:13
阿斯谈阿根廷vs佛得角:梅西将对阵一支此前从未有人听说过的球队

阿斯谈阿根廷vs佛得角:梅西将对阵一支此前从未有人听说过的球队

画夕
2026-07-03 00:20:02
台媒曝75岁郭台铭被50岁中女勾引!女方离异带娃 颜值不及正室

台媒曝75岁郭台铭被50岁中女勾引!女方离异带娃 颜值不及正室

天天热点见闻
2026-06-29 18:56:43
图赫尔未战先怯!英格兰王牌公开认怂!世界杯恐爆大冷

图赫尔未战先怯!英格兰王牌公开认怂!世界杯恐爆大冷

澜归序
2026-07-03 05:04:31
河北省发布高温红色预警,部分地区最高气温可达40℃以上

河北省发布高温红色预警,部分地区最高气温可达40℃以上

界面新闻
2026-07-03 15:58:03
胡锡进和大家不是一个阶级

胡锡进和大家不是一个阶级

喜欢历史的阿繁
2026-07-03 15:34:48
ETF今日收评 | 机器人ETF广发涨停,创新药ETF华泰柏瑞跌超8%,半导体设备ETF跌超3%

ETF今日收评 | 机器人ETF广发涨停,创新药ETF华泰柏瑞跌超8%,半导体设备ETF跌超3%

每经牛眼
2026-07-03 15:29:50
2026-07-03 16:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16918文章数 515072关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

网友买二手CCD相机 发现内存哈工大教授上百张老照片

头条要闻

网友买二手CCD相机 发现内存哈工大教授上百张老照片

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
健康
旅游
亲子
教育

房产要闻

好惨!房地产专业,正在海南消失!

这4类消化病患者 吃粘食管住嘴

旅游要闻

师宗凤凰谷藏天然扩音器,不靠喇叭传声数里,科学界仍存未解谜团

亲子要闻

达能纽迪希亚三项实证亮相ESPGHAN,开启母乳研究的“结构革命”

教育要闻

这是人类历史上最大规模的学历提升运动

无障碍浏览 进入关怀版