网易首页 > 网易号 > 正文 申请入驻

AutoGluon助手:多智能体协作实现零代码AutoML

0
分享至


在2024年Kaggle AutoML大奖赛上,这是一项奖金75,000美元的竞赛,汇集了数百支队伍,包括顶级AutoML从业者和Kaggle大师级选手,我们的全自动框架获得第10名,成为竞赛中唯一获得积分的自动化智能体。这一成就验证了我们一直在探索的问题:我们能否不仅消除AutoML中通常涉及的模型选择和超参数调优,还能消除编码本身?

自动机器学习的承诺一直是普及化。然而,大多数AutoML工具仍要求用户编写代码、准备数据结构并理解机器学习工作流程。对于没有编程背景的领域专家——分析实验数据的科学家、构建预测模型的分析师,或处理图像集合的研究人员——这种编码要求造成了不必要的障碍。

我们设计AutoGluon助手来消除这一障碍。该系统基于MLZero构建,这是一个由大语言模型驱动的新型多智能体系统,AutoGluon助手能够将自然语言描述转换为跨表格、图像、文本和时间序列数据的训练好的机器学习模型。该系统在我们的多模态AutoML智能体基准测试中实现了92%的成功率,在外部MLE-bench Lite测试中达到86%的成功率,在成功率和解决方案质量方面都表现领先。

多智能体架构解决现实世界的机器学习挑战

传统的AutoML工具假设输入是干净、结构化的,用户能够正确调用API。而现实世界的机器学习问题始于更复杂的情况:模糊的数据文件、不明确的任务定义,以及可能不知道自己需要分类还是回归的用户。MLZero通过多智能体架构解决这个问题,其中由亚马逊Bedrock的大语言模型驱动的专业组件协作,将原始输入转换为可行的解决方案。

例如,考虑一位医学研究人员上传带有分割掩码的胸部X光图像,将目标描述为"在X光片中定位疾病区域"。感知模块识别出这是像素级分割任务,语义记忆选择AutoGluon的MultiModalPredictor进行语义分割,迭代编码模块生成并完善代码。当初始尝试遇到掩码格式不兼容问题时,情节记忆提供调试上下文来调整预处理和后处理,成功训练出分割模型——研究人员无需编写任何代码。

该系统包含四个核心模块:感知、语义记忆、情节记忆和迭代编码。感知模块解释任意数据输入,解析文件结构和内容以构建结构化理解,无论格式不一致或命名模糊。当用户提供没有明确目标变量指示的CSV文件时,感知模块分析列分布和语义来推断任务结构。

语义记忆模块通过机器学习库的知识丰富系统,维护关于AutoGluon能力、API模式和最佳实践的结构化信息。语义记忆使系统能够根据任务特征选择适当的工具,而不需要用户知道语义分割任务需要在AutoGluon Multimodal中使用SAM模型。

情节记忆维护按时间顺序的执行记录,跟踪系统尝试过什么、什么成功了、什么失败了。当代码执行产生错误时,该模块通过显示相关的先前尝试及其结果来提供调试上下文。这解决了机器学习开发的迭代性质,解决方案通过完善而不是完整出现。

迭代编码模块实现了具有反馈循环和增强记忆的改进过程。生成的代码执行,产生结果或错误,并为后续尝试提供信息。这个过程持续到成功执行或达到最大迭代限制,需要时可选择每次迭代的用户输入进行指导。该架构在保持高度自动化的同时保留了人工监督的灵活性。

通过这个综合系统,MLZero弥合了嘈杂原始数据与复杂机器学习解决方案之间的差距。多智能体协作模式在各种模态中都被证明是有效的,因为该架构分离了在单智能体系统中传统上交织的关注点——理解数据、了解能力、跟踪历史和生成代码。

基准测试验证系统性能

为了根据既定的外部标准验证我们的系统,我们首先在MLE-bench Lite上进行了评估。该基准测试由来自以往Kaggle竞赛的21个不同挑战组成,允许我们直接将模型性能与其他领先自动化系统进行比较。我们的模型达到了最高成功率86%,意味着它成功完成并提交了21个挑战中18个的有效解决方案。它在整体解决方案质量方面获得第一名,平均排名为1.43,而第二名智能体为2.36。我们的智能体赢得了六枚金牌,在基准测试的挑战中总奖牌数超过了所有竞争对手。

在现有基准测试上证明模型能力后,我们在自己的多模态AutoML智能体基准测试上进一步测试,这是一个更具挑战性的测试套件,包含25个不同的任务,数据集处理程度较低,数据更接近原始形式,噪声更多、格式不一致性和模糊性更大。该基准测试包含多种数据模态(表格、图像、文本、文档)和问题类型(分类、回归、检索、语义分割)以及具有挑战性的数据结构(多语言、多表格和大规模数据集)。AutoGluon助手(作为MLZero)在所有任务中实现了92%的成功率。当使用紧凑的80亿参数大语言模型实现时,系统仍实现了45.3%的成功率,比许多更大、更消耗资源的智能体更有效。

灵活的集成与协作

AutoGluon助手支持多种交互模式以适应不同的用户偏好和工作流程。用户可以通过命令行界面调用系统进行快速自动化任务,通过Python API集成到现有数据管道中,通过Web UI进行可视化交互和监控,或者使用模型上下文协议(MCP)将其与其他智能体工具集成。这种灵活性确保无论用户偏好脚本、图形界面还是程序化控制,都能访问相同的底层自动化功能。

系统还支持可选的每次迭代用户输入,允许领域专家在迭代改进过程中注入专业知识,同时保持日常使用的自动化。例如,在处理医学影像数据时,专家可能会指导系统采用特定于其扫描协议的自定义标准化。情节记忆跟踪这些干预以及系统生成的尝试,创造了一个协作动态,其中自动化处理机械复杂性,而用户在拥有相关见解时提供战略指导。

该系统是开源的,可在Github上获得,技术细节发表在我们的NeurIPS 2025论文中。

Q&A

Q1:AutoGluon助手是什么?它能做什么?

A:AutoGluon助手是基于MLZero的零代码自动机器学习系统,由大语言模型驱动的多智能体协作架构构建。它能够将自然语言描述直接转换为训练好的机器学习模型,支持表格、图像、文本和时间序列等多种数据类型,无需用户编写任何代码。

Q2:MLZero的多智能体架构是如何工作的?

A:MLZero包含四个核心模块:感知模块解释数据输入和任务定义;语义记忆模块存储机器学习库知识;情节记忆模块跟踪执行历史;迭代编码模块生成和完善代码。这些模块协作将原始数据转换为完整的机器学习解决方案。

Q3:AutoGluon助手在基准测试中表现如何?

A:在MLE-bench Lite基准测试中,AutoGluon助手达到86%的成功率,获得第一名;在多模态AutoML智能体基准测试中达到92%成功率。即使使用80亿参数的紧凑模型,仍能实现45.3%的成功率,超越许多大型智能体系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
GEO火了,流量革命近了?

GEO火了,流量革命近了?

惊蛰研究所
2026-01-22 11:43:46
后续!“性商教母”网红周媛被封禁:授课内容曝光,令人脸红,网友一阵叹息!50岁的她收割中年女性2400万

后续!“性商教母”网红周媛被封禁:授课内容曝光,令人脸红,网友一阵叹息!50岁的她收割中年女性2400万

文字里拾光
2026-01-22 20:24:34
年营收超百亿元,知名超市公告:财务人员卷走2.19亿元,还逃到境外,被判无期!公司已连亏4年,去年关30家大卖场

年营收超百亿元,知名超市公告:财务人员卷走2.19亿元,还逃到境外,被判无期!公司已连亏4年,去年关30家大卖场

每日经济新闻
2026-01-24 00:37:05
2025年外贸十强城市出炉

2025年外贸十强城市出炉

第一财经资讯
2026-01-22 20:45:35
特朗普:将对所有与伊朗进行贸易往来国家加征25%关税;特朗普警告称美国有一支“庞大的舰队”正朝伊朗驶来

特朗普:将对所有与伊朗进行贸易往来国家加征25%关税;特朗普警告称美国有一支“庞大的舰队”正朝伊朗驶来

每日经济新闻
2026-01-23 13:15:15
比没钱更可怕的是戴“中国式大妈配饰”,自以为时髦,实际很廉价

比没钱更可怕的是戴“中国式大妈配饰”,自以为时髦,实际很廉价

白宸侃片
2026-01-22 11:07:38
泽连斯基口出狂言:每月打死三万俄军,现在也能击沉格陵兰岛俄舰

泽连斯基口出狂言:每月打死三万俄军,现在也能击沉格陵兰岛俄舰

阿龙聊军事
2026-01-24 09:33:43
索要2.8亿!申通老板娘,炸了一个大雷

索要2.8亿!申通老板娘,炸了一个大雷

首席品牌评论
2026-01-24 00:02:45
真的佩服我们公司的主管!

真的佩服我们公司的主管!

太急张三疯
2026-01-16 06:28:07
拎壶冲酒获支持,李亚鹏当时非常落魄,卖一瓶就给人制作祝福视频

拎壶冲酒获支持,李亚鹏当时非常落魄,卖一瓶就给人制作祝福视频

映射生活的身影
2026-01-21 15:44:37
你有刷新你三观的亲戚吗?网友:所以啊,本零零后断亲是必然的

你有刷新你三观的亲戚吗?网友:所以啊,本零零后断亲是必然的

带你感受人间冷暖
2025-12-22 00:05:14
拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

现代小青青慕慕
2026-01-21 08:06:47
科斯塔:孔蒂为人尖酸刻薄,整天摆臭脸怕是因为在家没性生活

科斯塔:孔蒂为人尖酸刻薄,整天摆臭脸怕是因为在家没性生活

懂球帝
2026-01-24 01:03:23
捞金失败!2个劣迹艺人下乡商演被举报,官媒发文,后路要断了

捞金失败!2个劣迹艺人下乡商演被举报,官媒发文,后路要断了

削桐作琴
2026-01-21 17:12:32
长期被“冤枉”的7个好东西,很多人以为有害,岂不知可以放心吃

长期被“冤枉”的7个好东西,很多人以为有害,岂不知可以放心吃

洪洋美食日记
2025-12-19 09:02:31
基辅市长公开炮轰泽连斯基,四年不见面,你在国家危难搞内斗!

基辅市长公开炮轰泽连斯基,四年不见面,你在国家危难搞内斗!

老塕是个手艺人
2026-01-24 05:41:30
北京饭店施工到14层时,中央警卫前来交涉:“危及中南海安全,请马上停工”

北京饭店施工到14层时,中央警卫前来交涉:“危及中南海安全,请马上停工”

老杉说历史
2026-01-23 23:13:10
今晨广东迎本次冷空气过程最低温,明起气温回升

今晨广东迎本次冷空气过程最低温,明起气温回升

温读史
2026-01-24 05:11:35
马斯克点燃太空光伏!大面积涨停!钙钛矿是下个“王炸”?

马斯克点燃太空光伏!大面积涨停!钙钛矿是下个“王炸”?

南方都市报
2026-01-23 20:38:09
TikTok尘埃落定,但世界已不再关心

TikTok尘埃落定,但世界已不再关心

乱翻书
2026-01-23 09:36:40
2026-01-24 10:40:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15659文章数 49687关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

日本迎来"最匆忙"大选 高市早苗解散众议院原因披露

头条要闻

日本迎来"最匆忙"大选 高市早苗解散众议院原因披露

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

售75.58万元,新款大众途锐3.0TSI锐臻版上市

态度原创

旅游
房产
手机
家居
公开课

旅游要闻

漫游乐购趣青浦,快来青浦开启周末冬日游吧!

房产要闻

正式官宣!三亚又一所名校要来了!

手机要闻

苹果iPhone 18标准版前瞻:A20芯片、12GB内存、三星传感器

家居要闻

在家度假 160平南洋混搭宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版