网易首页 > 网易号 > 正文 申请入驻

阿里推出AI数据科学家,全流程自动化,科研小白也能用

0
分享至

基于开源Agent框架,可自动解决复杂数据科学问题的Agent来了!

具体来说,Data Science Assistant(以下称DS Assistant)是基于Modelscope-Agent框架开发的数据科学助手。

有了它,我们只需给需求,这个助手就能自己跑完探索性数据分析(EDA)、数据预处理、特征工程、模型训练,模型评估等步骤。

当然,除了本文将重点提到的DS Assistant,它背后的Modelscope-Agent框架也值得说道。

这个框架由阿里开源,主要特点包括:

  • 可通过vllm、ollama等工具接入各主流开源模型,也可以直接调用模型API;
  • 提供RAG组件支持开发者快速接入知识库;
  • 工具生态丰富,支持大量的Modelscope社区模型作为工具,也支持直接调用langchain的工具,还接入了各类常用的工具,如web-browsing、文生图、code-interpreter等;

更妙的是,Modelscope-Agent框架允许开发者无需编码即可交互式地创建Agent助理。

这不,啪的一下,咱们的数据科学助手“诞生”了~

复杂数据科学任务自动化

实现复杂数据科学任务自动化一直存在挑战。

传统的ReAct(Reasoning and Action)框架对于简单的任务比较有效,但是有以下缺点:

  • 每次工具调用都需要一个LLM调用。
  • LLM一次仅计划1个子问题。这可能会导致任务的轨迹更加不可控,因为它不会被迫“推理”整个任务。

而DS Assistant使用了plan-and-excute框架,这是一种新兴的Agent框架,通过明确计划和执行步骤高效完成复杂任务。

langchain官网对Plan-and-execute Agent的描述:https://blog.langchain.dev/planning-agents/

具体而言,其工作流程包括以下几个步骤:

1、任务计划:Agent接收用户输入的任务描述,进行语义理解,将任务分解为多个可执行子任务。

2、子任务调度:基于任务之间的依赖关系和优先级,智能调度子任务的执行顺序。

3、任务执行:每个子任务分配给特定的模块执行。

4、结果整合:汇总各子任务的结果,形成最终输出,并反馈给用户。

基于上述框架,咱们接着看整个系统架构,DS Assistant整套系统有4个主要模块

先说右侧的DS Assistant,它作为整个系统的大脑,负责调度整个系统的运转。

Plan模块负责根据用户的需求生成一系列Task列表,并对Task先后顺序进行拓扑排序。

在这一阶段,DS Assistant根据用户输入的复杂数据科学问题,自动将其分解为多个子任务。

这些子任务根据依赖关系和优先级被组织和调度,确保执行顺序符合逻辑且高效。

接下来到了Execution模块,负责任务的具体执行,保存任务执行结果。

在这里,每个子任务被具体化为可执行的操作,如数据预处理、模型训练等。

最后是Memory management模块,负责记录任务中间执行结果,代码,数据详情等信息。

在所有Task执行完成后,DS Assistant会将中间数据的执行情况 ( 包括每个task生成的代码和结果,消耗token数,任务时间 ) 保存为文件。

案例实战

下面,我们以一个具体的例子来了解DS Assistant的执行过程。

我们选用Kaggle上的一个比赛任务ICR - Identifying Age-Related Conditions作为示例:

该任务是一项机器学习任务,主要目的是通过分析各种数据(如医疗记录、基因数据、生活方式数据等),识别与年龄相关的健康状况。

最终结果将用来帮助医疗专业人员及早发现老年人群中常见的健康问题,并提供个性化的预防和治疗方案。

废话不多说,我们这就开始~

首先,对于选用的LLM,我们需要配置一下。

我们引入MetaGPT的Data Science工具和Tool Recommender,可以根据任务类型向DS Assistant推荐合适的数据科学工具。

接着,我们需要将任务的具体要求传给DS Assistant。需要注意的是,在要求中需向DS Assistant指明数据文件的路径:

Plan阶段,DS Assistant会根据用户需求生成任务列表,将整个数据处理流程进行分解,接着对任务列表进行按顺序处理。

可以看到,DS Assistant生成了5个任务,分别是数据探索,数据预处理,特征工程,模型训练和预测。

然后这5个任务进入了Execute阶段,下面咱们挨个看一下。

Task 1: 数据探索

可以看到生成的代码在执行时报了如下错误,原因是没有引入numpy包

DS Assistant根据报错进行了反思,并重新生成代码并执行,成功输出数据探索的结果。

最后,code judge会对代码进行质检,确保本次生成代码逻辑正确。

Task 2: 数据预处理

在数据预处理阶段,DS Assistant分别对数值型数据和类别型数据进行了合适的缺失值处理,并清除了ID列。

Task 3:特征工程

在修复了两次错误后,DS Assistant对数据进行了特征工程的处理,对类别型变量进行编码。

同时对之前定义的categorical_columns变量进行了更新,去除了ID列。

Task 4:模型训练

DS Assistant主动安装了合适的依赖,并选择了多个模型(随机森林,梯度提升,逻辑回归)进行训练,并选择了结果最好的模型。

Task 5:模型验证

DS Assistant选择了训练集中F1分数最高的模型对验证集进行测试,并计算了这个模型在验证集上的F1分数,成功地完成了任务。

执行完以上任务后,DS Assistant支持将运行结果保存为Jupyter Notebook类型的文件,并记录运行的中间过程。

△Jupyter Notebok

△中间过程记录JSON文件

实验效果

我们使用ML-Benchmark作为测试集(指路论文“Data Interpreter: An LLM Agent For Data Science”),分别从Normalized Performance Score (NPS) ,total time,total token三个维度对DS Assistant效果进行评测。

其中NPS是一种将不同任务或模型的性能指标标准化的方法,使得不同指标之间可以进行比较。

它的计算通常涉及以下步骤:

步骤1:确定指标优化方向,判断性能指标是“越大越好”还是“越小越好”。

步骤2:规范化计算。如果指标是“越大越好”(如准确率、F1分数、AUC),NPS等于原始值;如果指标是“越小越好”(如损失值),则需要将原始值映射到接近1的较高NPS值。

规范化后的性能得分范围通常是0到1,其中1表示最优性能,0表示最差性能

实验任务详情和结果如下(绿色代表当前任务下最优指标 ):

可以看到,在部分复杂的数据科学任务上,DS Assistant在规范化性能得分(NPS),任务时间,消耗token数的指标上取得超过开源SOTA的效果。(其中开源SOTA效果指MetaGPT实测值)

完整实验日志:https://modelscope-agent.oss-cn-hangzhou.aliyuncs.com/resources/DS_Assistant_results.zip

总结

对不同的人来说,DS assistant有不同作用

  • 不熟悉数据分析流程但是又有需要的同学,可以快速根据生成的任务以及处理过程,了解处理数据的思路,以及技术点。
  • 对于了解数据分析流程的同学,可以通过详细的描述,来影响数据处理的方法,方便做不同的实验参照比较。
  • 对于所有人,可以自动化的快速实现对于当前手上文件的更深层次的理解,仅需提问即可。

下一步,DS assistant将从三个方向展开优化

1、进一步提高任务执行成功率

a)对于Code Agent来说,传入信息量过大(报错信息,中间数据信息,已生成代码信息)会导致模型生成代码正确率下降,可以在未来考虑使用LLM进行总结,对信息进行筛选。

b)同一个Task可进行进一步的分解,以降低对LLM推理能力的要求。

2、对话交互式,可以将任务和任务的执行展示分开,通过对话的方式推进任务,并影响执行结果。

3、支持批处理相同任务多批文件的场景。

更多细节可进一步查看Modelscope-Agent官方仓库中Data Sciecne Assistant示例。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楚钦爆冷出局,到底输在了哪?

王楚钦爆冷出局,到底输在了哪?

好乒乓
2025-11-11 11:41:54
李连杰返老还童,“内娱纪委”曝光内幕太震惊,原来事情早有端倪

李连杰返老还童,“内娱纪委”曝光内幕太震惊,原来事情早有端倪

花心电影
2025-11-10 14:22:27
今天起,全面启动改造!进站有调整

今天起,全面启动改造!进站有调整

上观新闻
2025-11-11 14:18:21
CCTV5直播!女单全国冠军出局!今日产生首金!王曼昱陈梦出战!王艺迪惊险过关!

CCTV5直播!女单全国冠军出局!今日产生首金!王曼昱陈梦出战!王艺迪惊险过关!

好乒乓
2025-11-11 11:40:14
它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

阿龙美食记
2025-11-10 14:34:38
为中小学教师减负!教育部发布8条措施:不得要求教师上街执勤;无学生在校期间,原则上不安排专任教师值班值守

为中小学教师减负!教育部发布8条措施:不得要求教师上街执勤;无学生在校期间,原则上不安排专任教师值班值守

每日经济新闻
2025-11-10 14:08:19
中央定调,退休新规,1965年到1969年期间出生,退休或将更受益?

中央定调,退休新规,1965年到1969年期间出生,退休或将更受益?

花心电影
2025-11-10 18:14:34
杭州婚宴翻车了:新娘换装85分钟,22桌宾客走了一半,网友:活该

杭州婚宴翻车了:新娘换装85分钟,22桌宾客走了一半,网友:活该

刘哥谈体育
2025-11-02 14:32:38
李连杰最近逆生长,容颜从老到年轻给普通人哪些启示,放松很重要

李连杰最近逆生长,容颜从老到年轻给普通人哪些启示,放松很重要

呼吸科大夫胡洋
2025-11-09 13:10:15
美媒公开中国轰炸计划:日本敢走错半步,我们万枚导弹雨包大饺子

美媒公开中国轰炸计划:日本敢走错半步,我们万枚导弹雨包大饺子

趣文说娱
2025-11-11 13:26:09
央视对郭晶晶的称呼变了,三字之差释放强烈信号,霍震霆全说对了

央视对郭晶晶的称呼变了,三字之差释放强烈信号,霍震霆全说对了

甜柠聊史
2025-11-11 11:03:57
莆田12岁女孩被虐死案二审宣判:继母主观恶性深,犯罪手段极其残忍,情节极其恶劣,维持死刑判决

莆田12岁女孩被虐死案二审宣判:继母主观恶性深,犯罪手段极其残忍,情节极其恶劣,维持死刑判决

大风新闻
2025-11-11 16:07:03
国际奥委会主席看了广东全运会开幕式,估计想哭的心都有了!

国际奥委会主席看了广东全运会开幕式,估计想哭的心都有了!

奇思妙想草叶君
2025-11-10 22:45:50
17分钟视频毁了曾医生?

17分钟视频毁了曾医生?

蜻蜓世音
2025-11-10 14:39:45
资本大撤退,英雄联盟迎来了最危险的时刻?

资本大撤退,英雄联盟迎来了最危险的时刻?

圈内师老师
2025-11-10 18:07:03
16GB+1TB!新机官宣:11月17日,正式发布!

16GB+1TB!新机官宣:11月17日,正式发布!

科技堡垒
2025-11-11 10:58:16
生育率跌到谷底,专家预测全错了,老百姓早就心里有数

生育率跌到谷底,专家预测全错了,老百姓早就心里有数

笑熬浆糊111
2025-11-12 00:05:11
水晶手串在TikTok卖疯,溢价30倍,卖家已经赚翻

水晶手串在TikTok卖疯,溢价30倍,卖家已经赚翻

跨境派Pro
2025-11-10 14:38:56
开业15天就倒闭!牛肉餐饮成“创业重灾区”

开业15天就倒闭!牛肉餐饮成“创业重灾区”

餐饮老板内参
2025-11-11 10:49:57
西部4队爆发内讧!3位球星被摆上货架,哈里森、威利格林或将被裁

西部4队爆发内讧!3位球星被摆上货架,哈里森、威利格林或将被裁

你的篮球频道
2025-11-11 14:56:45
2025-11-12 04:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11657文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

旅游
亲子
教育
数码
公开课

旅游要闻

“萌狮叫醒”服务是跑偏的文旅创新

亲子要闻

没人生娃了?上海一产科医生称:从一晚上8个剖腹产到现在1个没有

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

数码要闻

海盗船发布《使命召唤:黑色行动 7》联名外设,含键盘等多款产品

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版