网易首页 > 网易号 > 正文 申请入驻

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

0
分享至

  • DeepAnalyze团队 投稿
    量子位 | 公众号 QbitAI

你是否还在为复杂的文件和海量数据而苦恼?是否希望能够自动从数据中挖掘出真正有价值的信息?

最近,来自人大与清华的研究团队推出DeepAnalyze —— 你的专属「数据科学家」。只需一个指令,它便能自动化分析你的数据、自主完成各类数据科学任务:

  • 数据任务:支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察
  • 数据研究:可在非结构化数据、半结构化数据、结构化数据中进行开放式深度研究,生成研究报告



DeepAnalyze是首个面向数据科学的Agentic LLM,无需任何workflow,仅凭一个LLM即可像数据科学家一样,自主完成多种复杂的数据任务。

DeepAnalyze的论文、代码、模型、数据均已开源,收获1.1K+GitHub星标,欢迎大家体验!

DeepAnalyze —— 你的专属「数据科学家」

DeepAnalyze在环境中自主编排和优化各种操作,完成复杂的数据科学任务。

DeepAnalyze在真实环境中学习复杂任务

数据无处不在,而数据科学一直被视为人类智能的重要体现。从Kaggle比赛到日常的数据分析实践,大量评测都在考察数据科学家在数据准备、分析、建模、可视化与洞察等方面的综合能力。

当前的数据智能体(Data Agent)通常依赖人工设计的workflow,来驱动大模型完成特定的数据分析与可视化任务。虽然在各类单点任务上已取得了令人瞩目的成果,但由于LLM的自主性仍然有限,它们距离理想的“全能自主数据科学家”依然存在明显差距。

随着大型语言模型智能水平的不断提升,一个关键问题也愈发突出:如何让LLM真正具备自主完成复杂数据科学任务的能力?



DeepAnalyze通过在真实环境中训练,学会自主编排、自适应优化操作,最终完成复杂的数据科学任务。为实现此,DeepAnalyze提出课程学习式Agentic训练范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向数据的轨迹合成框架(Data-grounded Trajectory Synthesis)。

课程学习式Agentic训练

数据科学任务本身具有高度复杂性,这让基础LLM在早期训练阶段往往难以顺利完成任务。任务复杂性导致模型几乎得不到正向奖励信号(即“奖励稀疏”问题),强化学习过程容易停滞,甚至出现训练崩溃的情况。

为了解决这一难题,DeepAnalyze提出了「课程学习式 Agentic 训练」。其模拟人类数据科学家的学习路径,让LLM在真实环境中从简单到复杂、从单一任务到综合任务逐步进阶。通过这种渐进式训练,模型的能力得以稳步提升,避免在复杂任务中因为“奖励信号为零”而导致学习失败。

训练过程包括两大阶段:

  • 单能力微调:
  • 训练LLM在代码生成、结构化数据理解、逻辑推理等方面的基础能力;
  • 多能力Agentic训练:
  • 在真实任务环境中,让LLM学会运用多种能力,像数据科学家一样自主完成复杂任务。

面向数据的轨迹合成

在数据科学领域,缺乏完整的长链问题求解轨迹,这让LLM在探索解题空间时缺乏有效指导,只能进行低效、盲目的“试错式”探索,难以获得有意义的中间监督信号。

为了解决这一难题,DeepAnalyze提出了「面向数据的轨迹合成」方法。其能够自动合成50万条数据科学推理与环境交互数据,为大模型在庞大的搜索空间中提供正确路径的示范和引导。

数据合成包含两个关键部分:

  • 推理轨迹合成:
  • 基于现有的 TableQA、结构化知识理解、数据科学代码生成任务,构建带有完整推理路径的训练数据;
  • 交互轨迹合成:
  • 构建多智能体系统,从结构化数据源(如Spider和BIRD)中自动合成数据科学交互轨迹,提供和真实环境的交互轨迹。

DeepAnalyze支持面向数据的深度研究

DeepAnalyze支持面向数据的深度研究,能够自动生成具备分析师水准的研究报告。
在数据研究报告生成任务中,无论是内容深度还是报告结构,DeepAnalyze的表现都显著优于现有的闭源LLM。



分析报告:



作者介绍



张绍磊,中国人民大学信息学院助理教授,位于中国人民大学讲席教授范举教授团队。

他博士毕业于中国科学院计算技术研究所,导师为冯洋研究员。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。

相关研究成果在NeurIPS、ACL、ICLR等国际人工智能与自然语言处理会议发表论文30余篇,开源的多语言大模型、多模态大模型、数据科学大模型在GitHub社区累计获得5000+星标。

他长期担任CCF-A类国际会议ACL ARR的领域主席和责任编辑。个人主页:zhangshaolei1998@github.io。



范举,中国人民大学教授、博士生导师,国家级青年人才,中国计算机学会数据库专委会、大数据专委会执行委员。

研究方向包括:数据治理技术与系统、智能数据库系统等。

相关研究成果在计算机领域国际顶级期刊/会议发表论文60余篇。作为负责人先后主持国家自然科学基金优秀青年基金项目、重点项目、面上项目,以及多项产学研合作项目。

先后获得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、宝钢优秀教师等奖励。

团队介绍

RUC-DataLab是中国人民大学信息学院、数据工程与知识工程教育部重点实验室设立的科研团队,负责人是范举教授,团队专注于数据系统+人工智能 (Data+AI)交叉领域,致力于将数据技术与人工智能技术深度融合,从而打造更加智能、高效的新型数据系统。

实验室的研究方向包括:(1)数据库系统智能化(AI4DB):利用人工智能技术提升数据库系统的查询性能、自治能力等;(2)数据库技术赋能AI系统(DB4AI):利用数据管理技术支撑大模型训练的高效处理、大模型推理的低延迟、高吞吐优化;(3)数智融合的新型数据科学系统(AI4DS):利用推理大模型、多模态语义理解与智能体等技术,提升数据科学系统的智能化水平与执行性能,有效释放数据价值。

论文:https://arxiv.org/pdf/2510.16872
代码:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
数据:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

公子麦少
2025-11-07 20:43:25
乌方遭大规模联合攻击!红军城告急,俄军一天拿下64座建筑!普京最新支持率出炉,特朗普:希望继续与普京会晤

乌方遭大规模联合攻击!红军城告急,俄军一天拿下64座建筑!普京最新支持率出炉,特朗普:希望继续与普京会晤

每日经济新闻
2025-11-08 18:29:09
中国最牛的金融大佬突然人间蒸发了,你敢信?

中国最牛的金融大佬突然人间蒸发了,你敢信?

流苏晚晴
2025-11-08 16:57:38
40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

奥拜尔
2025-11-08 17:09:49
跨年潜力股会是哪些?五大特征锁定,低价+低市值的绩优潜力热门股出炉

跨年潜力股会是哪些?五大特征锁定,低价+低市值的绩优潜力热门股出炉

数据宝
2025-11-08 18:53:23
环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

新欧洲
2025-11-06 21:37:11
中国房地产报:北京、上海、深圳等,可以择机全域放开限购

中国房地产报:北京、上海、深圳等,可以择机全域放开限购

六子吃凉粉
2025-11-08 14:41:05
全网炸了!古二再曝王家卫录音!发表崇洋媚外不当言论!

全网炸了!古二再曝王家卫录音!发表崇洋媚外不当言论!

君笙的拂兮
2025-11-08 20:11:31
祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

鋭娱之乐
2025-11-08 15:05:47
王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

一盅情怀
2025-11-08 18:08:56
8旬阿婆一口锅用了34年,对话“传家锅”老板:正筹备复工,紧密观察市场情况

8旬阿婆一口锅用了34年,对话“传家锅”老板:正筹备复工,紧密观察市场情况

红星新闻
2025-11-08 18:07:26
总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

古怪奇谈录
2025-11-06 14:50:51
“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

李昕言温度空间
2025-11-06 21:03:20
两位医生互动的时候,有2个细节,不得不让人感叹:老炮儿

两位医生互动的时候,有2个细节,不得不让人感叹:老炮儿

魔都姐姐杂谈
2025-11-08 13:39:26
悲催!东莞一家30年大厂轰然倒下,负债2个亿,近2000人面临失业

悲催!东莞一家30年大厂轰然倒下,负债2个亿,近2000人面临失业

火山诗话
2025-11-08 10:42:07
印尼不买了,泰国也不买了,中国千亿大单遭冲击

印尼不买了,泰国也不买了,中国千亿大单遭冲击

花花娱界
2025-11-08 21:54:27
曾琦老公什么都没做,也被挖了出来!网友:有点理解主任了

曾琦老公什么都没做,也被挖了出来!网友:有点理解主任了

男女那点事儿儿
2025-11-08 12:59:03
那么优秀的曾医生,为什么会如此主动呢

那么优秀的曾医生,为什么会如此主动呢

大张的自留地
2025-11-08 14:39:50
随着朝鲜3-0卫冕,4夺女足世界杯冠军,最终排名如下:中国队第12

随着朝鲜3-0卫冕,4夺女足世界杯冠军,最终排名如下:中国队第12

侃球熊弟
2025-11-09 04:59:56
男医生的更多生活细节被扒,妻子生活照曝光,比曾医生长得好看

男医生的更多生活细节被扒,妻子生活照曝光,比曾医生长得好看

魔都姐姐杂谈
2025-11-08 16:50:38
2025-11-09 06:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
11646文章数 176329关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

时尚
数码
房产
教育
军事航空

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

数码要闻

荣耀亲选耳夹式耳机2 Pro曝光:金线充电盒加持,支持空间音频

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

教育要闻

你越吼,他越废

军事要闻

福建舰常驻地为三亚军港

无障碍浏览 进入关怀版