网易首页 > 网易号 > 正文 申请入驻

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述

0
分享至



传统数据分析方法依赖人工拼接的流程,如编写SQL、调用Python脚本及手动解读数据,不仅耦合度高且扩展性差,难以应对动态、多模态的复杂数据。而大语言模型与智能体的出现,将数据分析从「规则执行」推向「语义理解」,使机器能够真正解读数据内在逻辑与关系,从而灵活完成查询、建模与报告生成等多样化任务。

近日,由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进:从传统规则化流程到智能协作,从单模态到多模态融合,并提出构建「通用数据分析智能体(General Data Analyst Agent)」的新范式。



  • 论文标题:LLM/Agent-as-Data-Analyst
  • 论文地址:
  • https://arxiv.org/abs/2509.23988
  • Github 项目主页:
  • https://github.com/weAIDB/awesome-data-llm

本文综述了大语言模型(LLM)与智能体(Agent)在数据分析领域的最新进展,重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势,并总结出语义理解、自主管道、自动工作流、工具协作与面向开放世界五大方向。还提出了在可扩展性、评估体系与实际落地等方面的未来挑战,旨在推动通用数据分析智能体的发展与应用。



图 1:大语言模型进行数据分析的技术演进示意图

经过系统的调研与分析,研究团队总结出 LLM/Agent 技术在数据分析领域的四个核心演进方向:

  • 从字面理解 → 语义推理:模型不再只「看数据」,而是真正「理解数据」,能洞察语义、推理逻辑。

  • 从封闭工具 → 自由协作:模型能调用外部 API 与知识库,与各类工具协同完成复杂任务。

  • 从封闭数据 → 开放域分析:针对没有结构约束的数据进行分析,摆脱原有工具限制,可以从数据中分析获得更有价值的结论。

  • 从静态工作流 → 动态生成:智能体可自动构建分析流程与管道,让数据处理更高效、更灵活。

  • 从人工 Agent 框架 → 自动生成框架:智能体可以智能构建为某个工作服务的智能体,更灵活的实现 Agent 工作流。

这五大趋势共同指向一个方向——让数据分析真正从「规则系统」迈向「智能体系统」,让模型不止是工具,而成为数据智能时代的思考者与合作者。



图 2:LLM/Agent-as-Data-Analyst 技术总览,涵盖本文具体讨论的四大数据模态:结构化数据、半结构化数据、非结构化数据和异构化数据。

图 2 展示了该综述的主要研究内容,首先从不同数据类别进行介绍,包括结构化数据、半结构化数据、非结构化数据以及异构数据,针对不同数据类型,针对不同任务或技术展开。

  • 结构化数据:(1)关系型数据分析:由 NL2SQL 向多样化的 NL2Code、ModelQA 过渡,研究方向包括语义对齐与模式链接、多步分解与检索增强推理、端到端表格问答(TableGPT、ReAcTable);(2)图数据分析:以 NL2GQL 为代表,研究重点在图查询生成、语义级图推理与代理式操作(如 R3-NL2GQL、GraphGPT),逐步实现从代码级到语义级的自动理解与执行。

  • 半结构化数据:(1)标记语言理解:任务包含标记抽取(如 Evaporate)、标记查询(如 XPath Agent)、以及结构语义理解(如 MarkupLM)。技术路线从模板 + 规则驱动向基于 LLM 的数据抽取与查询转变,强调树结构建模、层级编码、工具增强等;(2)半结构化表格理解:核心任务涵盖表格结构化表示(如 ST-Raptor)、模型驱动转换(如 TabFormer)、表格提示压缩(如 HySem)与查询推理(如 CoS)。

  • 非结构化数据:(1)文档理解:使用 OCR 等技术将文档转换为纯文本格式(ZenDB、QUEST),结合 RAG 等技术进行理解;从 OCR 模板式到 VLM 转变(DocLLM、DocOwl2、DLAFormer),任务包括版面识别、RAG 检索问答、摘要生成与多文档推理。(2)图表理解:将图像解析与自然语言推理结合(ChartQA、Chart-of-Thought),支持描述生成、问答与可视化推理。(3)视频与 3D 模型分析:实现时序定位、行为识别、三维语义融合(Video-LLaMA、LLMI3D)。

  • 异构数据:跨模态整合多源数据湖,支撑统一语义查询与多模态推理。主要子任务包括模态对齐、自然语言检索接口、异构分析智能体(HetAgent、XMODE)。

不同于以往聚焦单一任务或单一模态的研究,这篇综述首次从全模态与全流程视角系统梳理了 LLM/Agent 在数据分析领域的整体格局,提出了构建「通用数据分析智能体(General Data Analyst Agent)」的五项核心设计原则。它不仅总结了当前研究的关键能力与趋势,也揭示了可扩展性、鲁棒性与开放域适配等未来挑战。欢迎感兴趣的读者阅读、讨论和引用该论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
啊!又是腿筋拉伤!NBA状元郎都顶不住

啊!又是腿筋拉伤!NBA状元郎都顶不住

篮球实战宝典
2025-11-07 19:47:12
A股:股民做好下车准备,信号非常明确,下周将迎来新的变盘

A股:股民做好下车准备,信号非常明确,下周将迎来新的变盘

云鹏叙事
2025-11-08 00:00:03
年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

金融八卦女
2025-11-05 13:57:48
1-3爆冷,张本智和仰天长啸,比输球可怕的是,日乒一哥地位悬了

1-3爆冷,张本智和仰天长啸,比输球可怕的是,日乒一哥地位悬了

大秦壁虎白话体育
2025-11-07 22:25:51
绝不当“冤大头”!菲律宾灾情惨烈,西方援助敷衍,中国不能惯着

绝不当“冤大头”!菲律宾灾情惨烈,西方援助敷衍,中国不能惯着

博卜talk
2025-11-07 16:27:23
貂皮大衣退货后续,宝妈已社死,老板报警因祸得福,网友争相要买

貂皮大衣退货后续,宝妈已社死,老板报警因祸得福,网友争相要买

观察鉴娱
2025-11-07 10:28:09
上赛季被双杀,曼城上一次英超对利物浦遭遇更长连败是9年前

上赛季被双杀,曼城上一次英超对利物浦遭遇更长连败是9年前

懂球帝
2025-11-08 05:18:46
俄方没想到:冻结俄几千亿的西方,连中方船只都不敢上,乖乖放行

俄方没想到:冻结俄几千亿的西方,连中方船只都不敢上,乖乖放行

古史青云啊
2025-11-07 21:29:06
一个会打扮的女人不管走到哪里都像是一幅美丽的画

一个会打扮的女人不管走到哪里都像是一幅美丽的画

牛弹琴123456
2025-11-06 21:15:04
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
新规!国家卫健委重磅发文:未经报告,医务人员不得以这种名义科普!

新规!国家卫健委重磅发文:未经报告,医务人员不得以这种名义科普!

华医网
2025-11-08 05:41:52
央视对全红婵的称呼变了,两字之差释放强烈信号,陈宇汐说对了

央视对全红婵的称呼变了,两字之差释放强烈信号,陈宇汐说对了

探源历史
2025-11-06 08:50:00
河北婚车遭拦截!50条香烟才放行,僵持1小时新娘气哭,官方回应

河北婚车遭拦截!50条香烟才放行,僵持1小时新娘气哭,官方回应

奇思妙想草叶君
2025-11-07 02:09:41
荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

荷兰政府花200亿挽留无效,光刻机巨头ASML为何执意从老家搬走?

凡知
2025-11-06 11:38:13
一句话炸掉5000亿美元市值!OpenAI紧急“救火”

一句话炸掉5000亿美元市值!OpenAI紧急“救火”

第一财经资讯
2025-11-07 18:19:04
民进党征召苏巧慧参选新北市长,郭正亮:这三人会一个个被消灭

民进党征召苏巧慧参选新北市长,郭正亮:这三人会一个个被消灭

海峡导报社
2025-11-07 07:07:03
一天接3大噩耗,柬埔寨连夜抢运黄金,美财长:这可不是闹着玩

一天接3大噩耗,柬埔寨连夜抢运黄金,美财长:这可不是闹着玩

花小猫的美食日常
2025-11-07 10:13:58
哇塞!电视里看不觉得,没想到现实中身材这么魁梧,太美了

哇塞!电视里看不觉得,没想到现实中身材这么魁梧,太美了

东方不败然多多
2025-11-06 10:36:51
辛芷蕾不忍了!疑似6连问回击郝蕾,顺手替王传君出了口“恶气”

辛芷蕾不忍了!疑似6连问回击郝蕾,顺手替王传君出了口“恶气”

丁丁鲤史纪
2025-11-07 17:30:55
四川7名干部任前公示,多人拟任厅级领导职务

四川7名干部任前公示,多人拟任厅级领导职务

鲁中晨报
2025-11-07 17:04:06
2025-11-08 07:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11672文章数 142500关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

奥巴马意外现身 庆祝胜利

头条要闻

奥巴马意外现身 庆祝胜利

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

教育
本地
亲子
数码
公开课

教育要闻

三部门:3至6岁儿童尽量避免接触使用视屏类电子产品

本地新闻

这届干饭人,已经把博物馆吃成了食堂

亲子要闻

教育部等三部门:科学保护儿童远视储备量

数码要闻

受AI热潮推动 全球DRAM内存价格暴涨172% 创下历史新高

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版