网易首页 > 网易号 > 正文 申请入驻

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述

0
分享至



传统数据分析方法依赖人工拼接的流程,如编写SQL、调用Python脚本及手动解读数据,不仅耦合度高且扩展性差,难以应对动态、多模态的复杂数据。而大语言模型与智能体的出现,将数据分析从「规则执行」推向「语义理解」,使机器能够真正解读数据内在逻辑与关系,从而灵活完成查询、建模与报告生成等多样化任务。

近日,由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进:从传统规则化流程到智能协作,从单模态到多模态融合,并提出构建「通用数据分析智能体(General Data Analyst Agent)」的新范式。



  • 论文标题:LLM/Agent-as-Data-Analyst
  • 论文地址:
  • https://arxiv.org/abs/2509.23988
  • Github 项目主页:
  • https://github.com/weAIDB/awesome-data-llm

本文综述了大语言模型(LLM)与智能体(Agent)在数据分析领域的最新进展,重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势,并总结出语义理解、自主管道、自动工作流、工具协作与面向开放世界五大方向。还提出了在可扩展性、评估体系与实际落地等方面的未来挑战,旨在推动通用数据分析智能体的发展与应用。



图 1:大语言模型进行数据分析的技术演进示意图

经过系统的调研与分析,研究团队总结出 LLM/Agent 技术在数据分析领域的四个核心演进方向:

  • 从字面理解 → 语义推理:模型不再只「看数据」,而是真正「理解数据」,能洞察语义、推理逻辑。

  • 从封闭工具 → 自由协作:模型能调用外部 API 与知识库,与各类工具协同完成复杂任务。

  • 从封闭数据 → 开放域分析:针对没有结构约束的数据进行分析,摆脱原有工具限制,可以从数据中分析获得更有价值的结论。

  • 从静态工作流 → 动态生成:智能体可自动构建分析流程与管道,让数据处理更高效、更灵活。

  • 从人工 Agent 框架 → 自动生成框架:智能体可以智能构建为某个工作服务的智能体,更灵活的实现 Agent 工作流。

这五大趋势共同指向一个方向——让数据分析真正从「规则系统」迈向「智能体系统」,让模型不止是工具,而成为数据智能时代的思考者与合作者。



图 2:LLM/Agent-as-Data-Analyst 技术总览,涵盖本文具体讨论的四大数据模态:结构化数据、半结构化数据、非结构化数据和异构化数据。

图 2 展示了该综述的主要研究内容,首先从不同数据类别进行介绍,包括结构化数据、半结构化数据、非结构化数据以及异构数据,针对不同数据类型,针对不同任务或技术展开。

  • 结构化数据:(1)关系型数据分析:由 NL2SQL 向多样化的 NL2Code、ModelQA 过渡,研究方向包括语义对齐与模式链接、多步分解与检索增强推理、端到端表格问答(TableGPT、ReAcTable);(2)图数据分析:以 NL2GQL 为代表,研究重点在图查询生成、语义级图推理与代理式操作(如 R3-NL2GQL、GraphGPT),逐步实现从代码级到语义级的自动理解与执行。

  • 半结构化数据:(1)标记语言理解:任务包含标记抽取(如 Evaporate)、标记查询(如 XPath Agent)、以及结构语义理解(如 MarkupLM)。技术路线从模板 + 规则驱动向基于 LLM 的数据抽取与查询转变,强调树结构建模、层级编码、工具增强等;(2)半结构化表格理解:核心任务涵盖表格结构化表示(如 ST-Raptor)、模型驱动转换(如 TabFormer)、表格提示压缩(如 HySem)与查询推理(如 CoS)。

  • 非结构化数据:(1)文档理解:使用 OCR 等技术将文档转换为纯文本格式(ZenDB、QUEST),结合 RAG 等技术进行理解;从 OCR 模板式到 VLM 转变(DocLLM、DocOwl2、DLAFormer),任务包括版面识别、RAG 检索问答、摘要生成与多文档推理。(2)图表理解:将图像解析与自然语言推理结合(ChartQA、Chart-of-Thought),支持描述生成、问答与可视化推理。(3)视频与 3D 模型分析:实现时序定位、行为识别、三维语义融合(Video-LLaMA、LLMI3D)。

  • 异构数据:跨模态整合多源数据湖,支撑统一语义查询与多模态推理。主要子任务包括模态对齐、自然语言检索接口、异构分析智能体(HetAgent、XMODE)。

不同于以往聚焦单一任务或单一模态的研究,这篇综述首次从全模态与全流程视角系统梳理了 LLM/Agent 在数据分析领域的整体格局,提出了构建「通用数据分析智能体(General Data Analyst Agent)」的五项核心设计原则。它不仅总结了当前研究的关键能力与趋势,也揭示了可扩展性、鲁棒性与开放域适配等未来挑战。欢迎感兴趣的读者阅读、讨论和引用该论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张国华想吃掉印军一个旅,总参不批怕胃口太大,毛主席:让他打

张国华想吃掉印军一个旅,总参不批怕胃口太大,毛主席:让他打

品点历史
2025-11-02 15:40:03
江苏一小区楼栋深夜发生不均匀沉降!造成楼体部分开裂 居民全部撤离

江苏一小区楼栋深夜发生不均匀沉降!造成楼体部分开裂 居民全部撤离

闪电新闻
2025-11-02 18:56:49
雷军又被质疑!小米空调10年包修承诺炸屏,网友拆穿套路

雷军又被质疑!小米空调10年包修承诺炸屏,网友拆穿套路

吃瓜局
2025-11-02 15:30:18
大同通报“2万套保障房10年未完工”整改进展:已完工2486套,其余正推进

大同通报“2万套保障房10年未完工”整改进展:已完工2486套,其余正推进

澎湃新闻
2025-11-02 21:58:26
古二再爆王家卫录音,被蛐蛐明星达8人,最惨的是唐嫣和金靖

古二再爆王家卫录音,被蛐蛐明星达8人,最惨的是唐嫣和金靖

小海娱计
2025-11-01 11:20:41
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
进气道、起落架、发动机全都改,美媒:歼-36第二架原型机已首飞

进气道、起落架、发动机全都改,美媒:歼-36第二架原型机已首飞

啸鹰评
2025-11-01 21:48:03
小米汽车:10月小米汽车交付量持续超过40000台;小米双11全渠道累计支付金额破182亿

小米汽车:10月小米汽车交付量持续超过40000台;小米双11全渠道累计支付金额破182亿

极目新闻
2025-11-01 10:47:06
意甲神剧情:乌龙球绝杀,第93分钟破门,国米缔造奇迹

意甲神剧情:乌龙球绝杀,第93分钟破门,国米缔造奇迹

足球狗说
2025-11-02 21:32:15
故意撞击中方卫星,导致多颗接近报废,美:质量不行就别上天

故意撞击中方卫星,导致多颗接近报废,美:质量不行就别上天

普陀动物世界
2025-11-02 16:06:01
人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

八斗小先生
2025-11-01 08:46:54
最低5℃!江苏气象最新发布:冷空气来了

最低5℃!江苏气象最新发布:冷空气来了

鲁中晨报
2025-11-02 20:11:05
已确认!新毒株来了!普遍易感染

已确认!新毒株来了!普遍易感染

北仑发布
2025-10-31 18:12:36
莫斯科大规模停电,地铁停运、交通瘫痪

莫斯科大规模停电,地铁停运、交通瘫痪

桂系007
2025-11-01 21:30:11
武汉大学的那位小仙女又开始骂街了!

武汉大学的那位小仙女又开始骂街了!

微微热评
2025-11-01 00:20:55
新毒株来袭!戴口罩!戴口罩!戴口罩!

新毒株来袭!戴口罩!戴口罩!戴口罩!

青城之窗
2025-10-31 11:18:54
韩国教授拿出三个铁证,证明韩国人的祖先,很有可能就是中国人!

韩国教授拿出三个铁证,证明韩国人的祖先,很有可能就是中国人!

凡人侃史
2025-11-02 15:46:33
律师行业崩了,近七成同行活得像行尸走肉

律师行业崩了,近七成同行活得像行尸走肉

麦小柒
2025-10-31 20:53:15
“为了孩子吃上饭,自己只能靠喝水撑着”!政府“停摆”满月, 4200万美国人吃饭成问题,多少个“截止日期”被错过了

“为了孩子吃上饭,自己只能靠喝水撑着”!政府“停摆”满月, 4200万美国人吃饭成问题,多少个“截止日期”被错过了

每日经济新闻
2025-11-01 17:49:10
大结局!国乒3冠完美收官,国乒女单4:3夺冠,国乒混双3:1夺冠

大结局!国乒3冠完美收官,国乒女单4:3夺冠,国乒混双3:1夺冠

国乒二三事
2025-11-02 06:47:58
2025-11-02 22:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

时尚
本地
手机
艺术
房产

最近很火的发型,原来这么简单!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

手机要闻

国内手机份额大揭秘:苹果微降仍第一,小米逆袭冲上第二!

艺术要闻

Rob van Hoek:荷兰浪漫田园风光画家

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

无障碍浏览 进入关怀版