网易首页 > 网易号 > 正文 申请入驻

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述

0
分享至



传统数据分析方法依赖人工拼接的流程,如编写SQL、调用Python脚本及手动解读数据,不仅耦合度高且扩展性差,难以应对动态、多模态的复杂数据。而大语言模型与智能体的出现,将数据分析从「规则执行」推向「语义理解」,使机器能够真正解读数据内在逻辑与关系,从而灵活完成查询、建模与报告生成等多样化任务。

近日,由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进:从传统规则化流程到智能协作,从单模态到多模态融合,并提出构建「通用数据分析智能体(General Data Analyst Agent)」的新范式。



  • 论文标题:LLM/Agent-as-Data-Analyst
  • 论文地址:
  • https://arxiv.org/abs/2509.23988
  • Github 项目主页:
  • https://github.com/weAIDB/awesome-data-llm

本文综述了大语言模型(LLM)与智能体(Agent)在数据分析领域的最新进展,重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势,并总结出语义理解、自主管道、自动工作流、工具协作与面向开放世界五大方向。还提出了在可扩展性、评估体系与实际落地等方面的未来挑战,旨在推动通用数据分析智能体的发展与应用。



图 1:大语言模型进行数据分析的技术演进示意图

经过系统的调研与分析,研究团队总结出 LLM/Agent 技术在数据分析领域的四个核心演进方向:

  • 从字面理解 → 语义推理:模型不再只「看数据」,而是真正「理解数据」,能洞察语义、推理逻辑。

  • 从封闭工具 → 自由协作:模型能调用外部 API 与知识库,与各类工具协同完成复杂任务。

  • 从封闭数据 → 开放域分析:针对没有结构约束的数据进行分析,摆脱原有工具限制,可以从数据中分析获得更有价值的结论。

  • 从静态工作流 → 动态生成:智能体可自动构建分析流程与管道,让数据处理更高效、更灵活。

  • 从人工 Agent 框架 → 自动生成框架:智能体可以智能构建为某个工作服务的智能体,更灵活的实现 Agent 工作流。

这五大趋势共同指向一个方向——让数据分析真正从「规则系统」迈向「智能体系统」,让模型不止是工具,而成为数据智能时代的思考者与合作者。



图 2:LLM/Agent-as-Data-Analyst 技术总览,涵盖本文具体讨论的四大数据模态:结构化数据、半结构化数据、非结构化数据和异构化数据。

图 2 展示了该综述的主要研究内容,首先从不同数据类别进行介绍,包括结构化数据、半结构化数据、非结构化数据以及异构数据,针对不同数据类型,针对不同任务或技术展开。

  • 结构化数据:(1)关系型数据分析:由 NL2SQL 向多样化的 NL2Code、ModelQA 过渡,研究方向包括语义对齐与模式链接、多步分解与检索增强推理、端到端表格问答(TableGPT、ReAcTable);(2)图数据分析:以 NL2GQL 为代表,研究重点在图查询生成、语义级图推理与代理式操作(如 R3-NL2GQL、GraphGPT),逐步实现从代码级到语义级的自动理解与执行。

  • 半结构化数据:(1)标记语言理解:任务包含标记抽取(如 Evaporate)、标记查询(如 XPath Agent)、以及结构语义理解(如 MarkupLM)。技术路线从模板 + 规则驱动向基于 LLM 的数据抽取与查询转变,强调树结构建模、层级编码、工具增强等;(2)半结构化表格理解:核心任务涵盖表格结构化表示(如 ST-Raptor)、模型驱动转换(如 TabFormer)、表格提示压缩(如 HySem)与查询推理(如 CoS)。

  • 非结构化数据:(1)文档理解:使用 OCR 等技术将文档转换为纯文本格式(ZenDB、QUEST),结合 RAG 等技术进行理解;从 OCR 模板式到 VLM 转变(DocLLM、DocOwl2、DLAFormer),任务包括版面识别、RAG 检索问答、摘要生成与多文档推理。(2)图表理解:将图像解析与自然语言推理结合(ChartQA、Chart-of-Thought),支持描述生成、问答与可视化推理。(3)视频与 3D 模型分析:实现时序定位、行为识别、三维语义融合(Video-LLaMA、LLMI3D)。

  • 异构数据:跨模态整合多源数据湖,支撑统一语义查询与多模态推理。主要子任务包括模态对齐、自然语言检索接口、异构分析智能体(HetAgent、XMODE)。

不同于以往聚焦单一任务或单一模态的研究,这篇综述首次从全模态与全流程视角系统梳理了 LLM/Agent 在数据分析领域的整体格局,提出了构建「通用数据分析智能体(General Data Analyst Agent)」的五项核心设计原则。它不仅总结了当前研究的关键能力与趋势,也揭示了可扩展性、鲁棒性与开放域适配等未来挑战。欢迎感兴趣的读者阅读、讨论和引用该论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南省最新人事任免

河南省最新人事任免

天命生商
2026-03-26 14:19:43
婚礼上,婆婆扇我一耳光,我反手把她推下台,老公在旁边拍手叫好

婚礼上,婆婆扇我一耳光,我反手把她推下台,老公在旁边拍手叫好

千秋文化
2026-03-26 21:19:57
曼谷演唱会突发!宋雨琦头部遭设备猛烈撞击,强忍疼痛坚持演完

曼谷演唱会突发!宋雨琦头部遭设备猛烈撞击,强忍疼痛坚持演完

动物奇奇怪怪
2026-03-25 17:53:25
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

无处不风景love
2026-03-24 15:31:51
都被骗了!从王金平、张显耀到萧旭岑看透马英九的伪君子真面目

都被骗了!从王金平、张显耀到萧旭岑看透马英九的伪君子真面目

生活魔术专家
2026-03-26 11:31:55
为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

复转这些年
2026-03-14 23:48:05
2026年1-2月,中国进口了全球46%的芯片,但出口了25%的芯片

2026年1-2月,中国进口了全球46%的芯片,但出口了25%的芯片

互联网.乱侃秀
2026-03-23 10:47:40
坦格西里遇袭身亡

坦格西里遇袭身亡

新浪财经
2026-03-26 23:01:14
薛之谦惹争议!挚友张雪峰离世毫无表示,知情人曝原因!

薛之谦惹争议!挚友张雪峰离世毫无表示,知情人曝原因!

古希腊掌管松饼的神
2026-03-25 22:39:53
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

娱乐圈的笔娱君
2026-03-26 17:21:17
小时候因为什么事被打半死?网友:哈哈哈,撞枪口上了

小时候因为什么事被打半死?网友:哈哈哈,撞枪口上了

夜深爱杂谈
2026-03-26 22:26:38
C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

C罗儿子要加盟皇马?15岁迷你罗试训皇马,C罗的7号后继有人

仰卧撑FTUer
2026-03-25 23:05:29
姜维和魏延谁更厉害?据正史记载,这两人压根不是一个级别的人物

姜维和魏延谁更厉害?据正史记载,这两人压根不是一个级别的人物

阿器谈史
2026-03-26 15:49:05
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
江西女子晒一家五口午饭,吐槽存钱太难,网友:这样吃我也月光

江西女子晒一家五口午饭,吐槽存钱太难,网友:这样吃我也月光

荷兰豆爱健康
2026-03-26 13:59:06
学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

垚垚分享健康
2026-03-26 13:09:39
太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

环球网资讯
2026-03-26 21:48:04
张雪峰的独生女真的很有主意,父母问孩子要不要生二胎,她说不用

张雪峰的独生女真的很有主意,父母问孩子要不要生二胎,她说不用

海阔山遥YAO
2026-03-25 15:30:12
2026-03-27 00:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
本地
艺术
手机

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

无障碍浏览 进入关怀版