网易首页 > 网易号 > 正文 申请入驻

上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述

0
分享至



传统数据分析方法依赖人工拼接的流程,如编写SQL、调用Python脚本及手动解读数据,不仅耦合度高且扩展性差,难以应对动态、多模态的复杂数据。而大语言模型与智能体的出现,将数据分析从「规则执行」推向「语义理解」,使机器能够真正解读数据内在逻辑与关系,从而灵活完成查询、建模与报告生成等多样化任务。

近日,由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进:从传统规则化流程到智能协作,从单模态到多模态融合,并提出构建「通用数据分析智能体(General Data Analyst Agent)」的新范式。



  • 论文标题:LLM/Agent-as-Data-Analyst
  • 论文地址:
  • https://arxiv.org/abs/2509.23988
  • Github 项目主页:
  • https://github.com/weAIDB/awesome-data-llm

本文综述了大语言模型(LLM)与智能体(Agent)在数据分析领域的最新进展,重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势,并总结出语义理解、自主管道、自动工作流、工具协作与面向开放世界五大方向。还提出了在可扩展性、评估体系与实际落地等方面的未来挑战,旨在推动通用数据分析智能体的发展与应用。



图 1:大语言模型进行数据分析的技术演进示意图

经过系统的调研与分析,研究团队总结出 LLM/Agent 技术在数据分析领域的四个核心演进方向:

  • 从字面理解 → 语义推理:模型不再只「看数据」,而是真正「理解数据」,能洞察语义、推理逻辑。

  • 从封闭工具 → 自由协作:模型能调用外部 API 与知识库,与各类工具协同完成复杂任务。

  • 从封闭数据 → 开放域分析:针对没有结构约束的数据进行分析,摆脱原有工具限制,可以从数据中分析获得更有价值的结论。

  • 从静态工作流 → 动态生成:智能体可自动构建分析流程与管道,让数据处理更高效、更灵活。

  • 从人工 Agent 框架 → 自动生成框架:智能体可以智能构建为某个工作服务的智能体,更灵活的实现 Agent 工作流。

这五大趋势共同指向一个方向——让数据分析真正从「规则系统」迈向「智能体系统」,让模型不止是工具,而成为数据智能时代的思考者与合作者。



图 2:LLM/Agent-as-Data-Analyst 技术总览,涵盖本文具体讨论的四大数据模态:结构化数据、半结构化数据、非结构化数据和异构化数据。

图 2 展示了该综述的主要研究内容,首先从不同数据类别进行介绍,包括结构化数据、半结构化数据、非结构化数据以及异构数据,针对不同数据类型,针对不同任务或技术展开。

  • 结构化数据:(1)关系型数据分析:由 NL2SQL 向多样化的 NL2Code、ModelQA 过渡,研究方向包括语义对齐与模式链接、多步分解与检索增强推理、端到端表格问答(TableGPT、ReAcTable);(2)图数据分析:以 NL2GQL 为代表,研究重点在图查询生成、语义级图推理与代理式操作(如 R3-NL2GQL、GraphGPT),逐步实现从代码级到语义级的自动理解与执行。

  • 半结构化数据:(1)标记语言理解:任务包含标记抽取(如 Evaporate)、标记查询(如 XPath Agent)、以及结构语义理解(如 MarkupLM)。技术路线从模板 + 规则驱动向基于 LLM 的数据抽取与查询转变,强调树结构建模、层级编码、工具增强等;(2)半结构化表格理解:核心任务涵盖表格结构化表示(如 ST-Raptor)、模型驱动转换(如 TabFormer)、表格提示压缩(如 HySem)与查询推理(如 CoS)。

  • 非结构化数据:(1)文档理解:使用 OCR 等技术将文档转换为纯文本格式(ZenDB、QUEST),结合 RAG 等技术进行理解;从 OCR 模板式到 VLM 转变(DocLLM、DocOwl2、DLAFormer),任务包括版面识别、RAG 检索问答、摘要生成与多文档推理。(2)图表理解:将图像解析与自然语言推理结合(ChartQA、Chart-of-Thought),支持描述生成、问答与可视化推理。(3)视频与 3D 模型分析:实现时序定位、行为识别、三维语义融合(Video-LLaMA、LLMI3D)。

  • 异构数据:跨模态整合多源数据湖,支撑统一语义查询与多模态推理。主要子任务包括模态对齐、自然语言检索接口、异构分析智能体(HetAgent、XMODE)。

不同于以往聚焦单一任务或单一模态的研究,这篇综述首次从全模态与全流程视角系统梳理了 LLM/Agent 在数据分析领域的整体格局,提出了构建「通用数据分析智能体(General Data Analyst Agent)」的五项核心设计原则。它不仅总结了当前研究的关键能力与趋势,也揭示了可扩展性、鲁棒性与开放域适配等未来挑战。欢迎感兴趣的读者阅读、讨论和引用该论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏超越广东成为经济第一大省,是不是名不副实?

江苏超越广东成为经济第一大省,是不是名不副实?

牛锅巴小钒
2026-02-06 20:00:59
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
乌军一年阵亡不到10000人?俄军:光尸体就给你1.6万多具了

乌军一年阵亡不到10000人?俄军:光尸体就给你1.6万多具了

战风
2026-02-06 15:17:57
宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

谈史论天地
2026-02-06 17:30:03
超雄真的有那么可怕吗?网友的分享,一看一个不吱声

超雄真的有那么可怕吗?网友的分享,一看一个不吱声

另子维爱读史
2026-02-01 20:30:29
顿巴斯地区只能归俄了!

顿巴斯地区只能归俄了!

星火聊天下
2026-01-30 06:23:43
恒大歌舞团团长嫁人了

恒大歌舞团团长嫁人了

地产微资讯
2026-01-22 09:38:37
国共论坛结束,大陆宣布重要决定,给郑丽文面子,发布一项通行令

国共论坛结束,大陆宣布重要决定,给郑丽文面子,发布一项通行令

大鱼简科
2026-02-05 22:07:25
特朗普称全力支持高市早苗赢得大选 外交部:不评论日本内政

特朗普称全力支持高市早苗赢得大选 外交部:不评论日本内政

财联社
2026-02-06 15:24:11
联合国秘书长:美独霸天下不行!中美共治也不行!我有第三套方案

联合国秘书长:美独霸天下不行!中美共治也不行!我有第三套方案

历史有些冷
2026-02-06 08:45:07
2换1波神后,勇士队破历史纪录!库里直言兴奋+科尔DNP两人获奇效

2换1波神后,勇士队破历史纪录!库里直言兴奋+科尔DNP两人获奇效

锅子篮球
2026-02-06 16:21:31
小米千匹马力新车亮相!问界M6双动力齐报,春节前最后一场工信部车展来了

小米千匹马力新车亮相!问界M6双动力齐报,春节前最后一场工信部车展来了

车东西
2026-02-07 00:51:21
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
女子用20g黄金打造新年美甲,称用自己穿戴甲定做的,最新回应:是真金,过年就要装一把

女子用20g黄金打造新年美甲,称用自己穿戴甲定做的,最新回应:是真金,过年就要装一把

扬子晚报
2026-02-04 22:40:57
苗侨伟太吓人了!满脸褶子,一脸凶相,穿着时尚却一身老人味儿!

苗侨伟太吓人了!满脸褶子,一脸凶相,穿着时尚却一身老人味儿!

小娱乐悠悠
2026-02-06 09:12:32
51年陈毅市长接到周总理的指示后,怒拍桌子:不用给资本家留情面

51年陈毅市长接到周总理的指示后,怒拍桌子:不用给资本家留情面

元哥说历史
2026-02-07 09:30:03
增减持公告汇总丨国家大基金拟减持这家公司不超过3%股份

增减持公告汇总丨国家大基金拟减持这家公司不超过3%股份

新浪财经
2026-02-06 20:42:11
嫔妃侍寝有两条铁律:除了不能出声,还有一条则难以启齿

嫔妃侍寝有两条铁律:除了不能出声,还有一条则难以启齿

长风文史
2026-02-01 18:54:57
武汉:中心城区放开摩托车上牌

武汉:中心城区放开摩托车上牌

故乡江城之声
2026-02-06 19:55:47
王晶曝李兆基离婚内幕,信息量大,句句不提李连杰,却字字提醒他

王晶曝李兆基离婚内幕,信息量大,句句不提李连杰,却字字提醒他

社会日日鲜
2026-02-06 06:15:13
2026-02-07 10:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

本地
旅游
健康
房产
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

旅游要闻

@大湾区游客:和香港群星一起乘“小车小团”游多彩贵州

转头就晕的耳石症,能开车上班吗?

房产要闻

新春三亚置业,看过这个热盘再说!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版