网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 面向数据分析智能体的能力解构与思维链合成探究

0
分享至

当今大语言模型(LLM)在众多领域展现出强大的能力,但在数据分析这一需要严谨逻辑和多步推理的任务上,开源模型与顶尖闭源模型之间仍存在显著的性能差距。这一现象引出一个核心问题:究竟是什么因素限制了开源模型的数据分析能力?是数据理解的深度、代码生成的质量,还是更深层次的推理机制?

为了探索这些问题,本文从一个“能力解构”的视角切入,通过系统性的实证研究,追踪并剖析了模型在数据分析任务中的行为模式。研究不仅探索了开源LLM面临的核心瓶颈,更基于此提出了一套高效的数据合成方法,提升了模型的分析推理能力。


论文题目: Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study 论文链接: https://arxiv.org/abs/2506.19794 代码链接: https://github.com/zjunlp/DataMind
一、分析与发现 1.1 核心分析框架

传统的分析思路往往将数据分析失败归因于模型单一的能力缺陷,而本文则从一个更系统、更综合的“能力感知”(Capability-Aware)视角展开研究。

首先,本研究将复杂的数据分析任务清晰地解构为三个环环相扣的核心能力:

  • 数据理解 (Data Comprehension):模型从原始数据(如CSV文件)中提取和理解信息的能力。

  • 代码生成 (Code Generation):模型将分析思路转化为可执行Python代码的能力。

  • 策略规划 (Strategic Planning):模型为解决一个复杂分析问题,制定、执行并调整多步计划的能力。

基于该框架,本文设计了一系列控制变量实验。为确保评估的客观性,本文首先收集并构建了一个不与评测集重叠的高质量数据集,其场景源自DAEval、DSBench等多个基准。随后,通过对Qwen、GPT-4o、DeepSeek等一系列模型的行为进行细致评估,本研究得以精准分析不同因素对模型最终表现的影响。

本文的分析由表及里,从三个层面展开:

  • 单点能力评估:数据理解和代码生成能力是否是性能的决定性因素?

  • 交互模式影响:多轮交互的长度、推理内容的详略如何影响模型的规划能力?

  • 数据特性权衡:训练数据的难度和领域多样性,哪一个对模型泛化更重要?

1.2 三大核心发现

通过对模型行为的深入剖析,本文揭示了三个关于如何高效提升LLM数据分析能力的关键发现。

发现一:首要瓶颈在于策略规划,而非执行能力



本文的首要核心发现是,限制开源大模型在数据分析任务中表现的主要瓶颈在于策略规划能力,而非是数据理解或代码生成等执行能力。在数据理解层面,本研究的实验表明,无论是为模型提供详尽的表格上下文信息,还是引入无关数据文件作为干扰,模型的最终性能均未出现显著波动,这表明模型已具备稳健的基础数据理解能力。同时,对错误案例的分析(如图2所示)发现,绝大多数失败并非源于代码执行缺陷(如语法或语义错误),而是归因于更高维度的规划失误,例如制定了错误的分析假设或过早地结束了探索流程。

发现二:交互模式存在最优区间



在交互模式层面,本研究发现其有效性存在一个最优区间(Optimal Range)。

  • 交互轮次:训练数据并非越长或越短越好,4-5轮的中等长度交互在大多数情况下能引导模型学习到最稳定、高效的推理模式。

  • 推理质量:直接使用冗长、完整的“思维链”进行训练,反而会因信息过载导致性能下降。相反,将思维链总结为精炼的核心逻辑(Summarized Reasoning)后,模型表现最佳。这说明,推理的质量和信息密度比形式上的长度更为重要。

发现三:数据质量的决定性作用远超多样性




在数据选择层面,本研究发现,训练数据的质量远比其多样性更为关键。实验结果(如表7)清晰地表明,简单地通过平衡采样来增加训练数据覆盖的问题领域多样性,并不能带来显著的性能提升。相反,对数据质量的精细把控——例如提升任务的难度——则能有效促进模型能力的增长(如表6)。更有趣的是,如图5所示,随着训练数据难度的增加,模型倾向于在更少的交互轮次内给出更精炼的答案,这表明高质量的难题能促使模型内化推理过程,提升其分析效率。这些发现共同证明,与其盲目追求数据的广度,不如通过精心筛选,确保训练数据具备合适的难度、高质量的推理过程和优化的交互结构。即使数据总量不大,这种“质量优先”的策略也能实现更好的微调效果。

策略引导的数据合成

基于上述核心发现,本文将其转化为一套行之有效的策略引导的数据合成(Strategy-Guided Data Synthesis)方法,并验证了其效果。



第一步:答案生成 (Prompt-Based Answer Generation)

首先,通过生成式方法为每个问题创造一个包含多种可能解法的初始候选池。

第二步:目标实例选择 (Targeted Instance Selection)

接着,本文将研究的核心发现作为筛选准则,进行目标实例选择。这一步通过多维度的过滤,只保留那些具有中等交互长度和中高任务难度的正确轨迹,从而将训练资源精确地聚焦于最高效的学习区间。

第三步:推理驱动的数据富化 (Reasoning-Driven Data Enrichment)

最后,通过推理驱动的数据富化,本文将冗长的思考过程提炼为精炼的推理摘要,旨在让模型直接学习解决问题的核心策略与抽象逻辑。通过这套从6.4k个初始正确轨迹中进行层层筛选的严格流程,本文最终精炼出一个仅包含2.8k个高质量实例的最终数据集。微调后的7B模型在各项基准上性能大幅超越其基线版本。而14B模型的表现也达到了与GPT-4o相当甚至更好的水平。

二、总结

本文通过对大语言模型在数据分析任务中的能力进行系统性解构和实证分析,由表及里地揭示了其性能瓶颈和优化路径。本研究的核心结论是:策略规划能力是限制模型表现的核心短板,而高质量、结构化的训练数据是解锁其分析潜能的关键

本研究表明,深入剖析大语言模型在特定任务上的能力构成,是实现从粗放式训练到精准能力塑造转变的关键。这项工作所揭示的规律和提出的方法,为构建更可靠、更高效的开源数据分析智能体提供了参考方向。本工作的延续之作“Scaling Generalist Data-Analytic Agents”进一步扩大合成数据规模并采用强化学习来提升了性能。

作者:朱雨琦 来源:公众号【知识引擎实验室-ZJU】

llustration From IconScout By IconScout Store

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1979年泰国的街头,25岁的成龙和24岁的林青霞留下了珍贵的合照

1979年泰国的街头,25岁的成龙和24岁的林青霞留下了珍贵的合照

动物奇奇怪怪
2025-12-30 05:01:40
3.2亿欧!巴萨赚疯了,全球商业赞助商超50个,冬窗可买三球星

3.2亿欧!巴萨赚疯了,全球商业赞助商超50个,冬窗可买三球星

祥谈体育
2025-12-31 12:25:28
12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

做一个合格的吃瓜群众
2025-12-31 07:41:05
董明珠回应智能化会替代工人:格力从来不裁员,可以让他去深造

董明珠回应智能化会替代工人:格力从来不裁员,可以让他去深造

IT之家
2025-12-30 19:34:07
1964年,毛主席请王进喜吃大餐,12道菜端上来,王进喜:没吃饱

1964年,毛主席请王进喜吃大餐,12道菜端上来,王进喜:没吃饱

鹤羽说个事
2025-11-11 15:56:42
温州市委书记张振丰已任浙江省委常委

温州市委书记张振丰已任浙江省委常委

澎湃新闻
2025-12-30 21:34:26
失业潮的终极解法,历史只教了我们一课:不是救济,是战争

失业潮的终极解法,历史只教了我们一课:不是救济,是战争

经济学教授V
2025-12-30 18:41:37
49岁赵薇广东饭局近照疯传!瘦脱相显凶相,当年小燕子彻底凉透了

49岁赵薇广东饭局近照疯传!瘦脱相显凶相,当年小燕子彻底凉透了

阿纂看事
2025-12-12 09:18:29
曼联1-1无缘连胜!齐尔克泽进球被喝倒彩,阿莫林出尔反尔遭反噬

曼联1-1无缘连胜!齐尔克泽进球被喝倒彩,阿莫林出尔反尔遭反噬

罗米的曼联博客
2025-12-31 07:36:46
“大傻”去世14年后,儿子入狱孙子身亡:有件事他骗了我们好多年

“大傻”去世14年后,儿子入狱孙子身亡:有件事他骗了我们好多年

小熊侃史
2025-12-26 11:26:05
牛皮吹大了!永州夺冠沸沸扬扬的送车事件,唐老板隐身后彻底退网

牛皮吹大了!永州夺冠沸沸扬扬的送车事件,唐老板隐身后彻底退网

火山詩话
2025-12-30 18:30:59
国务院任免国家工作人员:任命林泽昌为财政部副部长

国务院任免国家工作人员:任命林泽昌为财政部副部长

每日经济新闻
2025-12-31 12:04:49
委内瑞拉:摧毁8架飞机、4个营地

委内瑞拉:摧毁8架飞机、4个营地

参考消息
2025-12-30 14:25:56
朝鲜正面临一个重大危机!最致命的危机实则不是炮火,而是粮食!

朝鲜正面临一个重大危机!最致命的危机实则不是炮火,而是粮食!

扶苏聊历史
2025-12-31 10:56:37
快船41分大胜国王,5连胜!这一战诞生3个现实:伦纳德是一个怪兽

快船41分大胜国王,5连胜!这一战诞生3个现实:伦纳德是一个怪兽

毒舌NBA
2025-12-31 14:33:44
中国的富人们,可以从庞莱臣身上学到什么?

中国的富人们,可以从庞莱臣身上学到什么?

呦呦鹿鸣
2025-12-27 16:51:56
中超公司副总被查!媒体人热议:曾主管中超转播,或牵扯三方面

中超公司副总被查!媒体人热议:曾主管中超转播,或牵扯三方面

奥拜尔
2025-12-31 16:51:27
谢娜尴尬了!张杰梦女上热搜第一名!工作室评论区大沦陷

谢娜尴尬了!张杰梦女上热搜第一名!工作室评论区大沦陷

付老师种植技术团队
2025-12-31 16:30:07
中超转会动态:升班马一口气官宣13人离队,方昊将加盟浙江队

中超转会动态:升班马一口气官宣13人离队,方昊将加盟浙江队

中超伪球迷
2025-12-31 17:35:42
41分大胜国王!伦纳德33+5、哈登21分,快船找到赢球阵容,太猛了

41分大胜国王!伦纳德33+5、哈登21分,快船找到赢球阵容,太猛了

你的篮球频道
2025-12-31 14:26:42
2025-12-31 18:20:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2295文章数 596关注度
往期回顾 全部

科技要闻

老罗,演砸了,也封神了?

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

体育要闻

2025全球射手榜:姆巴佩66球 梅西第6C罗第9

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

高培勇:分配制度改革是提振消费的抓手

汽车要闻

凯迪拉克纯电中型SUV 售价不足24万/33寸曲面屏

态度原创

本地
时尚
数码
公开课
军事航空

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

今年冬天流行的“倒三角”穿法,时髦又高级!

数码要闻

影响力关注度加持,AMD王炸牌颠覆市场格局

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

沉浸式感受"正义使命-2025"演习现场

无障碍浏览 进入关怀版