当今大语言模型(LLM)在众多领域展现出强大的能力,但在数据分析这一需要严谨逻辑和多步推理的任务上,开源模型与顶尖闭源模型之间仍存在显著的性能差距。这一现象引出一个核心问题:究竟是什么因素限制了开源模型的数据分析能力?是数据理解的深度、代码生成的质量,还是更深层次的推理机制?
为了探索这些问题,本文从一个“能力解构”的视角切入,通过系统性的实证研究,追踪并剖析了模型在数据分析任务中的行为模式。研究不仅探索了开源LLM面临的核心瓶颈,更基于此提出了一套高效的数据合成方法,提升了模型的分析推理能力。
![]()
论文题目: Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study 论文链接: https://arxiv.org/abs/2506.19794 代码链接: https://github.com/zjunlp/DataMind一、分析与发现 1.1 核心分析框架
传统的分析思路往往将数据分析失败归因于模型单一的能力缺陷,而本文则从一个更系统、更综合的“能力感知”(Capability-Aware)视角展开研究。
首先,本研究将复杂的数据分析任务清晰地解构为三个环环相扣的核心能力:
数据理解 (Data Comprehension):模型从原始数据(如CSV文件)中提取和理解信息的能力。
代码生成 (Code Generation):模型将分析思路转化为可执行Python代码的能力。
策略规划 (Strategic Planning):模型为解决一个复杂分析问题,制定、执行并调整多步计划的能力。
基于该框架,本文设计了一系列控制变量实验。为确保评估的客观性,本文首先收集并构建了一个不与评测集重叠的高质量数据集,其场景源自DAEval、DSBench等多个基准。随后,通过对Qwen、GPT-4o、DeepSeek等一系列模型的行为进行细致评估,本研究得以精准分析不同因素对模型最终表现的影响。
本文的分析由表及里,从三个层面展开:
单点能力评估:数据理解和代码生成能力是否是性能的决定性因素?
交互模式影响:多轮交互的长度、推理内容的详略如何影响模型的规划能力?
数据特性权衡:训练数据的难度和领域多样性,哪一个对模型泛化更重要?
通过对模型行为的深入剖析,本文揭示了三个关于如何高效提升LLM数据分析能力的关键发现。
发现一:首要瓶颈在于策略规划,而非执行能力
![]()
![]()
本文的首要核心发现是,限制开源大模型在数据分析任务中表现的主要瓶颈在于策略规划能力,而非是数据理解或代码生成等执行能力。在数据理解层面,本研究的实验表明,无论是为模型提供详尽的表格上下文信息,还是引入无关数据文件作为干扰,模型的最终性能均未出现显著波动,这表明模型已具备稳健的基础数据理解能力。同时,对错误案例的分析(如图2所示)发现,绝大多数失败并非源于代码执行缺陷(如语法或语义错误),而是归因于更高维度的规划失误,例如制定了错误的分析假设或过早地结束了探索流程。
发现二:交互模式存在最优区间
![]()
![]()
在交互模式层面,本研究发现其有效性存在一个最优区间(Optimal Range)。
交互轮次:训练数据并非越长或越短越好,4-5轮的中等长度交互在大多数情况下能引导模型学习到最稳定、高效的推理模式。
推理质量:直接使用冗长、完整的“思维链”进行训练,反而会因信息过载导致性能下降。相反,将思维链总结为精炼的核心逻辑(Summarized Reasoning)后,模型表现最佳。这说明,推理的质量和信息密度比形式上的长度更为重要。
发现三:数据质量的决定性作用远超多样性
![]()
![]()
![]()
在数据选择层面,本研究发现,训练数据的质量远比其多样性更为关键。实验结果(如表7)清晰地表明,简单地通过平衡采样来增加训练数据覆盖的问题领域多样性,并不能带来显著的性能提升。相反,对数据质量的精细把控——例如提升任务的难度——则能有效促进模型能力的增长(如表6)。更有趣的是,如图5所示,随着训练数据难度的增加,模型倾向于在更少的交互轮次内给出更精炼的答案,这表明高质量的难题能促使模型内化推理过程,提升其分析效率。这些发现共同证明,与其盲目追求数据的广度,不如通过精心筛选,确保训练数据具备合适的难度、高质量的推理过程和优化的交互结构。即使数据总量不大,这种“质量优先”的策略也能实现更好的微调效果。
策略引导的数据合成
基于上述核心发现,本文将其转化为一套行之有效的策略引导的数据合成(Strategy-Guided Data Synthesis)方法,并验证了其效果。
![]()
![]()
第一步:答案生成 (Prompt-Based Answer Generation)
首先,通过生成式方法为每个问题创造一个包含多种可能解法的初始候选池。
第二步:目标实例选择 (Targeted Instance Selection)
接着,本文将研究的核心发现作为筛选准则,进行目标实例选择。这一步通过多维度的过滤,只保留那些具有中等交互长度和中高任务难度的正确轨迹,从而将训练资源精确地聚焦于最高效的学习区间。
第三步:推理驱动的数据富化 (Reasoning-Driven Data Enrichment)
最后,通过推理驱动的数据富化,本文将冗长的思考过程提炼为精炼的推理摘要,旨在让模型直接学习解决问题的核心策略与抽象逻辑。通过这套从6.4k个初始正确轨迹中进行层层筛选的严格流程,本文最终精炼出一个仅包含2.8k个高质量实例的最终数据集。微调后的7B模型在各项基准上性能大幅超越其基线版本。而14B模型的表现也达到了与GPT-4o相当甚至更好的水平。
二、总结
本文通过对大语言模型在数据分析任务中的能力进行系统性解构和实证分析,由表及里地揭示了其性能瓶颈和优化路径。本研究的核心结论是:策略规划能力是限制模型表现的核心短板,而高质量、结构化的训练数据是解锁其分析潜能的关键。
本研究表明,深入剖析大语言模型在特定任务上的能力构成,是实现从粗放式训练到精准能力塑造转变的关键。这项工作所揭示的规律和提出的方法,为构建更可靠、更高效的开源数据分析智能体提供了参考方向。本工作的延续之作“Scaling Generalist Data-Analytic Agents”进一步扩大合成数据规模并采用强化学习来提升了性能。
作者:朱雨琦 来源:公众号【知识引擎实验室-ZJU】
llustration From IconScout By IconScout Store
-The End-
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.