网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 面向数据分析智能体的能力解构与思维链合成探究

0
分享至

当今大语言模型(LLM)在众多领域展现出强大的能力,但在数据分析这一需要严谨逻辑和多步推理的任务上,开源模型与顶尖闭源模型之间仍存在显著的性能差距。这一现象引出一个核心问题:究竟是什么因素限制了开源模型的数据分析能力?是数据理解的深度、代码生成的质量,还是更深层次的推理机制?

为了探索这些问题,本文从一个“能力解构”的视角切入,通过系统性的实证研究,追踪并剖析了模型在数据分析任务中的行为模式。研究不仅探索了开源LLM面临的核心瓶颈,更基于此提出了一套高效的数据合成方法,提升了模型的分析推理能力。


论文题目: Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study 论文链接: https://arxiv.org/abs/2506.19794 代码链接: https://github.com/zjunlp/DataMind
一、分析与发现 1.1 核心分析框架

传统的分析思路往往将数据分析失败归因于模型单一的能力缺陷,而本文则从一个更系统、更综合的“能力感知”(Capability-Aware)视角展开研究。

首先,本研究将复杂的数据分析任务清晰地解构为三个环环相扣的核心能力:

  • 数据理解 (Data Comprehension):模型从原始数据(如CSV文件)中提取和理解信息的能力。

  • 代码生成 (Code Generation):模型将分析思路转化为可执行Python代码的能力。

  • 策略规划 (Strategic Planning):模型为解决一个复杂分析问题,制定、执行并调整多步计划的能力。

基于该框架,本文设计了一系列控制变量实验。为确保评估的客观性,本文首先收集并构建了一个不与评测集重叠的高质量数据集,其场景源自DAEval、DSBench等多个基准。随后,通过对Qwen、GPT-4o、DeepSeek等一系列模型的行为进行细致评估,本研究得以精准分析不同因素对模型最终表现的影响。

本文的分析由表及里,从三个层面展开:

  • 单点能力评估:数据理解和代码生成能力是否是性能的决定性因素?

  • 交互模式影响:多轮交互的长度、推理内容的详略如何影响模型的规划能力?

  • 数据特性权衡:训练数据的难度和领域多样性,哪一个对模型泛化更重要?

1.2 三大核心发现

通过对模型行为的深入剖析,本文揭示了三个关于如何高效提升LLM数据分析能力的关键发现。

发现一:首要瓶颈在于策略规划,而非执行能力



本文的首要核心发现是,限制开源大模型在数据分析任务中表现的主要瓶颈在于策略规划能力,而非是数据理解或代码生成等执行能力。在数据理解层面,本研究的实验表明,无论是为模型提供详尽的表格上下文信息,还是引入无关数据文件作为干扰,模型的最终性能均未出现显著波动,这表明模型已具备稳健的基础数据理解能力。同时,对错误案例的分析(如图2所示)发现,绝大多数失败并非源于代码执行缺陷(如语法或语义错误),而是归因于更高维度的规划失误,例如制定了错误的分析假设或过早地结束了探索流程。

发现二:交互模式存在最优区间



在交互模式层面,本研究发现其有效性存在一个最优区间(Optimal Range)。

  • 交互轮次:训练数据并非越长或越短越好,4-5轮的中等长度交互在大多数情况下能引导模型学习到最稳定、高效的推理模式。

  • 推理质量:直接使用冗长、完整的“思维链”进行训练,反而会因信息过载导致性能下降。相反,将思维链总结为精炼的核心逻辑(Summarized Reasoning)后,模型表现最佳。这说明,推理的质量和信息密度比形式上的长度更为重要。

发现三:数据质量的决定性作用远超多样性




在数据选择层面,本研究发现,训练数据的质量远比其多样性更为关键。实验结果(如表7)清晰地表明,简单地通过平衡采样来增加训练数据覆盖的问题领域多样性,并不能带来显著的性能提升。相反,对数据质量的精细把控——例如提升任务的难度——则能有效促进模型能力的增长(如表6)。更有趣的是,如图5所示,随着训练数据难度的增加,模型倾向于在更少的交互轮次内给出更精炼的答案,这表明高质量的难题能促使模型内化推理过程,提升其分析效率。这些发现共同证明,与其盲目追求数据的广度,不如通过精心筛选,确保训练数据具备合适的难度、高质量的推理过程和优化的交互结构。即使数据总量不大,这种“质量优先”的策略也能实现更好的微调效果。

策略引导的数据合成

基于上述核心发现,本文将其转化为一套行之有效的策略引导的数据合成(Strategy-Guided Data Synthesis)方法,并验证了其效果。



第一步:答案生成 (Prompt-Based Answer Generation)

首先,通过生成式方法为每个问题创造一个包含多种可能解法的初始候选池。

第二步:目标实例选择 (Targeted Instance Selection)

接着,本文将研究的核心发现作为筛选准则,进行目标实例选择。这一步通过多维度的过滤,只保留那些具有中等交互长度和中高任务难度的正确轨迹,从而将训练资源精确地聚焦于最高效的学习区间。

第三步:推理驱动的数据富化 (Reasoning-Driven Data Enrichment)

最后,通过推理驱动的数据富化,本文将冗长的思考过程提炼为精炼的推理摘要,旨在让模型直接学习解决问题的核心策略与抽象逻辑。通过这套从6.4k个初始正确轨迹中进行层层筛选的严格流程,本文最终精炼出一个仅包含2.8k个高质量实例的最终数据集。微调后的7B模型在各项基准上性能大幅超越其基线版本。而14B模型的表现也达到了与GPT-4o相当甚至更好的水平。

二、总结

本文通过对大语言模型在数据分析任务中的能力进行系统性解构和实证分析,由表及里地揭示了其性能瓶颈和优化路径。本研究的核心结论是:策略规划能力是限制模型表现的核心短板,而高质量、结构化的训练数据是解锁其分析潜能的关键

本研究表明,深入剖析大语言模型在特定任务上的能力构成,是实现从粗放式训练到精准能力塑造转变的关键。这项工作所揭示的规律和提出的方法,为构建更可靠、更高效的开源数据分析智能体提供了参考方向。本工作的延续之作“Scaling Generalist Data-Analytic Agents”进一步扩大合成数据规模并采用强化学习来提升了性能。

作者:朱雨琦 来源:公众号【知识引擎实验室-ZJU】

llustration From IconScout By IconScout Store

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽省生态环境厅党组书记、厅长曹哨兵:安徽PM2.5年均浓度创新低

安徽省生态环境厅党组书记、厅长曹哨兵:安徽PM2.5年均浓度创新低

人民资讯
2026-06-02 16:38:44
杨溢将告别广东队

杨溢将告别广东队

体育哲人
2026-06-02 16:31:00
体检报告出现这几个字,距离癌症只有一步之遥!别等得癌了才后悔

体检报告出现这几个字,距离癌症只有一步之遥!别等得癌了才后悔

健康之光
2026-06-01 08:56:18
“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

妍妍教育日记
2026-06-01 20:02:17
给他追封“民族英雄”,我不认同!

给他追封“民族英雄”,我不认同!

小豫讲故事
2026-06-02 06:00:29
输U19国足,沙特主帅:就连中国队的进球也不是有威胁的射门

输U19国足,沙特主帅:就连中国队的进球也不是有威胁的射门

懂球帝
2026-06-02 10:00:36
库里官宣签约李宁十年!勇士两大核心都签约李宁

库里官宣签约李宁十年!勇士两大核心都签约李宁

体坛周报
2026-06-02 08:00:13
总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

罗说NBA
2026-06-02 07:10:43
温州市公安局原副局长徐志宏,主动投案

温州市公安局原副局长徐志宏,主动投案

大风新闻
2026-06-01 21:37:00
娄底市委常委会召开会议 坚决拥护省委对谢学龙涉嫌严重违纪违法进行纪律审查和监察调查的决定

娄底市委常委会召开会议 坚决拥护省委对谢学龙涉嫌严重违纪违法进行纪律审查和监察调查的决定

环球网资讯
2026-06-02 13:17:07
禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

傲傲讲历史
2026-06-02 13:53:16
梁靖崑谈世乒赛逆转张本智和:我一直都没喊,他在这瞎忙活

梁靖崑谈世乒赛逆转张本智和:我一直都没喊,他在这瞎忙活

懂球帝
2026-06-02 17:17:07
西红柿再次被关注!研究发现:常吃番茄,可能将收获几大好处

西红柿再次被关注!研究发现:常吃番茄,可能将收获几大好处

普陀动物世界
2026-06-02 15:59:57
六台:科纳特加盟皇马想要2000万欧签字费,税后年薪1200万欧

六台:科纳特加盟皇马想要2000万欧签字费,税后年薪1200万欧

懂球帝
2026-06-02 16:13:12
奔驰全新纯电GLC SUV预售定档6月5日:车身加长至4.95米,7月上市

奔驰全新纯电GLC SUV预售定档6月5日:车身加长至4.95米,7月上市

IT之家
2026-06-02 16:29:50
美媒:威少向俄城新体育馆投资1000万美元,并担任项目创意总监

美媒:威少向俄城新体育馆投资1000万美元,并担任项目创意总监

懂球帝
2026-06-02 14:58:36
52岁卡纳瓦罗率队0-2不敌世界杯东道主,中亚劲旅3连胜终结

52岁卡纳瓦罗率队0-2不敌世界杯东道主,中亚劲旅3连胜终结

侧身凌空斩
2026-06-02 11:09:47
强渡大渡河十八勇士战功卓著,1955 年授衔最高军衔是什么

强渡大渡河十八勇士战功卓著,1955 年授衔最高军衔是什么

唠叨说历史
2026-05-25 16:02:14
汪峰带五娃过六一!森林北女儿紧挨妈妈,二女儿汪璟怡不舍得分开

汪峰带五娃过六一!森林北女儿紧挨妈妈,二女儿汪璟怡不舍得分开

无处不风景love
2026-06-02 14:01:50
善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

混沌录
2026-06-01 23:24:09
2026-06-02 18:55:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2399文章数 596关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

5岁儿子29万存款被妈妈取到剩40块 爸爸起诉法院判了

头条要闻

5岁儿子29万存款被妈妈取到剩40块 爸爸起诉法院判了

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
艺术
数码
旅游
游戏

家居要闻

流线型轮廓 包容多元身形

艺术要闻

周杰伦花 1.36 亿拍下这幅画

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

旅游要闻

毕业季免门票!太行大峡谷为大中小学生送福利

那些逆天的抽象广告,到底出自什么游戏?

无障碍浏览 进入关怀版