网易首页 > 网易号 > 正文 申请入驻

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

0
分享至

近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。

DocTron团队提出的Chart-R1模型在这一背景下应运而生,针对图表这一信息密集型多模态数据类型,开发出一套思维链监督和强化的图表推理方法,通过逐步骤的思维链监督和数值敏感的强化学习微调实现复杂图表推理能力。图表分析不仅需要视觉理解,还需要进行多步骤的数值推理和关系分析,因此这项工作的重要性不言而喻。

DocTron是一个在通用视觉语言模型架构上实现结构化内容解析和理解的开源项目,而无需定制化的模块开发,覆盖通用文档、学科公式、图表代码等场景。

  • 论文标题:Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner
  • 论文链接:https://arxiv.org/pdf/2507.15509
  • Github链接:https://github.com/DocTron-hub/Chart-R1
  • 项目开源地址:https://huggingface.co/DocTron

创新点与技术突破

Chart-R1 的核心创新在于其两阶段训练策略和高质量数据合成方法

1.程序化数据合成技术

研究团队开发了一种新颖的程序化数据合成技术,利用 LLM 生成图表绘制代码,并基于这些代码构建复杂问题、多步骤思维链推理过程和最终答案。

这种方法生成了覆盖单图表和多子图表的高质量推理数据,构建了包含 258k 多步推理样本的 ChartRQA 数据集。与现有方法相比,该技术避免了有损解析过程,确保了数据的多样性和真实性。

2.两阶段训练策略

  • Chart-COT 阶段:通过思维链监督,训练模型将复杂图表推理任务分解为细粒度、可理解的子任务;
  • Chart-RFT 阶段:采用数值敏感的强化学习微调,使用群组相对策略优化 (GRPO),奖励信号结合软匹配和编辑距离,专门针对数值和字符串答案提高准确性。

这种两阶段策略的独特之处在于为两个阶段使用不同的数据集,避免了在强化学习过程中模型探索能力的受损。

实验结果与性能表现

实验结果令人瞩目:Chart-R1 在各种公开基准测试和自建的 ChartRQA 数据集上表现卓越,不仅超越了现有的图表领域方法,甚至在多个任务上媲美 GPT-4o 和 Claude-3.5 等闭源大型模型。

在复杂图表推理任务上,现有视觉语言模型的性能大幅下降,而 Chart-R1 依然保持稳定的高水平表现,这充分证明了该方法在复杂推理任务上的优越性

研究意义与应用前景

该研究不仅在技术上取得了突破,也为图表理解和推理领域提供了新的研究方向:

  • 证明了强化学习在视觉多模态推理任务中的有效性,特别是针对需要精确数值推理的场景;
  • 提出的程序化数据合成方法为解决多模态数据稀缺问题提供了新思路;
  • 两阶段训练策略为构建高效推理模型提供了实用框架。

在实际应用方面,Chart-R1 可广泛应用于商业智能分析、科学研究数据解读、金融报告分析等需要深度图表理解的场景,大幅提升自动化分析效率。

结论

Chart-R1 的成功表明,通过精心设计的训练策略和高质量数据,即使是参数规模相对较小的模型也能在特定领域达到与大型闭源模型相媲美的性能。这一研究为构建高效、专业的领域特定 AI 模型提供了宝贵经验,也为未来多模态推理研究指明了方向。

该工作不仅是对 R1-Style 方法在多模态领域有效性的验证,更是对如何构建高效专业领域模型的重要探索,值得学术界和产业界的高度关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴萨0比1负阿拉维斯 新援首秀成唯一亮点

巴萨0比1负阿拉维斯 新援首秀成唯一亮点

竞技风云录
2026-05-14 06:26:19
足协主席宋凯与国际足联秘书长在京会面

足协主席宋凯与国际足联秘书长在京会面

北青网-北京青年报
2026-05-13 17:44:09
印度互联网狂飙:机遇密码与潜在隐忧

印度互联网狂飙:机遇密码与潜在隐忧

烽火瞭望者
2026-05-14 06:13:38
1500万潮汕人移民东南亚,当年究竟有多惨烈?| 地球知识局

1500万潮汕人移民东南亚,当年究竟有多惨烈?| 地球知识局

地球知识局
2026-05-13 07:30:17
深圳女商人罗长丽把国内套路搬去美国,12亿天价勒索栽在FBI手里

深圳女商人罗长丽把国内套路搬去美国,12亿天价勒索栽在FBI手里

观星娱记
2026-05-13 11:06:24
特斯拉:再次突破

特斯拉:再次突破

新浪财经
2026-05-11 10:29:59
足球报:U17国少球员遭遇网络暴力,赛前部分主力因故被放弃

足球报:U17国少球员遭遇网络暴力,赛前部分主力因故被放弃

懂球帝
2026-05-13 13:04:31
76人队传闻:达里尔·莫雷被解雇后,麦凯恩的交易或将引发争议

76人队传闻:达里尔·莫雷被解雇后,麦凯恩的交易或将引发争议

好火子
2026-05-14 00:18:29
跟着第1梯队下飞机,黄仁勋估计还处于比较懵的状态

跟着第1梯队下飞机,黄仁勋估计还处于比较懵的状态

阿龙聊军事
2026-05-14 06:43:50
每体:巴尔德吉无缘瑞典世界杯50人名单是因附加赛后失态行为

每体:巴尔德吉无缘瑞典世界杯50人名单是因附加赛后失态行为

懂球帝
2026-05-13 18:45:10
领导的网名叫上善若水,我该叫什么才能压他一头?

领导的网名叫上善若水,我该叫什么才能压他一头?

摩登人类
2026-05-11 19:43:02
华南理工一男生课堂偷拍女生裙底被当场发现,校方:对涉事学生作出留校察看处分

华南理工一男生课堂偷拍女生裙底被当场发现,校方:对涉事学生作出留校察看处分

扬子晚报
2026-05-13 17:16:56
挤走董卿、靠爹上位、央视“穷鬼”,龙洋的私生活谣言有多离谱?

挤走董卿、靠爹上位、央视“穷鬼”,龙洋的私生活谣言有多离谱?

猪小艳吖
2026-05-12 03:50:15
2026年电费新规来了!7月1日起执行,看完再用电,每月少花几十块

2026年电费新规来了!7月1日起执行,看完再用电,每月少花几十块

陈博世财经
2026-05-12 17:03:49
筑牢安全防线 守护万家灯火

筑牢安全防线 守护万家灯火

人民网
2026-05-13 09:07:38
2026才过半!5位顶流网红接连塌房,偷税炫富低俗一个比一个荒唐

2026才过半!5位顶流网红接连塌房,偷税炫富低俗一个比一个荒唐

橙星文娱
2026-05-12 09:13:39
1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

烈史
2026-05-12 17:55:13
89年前那场灾难,照片为何至今仍让人窒息

89年前那场灾难,照片为何至今仍让人窒息

时光慢邮啊
2026-05-13 07:19:13
抢在被定罪前,莎拉迎来最大强援,菲军火速清场,马科斯蒙在鼓里

抢在被定罪前,莎拉迎来最大强援,菲军火速清场,马科斯蒙在鼓里

古史青云啊
2026-05-13 19:24:23
侯耀文离世后,侄儿接手自己娇妻,两人如今过得怎样

侯耀文离世后,侄儿接手自己娇妻,两人如今过得怎样

观察鉴娱
2026-05-13 10:59:34
2026-05-14 07:44:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12987文章数 142648关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

家居
艺术
手机
公开课
军事航空

家居要闻

内在自叙,无域有方

艺术要闻

这才是真正的“史上最强毕业证”,书法堪比字帖!

手机要闻

iQOO 15T和小米17 Max均已官宣:配置规格都有点不讲武德!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版