网易首页 > 网易号 > 正文 申请入驻

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

0
分享至

近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。

DocTron团队提出的Chart-R1模型在这一背景下应运而生,针对图表这一信息密集型多模态数据类型,开发出一套思维链监督和强化的图表推理方法,通过逐步骤的思维链监督和数值敏感的强化学习微调实现复杂图表推理能力。图表分析不仅需要视觉理解,还需要进行多步骤的数值推理和关系分析,因此这项工作的重要性不言而喻。

DocTron是一个在通用视觉语言模型架构上实现结构化内容解析和理解的开源项目,而无需定制化的模块开发,覆盖通用文档、学科公式、图表代码等场景。

  • 论文标题:Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner
  • 论文链接:https://arxiv.org/pdf/2507.15509
  • Github链接:https://github.com/DocTron-hub/Chart-R1
  • 项目开源地址:https://huggingface.co/DocTron

创新点与技术突破

Chart-R1 的核心创新在于其两阶段训练策略和高质量数据合成方法

1.程序化数据合成技术

研究团队开发了一种新颖的程序化数据合成技术,利用 LLM 生成图表绘制代码,并基于这些代码构建复杂问题、多步骤思维链推理过程和最终答案。

这种方法生成了覆盖单图表和多子图表的高质量推理数据,构建了包含 258k 多步推理样本的 ChartRQA 数据集。与现有方法相比,该技术避免了有损解析过程,确保了数据的多样性和真实性。

2.两阶段训练策略

  • Chart-COT 阶段:通过思维链监督,训练模型将复杂图表推理任务分解为细粒度、可理解的子任务;
  • Chart-RFT 阶段:采用数值敏感的强化学习微调,使用群组相对策略优化 (GRPO),奖励信号结合软匹配和编辑距离,专门针对数值和字符串答案提高准确性。

这种两阶段策略的独特之处在于为两个阶段使用不同的数据集,避免了在强化学习过程中模型探索能力的受损。

实验结果与性能表现

实验结果令人瞩目:Chart-R1 在各种公开基准测试和自建的 ChartRQA 数据集上表现卓越,不仅超越了现有的图表领域方法,甚至在多个任务上媲美 GPT-4o 和 Claude-3.5 等闭源大型模型。

在复杂图表推理任务上,现有视觉语言模型的性能大幅下降,而 Chart-R1 依然保持稳定的高水平表现,这充分证明了该方法在复杂推理任务上的优越性

研究意义与应用前景

该研究不仅在技术上取得了突破,也为图表理解和推理领域提供了新的研究方向:

  • 证明了强化学习在视觉多模态推理任务中的有效性,特别是针对需要精确数值推理的场景;
  • 提出的程序化数据合成方法为解决多模态数据稀缺问题提供了新思路;
  • 两阶段训练策略为构建高效推理模型提供了实用框架。

在实际应用方面,Chart-R1 可广泛应用于商业智能分析、科学研究数据解读、金融报告分析等需要深度图表理解的场景,大幅提升自动化分析效率。

结论

Chart-R1 的成功表明,通过精心设计的训练策略和高质量数据,即使是参数规模相对较小的模型也能在特定领域达到与大型闭源模型相媲美的性能。这一研究为构建高效、专业的领域特定 AI 模型提供了宝贵经验,也为未来多模态推理研究指明了方向。

该工作不仅是对 R1-Style 方法在多模态领域有效性的验证,更是对如何构建高效专业领域模型的重要探索,值得学术界和产业界的高度关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联合国官宣全球进入“水破产”时代,中国人为什么感觉“水自由”

联合国官宣全球进入“水破产”时代,中国人为什么感觉“水自由”

李砍柴
2026-01-31 17:09:35
为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

以茶带书
2026-01-14 21:54:28
Here we go!罗马诺:先租后买,罗马将签下拜仁前锋萨拉戈萨

Here we go!罗马诺:先租后买,罗马将签下拜仁前锋萨拉戈萨

懂球帝
2026-02-02 02:02:29
“新国标”就是自毁长城

“新国标”就是自毁长城

多村来信
2025-12-06 12:21:07
突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

突发!伊朗多地发生爆炸,已致超20人死伤,以色列:与我们无关!特朗普发出“最后通牒”,伊方:已掌握敌方作战计划,将适时发动打击

每日经济新闻
2026-02-01 00:54:06
香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

慧翔百科
2025-12-24 09:14:14
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

boss外传
2026-01-26 14:00:03
台军通知台湾民众:开战后,见到穿军服的,一定要先逃命

台军通知台湾民众:开战后,见到穿军服的,一定要先逃命

青烟小先生
2026-01-31 21:43:51
马面女孩吴小燕:毛巾蒙面13年,手术取出2公斤异物后过得怎样了

马面女孩吴小燕:毛巾蒙面13年,手术取出2公斤异物后过得怎样了

小熊侃史
2025-12-25 11:27:42
记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

懂球帝
2026-02-01 07:44:07
老家村里,发生了一件不堪入耳的事情

老家村里,发生了一件不堪入耳的事情

豫见老家河南
2026-01-30 07:06:14
三方交易!亨特和施罗德互换东家

三方交易!亨特和施罗德互换东家

体坛周报
2026-02-01 14:33:14
多家银行已停止提供贷款!科技巨头被曝或裁员3万人

多家银行已停止提供贷款!科技巨头被曝或裁员3万人

新浪财经
2026-02-01 13:44:41
2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

天光破云来
2026-01-17 03:39:55
一位退休教师的两年邻里噩梦:花12.5万装修梦想花园,却被邻居强行“切走”1米多!

一位退休教师的两年邻里噩梦:花12.5万装修梦想花园,却被邻居强行“切走”1米多!

英国那些事儿
2026-02-01 22:58:29
长得太美被导演占为己有,4年后生下大明星儿子,17岁就成男一号

长得太美被导演占为己有,4年后生下大明星儿子,17岁就成男一号

泠泠说史
2026-01-17 18:56:18
我们的大脑,为什么要封存3岁前的记忆?

我们的大脑,为什么要封存3岁前的记忆?

中科院物理所
2025-12-07 14:24:58
天呢!一个德国人非议中国教育是对人性的摧残…

天呢!一个德国人非议中国教育是对人性的摧残…

慧翔百科
2026-01-26 11:45:53
广东一初中生背影火了,网友怒赞!

广东一初中生背影火了,网友怒赞!

深圳晚报
2026-01-31 23:00:48
有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

健康科普365
2025-12-15 09:50:47
2026-02-02 02:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

游戏
本地
时尚
公开课
军事航空

末期癌症玩家圆梦《毁灭战士》!id公开致敬

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

“多巴胺风”又又又火了!这样穿时髦又减龄

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版