网易首页 > 网易号 > 正文 申请入驻

带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

0
分享至

教AI学会使用工具,带图推理就能变得更强?!

港中文、微软联合8家单位推出OpenThinkIMG开源框架,这是一个专为提升AI视觉工具使用和推理能力而设计的一站式平台。

众所周知,我们人类在解决问题时,常常会借助视觉工具:解几何题时画辅助线,分析图表时用荧光笔标记。这些“动手”操作,极大地增强了我们的认知和推理能力。

因此,一旦将同款“动手操作”能力赋予AI,其推理能力也将大大提升。

不过问题是,虽然现在已经有很多强大的视觉工具(分割、检测、OCR等),但让AI真正学会如何以及何时智能地使用这些工具,却面临巨大挑战:

  • 工具集成难:不同工具接口各异,想把它们整合到一个AI系统里,费时费力。
  • 训练数据缺:教AI用工具,需要大量“示范操作”数据。这种数据怎么来?质量如何保证?
  • 模型适应差:传统方法训练出的AI,往往只会“照本宣科”,遇到新情况就傻眼,缺乏灵活应变和自主学习的能力。

而OpenThinkIMG框架的出现正是为了解决上述问题,与此同时,团队还公开了其核心的自适应工具使用训练技术V-ToolRL

下面具体来看。

OpenThinkIMG:为AI打造的“超级工具箱”

如框架图所示,OpenThinkIMG集工具部署、数据生成、智能体训练于一体。

其核心特性如下:

第一,模块化视觉工具部署 (Tool Deployment)。

简单来说,它提供标准化的视觉工具接口,无论是已有的成熟工具(如GroundingDINO, SAM, OCR等),还是你自己的新工具,都能轻松接入OpenThinkIMG的“工具箱”。

并且每个工具都可以作为独立服务部署,互不干扰,方便管理和按需扩展。AI模型可以通过框架内的“工具控制器”按需调用。

第二,高效的智能体训练框架 (Training Framework)。

它不仅支持传统的监督微调 (SFT),更集成了团队创新的V-ToolRL (Visual Tool Reinforcement Learning) 算法。

这一算法让AI通过强化学习,在与视觉工具的真实交互中,从错误中学习,自主探索和掌握最佳的工具使用策略。

具体而言,需要先通过SFT进行“理论学习”(冷启动),然后通过V-ToolRL进行“上路实操”,根据任务完成情况获得奖励或惩罚,不断优化策略。

第三,支持高质量训练数据生成 (Scalable Trajectory Generation)。

为了给V-ToolRL提供优质的初始“教材”,OpenThinkIMG内置了一套团队提出的高效、可扩展的视觉工具使用轨迹生成方法。

具体过程分为三步:

  • AI规划师 (GPT-4o) 出马:先让大模型规划出解决问题的初步工具步骤。
  • 工具真实执行与记录:调用OpenThinkIMG中的工具服务,实际执行规划,并记录下每一步的输入输出。
  • 严格质检与筛选:结合AI模型(如Qwen2-VL-72B)、规则和人工审查,层层把关,确保数据质量。

△高质量视觉轨迹数据构建流程

通过OpenThinkIMG的这些核心能力,研究者和开发者可以更专注于模型算法的创新,而不必在工具部署和数据准备上耗费过多精力。

OpenThinkIMG + V-ToolRL:表现超过GPT-4.1

团队在具有挑战性的图表推理任务上,使用OpenThinkIMG框架训练了基于V-ToolRL的智能体。

如图所示,V-ToolRL在ChartGemma测试集上的性能表现(基于OpenThinkIMG训练)如下:

1、大幅超越SFT:基于一个2B的Qwen2-VL,经过V-ToolRL训练后,准确率比单纯SFT提升了28.83个百分点;

2、碾压同类开源模型:V-ToolRL的表现平均超过了如Taco、CogCom等基于监督学习的工具使用基线12.7个百分点,而且团队的模型参数量更小;

3、媲美顶尖模型:V-ToolRL的表现超过GPT-4.1,同时和Gemini达到持平的效果。

结果充分证明了OpenThinkIMG框架的强大支撑能力,以及V-ToolRL在学习自适应工具调用策略上的优越性。

那么,V-ToolRL是如何在OpenThinkIMG中学习的呢?

通过OpenThinkIMG的训练环境,团队观察到V-ToolRL智能体展现出以下学习特性:(a) 工具调用更高效 (b) 推理更详尽 (c) V-ToolRL 学习更快更好。

具体而言,随着训练的进行,模型平均调用的工具次数显著下降,说明它学会了“好钢用在刀刃上”,只在必要时才使用工具。

而且模型生成的答案(包括思考过程)长度增加了,表明它能够进行更详细、更深入的推理。

最后,V-ToolRL(集成了视觉工具的反馈)相比纯文本的强化学习,学习速度更快,最终效果也更好,证明了“眼见为实”的重要性。

下图展示了V-ToolRL在具体问题上的表现。面对复杂的图表,V-ToolRL能够:

  • 饼图分析 (上):通过ZoomInSubfigure放大关键区域,再用OCR精准读取数值,最终正确计算出差异,而直接解读的模型则容易出错。
  • 折线图趋势 (下):利用Point定位数据点,DrawVerticalLineByX辅助比较,准确找出趋势相同的类别。

△V-ToolRL (上侧工具辅助) vs GPT-4.1 (下侧直接解读)

这些案例生动地展示了V-ToolRL如何通过结构化的工具调用,实现比直接视觉解读更准确、更可解释的推理。

小结一下,OpenThinkIMG框架的核心贡献在于:

1、一个开放、强大的工具部署与训练平台:解决了工具集成和智能体训练的难题。

2、内置高效数据生成方法:为模型训练提供高质量“燃料”。

3、V-ToolRL作为核心训练算法:使AI能够真正学会自主、智能地使用视觉工具。

团队表示,OpenThinkIMG将为开发能够真正“用图像思考”的下一代AI智能体提供坚实的基础设施。

未来,他们将继续扩展OpenThinkIMG支持的工具和模型,探索更复杂的任务场景,并期待与社区共同推动这一激动人心的领域向前发展。

论文第一作者苏肇辰为苏州大学三年级研究生,香港科技大学准博士生,在NeurIPS、ACL等国际顶级会议上发表多篇研究成果。项目通讯作者为港中文成宇教授

技术报告:
https://arxiv.org/pdf/2505.08617
GitHub仓库:
https://github.com/zhaochen0110/OpenThinkIMG
数据集和模型:
https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

大运河时空
2026-03-25 15:15:03
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
眼看一艘又一艘油轮,加紧运进中国,美国决定取消“石油制裁”

眼看一艘又一艘油轮,加紧运进中国,美国决定取消“石油制裁”

小杨侃事
2026-03-26 07:12:12
76岁公公住我家15年没给一毛钱,谁料,他去世第2天,家里突然来了两个律师…

76岁公公住我家15年没给一毛钱,谁料,他去世第2天,家里突然来了两个律师…

感觉会火
2026-03-25 18:31:16
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
怪不得张云鹏一心想回加拿大,原来是有女朋友了,回国定居是不是更难了?

怪不得张云鹏一心想回加拿大,原来是有女朋友了,回国定居是不是更难了?

奇思妙想生活家
2026-03-26 13:10:30
商务部:敦促日方切实反思纠错,为两国正常经贸合作创造条件

商务部:敦促日方切实反思纠错,为两国正常经贸合作创造条件

界面新闻
2026-03-26 15:25:50
于谦真的挺休闲的,跟退休老人一样,一盘饺子,比得过山珍海味。

于谦真的挺休闲的,跟退休老人一样,一盘饺子,比得过山珍海味。

陈意小可爱
2026-03-26 00:36:06
偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

离离言几许
2026-03-16 16:31:23
到东北喝了顿酒,才知道为啥东北白酒走不出东三省,不是价格问题

到东北喝了顿酒,才知道为啥东北白酒走不出东三省,不是价格问题

涛哥美食汇
2026-03-10 09:16:10
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
055第二批次6艘全部下水,东海舰队终迎万吨大驱,剩下4艘为何迟迟不分?

055第二批次6艘全部下水,东海舰队终迎万吨大驱,剩下4艘为何迟迟不分?

林子说事
2026-03-26 12:44:00
李晨洋刷新男子撑竿跳高全国纪录,中国田径跃上新高度

李晨洋刷新男子撑竿跳高全国纪录,中国田径跃上新高度

北青网-北京青年报
2026-03-26 11:55:17
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
杀死中国大使?日本军官再次独走,中方撂下一句狠话,手段不简单

杀死中国大使?日本军官再次独走,中方撂下一句狠话,手段不简单

说历史的老牢
2026-03-25 13:00:26
揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

番外行
2026-03-26 08:43:31
39岁江疏影从万众瞩目的女神,到状态憔悴不自信,被穿搭盖住优势

39岁江疏影从万众瞩目的女神,到状态憔悴不自信,被穿搭盖住优势

捣蛋窝
2026-03-20 14:53:30
4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

毅谈生肖
2026-03-26 11:47:20
2026-03-26 15:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12347文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
亲子
健康
教育
房产

艺术要闻

哪一座桥不是风景?

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

转头就晕的耳石症,能开车上班吗?

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

无障碍浏览 进入关怀版