网易首页 > 网易号 > 正文 申请入驻

中国学生开发“思考型AI”,边绘图边计算

0
分享至

哈喽,大家好,今天小墨这篇评论,主要来分析北邮学生如何让AI学会"边画边思考",以及这项技术为何能让国际巨头都保持沉默。

这两天,一个来自北京邮电大学的AI项目在学术圈引发关注。博士生乔润祺和硕士生谭秋纳带领团队发布了V-Thinker,这个模型能做到一件很特别的事情,给它一张几何题的图,它不仅能看懂题目,还会自己在图上画辅助线,然后一边画一边推理出答案。







V-Thinker的突破就在这里。它能在推理过程中自己生成代码,通过代码来操作图像,比如画线、标注、裁剪或者旋转,然后再根据修改后的图像继续推理。整个过程就像一个学生在草稿纸上一步步演算,而不是直接蹦出答案。



有意思的是,GPT-4o生成的代码运行后,能渲染出结构和语义都很一致的高质量图像,并且跟推理过程能对上。基于这个发现,他们做了个大胆的尝试,让系统不断迭代生成新题目,召回新知识点,再生成更多题目。

最后从最初的几百个知识点,扩展到了24000多个,覆盖了数学、物理、音乐等25个领域。

这个过程里,他们还设计了一个检查器,专门验证问题、答案、原始图像和操作后图像之间的一致性。对于通过验证的样本,再用一个拓展器增加难度,引入更多视觉交互步骤。通过这样持续迭代,最终构建出了包含40万条数据的V-Interaction-400K数据集。





有了数据,接下来就是训练。团队设计了一套渐进式的训练方法,分两个阶段进行。

第一阶段主要提升模型的视觉感知能力。他们构建了一个包含4万条数据的V-Perception-40K数据集,专门训练模型对图像中视觉元素的细粒度定位能力,比如识别图中有几个三角形,它们之间的位置关系是什么。



第二阶段才是核心,让模型学会交互推理。这个阶段用了监督微调加强化学习的组合策略。先用V-Interaction-400K数据集做初步对齐,让模型知道什么情况下需要进行视觉操作。然后通过强化学习,引导模型在推理过程中生成并执行视觉操作代码。





为了测试V-Thinker的实际效果,团队专门构建了一个评测基准VTBench。这个基准跟现有的测试不太一样,它只选那些必须通过视觉交互才能完成的题目,比如需要添加辅助线或者标注关键区域的几何题。



所有样本都来自公开数据集和平台,并且经过人工标注。在标注之前,他们还做了人工投票筛选,只有大多数人都认为视觉交互是必需的题目,才会被纳入基准。

测试结果显示,V-Thinker在VTBench的三类交互任务中,平均准确率比基线模型提升了超过12%。在需要按照明确指令执行视觉操作的场景中,性能提升甚至超过22%。



不过团队也坦诚地指出,模型在感知和视觉交互能力上还有提升空间。虽然GPT-4o、Qwen2.5-VL这些模型在通用视觉推理任务中表现不错,但在涉及空间关系建模和点级定位的交互任务中,性能会下降。这说明视觉交互能力和推理能力之间还存在差距。

有个细节挺有意思,在一些不强制要求视觉交互的任务中,V-Thinker也会主动对图像进行标注,用来辅助中间推理过程。这说明视觉交互已经逐渐成为它推理策略的一部分,而不只是被动响应指令。



团队还对强化学习阶段的过程进行了可视化。同一张图像,模型能生成多条不同的交互路径,覆盖更广的解题思路。这些路径在中间步骤和操作选择上都有明显差异,说明模型在交互推理阶段具备了更强的策略多样性。

此外,V-Thinker在MathVision等复杂多步推理任务上取得了6%的性能提升。这表明视觉操作驱动的推理范式不仅适用于交互任务,也能向通用视觉推理场景迁移。



V-Thinker证明了AI可以像人类一样,在推理过程中通过视觉交互来辅助思考。这项工作从数据构建、训练方法到评测体系都做了系统性探索,为多模态推理打开了新的可能性。

虽然目前在感知能力和交互能力上还有改进空间,但这个方向的潜力值得期待。技术的进步从来不是一蹴而就,每一步探索都在为未来铺路。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
饶颖:赵忠祥与我发生关系多年!他有特殊癖好,让我身心受到伤害

饶颖:赵忠祥与我发生关系多年!他有特殊癖好,让我身心受到伤害

蕾爸退休日记
2025-12-10 18:56:14
俄特种部队嘲讽美军抓马杜罗:这不算什么,我们也能抓泽连斯基

俄特种部队嘲讽美军抓马杜罗:这不算什么,我们也能抓泽连斯基

桂系007
2026-01-06 01:44:56
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
美军如何抓的马杜罗?特种兵摸进总统卧室,给全世界上了一课

美军如何抓的马杜罗?特种兵摸进总统卧室,给全世界上了一课

第一军情
2026-01-07 19:45:03
中国史上最大工程即将开工,预计投资4万亿,将彻底改变西北部

中国史上最大工程即将开工,预计投资4万亿,将彻底改变西北部

文史达观
2025-10-14 06:45:03
多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

半岛晨报
2026-01-06 19:46:12
被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

星宇共鸣
2025-12-29 09:56:33
向太爆料方媛三胎为郭富城生儿子,打破四大天王女儿魔咒

向太爆料方媛三胎为郭富城生儿子,打破四大天王女儿魔咒

胖子的勇气
2026-01-06 19:47:36
未来社会如同物理学的"费米能级":会用AI,才能在职场活下去

未来社会如同物理学的"费米能级":会用AI,才能在职场活下去

爆角追踪
2026-01-07 09:34:11
贾樟柯的6部封神佳作,几乎全被强制下架,每部都太敢拍了

贾樟柯的6部封神佳作,几乎全被强制下架,每部都太敢拍了

影唠安利社
2026-01-06 15:10:24
善恶终有报,57岁央视女主持王小丫,原来早已经走上另一条大路

善恶终有报,57岁央视女主持王小丫,原来早已经走上另一条大路

梦录的西方史话
2025-10-29 15:48:51
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
双腿出现这3种异常,可能是肺部已经开始癌变,别以为只是不舒服

双腿出现这3种异常,可能是肺部已经开始癌变,别以为只是不舒服

DrX说
2026-01-07 14:14:14
上海女子为母亲过生日,吃完蛋糕后,向母亲注射5支胰岛素

上海女子为母亲过生日,吃完蛋糕后,向母亲注射5支胰岛素

纪实录
2024-03-02 16:31:44
超全!人体各器官衰老时间表(附抗衰大法)

超全!人体各器官衰老时间表(附抗衰大法)

蝌蚪五线谱
2025-11-18 17:25:16
狗都叹气,社保利息公布了...

狗都叹气,社保利息公布了...

越女事务所
2026-01-07 21:49:04
一旦台海战争爆发,解放军决不放过台军第333旅,新账旧账一起算

一旦台海战争爆发,解放军决不放过台军第333旅,新账旧账一起算

青途历史
2026-01-06 17:40:29
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
杨瀚森到底表现怎么样?四项数据都很差,难怪开拓者媒体讽刺他

杨瀚森到底表现怎么样?四项数据都很差,难怪开拓者媒体讽刺他

姜大叔侃球
2026-01-07 10:14:27
高市政权能维持多久?

高市政权能维持多久?

陆弃
2026-01-07 10:43:43
2026-01-08 04:20:49
李橑在北漂
李橑在北漂
北漂生活记录,只为心中小小的梦。
783文章数 104关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

房产
亲子
旅游
艺术
公开课

房产要闻

最新!海口二手房,涨价房源突然猛增30%

亲子要闻

雀巢召回多国婴儿配方奶粉,涉及中国市场71个批次

旅游要闻

嗨到凌晨3点!仙游一网红夜市即将启用!0成本即可当老板...

艺术要闻

24位国画大师联手,震撼美学体验等你来!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版