哈喽,大家好,今天小墨这篇评论,主要来分析北邮学生如何让AI学会"边画边思考",以及这项技术为何能让国际巨头都保持沉默。
这两天,一个来自北京邮电大学的AI项目在学术圈引发关注。博士生乔润祺和硕士生谭秋纳带领团队发布了V-Thinker,这个模型能做到一件很特别的事情,给它一张几何题的图,它不仅能看懂题目,还会自己在图上画辅助线,然后一边画一边推理出答案。
![]()
![]()
![]()
V-Thinker的突破就在这里。它能在推理过程中自己生成代码,通过代码来操作图像,比如画线、标注、裁剪或者旋转,然后再根据修改后的图像继续推理。整个过程就像一个学生在草稿纸上一步步演算,而不是直接蹦出答案。
![]()
有意思的是,GPT-4o生成的代码运行后,能渲染出结构和语义都很一致的高质量图像,并且跟推理过程能对上。基于这个发现,他们做了个大胆的尝试,让系统不断迭代生成新题目,召回新知识点,再生成更多题目。
最后从最初的几百个知识点,扩展到了24000多个,覆盖了数学、物理、音乐等25个领域。
这个过程里,他们还设计了一个检查器,专门验证问题、答案、原始图像和操作后图像之间的一致性。对于通过验证的样本,再用一个拓展器增加难度,引入更多视觉交互步骤。通过这样持续迭代,最终构建出了包含40万条数据的V-Interaction-400K数据集。
![]()
![]()
有了数据,接下来就是训练。团队设计了一套渐进式的训练方法,分两个阶段进行。
第一阶段主要提升模型的视觉感知能力。他们构建了一个包含4万条数据的V-Perception-40K数据集,专门训练模型对图像中视觉元素的细粒度定位能力,比如识别图中有几个三角形,它们之间的位置关系是什么。
![]()
第二阶段才是核心,让模型学会交互推理。这个阶段用了监督微调加强化学习的组合策略。先用V-Interaction-400K数据集做初步对齐,让模型知道什么情况下需要进行视觉操作。然后通过强化学习,引导模型在推理过程中生成并执行视觉操作代码。
![]()
![]()
为了测试V-Thinker的实际效果,团队专门构建了一个评测基准VTBench。这个基准跟现有的测试不太一样,它只选那些必须通过视觉交互才能完成的题目,比如需要添加辅助线或者标注关键区域的几何题。
![]()
所有样本都来自公开数据集和平台,并且经过人工标注。在标注之前,他们还做了人工投票筛选,只有大多数人都认为视觉交互是必需的题目,才会被纳入基准。
测试结果显示,V-Thinker在VTBench的三类交互任务中,平均准确率比基线模型提升了超过12%。在需要按照明确指令执行视觉操作的场景中,性能提升甚至超过22%。
![]()
不过团队也坦诚地指出,模型在感知和视觉交互能力上还有提升空间。虽然GPT-4o、Qwen2.5-VL这些模型在通用视觉推理任务中表现不错,但在涉及空间关系建模和点级定位的交互任务中,性能会下降。这说明视觉交互能力和推理能力之间还存在差距。
有个细节挺有意思,在一些不强制要求视觉交互的任务中,V-Thinker也会主动对图像进行标注,用来辅助中间推理过程。这说明视觉交互已经逐渐成为它推理策略的一部分,而不只是被动响应指令。
![]()
团队还对强化学习阶段的过程进行了可视化。同一张图像,模型能生成多条不同的交互路径,覆盖更广的解题思路。这些路径在中间步骤和操作选择上都有明显差异,说明模型在交互推理阶段具备了更强的策略多样性。
此外,V-Thinker在MathVision等复杂多步推理任务上取得了6%的性能提升。这表明视觉操作驱动的推理范式不仅适用于交互任务,也能向通用视觉推理场景迁移。
![]()
V-Thinker证明了AI可以像人类一样,在推理过程中通过视觉交互来辅助思考。这项工作从数据构建、训练方法到评测体系都做了系统性探索,为多模态推理打开了新的可能性。
虽然目前在感知能力和交互能力上还有改进空间,但这个方向的潜力值得期待。技术的进步从来不是一蹴而就,每一步探索都在为未来铺路。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.