中国学生开发“思考型AI”，边绘图边计算|推理|视觉|思考型ai

中国学生开发“思考型AI”，边绘图边计算

2025-12-27 13:08:32　来源: 李橑在北漂

四川举报

分享至

哈喽，大家好，今天小墨这篇评论，主要来分析北邮学生如何让AI学会"边画边思考"，以及这项技术为何能让国际巨头都保持沉默。

这两天，一个来自北京邮电大学的AI项目在学术圈引发关注。博士生乔润祺和硕士生谭秋纳带领团队发布了V-Thinker，这个模型能做到一件很特别的事情，给它一张几何题的图，它不仅能看懂题目，还会自己在图上画辅助线，然后一边画一边推理出答案。

V-Thinker的突破就在这里。它能在推理过程中自己生成代码，通过代码来操作图像，比如画线、标注、裁剪或者旋转，然后再根据修改后的图像继续推理。整个过程就像一个学生在草稿纸上一步步演算，而不是直接蹦出答案。

有意思的是，GPT-4o生成的代码运行后，能渲染出结构和语义都很一致的高质量图像，并且跟推理过程能对上。基于这个发现，他们做了个大胆的尝试，让系统不断迭代生成新题目，召回新知识点，再生成更多题目。

最后从最初的几百个知识点，扩展到了24000多个，覆盖了数学、物理、音乐等25个领域。

这个过程里，他们还设计了一个检查器，专门验证问题、答案、原始图像和操作后图像之间的一致性。对于通过验证的样本，再用一个拓展器增加难度，引入更多视觉交互步骤。通过这样持续迭代，最终构建出了包含40万条数据的V-Interaction-400K数据集。

有了数据，接下来就是训练。团队设计了一套渐进式的训练方法，分两个阶段进行。

第一阶段主要提升模型的视觉感知能力。他们构建了一个包含4万条数据的V-Perception-40K数据集，专门训练模型对图像中视觉元素的细粒度定位能力，比如识别图中有几个三角形，它们之间的位置关系是什么。

第二阶段才是核心，让模型学会交互推理。这个阶段用了监督微调加强化学习的组合策略。先用V-Interaction-400K数据集做初步对齐，让模型知道什么情况下需要进行视觉操作。然后通过强化学习，引导模型在推理过程中生成并执行视觉操作代码。

为了测试V-Thinker的实际效果，团队专门构建了一个评测基准VTBench。这个基准跟现有的测试不太一样，它只选那些必须通过视觉交互才能完成的题目，比如需要添加辅助线或者标注关键区域的几何题。

所有样本都来自公开数据集和平台，并且经过人工标注。在标注之前，他们还做了人工投票筛选，只有大多数人都认为视觉交互是必需的题目，才会被纳入基准。

测试结果显示，V-Thinker在VTBench的三类交互任务中，平均准确率比基线模型提升了超过12%。在需要按照明确指令执行视觉操作的场景中，性能提升甚至超过22%。

不过团队也坦诚地指出，模型在感知和视觉交互能力上还有提升空间。虽然GPT-4o、Qwen2.5-VL这些模型在通用视觉推理任务中表现不错，但在涉及空间关系建模和点级定位的交互任务中，性能会下降。这说明视觉交互能力和推理能力之间还存在差距。

有个细节挺有意思，在一些不强制要求视觉交互的任务中，V-Thinker也会主动对图像进行标注，用来辅助中间推理过程。这说明视觉交互已经逐渐成为它推理策略的一部分，而不只是被动响应指令。

团队还对强化学习阶段的过程进行了可视化。同一张图像，模型能生成多条不同的交互路径，覆盖更广的解题思路。这些路径在中间步骤和操作选择上都有明显差异，说明模型在交互推理阶段具备了更强的策略多样性。

此外，V-Thinker在MathVision等复杂多步推理任务上取得了6%的性能提升。这表明视觉操作驱动的推理范式不仅适用于交互任务，也能向通用视觉推理场景迁移。

V-Thinker证明了AI可以像人类一样，在推理过程中通过视觉交互来辅助思考。这项工作从数据构建、训练方法到评测体系都做了系统性探索，为多模态推理打开了新的可能性。

虽然目前在感知能力和交互能力上还有改进空间，但这个方向的潜力值得期待。技术的进步从来不是一蹴而就，每一步探索都在为未来铺路。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

中国学生开发“思考型AI”，边绘图边计算

精华！黄仁勋CES记者会：揭秘新款大杀器

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

卖水果、搬砖的小伙，与哈兰德争英超金靴

《马背摇篮》首播，革命的乐观主义故事

农大教授科普：无需过度担忧蔬菜农残

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

最新！海口二手房，涨价房源突然猛增30%

雀巢召回多国婴儿配方奶粉，涉及中国市场71个批次

嗨到凌晨3点！仙游一网红夜市即将启用！0成本即可当老板...

24位国画大师联手，震撼美学体验等你来！

美军扣押俄潜艇护航的油轮俄罗斯外交部回应

美军扣押俄潜艇护航的油轮俄罗斯外交部回应