网易首页 > 网易号 > 正文 申请入驻

牛津大学、中国科大联合中南大学等提出VCode:将图像转为代码,多模态理解性能飙升12.3点!

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)

最近,来自牛津大学、中国科学技术大学、中南大学和微软研究院的研究者们联手,带来了一项非常有意思的工作:VCode。简单来说,他们不再让AI模型仅仅“看懂”图片,而是要求模型将图片“翻译”成一种名为SVG的代码。这种做法,就像是让AI学习用简笔画和符号来复刻一幅画,不仅要画得像,更要抓住画里的精髓。

这项研究的核心思想是,通过生成精确、可执行的代码,我们可以更深入地检验和提升AI对视觉世界的理解能力。



  • 论文标题 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

  • 作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

  • 机构 : 牛津大学、中国科学技术大学、中南大学、微软研究院

  • 论文地址 : https://arxiv.org/abs/2511.02778

  • 项目主页 : https://csu-jpg.github.io/VCode

  • 代码仓库 : https://github.com/CSU-JPG/VCode

背景:从像素到符号,AI视觉的进阶之路

我们知道,现在的大模型(VLMs)在处理语言任务上已经非常强大,但在理解视觉信息方面,它们大多还停留在像素层面。也就是说,模型看到的是一堆RGB值,虽然能识别出物体,但很难像人类一样,提炼出物体之间的结构、关系和符号意义。

举个例子,人类看到一张画,可能会随手画个草图,勾勒出主要轮廓和布局。这个草图就是一种符号化的表示,它紧凑、易于理解,并且抓住了核心信息。受到这个启发,研究者们想,能不能让AI也学会这种“打草稿”的能力呢?

他们选择了SVG(可缩放矢量图形)作为这种“草图”的载体。SVG是一种用代码来描述图形的格式,具有紧凑、可解释和可执行的优点。于是,一个全新的任务诞生了:将图片(像素表示)转化为SVG代码(符号表示)。


VCode基准:三大领域考验AI的“画功”

为了系统地评估模型将图像转化为SVG代码的能力,研究团队构建了 VCode 基准。这个基准并非从零开始,而是巧妙地“再利用”了现有的三个经典多模态评测集,覆盖了不同难度和维度的挑战:

  • 通用常识 (MM-Vet) : 考察模型对日常场景和空间关系的理解。

  • 专业学科 (MMMU) : 涉及大学水平的专业知识,需要模型具备更深层次的推理能力。

  • 视觉感知 (CV-Bench) : 专注于更纯粹的视觉任务,如物体计数、距离估计和三维关系判断。

通过这三个维度的考验,VCode能够全面地衡量一个模型是否真正“理解”了图像的符号意义。

CodeVQA:一种新颖的评估范式

那么,如何判断模型生成的SVG代码好不好呢?传统的像素级对比显然不合适,因为我们追求的是“神似”而非“形似”。

为此,论文提出了一个名为 CodeVQA 的创新评估方法。它的流程是:

  1. 模型根据原图生成SVG代码。

  2. 将SVG代码渲染成一张新的图片。

  3. 让一个策略模型(Policy Model)看着这张渲染出来的图片,回答关于原图的问题。

如果策略模型能够正确回答,就说明SVG代码成功地保留了原图的关键符号信息。反之,则说明转化过程中信息丢失了。CV君认为,这种评估方式非常巧妙,它绕开了像素比较的难题,直击“符号保真度”这一核心。


VCoder:两大“法宝”提升模型表现

实验发现,即便是当前最强的多模态大模型(如GPT-4o, Claude 3 Opus),在VCode基准上的表现也差强人意。这暴露了它们在视觉中心编码能力上的短板。

为了解决这个问题,研究者们提出了一个名为 VCoder 的代理框架,它从两个方面来增强现有VLM的能力:

  1. 思考与修正 (Thinking with Revision) : 这是一个迭代优化的过程。模型首先生成一个初始版本的SVG,然后自己对比渲染图和原图的差异,并“写下”评论,最后根据这些评论来修改代码。这个过程循环往复,不断提升SVG的保真度。

  2. 行动与视觉工具 (Acting with Visual Tools) : 允许模型调用外部的“视觉工具箱”,比如物体检测器、分割模型、OCR工具等。这些工具可以提供关于物体类别、位置、形状、颜色和文本的结构化信息,作为代码生成的“辅助线”,弥补模型自身在底层感知上的不足。

实验结果:效果显著,但前路漫漫

搭载了VCoder框架后,模型性能得到了巨大提升。


从上表的主实验结果可以看出:

  • 现有模型仍有差距 :即使是像GPT-5这样的顶级模型,在CodeVQA上的得分(46.8)也远低于直接在原图上进行问答的上限(61.7),说明从图像到符号代码的转换仍然是一个巨大的挑战。

  • VCoder提升巨大 :基于Claude-4-Opus,VCoder框架带来了 12.3个点 的惊人总体性能提升,证明了“思考与修正”和“行动与视觉工具”这两大法宝的有效性。

  • 知识和3D是难点 :所有模型在需要专业知识和3D空间推理的子任务上表现普遍不佳,这指明了未来研究需要攻克的方向。

下面的定性结果更直观地展示了VCoder的威力。无论是网络迷因图,还是涉及艺术理论和3D场景的复杂图像,VCoder生成的SVG都更加忠实于原作的结构和语义。


消融实验进一步证明,无论是引入视觉工具(特别是形状和文本信息),还是增加修正的轮次,都能稳定地提升模型性能。


总结

总的来说,VCode不仅为多模态领域提供了一个全新的、富有挑战性的视角,也通过VCoder框架展示了提升模型符号推理能力的有效路径。这项工作让我们离真正能像人一样思考和理解视觉世界的AI又近了一步。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武汉长江大桥、江汉桥单双号通行,该说再见了

武汉长江大桥、江汉桥单双号通行,该说再见了

长江边
2026-03-10 19:39:23
央视名嘴:王曼昱后续或暂停比赛!国乒团队有问题 她和孙颖莎一个水平

央视名嘴:王曼昱后续或暂停比赛!国乒团队有问题 她和孙颖莎一个水平

生活新鲜市
2026-03-11 13:03:02
政策红利爆发!潮玩美妆IPO开闸在即,A股“新消费”时代来了|两会重磅

政策红利爆发!潮玩美妆IPO开闸在即,A股“新消费”时代来了|两会重磅

华夏时报
2026-03-11 20:12:05
美国完全没料到!伊朗大阿亚图拉全球追杀令,3亿教徒裁决特朗普

美国完全没料到!伊朗大阿亚图拉全球追杀令,3亿教徒裁决特朗普

好贤观史记
2026-03-07 16:38:35
36岁张含韵近况曝光!春节一周胖6斤,如今和“五竹叔”恋情稳定

36岁张含韵近况曝光!春节一周胖6斤,如今和“五竹叔”恋情稳定

代军哥哥谈娱乐
2026-03-09 14:17:39
中国没有“特权”:伊朗导弹封锁海峡,网传插五星红旗就能通过?

中国没有“特权”:伊朗导弹封锁海峡,网传插五星红旗就能通过?

军武次位面
2026-03-11 19:24:58
看完预售后,我愿意为奇瑞QQ再谈一次情怀

看完预售后,我愿意为奇瑞QQ再谈一次情怀

汽车有文化
2026-03-11 19:42:38
数万沙俄溃军逃入新疆,兵力竟压过驻军,最后到底落得什么下场?

数万沙俄溃军逃入新疆,兵力竟压过驻军,最后到底落得什么下场?

历史的烟火
2026-03-11 22:24:40
中科院女博导埃及去世后续!死因曝光,学生曝内幕,更多细节流出

中科院女博导埃及去世后续!死因曝光,学生曝内幕,更多细节流出

潮鹿逐梦
2026-03-10 23:22:29
王鹤棣跨年夜敬酒连遭三次冷脸,娱乐圈的社交真相太扎心

王鹤棣跨年夜敬酒连遭三次冷脸,娱乐圈的社交真相太扎心

章眽八卦
2026-03-11 11:50:46
裁判帮倒忙!东道主遇大麻烦,中国女足仁至义尽,朝鲜队偷着乐

裁判帮倒忙!东道主遇大麻烦,中国女足仁至义尽,朝鲜队偷着乐

云景侃记
2026-03-11 17:02:55
985毕业生为啥很少考公务员?真不是看不上铁饭碗,4个真相太现实

985毕业生为啥很少考公务员?真不是看不上铁饭碗,4个真相太现实

老特有话说
2026-03-09 15:24:05
韦德说热火已经没热度?阿德巴约:他都45了,老实在家待着吧

韦德说热火已经没热度?阿德巴约:他都45了,老实在家待着吧

懂球帝
2026-03-11 12:22:45
离大谱!许雅钧私联大S粉丝约见面,记录曝光:为自证身份发出殡照

离大谱!许雅钧私联大S粉丝约见面,记录曝光:为自证身份发出殡照

小娱乐悠悠
2026-03-11 10:34:45
美以伊对峙第十一日,美提有条件谈判,伊誓言“以眼还眼”

美以伊对峙第十一日,美提有条件谈判,伊誓言“以眼还眼”

齐鲁壹点
2026-03-11 07:29:11
不服,阿德巴约砍83分后,奇才主帅称比赛最后并非真正的篮球比赛

不服,阿德巴约砍83分后,奇才主帅称比赛最后并非真正的篮球比赛

好火子
2026-03-12 01:00:26
中国反击来了!约谈马士基集团负责人:敢动巴拿马运河后果自负!

中国反击来了!约谈马士基集团负责人:敢动巴拿马运河后果自负!

吕醿极限手工
2026-03-11 11:55:18
属鸡人:3月11-14号有大事落定,必看,尤其是第三件

属鸡人:3月11-14号有大事落定,必看,尤其是第三件

瓜哥的动物日记
2026-03-11 17:35:51
脑机接口,重大利好!

脑机接口,重大利好!

赛柏蓝
2026-03-11 19:34:40
知三当三、被婆婆扫地出门?孙怡高调官宣喜讯,彻底打脸董子健

知三当三、被婆婆扫地出门?孙怡高调官宣喜讯,彻底打脸董子健

观察者海风
2026-03-10 13:52:31
2026-03-12 07:27:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5409文章数 64617关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

伊朗实施“真实承诺4”第40轮军事行动 视频公布

头条要闻

伊朗实施“真实承诺4”第40轮军事行动 视频公布

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

旅游
教育
亲子
数码
本地

旅游要闻

昆明呈贡第十四届“万溪梨花节”将于3月13日启幕

教育要闻

成都高中,加大扩容

亲子要闻

生娃时胎儿脖子被脐带勒住。结果护士自己吓跑,留孕妇独自凌乱??幸亏...

数码要闻

机械革命耀世15 Pro轻薄游戏本发售:356H + 5060,8999元

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

无障碍浏览 进入关怀版