网易首页 > 网易号 > 正文 申请入驻

代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026

0
分享至


代码驱动的视觉感知,正在为大模型补上「看」这门必修课。

作者丨陈淑瑜

编辑丨岑 峰

如果把过去几年多模态大模型在STEM领域的进展放在一起审视,会发现一个相当微妙的错位。研究者们几乎把全部精力都押在了推理能力的提升上,强化学习、思维链、自我纠错……各种花式推理策略层出不穷,模型在文本推理基准上的得分也确实在节节攀升。

但一个尴尬的事实始终摆在那里:当模型被丢进一道需要看图才能解答的几何题时,它依然经常给出让人啼笑皆非的答案。

这中间到底出了什么问题?

过去,业界习惯性地把锅甩给“推理能力不足”,认为只要把CoO做得更长、把RL奖励设计得更精巧,模型自然能在视觉推理任务上迎头赶上。于是大量的工作涌向推理链路优化,视觉感知端却几乎被当成了一个“已经够用”的黑箱。

但上海交通大学人工智能研究院与Qwen团队联合提出的CodePercept(代码驱动的视觉感知),则给出了一个截然不同的诊断结果:

当前阶段,限制大模型STEM视觉推理的真正瓶颈,并非是推理能力,而是视觉感知。


论文地址:https://arxiv.org/pdf/2603.10757

开源代码:

https://github.com/TongkunGuan/Qwen-CodePercept

这不是一个随意的猜想。团队的诊断方式非常系统,他们将STEM视觉推理任务解耦为“感知”和“推理”两个阶段,分别扩展其中一个能力、同时保持另一个能力不变。结果证明,扩展感知能力带来的性能提升,始终优于扩展推理能力。


图1:扩展感知优于扩展推理

换句话说,模型的“眼神”远比我们想象的更差,而解决“眼神差”的问题,带来的边际收益远超继续优化“脑子”。

01


自然语言的天花板

一旦确认“感知才是短板”,接下来的问题就是:如何提升感知?

一个直觉方案是:用强大的闭源模型去生成图像描述(Caption),然后做知识蒸馏。既然GPT-5和Claude看得懂,让它们当老师不就行了?

但研究团队在实际操作中发现了一个更深层的问题:自然语言是模糊的,表达能力存在上限,很难非常精准地描述一个场景。

想象一下,你要用文字去精确描述一个三维四面体的空间结构,包括每条棱的长度、每个面的倾斜角、辅助线的空间走向。即便你用上了“位于左下角45度方向、长度为3.2cm、与水平面夹角30度”这样精确的语言,描述依然是模糊的。因为自然语言本质上就是为“大概意思”而生的媒介,它天然缺乏数学层面的精确性。

更致命的是,这种描述的模糊性还会在被AI生成描述的过程中进一步放大。

团队将这个问题概括为自然语言的“描述性失语”。

但如果说自然语言是“模糊”的,那什么语言才是“精确”的?

答案是代码。

一段Python程序画出的几何图形,每个坐标都是确定的、每个参数都是可验证的、每个空间关系都是可执行的。

代码不承认“差不多”,要么对,要么运行报错。这种二值化的精确性,恰恰是STEM视觉感知最需要的。

02


让代码成为视觉感知的“第二语言”

基于这一洞察,研究团队提出了一个全新的范式——CodePercept(代码驱动的视觉感知),其核心思想可以用一句话概括:让代码成为视觉感知的“第二语言”。

团队从两个维度系统性地用代码重新定义了视觉感知任务:

第一个维度:代码驱动的描述生成(Code-Grounded Caption Generation)。

传统Caption生成的做法是“看图说话”,模型看了图,生成一句自然语言描述。但CodePercept的做法变成了“看图→写代码→用代码验证描述”的三段式。

可执行代码被当作图像描述的“绝对真理”,代码中写明的坐标、数量、几何关系,无一不是对原始图像的精确转录。模型通过生成可执行的代码来“验证”自己对图像的理解是否正确。

第二个维度:STEM图像到代码转录(STEM Image-to-Code Translation)

这比前一个步子迈得更大。

团队直接引导模型学习从图像到代码的端到端映射,给大模型一张几何图,让它直接生成能够重现这张图的Python代码。这不是让模型去“描述”图,而是让模型去“复现”图。

这个任务的精妙之处在于它的可验证性:代码是唯一一种可以“执行后验证”的表达形式。你描述一张图,没人知道你描述得对不对;但你写一段代码,运行之后渲染出来的图一比对,对就是对,错就是错。没有中间地带。

由于模型必须真正理解“观测特征”与“代码片段”之间的内在映射法则,才能生成正确的重建代码,所以这种二值化的确定性反馈,反过来又迫使模型得以建立更精确的视觉理解。


图 2. CodePercept 的总体流程图

Part 01:构建高质量图像-代码对 Part 02:代码驱动的描述生成、STEM图像到代码转录Part 03:形成 ICC-1M数据库。

03


百万级数据的炼成

新范式的落地,需要与之匹配的训练数据。但问题是,代码驱动的视觉感知数据在现实中几乎不存在,无法仅靠简单地爬取网页就得到“图像-描述-代码”三元组。

为此,研究团队构建了ICC-1M数据集,包含100万个高质量的三元组(Image-Caption-Code),并通过三条创新的合成流水线实现了从零到百万的数据生产:

第一条:图像复现(Image Reproduction):将现有的STEM图像精准转化为可执行的Python代码。

这相当于给每张图配上一段“源代码”,确保代码与图像之间形成严格的对应关系。

第二条:图像多样化(Image Diversity):提取种子图像的核心STEM原理,在不改变数学本质的前提下,通过参数变化在不同的视觉语境中重新实例化,从而生成大量视觉上不同但原理一致的新图像。

第三条:立体几何合成(Solid Geometry Synthesis):基于模板的立体几何代码生成,能够产生大量包含三维空间变换、多面体交叉和辅助线体系的训练样本。

这三条流水线突破了当前MLLMs在立体几何空间关系上的集体短板,也为新范式的出现搭建了强硬的数据底座。


图3:从图像复现到图像多样化到立体几何合成

04


从“看得见”到“看得准”

有了数据,接下来就是训练策略的问题。

CodePercept的独特之处在于,它没有简单地在ICC-1M上做一轮SFT(监督微调)就收工,而是设计了一套两阶段渐进式训练策略,完整覆盖了“学会”到“精通”的全过程。

第一阶段:CodePercept-S1(监督微调)

既然描述和代码本质上都是对同一视觉信息的表达,为什么不把“看图写描述”和“看图写代码”当作两个并行任务来联合优化?

于是,团队在SFT阶段同时优化 Image2Caption 和 Image2Code 两条任务路径,让模型在同一套视觉编码器上建立双通道的感知能力,既学会生成自然语言描述,也学会生成精确的复现代码。

两条任务共享视觉特征提取过程,相互促进、相互补充。

第二阶段:CodePercept-R1(强化学习)

SFT能让模型“学会”写代码,但离“写对”还有距离。

原因在于,代码生成是一个容错率极低的任务。Caption写错一个数,读者大概还能猜出原意。代码写错一个坐标,渲染结果就完全走样了。

为了从“差不多对”跨越到“精准对”,团队引入了GRPO(Group Relative Policy Optimization)强化学习,并设计了三层递增的奖励机制:

  • 格式奖励:语法必须正确,代码至少能跑起来。

  • 内容执行奖励:运行结果必须与目标图像在关键指标上匹配。

  • 图码相似度奖励:重构图像与原始图像之间的感知相似度。

GRPO让模型在不断的自我试错中,逐渐学会“什么样的代码才能精确还原图像”。这种从SFT到RL的递进,本质上就是从“知道怎么干”到“知道怎么干对”的质变。


图4 CodePercept-S1 模型和CodePercept-R1 模型的训练曲线

05


可验证的感知评估

在传统的评测体系里,感知能力往往是通过最终的解题正确率来反推模型感知好不好。但这种评估方式存在一个根本性漏洞:模型可能答对了题,但根本没看懂图(比如仅凭文本提示就猜出了答案),也可能看懂了图但推错了解题步骤。

简而言之,传统评估无法将“感知”和“推理”真正解耦。

为了解决这个问题,团队推出了STEM2Code-Eval,这是一个包含1000张经过人工精校图像的感知评测基准。

它的评测逻辑简单而苛刻:模型必须生成能够100%还原原始图像的Python代码,然后用代码渲染结果与原图进行像素级精确度比对。

基于STEM2Code-Eval,研究团队得以充分验证代码能不能跑、跑出来像不像。


图5 STEM2Code-Eval 基准的流程

在这个基准上,团队以Qwen3-VL为基座模型进行了全面测试,结果相当震撼:

在Captioner-Solver评测模式下,CodePercept-8B-S1仅用80亿参数就超越了Qwen2.5-VL-72B(优势达6.2%),甚至逼近了Claude-Opus 4.1-Thinking和GPT5-Thinking这样的闭源前沿模型。

而在纯粹考查感知的图像还原任务(STEM2Code-Eval)上,经过强化学习优化的CodePercept-8B-R1斩获63.56分,全面超越了Seed 1.6-Vision和Qwen3-VL-Plus等超大参数规模的旗舰模型。


图 6. 在 STEM2Code-Eval 上使用 1k 样本的性能评估

这些数据指向了一个反直觉的结论:参数的堆砌并不能弥补感知能力的缺陷,而代码驱动的感知训练,即使在小参数模型上,也能产生超越量级的感知跃迁。

06


结语

把CodePercept放在CVPR 2026的大背景下看,它的意义远远不止是“又一个新SOTA”。

过去几年,多模态大模型领域有一个默认的“升级路径”,参数越做越大、数据越堆越多、推理链越走越长。这条路径的隐含假设是: 视觉感知已经足够好了,只要能推理,就能解决问题。

但CodePercept用系统的实验证据证明,这个假设可能从一开始就是错的。当模型的“眼神”连一个简单几何图形的坐标都读不准时,再强的推理能力也无从发挥。

更值得关注的是它的方法论转向:用代码作为视觉感知的锚点。这是对“视觉理解”这件事本身的重新定义。

如果视觉理解的最终目标是“能够精确复现所看到的东西”,那么代码比自然语言天然更具优势,因为它自带可验证性。

而Qwen团队的加持,更意味着这一范式有强大的工程底座作为支撑。从Qwen3-VL的视觉编码能力到GRPO在代码生成场景的落地,这套技术栈的成熟度远非一个纯学术原型可比。

也许未来,更多团队会重新审视“感知vs推理”的权重分配,更多研究者会将代码纳入视觉理解的标准工具箱。“给大模型装上基于代码逻辑的火眼金睛”,正在成为一条真实可行的技术路线。

这次去 CVPR 现场,一定不要错过

【认识大牛+赚外快】的机会

需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来

你能获得什么?

认识大牛:你将可以进入CVPR名师博士社群;

钱多活少:提供丰厚奖金,任务量精简;

听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]

【限额5位,先到先得】

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方:咪咕、爱奇艺将转播U17亚洲杯1/4决赛中国vs沙特

官方:咪咕、爱奇艺将转播U17亚洲杯1/4决赛中国vs沙特

懂球帝
2026-05-15 16:46:35
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
6战5胜!泰国公开赛国羽战报:石宇奇决胜局险胜,陈雨菲横扫晋级

6战5胜!泰国公开赛国羽战报:石宇奇决胜局险胜,陈雨菲横扫晋级

郝小小看体育
2026-05-15 18:38:06
林彪致毛主席罕见书信,为何书法有的苍劲有力,有的却像印刷体!

林彪致毛主席罕见书信,为何书法有的苍劲有力,有的却像印刷体!

小豫讲故事
2026-05-14 06:00:17
“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

梳子姐
2026-05-13 19:46:10
豪华阵容用成笑话!许利民没苦硬吃,上海全员杀疯4人上双1-0北京

豪华阵容用成笑话!许利民没苦硬吃,上海全员杀疯4人上双1-0北京

后仰大风车
2026-05-15 21:40:16
纯手工缝制,一只包耗时7天!马斯克儿子一个包,拯救300多位绣娘

纯手工缝制,一只包耗时7天!马斯克儿子一个包,拯救300多位绣娘

火山詩话
2026-05-15 13:16:30
央视CCTV5直播U17亚洲杯1/4决赛吗?今晚中国VS沙特直播在哪看?

央视CCTV5直播U17亚洲杯1/4决赛吗?今晚中国VS沙特直播在哪看?

林子说事
2026-05-15 18:27:54
雷军马斯克同框,6 位大佬赴宴特朗普,为何独缺马云?真相扎心

雷军马斯克同框,6 位大佬赴宴特朗普,为何独缺马云?真相扎心

眼界看视野
2026-05-15 10:38:19
斯特鲁斯:哈登是真正的职业球员 始终日复一日坚持付出

斯特鲁斯:哈登是真正的职业球员 始终日复一日坚持付出

北青网-北京青年报
2026-05-15 20:04:02
雷军开打价格战,小米廉价车型要来了

雷军开打价格战,小米廉价车型要来了

科技头版Pro
2026-05-14 14:36:27
中国最好吃的6个城市,50岁前要去一次

中国最好吃的6个城市,50岁前要去一次

简食记工作号
2026-05-14 00:06:06
暴涨95%!“最大芯片”公司成功上市!英伟达要当心了

暴涨95%!“最大芯片”公司成功上市!英伟达要当心了

EETOP半导体社区
2026-05-15 07:32:03
中美会晤,印度试射洲际导弹,射程覆盖全中国?印专家:为了震慑

中美会晤,印度试射洲际导弹,射程覆盖全中国?印专家:为了震慑

古史青云啊
2026-05-15 19:23:45
金价、银价,都跌了

金价、银价,都跌了

环球网资讯
2026-05-15 10:55:45
卢秀燕急了,郑丽文未赴美,选举已彻底输

卢秀燕急了,郑丽文未赴美,选举已彻底输

徐云流浪中国
2026-05-15 14:25:34
为什么老外都爱天坛?

为什么老外都爱天坛?

民察秋毫
2026-05-15 17:32:27
人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

芹姐说生活
2026-05-14 23:38:55
程序员被裁疯狂报复!一小时删光96个美国政府数据库,只是爽完要坐牢45年...

程序员被裁疯狂报复!一小时删光96个美国政府数据库,只是爽完要坐牢45年...

英国那些事儿
2026-05-14 23:29:24
不断挑拨制造不和!小玥儿不再退让,一举戳破和马筱梅真实交情

不断挑拨制造不和!小玥儿不再退让,一举戳破和马筱梅真实交情

社会日日鲜
2026-05-15 06:49:29
2026-05-15 21:51:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7280文章数 20751关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

时尚
游戏
教育
艺术
军事航空

日常衣服千万不用买太贵,准备几件白色T恤,清爽百搭又实用

PS5独占神作销量太惨了!首周仅4614份 第二周消失

教育要闻

绵阳涪城区发布2026年义务教育招生公告(附划片范围、招生计划)

艺术要闻

敦煌挖出王羲之书法!全卷2000字清晰如新!

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版