网易首页 > 网易号 > 正文 申请入驻

多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

0
分享至

不圆 整理自 凹非寺
量子位 | 公众号 QbitAI

多模态时代应如何评估模型的视觉输出能力?

来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。

过去的评估基准主要集中于评估多模态输入和纯文本推理过程。

而RBench-V系统性评估了当前主流大模型基于“画图”的视觉推理能力:

比如在图中画出辅助线、描点连线、绘制光线路径、标注目标区域,等等。

结果发现,即使是表现最好的模型o3,在RBench-V上的准确率也只有25.8%,远低于人类的82.3%。

这篇论文在reddit machine learning社区引发了讨论,有网友评价:

  • 有趣的现象,视觉推理连小孩都能做到,GPT-4o却做不到。

RBench-V:专为模型视觉推理设计

为了评估模型的跨模态推理能力,RBench-V精心设计并筛选了共计803道题目,涵盖几何与图论(数学)、力学与电磁学(物理)、多目标识别(计数)以及路径规划与图形联想(图形游戏)等多个领域。

与以往仅要求文字回答的多模态评测不同,RBench-V的每一道题都明确要求模型生成或修改图像内容来支持推理过程:

简单地说,就是让大模型像人类专家一样,通过绘制辅助线、观察图形结构等可视化方式进行思考。

这种对“画出图以辅助思考”过程的强调,对模型的视觉理解和图文协同推理能力提出了全新的要求。

评测发现,尽管GPT-4o、Gemini、o3等新一代大模型标榜具备“多模态理解与生成”能力,它们在真正需要图像输出参与推理的问题上仍显得力不从心。

主流大模型的评测结果:远不及人类水平

在RBench-V的评测中,即便是当前业界最强的闭源模型,也远远比不上人类视觉推理能力。

OpenAI发布的旗舰模型o3以25.8%的整体准确率排名首位,Google最新推出的Gemini2.5紧随其后,得分为20.2%。

但这两者的表现与人类专家高达82.3%的平均准确率相比,依然很不够看,说明了现有模型在复杂多模态推理任务中认知能力的严重不足。

在开源模型阵营中,主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的准确率普遍徘徊在8%至10%之间,甚至在某些任务维度上接近“随机作答”的水平——

所谓“把答题卡放地上踩一脚”的水平。

这种悬殊的表现不仅揭示了当前开源生态在多模态输出生成上的技术瓶颈,也反映出大模型从“看懂图”到“画出图以辅助思考”的能力缺失。

当前,大模型对于视觉推理尚处于早期探索阶段。

此外,通过比较不同模型的得分,可以看到:仅靠扩大模型参数规模、引入图像输入通道,或在文字层面堆叠长链条思维(Chain-of-Thought,CoT)并不能有效提升模型的视觉推理能力。

当下模型的重大短板:难以借助图像进行推理

RBench-V的研究揭示了一个关键问题:当前的大模型在处理需要空间直觉和图像操作的几何类问题时,往往选择“走捷径”。

与人类专家倾向于通过直观的可视化方法进行思考不同,大多数模型更习惯于将图形问题抽象为坐标系下的代数表达,并采用文本推理路径完成解题。

这种“用文字绕过图形”的策略虽然在某些场景下能够给出正确答案,但实际上掩盖了其对图像信息的深层理解缺失,也暴露出它们“表面聪明,实则薄弱”的多模态推理能力。

RBench-V的实验结果显示,即便是采用长文本推理路径或具备“看图说话”能力的模型,在面对需要图像输出的复杂问题时,仍然束手无策。

RBench-V团队指出,真正推动大模型迈向“类人智能”的突破口,在于构建能够在推理过程中主动生成图像、构图辅助思考的认知框架。

这其中,多模态思维链(Multi-modal Chain-of-Thought,M-CoT)机制、智能体推理(Agent-based Reasoning)范式等新兴方法,可能成为人工智能通往未来的重要路径。

论文、代码、数据均可在项目主页找到:
https://evalmodels.github.io/rbenchv/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
刘亦菲安妮海瑟薇站边角,金智媛抢C位,宝格丽合照藏了什么规则

刘亦菲安妮海瑟薇站边角,金智媛抢C位,宝格丽合照藏了什么规则

手工制作阿歼
2026-03-26 10:34:27
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

老杉说历史
2026-03-21 17:38:44
A股三大指数均跌逾1%,全市场下跌个股超4500只

A股三大指数均跌逾1%,全市场下跌个股超4500只

界面新闻
2026-03-26 13:24:15
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
既然只是“劝架”,为什么要砸碎人家的镜子?

既然只是“劝架”,为什么要砸碎人家的镜子?

胖胖说他不胖
2026-03-26 14:05:04
周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

乐天闲聊
2026-03-26 10:48:17
伊朗军方公布第26天作战行动细节 打击多处美以目标

伊朗军方公布第26天作战行动细节 打击多处美以目标

极目新闻
2026-03-26 14:33:54
美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

林子说事
2026-03-26 14:08:00
厉害,郑州大学第一附属医院一次派70名人员进驻这家三甲医院

厉害,郑州大学第一附属医院一次派70名人员进驻这家三甲医院

周哥一影视
2026-03-26 13:34:56
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

映射生活的身影
2026-03-24 18:27:44
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

谛听骨语本尊
2026-03-25 16:26:02
对越反击战期间,越南女兵的诡计有多离谱?敢将自己脱得赤条条的

对越反击战期间,越南女兵的诡计有多离谱?敢将自己脱得赤条条的

抽象派大师
2026-03-26 10:58:00
新消息!伊朗突然宣布了!

新消息!伊朗突然宣布了!

达文西看世界
2026-03-23 20:29:16
2026-03-26 17:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
时尚
游戏
军事航空

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

又一经典最终幻想游戏将停运!开服至今已六年有余

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版