【CNMO科技消息】近日,UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的发布的最新研究显示,在BabyVision视觉推理benchmark上,Gemini 3 Pro Preview仅小胜三岁儿童,跟六岁儿童仍有20%的差距。
![]()
据CNMO了解,Gemini 3 Pro Preview在benchmark上得分仅为49.7%,虽然略微领先于其他模型(如GPT-5.2、Claude 4.5 Opus、Grok-4),但其在“找不同”、路径追踪和空间想象等任务中频频失误。例如,在找拼图任务中,它错误地将两个几乎相同的形状选为匹配,完全忽略了细微的几何差异。
![]()
研究指出,这种现象并非偶然。当前的大多数多模态大模型在处理视觉信息时,都会先将图像转换为语言描述,再利用强大的语言模型进行推理。然而,这种“语言化”的处理方式导致了致命的视觉信息丢失:语言无法精确描述像素级的精细差异。当面临细微的边界曲线或空间关系时,模型往往无法像人类幼儿那样直接在视觉空间中进行几何匹配,而是受限于语言表达的模糊性。
面对这一挑战,研究团队提出了两种潜在的突破方向:一种是通过强化学习(RLVR)微调模型,在语言推理中引入更显式的中间视觉步骤;另一种是探索基于生成式建模的视觉推理方法,试图让模型直接在像素空间内绘制轨迹或补全图案,以绕过语言描述的瓶颈。尽管目前效果尚不理想,但这一方向被视为未来AI具身智能的关键突破口。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.