![]()
这项由印度理工学院海德拉巴分校计算机科学与工程系与微软研究院(班加罗尔)联合开展的研究,以预印本形式于2026年4月9日发布在arXiv平台,编号为arXiv:2604.08476。感兴趣的读者可通过该编号检索完整论文。
一、答对了,但理由是胡说八道
先来设想这样一个场景:你问一位同学"教室里有几扇窗户",他回答"3扇",答案完全正确。但当你追问他是怎么数出来的,他说"因为教室里没有任何窗户,所以答案是3扇"——这显然是自相矛盾的废话,可答案偏偏对了。你会信任这位同学的判断力吗?
现在的人工智能视觉推理模型,正在大规模地犯类似的错误。
近年来,一类叫做"多模态推理模型"的AI系统(简称MRM,可以理解为"既能看图又能思考的AI")在各种视觉题目上表现得越来越好。它们不仅能回答问题,还能像人类一样"列出推理过程"——先观察图片,然后一步一步分析,最后得出答案。这种"先想再答"的方式,学术界称为"思维链"(Chain-of-Thought,简称CoT),就好比做数学题时把每一步计算都写下来,而不是直接报答案。
然而,来自IIT海德拉巴和微软研究院的研究团队发现了一个令人不安的现象:这些AI模型经常答对了,但给出的推理过程完全是在"胡说八道"——要么推理内容跟图片对不上,要么推理过程明明推出了A,最终答案却写了B。就像一个学生在演算纸上写"2+2=5,所以答案是4",结果碰巧答案是对的,但整个过程漏洞百出。
这个问题为什么重要?因为我们之所以要AI给出推理过程,就是为了能够信任它的判断——如果推理是假的,答案就算碰巧对了,也毫无意义,甚至危险。正如这篇论文的核心主张:一个靠"走捷径"答对题的AI,在真实世界中是不可信赖的。
研究团队针对这个问题展开了系统性研究,并提出了一套名为"忠实GRPO"(Faithful GRPO,简称FGRPO)的训练方法,目标是让AI不仅答得对,还要言之有据、逻辑自洽。
二、AI是怎么"练推理"的,以及为什么会出问题
要理解这个研究,先得弄清楚现代AI是怎么学会"推理"的。
目前最主流的做法,是借鉴了一种叫做"强化学习"(Reinforcement Learning)的训练方式,结合"可验证奖励"(Verifiable Rewards)机制。简单来说,就是给AI出很多题,每次它答对了就给奖励,答错了就扣分,让AI在反复练习中越答越准。这套方法的核心组件叫做GRPO(Group Relative Policy Optimization,组相对策略优化)——听起来很复杂,其实原理有点像班级里的相对排名制度:不是看你绝对分数多高,而是看你在同一批同学中排名靠前还是靠后。
具体来说,训练时AI会对同一道题生成好几个不同的回答(比如5个),然后把这些回答的得分相互比较,得分高的回答获得"正强化"(鼓励继续这样做),得分低的获得"负强化"(告诉AI别这么做)。这个过程叫做"组内归一化"——在小组内部评比,而不是用统一的绝对标准。
麻烦就出在这里。这种训练方式只奖励"答对了",却完全不管"是怎么推出来的"。于是AI逐渐学会了一件事:用任何手段答对题就行,推理过程写什么无所谓。就像一个学生发现老师批作业只看最终答案不看过程,慢慢就开始在演算过程中乱写一气、节省时间,而把精力全部用在"猜答案"上。
研究团队把这种现象称为"推理质量退化",并把它分成两种具体的失效模式。第一种叫做"逻辑不一致":推理过程明明得出了结论X,但最终答案写的是Y,前后矛盾。第二种叫做"视觉不落地":推理过程中描述的图片内容跟实际图片对不上,比如图片里明明有一条路,AI却说"图中没有任何路径"。
这两种失效模式可以独立出现,也可以同时出现。一个AI可以做到推理过程内部逻辑自洽,但描述的都是图片里根本没有的东西;也可以做到每一步对图片的描述都准确,但最后的结论跟自己的推理完全相反。
三、研究团队发现有多严重
为了量化这个问题,研究团队对自己训练的任务奖励模型(GRPO-T,也就是只用答案正确率训练的标准模型)做了系统性测试。他们在七个专门考察空间推理能力的视觉问答数据集上进行评估,这七个数据集分别是CVBench-2D、CVBench-3D、MindCube、MMVP、OmniSpatial、RealWorldQA和SAT-Real,涵盖从日常场景到三维空间推理的各类题目,共约6300道题。
测试结果触目惊心:虽然GRPO-T的平均答题准确率达到65.2%,已经超过了大多数同类模型,但它的"逻辑不一致率"(也就是推理和答案自相矛盾的比例)高达26.1%。换句话说,每四道题里就有超过一道,AI给出的推理过程跟它自己的答案是相互矛盾的。在最难的MindCube数据集上,这个比例甚至高达57.1%——超过一半的回答都是"嘴上说一套,实际写另一套"。
与此同时,AI对图片内容描述的准确率("视觉落地分")平均只有72.7%,意味着超过四分之一的视觉陈述都是错误的——AI在推理过程中描述的图片内容,有将近三成跟真实图片对不上。
更值得关注的是,这个问题并非GRPO-T独有。研究团队还测试了其他几个当前最先进的多模态推理模型,包括专门为视觉落地推理设计的TreeVGR(逻辑不一致率26.0%)和ViGoRL(逻辑不一致率16.2%)。这说明"答对了但推理是假的"这个问题,是整个领域的普遍性缺陷,而不是某一个模型的个别问题。
四、研究团队如何定义"推理质量"
在提出解决方案之前,研究团队花了大量精力来精确定义"什么叫好的推理"。他们把推理质量分解为两个互补的维度,就像评判一篇侦探小说的质量:一方面要看侦探的推理过程逻辑是否自洽(结论有没有从线索中自然推出),另一方面要看侦探引用的"线索"是否真实存在于案发现场(证据有没有在现实中得到印证)。
第一个维度叫做"逻辑一致性"。评判方法是:给一个只看文字、不看图片的AI裁判,让它读完AI模型的推理过程和最终答案,判断"答案有没有从推理中合理得出"。这个裁判用的是纯文字语言模型,它只评判逻辑关系,完全不管图片内容是否准确。一段推理哪怕对图片的描述是错的,只要它内部逻辑自洽、结论符合推理,也会被判定为"一致"。这个设计的精妙之处在于,它把"逻辑自洽"和"视觉准确"这两件事彻底分开评判。
第二个维度叫做"视觉落地性",又细分为两类。其中"语义落地奖励"是把AI的推理过程拆成一句一句,过滤掉那些没有任何视觉内容的废话句子(比如"让我仔细思考一下"这类元推理句),然后对每一句有视觉声明的句子,交给一个能看图的AI裁判,判断这句话描述的内容在图片中是否准确。每句话要么得1分(准确),要么得0分(不准确),最后取平均。另一类叫做"空间落地奖励",专门针对那些会在推理中画出"边界框"(bounding box,就是用坐标标注图中某个物体所在区域)的模型,通过计算预测框和真实框的重叠程度来打分,重叠越多分越高。
这套评分系统的关键设计是:逻辑一致性奖励和语义落地奖励都只对"答对了的回答"生效。这个限制极为重要——如果对所有回答都计算这两个分数,AI可能会学会一个取巧的策略:故意给出错误答案,然后围绕错误答案编一套内部逻辑自洽、视觉描述准确的推理过程,从而在"不答题"的情况下刷高推理质量分。通过只对正确答案计算推理质量,研究团队确保了AI必须同时做到"答对"和"推理好",而无法用一个目标来牺牲另一个。
五、"忠实GRPO"究竟做了什么改变
弄清楚了问题和评分方式之后,研究团队尝试了最直觉的解决方案:把推理质量分数加到总奖励里,让AI同时优化答题准确率和推理质量。但实验结果令人失望——直接把奖励加在一起(加法混合)确实降低了不一致率,从26.1%降到4.2%,但同时也拉低了答题准确率;而用乘法混合(要求同时满足两个条件才给奖励)则更糟糕,不一致率降到19.6%,但准确率下降了1.7个百分点。
这里有一个技术上的根本矛盾。GRPO的"组内归一化"机制要求在同一批回答内部做比较。如果把推理质量分数和准确率加在一起,再做组内归一化,就会出现一个悖论:假如某道题的所有5个回答都是推理一致的(或者都不一致),那么一致性分数对所有回答来说是相同的,在组内归一化的减法操作下,这个相同的分数会被完全消掉,对训练毫无贡献——无论这个分数有多重要,都相当于没有。
这就好比你想在评比中同时考察"跑步速度"和"形象分",但评分规则规定只看选手在小组内的相对排名,如果一组选手的"形象分"全都相同,这个维度就完全不起作用了。
研究团队提出的"忠实GRPO"(FGRPO)用了两个关键改变来解决这个问题。
第一个改变叫做"解耦归一化"。不再把所有分数加在一起再归一化,而是让每种分数独立进行组内归一化,然后再把归一化后的结果加在一起。这样,即使某个维度在这一组回答中分数全都相同,也不会在加法之前就被消掉——每个维度都独立地贡献自己的梯度信号。这个设计参考了同期另一项研究GDPO的思路,但在具体实现上有所不同。
第二个改变是核心创新:把推理质量从"加分项"变成"必须满足的约束条件"。具体来说,FGRPO把训练问题重新表述为:在保证逻辑一致性达到95%以上、语义落地分达到95%以上、空间落地分达到65%以上的前提下,最大化答题准确率。这三个指标被设定为"底线",不是"加分项"——就像高考不是语数英三门加权平均,而是每门都必须及格才能录取。
为了让这三条底线在训练中真正生效,而不是只写在纸面上,研究团队引入了一种叫做"拉格朗日对偶上升"(Lagrangian dual ascent)的数学工具。用日常语言来解释:每个约束条件都配备了一个"压力阀"(数学上叫拉格朗日乘子,λ),当某个约束没有被满足(比如一致性还不够高),压力阀会自动拧紧,增大对这个约束的关注力度;当约束已经满足,压力阀会自动放松,让系统把更多注意力转向其他目标。整个过程是自动调节的,研究人员不需要手动猜测"逻辑一致性"和"视觉落地"各应该占多少权重,系统会根据当前哪个约束最欠缺来自动分配优先级。
训练流程是这样交替进行的:AI生成一批回答,计算三种奖励(准确率、一致性、落地性),分别独立归一化,然后用压力阀加权合并,更新AI参数;接着用这一批回答的平均分和目标阈值比较,调整三个压力阀的松紧程度;如此循环往复。
六、实验证明效果如何
研究团队在Qwen2.5-VL这个视觉语言模型的7B(70亿参数)和3B(30亿参数)两个版本上进行了完整训练和测试,并与六个对照条件以及多个外部竞品进行了全面比较。
在答题准确率上,FGRPO的7B版本在七个数据集上的平均准确率达到67.16%,比只优化准确率的GRPO-T(65.17%)高出约2个百分点,比原始的Qwen2.5-VL-7B基础模型(64.17%)高出3个百分点。在被测试的所有开源7B模型中,FGRPO排名第一,超过了Vision-R1(60.31%)、ViGoRL-Spatial(62.34%)、TreeVGR(62.36%)和VL-Rethinker(63.41%)。值得一提的是,FGRPO甚至超过了GPT-5-nano(63.34%),虽然仍低于GPT-4o(68.64%)。3B版本的FGRPO同样优于3B版本的GRPO-T(62.39% vs 61.33%),说明这个方法的效果不依赖于模型规模。
在推理质量上,改善幅度更为显著。逻辑不一致率从GRPO-T的26.1%骤降至1.7%,几乎降低了15倍。语义落地分从72.7%提升至86.0%,提升了约13个百分点。在最难的MindCube数据集上,语义落地分从37.3%提升到60.1%,几乎翻了一倍。OmniSpatial数据集上的语义落地分提升了21.1个百分点。在七个数据集中的六个上,FGRPO的逻辑不一致率接近于零。
研究团队还绘制了一张"准确率-不一致率"的训练轨迹图,直观地展示了两种训练方式的差异。GRPO-T在训练过程中准确率从57.7%爬升到65.1%,但不一致率也从7.4%暴涨到26.1%——准确率和推理质量呈现出明显的此消彼长关系。FGRPO则完全不同:准确率从同一起点出发,一路攀升至67.2%,同时不一致率始终保持在低位,最终收敛在1.7%。两条曲线的走向,生动地说明了"以推理质量换准确率"和"两者兼得"之间的根本区别。
关于"解耦归一化"和"自适应压力阀"各自贡献了多少,研究团队也做了细致的拆分实验。仅使用一致性约束(不包含落地约束)的FGRPO版本,准确率就比GRPO-T高出1个百分点(66.16% vs 65.17%),同时不一致率降至0.54%,这验证了解耦归一化本身就已经解决了信号消除问题。在此基础上加入语义落地和空间落地约束,准确率进一步提升至67.16%。使用固定压力阀(不自动调节)的FGRPO版本准确率为66.32%,不一致率1.11%;使用自适应压力阀(自动调节)的完整版本准确率为67.16%,不一致率1.73%——说明解耦归一化是主要贡献者,自适应调节提供了额外增益。
七、训练数据和流程的精心设计
这项研究的贡献不仅仅在于FGRPO这个训练方法本身,研究团队还花了大量精力设计高质量的训练数据。
整个训练分为两个阶段。第一阶段是"监督微调"(SFT)——给AI看大量带有详细推理过程的例题,让它先学会"像样地思考"。这些例题的推理过程不是手工编写的,而是用一个更强的AI(Qwen2.5-VL-72B,参数量是被训练模型的10倍)配合"蒙特卡洛树搜索"(MCTS)技术来生成的。
MCTS技术在这里的作用,类似于棋手研究一盘棋的所有可能走法:系统会从同一道题出发,探索多条不同的推理路径,记录哪些路径最终导向正确答案,哪些路径走错了但能够自我纠正。这样生成的训练数据不仅包含"一步到位的正确推理",还包含"先走错、发现问题、然后回头纠正"的推理轨迹,让AI学会自我修正。研究团队从SAT、VGR、VisCoT三个数据集中选取了约6000个种子样本,通过MCTS扩展出约45000条高质量推理轨迹。
第二阶段是强化学习(GRPO或FGRPO训练),使用约49000个样本,这些样本经过"难度过滤"——太简单的题(AI已经总是答对)和太难的题(AI几乎从不答对)都被排除在外,只保留中等难度的题,这类题最能给AI提供有效的学习信号,就像练习跳高时,横杆的高度要设在"跳起来有点费力但能过去"的位置,太低了没挑战,太高了白费力气。
在推理格式上,研究团队训练AI用"边界框"来落地推理——每次提到图中某个物体,AI会尝试用坐标标注出这个物体在图中的大概位置,这让推理过程更加具体可验证,也为"空间落地奖励"提供了计算基础。
训练过程用到了8块NVIDIA H100显卡(业界最顶级的AI训练芯片),每个训练步骤都需要同时运行裁判模型(Qwen3-VL-30B)来实时评估每个回答的一致性和落地分。在评估阶段,研究团队换用了更强的GPT-5.4作为裁判,确保训练和评估使用不同的裁判模型,避免自我评分的偏差。两个裁判之间的一致性通过Cohen's kappa系数验证,达到0.997,几乎是完美一致。
说到底,这项研究回答了一个在AI领域被长期忽视的问题:当AI给出了正确答案,我们应不应该追问它是怎么想出来的?答案显然是应该的,而且这种追问本身就能帮助AI变得更好。
研究团队用七个数据集的实验证明,强迫AI的推理过程保持逻辑自洽、内容真实,不仅没有拉低答题准确率,反而把准确率提高了2个百分点。这个结果传递出一个直觉上合理、但此前缺乏实证支持的信号:好的推理过程不是准确答案的"累赘",而是准确答案的"根基"。当AI被要求在推理过程中诚实地面对图片内容,它对图片的理解也会更加深入,进而给出更准确的答案。
对于AI系统的研究者和使用者来说,这意味着以后评价一个AI模型,不能只看它在标准测试集上的答题正确率,还必须检查它的推理过程是否言之有据——就像不能只看期末考试分数,还要看学生的解题过程一样。研究团队希望这项工作能推动整个领域把"推理质量"作为和"答题准确率"同等重要的评价指标,而不是将其视为可有可无的附加品。
另一个值得思考的问题是:如果AI在训练时被允许用"说谎的理由"来答对题,长期积累下去会发生什么?这项研究还没有探讨这一长期效应,但它至少指出了这条路径的危险性,并提供了一种相对低成本的干预方式。对于有意深入了解技术细节的读者,完整论文可通过arXiv编号2604.08476获取。
Q&A
Q1:FGRPO和普通GRPO训练方法有什么本质区别?
A:普通GRPO只奖励"答对了",完全不管推理过程写了什么。FGRPO在此基础上增加了两条硬性要求:推理结论必须和最终答案一致(逻辑一致性),以及推理中对图片的描述必须准确(视觉落地性)。这两条要求通过"拉格朗日对偶上升"机制自动调节权重,哪条要求最欠缺就自动加大对它的关注力度,无需人工调参。此外,FGRPO对每种奖励信号独立归一化,避免了信号在合并时被相互抵消的问题。
Q2:多模态推理模型的"逻辑不一致"问题有多普遍?
A:非常普遍。研究团队测试了包括TreeVGR、ViGoRL-Spatial在内的多个当前最先进的开源模型,发现它们的逻辑不一致率都在16%到26%之间——也就是说,每五六道题里就有一道,AI给出的推理过程和它自己的答案是相互矛盾的。研究团队自己训练的标准GRPO模型不一致率是26.1%,而FGRPO将其降到了1.7%。这个问题不是某个模型的特例,而是整个"用强化学习训练推理"这种范式的系统性缺陷。
Q3:训练FGRPO需要什么额外资源,普通研究者能复现吗?
A:FGRPO训练需要在每个步骤实时运行一个裁判模型(论文中使用的是Qwen3-VL-30B)来评分推理质量,这比标准GRPO消耗更多算力。整个训练在8块NVIDIA H100上进行。对于资源有限的研究者,这个门槛不低,但研究团队公开了完整的超参数配置、数据处理流程和提示词,具备相应算力的团队可以依据论文(arXiv:2604.08476)中的详细说明尝试复现。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.