低Token高精度！字节复旦推出自适应推理框架CAR|模态|token|深度思考模型

低Token高精度！字节复旦推出自适应推理框架CAR

2025-05-27 11:56:40　来源: 量子位

北京举报

分享至

过度依赖CoT思维链推理会降低模型性能，有新解了！

来自字节、复旦大学的研究人员提出自适应推理框架CAR，能根据模型困惑度动态选择短回答或详细的长文本推理，最终实现了准确性与效率的最佳平衡。

推理能力的进步极大提升了大语言模型（LLMs）和多模态大语言模型（MLLMs）在各类任务中的表现。

但已有研究发现，长CoT推理并非总能提升准确率，甚至会削弱模型处理简单任务的能力（可能产生冗长输出）。

为此，研究人员提出了CAR这一基于置信度的自适应推理框架，它首先生成简短回答并评估困惑度，仅在模型置信度低（困惑度高）时触发推理。

在多模态视觉问答、关键信息提取及文本推理等多个基准测试中，CAR超越了单纯的短回答与长推理方法，在准确性与效率之间取得了最佳平衡。

先导实验设置

这项研究聚焦文本密集型视觉问答（VQA）和关键信息抽取（KIE）领域，选取8个具有代表性的公开数据集开展先导实验。

其中，DocVQA、InfoVQA、ChartQA、VisualMRC等4个数据集构成VQA数据集，覆盖文档、图表、信息图等多种视觉文本形态；SROIE、CORD、FUNSD、POIE等4个数据集组成KIE数据集，主要用于票据、表格等结构化信息抽取任务。

以这些数据集为基础，研究对Qwen2.5-0.5B模型进行微调，并在域内（如DocVQA、ChartQA）和域外（如POIE、InfoVQA）数据集上开展性能评估。

评估过程中，要求模型分别生成简短答案和包含长文本推理过程的答案两种输出形式。

实验完成后，系统性统计各数据集的准确率（Accuracy）和回答的困惑度（Perplexity，PPL）——PPL 值越低，表明模型对生成答案的置信度越高。

实验分析结果显示，PPL与准确率之间存在显著的强负相关性。

从数据集层面分析，准确率与PPL呈现明显的逆向关系（见图1），即数据集整体准确率越高，其平均PPL值越低；深入数据集内部观察，预测正确样本的平均PPL分数显著低于预测错误样本（见图2）。

基于上述发现，研究创新性提出一种基于PPL的动态推理决策机制。

具体而言，当模型输出的PPL值超过设定阈值（研究以测试集PPL分布的75%分位数作为阈值）时，判定为低置信度场景，触发长文本推理模式，以减少误判风险；若PPL值低于阈值，则判定为高置信度场景，直接输出简短答案，提升推理效率。

实验结果表明，采用该动态决策机制后，模型在绝大多数数据集上的性能均实现显著提升。

以下为PPL取75%分位数为阈值下的性能对比：

提出自适应推理框架CAR

基于上述探索性的发现，这项研究工作拟开发一个使用困惑度（PPL）的动态推理决策框架Certainty-based Adaptive Reasoning（CAR），其目标是能够在推理过程中自适应地在短文本推理和长文本推理之间切换。

如图3(a)所示，研究人员首先使用包含简短答案的示例和包含长文本推理解答的示例来训练大语言模型（LLM）或多模态大语言模型（MLLM）。

随后，借助训练集的困惑度（PPL），估计正确和错误简短答案的PPL分布，这些分布用于决策制定。

具体来说，如果估计的分布确定简短答案是正确的，所提出的方法会直接输出该正确答案。否则，它会执行长文本推理。推理过程如图3(b)所示。

模型训练

研究人员将同时包含简短答案和长文本推理解答标注的训练示例进行混合，构建新的数据集。随后采用标准指令微调流程，模型接收由输入文本和输出文本组成的序列，优化目标为交叉熵损失：

模型训练完成后，对训练集中所有样本进行短答案推理，生成预测答案并计算其困惑度值PPL。

Token序列的困惑度定义为：

高斯分布建模

设二元变量C表示短答案是否正确（C=1为正确，C=0为错误），假设正确与错误答案的PPL分布均服从高斯分布：

概率密度函数分别为：

最后，通过训练数据估计其中参数（假设n1和n0分别为训练集中正确与错误回答的数量）：

推理过程

对新输入x，推理步骤如下：

1、短回答推理：模型生成短回答，并计算相应的PPL为PPLnew；

2、概率计算：根据贝叶斯定理，将PPLnew代入概率密度函数，计算后验概率；

其中，先验概率分别为：

3、决策规则：如果短回答的正确概率高于其可能错误的概率，直接输出短回答；否则触发模型的长推理。

实验结果

下表展示了多模态数据集上的性能表现。

首先，CARQwen2VL相比CARShort和CARLong的优越性能，证明了使用困惑度（PPL）作为推理路径选择指标的有效性。

此外，所提出的方法保持了还使用了更少的输出Token数量（平均86.9个token），仅为Qwen2-VLLong所使用Token数量的15%。

下表展示了基于文本的推理任务性能对比。

CAR方法表现出稳健的性能。具体地，使用Qwen2.5-7B模型时平均准确率达81.1%（上图）；使用Llama3.1-8B时达74.9%，均优于短答案基线模型以及长文本推理模型（下图）。

此外，CAR的性能均优于TALE和COD等先进的Token缩减方法。

小结一下，这项研究提出基于置信度的自适应推理框架（CAR），该框架可根据模型置信度动态切换短回答与长文本推理模式。

通过困惑度（PPL）量化模型对答案的置信度，CAR在高置信度时直接输出短回答以提升效率，低置信度时触发长文本推理以确保准确性。

按照研究团队的说法，CAR打破了“长文本推理必然性能更好”的固有认知，为大模型推理提供了更灵活高效的解决方案，推动大模型推理向智能化、轻量化方向发展。

论文地址：https://arxiv.org/abs/2505.15154

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

低Token高精度！字节复旦推出自适应推理框架CAR

内存一年涨四倍！国产手机厂商集体涨价

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

刹不住的泰格·伍兹，口袋里的两粒药丸

Q女士反击，否认逼宋宁峰张婉婷离婚

中微董事长，给半导体泼点冷水

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

好玩还上头！创新与传统并存的战棋黑马《永铃回响》值不值得玩？

温馨多元 爱的具象化

我这个00后舅舅怎么这么会带娃

别再穿大一码了！遮肉根本不是靠宽松

这些英国大学开始崩盘！

伊朗发动第七轮导弹袭击耶路撒冷拦截导弹升空

伊朗发动第七轮导弹袭击耶路撒冷拦截导弹升空

温馨多元爱的具象化