网易首页 > 网易号 > 正文 申请入驻

低Token高精度!字节复旦推出自适应推理框架CAR

0
分享至

过度依赖CoT思维链推理会降低模型性能,有新解了!

来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。

推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。

但已有研究发现,长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力(可能产生冗长输出)

为此,研究人员提出了CAR这一基于置信度的自适应推理框架,它首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。

在多模态视觉问答、关键信息提取及文本推理等多个基准测试中,CAR超越了单纯的短回答与长推理方法,在准确性与效率之间取得了最佳平衡。

先导实验设置

这项研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8个具有代表性的公开数据集开展先导实验。

其中,DocVQA、InfoVQA、ChartQA、VisualMRC等4个数据集构成VQA数据集,覆盖文档、图表、信息图等多种视觉文本形态;SROIE、CORD、FUNSD、POIE等4个数据集组成KIE数据集,主要用于票据、表格等结构化信息抽取任务。

以这些数据集为基础,研究对Qwen2.5-0.5B模型进行微调,并在域内(如DocVQA、ChartQA)和域外(如POIE、InfoVQA)数据集上开展性能评估。

评估过程中,要求模型分别生成简短答案和包含长文本推理过程的答案两种输出形式。

实验完成后,系统性统计各数据集的准确率(Accuracy)和回答的困惑度(Perplexity,PPL)——PPL 值越低,表明模型对生成答案的置信度越高。

实验分析结果显示,PPL与准确率之间存在显著的强负相关性

从数据集层面分析,准确率与PPL呈现明显的逆向关系(见图1),即数据集整体准确率越高,其平均PPL值越低;深入数据集内部观察,预测正确样本的平均PPL分数显著低于预测错误样本(见图2)。

基于上述发现,研究创新性提出一种基于PPL的动态推理决策机制

具体而言,当模型输出的PPL值超过设定阈值(研究以测试集PPL分布的75%分位数作为阈值)时,判定为低置信度场景,触发长文本推理模式,以减少误判风险;若PPL值低于阈值,则判定为高置信度场景,直接输出简短答案,提升推理效率。

实验结果表明,采用该动态决策机制后,模型在绝大多数数据集上的性能均实现显著提升。

以下为PPL取75%分位数为阈值下的性能对比:

提出自适应推理框架CAR

基于上述探索性的发现,这项研究工作拟开发一个使用困惑度(PPL)的动态推理决策框架Certainty-based Adaptive Reasoning(CAR),其目标是能够在推理过程中自适应地在短文本推理和长文本推理之间切换。

如图3(a)所示,研究人员首先使用包含简短答案的示例和包含长文本推理解答的示例来训练大语言模型(LLM)或多模态大语言模型(MLLM)。

随后,借助训练集的困惑度(PPL),估计正确和错误简短答案的PPL分布,这些分布用于决策制定。

具体来说,如果估计的分布确定简短答案是正确的,所提出的方法会直接输出该正确答案。否则,它会执行长文本推理。推理过程如图3(b)所示。

模型训练

研究人员将同时包含简短答案和长文本推理解答标注的训练示例进行混合,构建新的数据集。随后采用标准指令微调流程,模型接收由输入文本和输出文本组成的序列,优化目标为交叉熵损失:

模型训练完成后,对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值PPL。

Token序列的困惑度定义为:

高斯分布建模

设二元变量C表示短答案是否正确(C=1为正确,C=0为错误),假设正确与错误答案的PPL分布均服从高斯分布:

概率密度函数分别为:

最后,通过训练数据估计其中参数(假设n1和n0分别为训练集中正确与错误回答的数量):

推理过程

对新输入x,推理步骤如下:

1、短回答推理:模型生成短回答,并计算相应的PPL为PPLnew;

2、概率计算:根据贝叶斯定理,将PPLnew代入概率密度函数,计算后验概率;

其中,先验概率分别为:

3、决策规则:如果短回答的正确概率高于其可能错误的概率,直接输出短回答;否则触发模型的长推理。

实验结果

下表展示了多模态数据集上的性能表现。

首先,CARQwen2VL相比CARShort和CARLong的优越性能,证明了使用困惑度(PPL)作为推理路径选择指标的有效性。

此外,所提出的方法保持了还使用了更少的输出Token数量(平均86.9个token),仅为Qwen2-VLLong所使用Token数量的15%。

下表展示了基于文本的推理任务性能对比。

CAR方法表现出稳健的性能。具体地,使用Qwen2.5-7B模型时平均准确率达81.1%(上图);使用Llama3.1-8B时达74.9%,均优于短答案基线模型以及长文本推理模型(下图)。

此外,CAR的性能均优于TALE和COD等先进的Token缩减方法。

小结一下,这项研究提出基于置信度的自适应推理框架(CAR),该框架可根据模型置信度动态切换短回答与长文本推理模式。

通过困惑度(PPL)量化模型对答案的置信度,CAR在高置信度时直接输出短回答以提升效率,低置信度时触发长文本推理以确保准确性。

按照研究团队的说法,CAR打破了“长文本推理必然性能更好”的固有认知,为大模型推理提供了更灵活高效的解决方案,推动大模型推理向智能化、轻量化方向发展。

论文地址:https://arxiv.org/abs/2505.15154

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
壹点帮办|准新娘诊所输液后休克昏迷!泰安这家诊所“人间蒸发”

壹点帮办|准新娘诊所输液后休克昏迷!泰安这家诊所“人间蒸发”

齐鲁壹点
2026-04-03 19:28:42
美国怕的不是伊朗,如果不是中国虎视眈眈,美伊战争或许早已结束

美国怕的不是伊朗,如果不是中国虎视眈眈,美伊战争或许早已结束

安安说
2026-03-29 13:42:09
江苏一学院更名为大学

江苏一学院更名为大学

最江阴
2026-04-04 10:53:58
和讯投顾吕妮蔓:主力已完成调仓换股,新一轮攻势即将展开!

和讯投顾吕妮蔓:主力已完成调仓换股,新一轮攻势即将展开!

和讯网
2026-04-04 18:34:12
河北新郎娶高颜值新娘全程黑脸,亲友直言像接盘

河北新郎娶高颜值新娘全程黑脸,亲友直言像接盘

生活魔术专家
2026-04-04 03:25:48
暴雨、大暴雨来了!

暴雨、大暴雨来了!

I河源
2026-04-04 22:48:15
皇马主帅轮换搞砸了,输给保级队,姆巴佩灾难表现:6次射门0进球

皇马主帅轮换搞砸了,输给保级队,姆巴佩灾难表现:6次射门0进球

足球狗说
2026-04-05 00:27:08
潘江带队终于打出点东西了!末节拒用人一根筋,新三巨碾压新疆!

潘江带队终于打出点东西了!末节拒用人一根筋,新三巨碾压新疆!

篮球资讯达人
2026-04-05 00:40:29
美媒:特朗普对两部长不满 正考虑进一步调整内阁

美媒:特朗普对两部长不满 正考虑进一步调整内阁

环球网资讯
2026-04-03 20:42:09
双核驱动!火箭双控卫合砍33+10+11+1失误!范乔丹不打,仍送助攻

双核驱动!火箭双控卫合砍33+10+11+1失误!范乔丹不打,仍送助攻

熊哥爱篮球
2026-04-04 12:43:31
特朗普彻底翻脸?赴美密访惨遭打脸!普京清醒表示:不给活路

特朗普彻底翻脸?赴美密访惨遭打脸!普京清醒表示:不给活路

人生录
2026-04-03 23:31:47
伊朗驻华大使馆发布战果:以色列上空已被伊朗导弹主宰,“铁穹”神话,就此终结

伊朗驻华大使馆发布战果:以色列上空已被伊朗导弹主宰,“铁穹”神话,就此终结

鲁中晨报
2026-04-04 17:05:23
中美印全球卷烟销量差距断崖:美1780亿支,印940亿支,中国多少

中美印全球卷烟销量差距断崖:美1780亿支,印940亿支,中国多少

米果说识
2026-04-02 19:51:58
美汽车网站首次测试中国车:压力给到我们了

美汽车网站首次测试中国车:压力给到我们了

观察者网
2026-04-04 12:05:05
王楚钦血性一幕:1-3落后时霸气撕下肌贴 为国乒拼到最后一颗子弹

王楚钦血性一幕:1-3落后时霸气撕下肌贴 为国乒拼到最后一颗子弹

风过乡
2026-04-04 21:42:15
小罗纪录片梅西出镜!一番话让人破防,他对我比我对他还重要

小罗纪录片梅西出镜!一番话让人破防,他对我比我对他还重要

耀阳体育
2026-04-03 21:22:13
一级演员张如君去世

一级演员张如君去世

极目新闻
2026-04-04 19:51:18
签完反华声明,马克龙离开日本,临走前一锤定音,中国产品不能过半

签完反华声明,马克龙离开日本,临走前一锤定音,中国产品不能过半

南宗历史
2026-04-04 09:05:03
猪肉大局己定:没有意外的话,2026年中国猪肉市场将迎来4大变化

猪肉大局己定:没有意外的话,2026年中国猪肉市场将迎来4大变化

坠入二次元的海洋
2026-04-02 15:01:45
三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

纪实文录
2025-05-10 17:45:35
2026-04-05 04:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12416文章数 176440关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

游戏
家居
亲子
时尚
教育

好玩还上头!创新与传统并存的战棋黑马《永铃回响》值不值得玩?

家居要闻

温馨多元 爱的具象化

亲子要闻

我这个00后舅舅怎么这么会带娃

别再穿大一码了!遮肉根本不是靠宽松

教育要闻

这些英国大学开始崩盘!

无障碍浏览 进入关怀版