Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models
奖励质疑:基于强化学习的大语言模型校准置信度表达方法
https://arxiv.org/pdf/2503.02623
![]()
![]()
摘要
大型语言模型(LLMs)的安全和可信使用,要求其对答案表达出准确的置信度。我们提出了一种新颖的强化学习方法,能够直接对LLMs进行微调,使其在回答事实性问题时,同时输出经过校准的置信度估计。我们的方法基于对数评分规则设计奖励函数,明确惩罚过度自信和信心不足的情况,从而促使模型将其置信度估计与实际预测准确率相一致。在我们的奖励机制设计下,最优策略将产生完全校准的置信度表达。与以往将置信度估计与回答生成过程分离的方法不同,我们的方法将置信度校准无缝整合到LLM的生成过程中。实验结果表明,使用我们方法训练的模型在置信度校准方面表现出显著提升,并且无需进一步微调即可泛化到未见过的任务上,表明模型发展出了通用的置信度意识。我们已在补充材料中提供了训练与评估代码,并将在论文被接收后公开发布。
1 引言
在人类智能和人际交往中,理解自身的不确定性并向他人传达疑虑的能力,对于有效决策、协作和学习至关重要[7, 37]。类似地,为了让大型语言模型(LLMs)能够在现实世界的应用中安全使用,尤其是在人类与AI系统协同工作的场景下,LLMs不仅需要生成准确的信息,还必须能够传达其对这些信息的置信程度。尽管LLMs在自然语言理解、问答和文本摘要等方面已展现出令人印象深刻的能力[32, 6, 1],但它们仍存在显著局限性,例如倾向于生成不准确的信息,这种现象常被称为“幻觉”[11]。这引发了人们对其可靠性的担忧,特别是在可信度至关重要的实际应用中。尤其在医疗诊断等高风险环境中,LLMs正逐渐成为专业人员的辅助工具[23, 25, 33, 4],若模型输出过度自信但包含事实错误或幻觉,可能对患者健康造成严重后果。同样,在客户服务或法律咨询[26, 28]等场景中,当LLMs不确定时,需要表达出不确定性,并将复杂问题转交给人类处理,以避免错误决策。可靠的置信度估计与表达能力,将使这些系统能够标记出不确定的输出以供人工审核,确保关键决策不会基于LLM的不确定输出做出。为了在使用LLM生成结果时进行风险评估,模型的置信度应当是经过校准的,即所表达的数值置信度应等于其答案正确的概率。
许多先前的置信度估计方法在校准性能方面存在不足,因为它们并不对模型进行训练,而是通过零样本方式从模型内部状态推断置信度[14, 19, 8]。此外,这种方法无法赋予模型内在的置信度意识。该领域其他训练方法则将不确定性估计与文本生成过程分离[3, 18]。这类方法虽然优化了置信度估计的校准性,但并未真正实现模型自身对不确定性的感知与表达能力。
针对上述局限,我们提出一种新颖的强化学习(RL)方法,用于教会LLMs表达经过校准的置信度,在训练目标中鼓励细粒度且准确的置信水平估计。为此,我们将置信度估计建模为一场“下注游戏”:高置信度的回答对应更大的“赌注”,反映对正确性的强烈信念;而较低的置信度则表示谨慎态度。我们方法的核心是一个基于对数评分规则的奖励函数,这是一种严格的真性评分规则(strictly proper scoring rule)。我们是首个通过基于强化学习的策略优化来优化该函数的研究,利用其校准特性,直接且无缝地训练LLM生成过程中的置信度校准能力。该奖励函数捕捉了概率决策中基本的风险-回报权衡关系,如图1所示:当以高置信度给出正确答案时,奖励增加,模拟大额下注带来的更高潜在回报;相反,当以高置信度给出错误答案时,惩罚更重,从而抑制过度自信行为。这确保了不确定性与置信度都被恰当地纳入奖励体系。作为一种真性评分规则,优化该奖励函数可训练模型使其预测的置信度与其输出的准确性保持一致,促进细粒度且校准良好的置信度评分。经过校准的置信度估计将在训练过程中获得最高的奖励。这不仅提升了LLMs在人机协作场景中的可信度,也有助于用户更好地判断何时可以信任AI工具、何时需要复查,或何时应交由人类专家处理。
![]()
2 相关工作
置信度估计与校准在机器学习和自然语言处理领域有着悠久的研究历史[34]。随着大型语言模型(LLMs)的兴起,越来越多的研究关注如何从这些新模型中提取并改进置信度估计。现有方法种类繁多,大致可分为“黑箱”方法和“白箱”方法[9]。
黑箱方法仅依赖模型的输出结果进行不确定性估计,不需要了解模型内部状态。在这一类别中,语言置信度方法通过简单地提示LLM用语言表达其置信程度来评估不确定性。Xiong等人[37]表明,诸如思维链(Chain-of-Thought, CoT)[36]等提示技术能在一定程度上帮助模型校准其置信度表达。基于“生成中的不确定性会促使模型产生幻觉”这一假设,基于一致性的方法[21, 35]通过衡量多次生成结果之间的相似性来估计不确定性,发现生成结果差异越大,通常意味着不确定性越高。Wang等人[35]提出使用CoT生成通往答案的多种推理路径,通过对不同推理路径进行边缘化处理,将最一致的答案视为最可能正确的答案,并将一致性度量作为模型置信度的估计。黑箱方法因其简单、易用和通用性强而具有价值,但在校准性能方面通常不如白箱方法。
白箱方法则需要访问模型的内部状态,无论是用于评估logits(对数概率)和激活值,还是用于对模型进行微调以实现校准。基于logits的方法通过分析预测序列中token的概率或熵来校准置信度。Huang等人[14]计算生成token的平均概率,其基本假设是:若模型以高概率生成某个答案,则它对该答案具有较高置信度。Kuhn等人[19]和[8]在此基础上进一步考虑生成token的熵,并结合语义相关性进行改进。Kadavath等人[17]表明,LLMs能够自我评估其生成内容的正确性:他们提示模型先给出答案,再判断自己的答案是“正确”还是“错误”,然后通过比较“正确”或“错误”对应token的概率来计算置信度估计。
尽管上述方法均为零样本方法,另一类白箱方法则提出训练外部模型来进行置信度估计。Xiong等人[37]提出一种方法,训练一个线性探针(linear probe),基于LLM隐藏层激活状态来评估模型的置信度。他们评估了该探针在不同网络层的应用效果,并使用任务的正确性标签进行训练。然而,该方法并未在置信度估计的细粒度上进行显式训练,因此只能间接表达出置信度梯度,难以实现精细校准。在此基础上,Mielke等人[22]让LLM访问由外部探针提取的置信度信息,并对其进行微调,使其能够表达该置信度。但这种方法的校准性能受限于探针本身准确评估模型置信度的能力。
Stengel-Eskin等人[27]提出了一种基于DPO(Direct Preference Optimization,直接偏好优化)的方法LACIE,模拟生成模型(说话者)与倾听模型(听众)之间的交互:说话者生成答案,听众根据感知到的置信度对其进行评估。通过在TriviaQA数据上使用DPO进行训练,LACIE奖励准确的置信度表达(即正确答案被听众接受,错误答案被拒绝),同时惩罚误导性的置信表达。该方法的置信度表达是相对于听众模型对置信线索的理解能力进行校准的,依赖于听众判断置信度的能力,侧重于“感知置信度”的对齐,而非基于事实的数值化置信评分。然而,这些方法均未提供关于所训练置信度校准性能的理论保证或可证明的最优性。
与此同时,使用基于人类反馈的强化学习(RLHF)对LLMs进行微调,已成为使模型与人类偏好对齐、避免生成有毒或有害内容的重要手段[24, 20]。除了RLHF之外,强化学习也被用于在文本环境中微调LLMs以实现智能体式交互[40, 5]。使用强化学习进行LLMs的置信度估计是一个较新的研究方向,据我们所知,目前仅有Tao等人[30]和Xu等人[38]进行了相关探索。Tao等人[30]基于RLHF范式,设计了一个奖励函数,使模型口头表达的置信度与其由RLHF奖励模型预测的偏好评分保持一致。然而,该方法无法评估模型在事实性陈述中的置信度,且依赖于人工标注的偏好数据。Xu等人[38]提出了一种新的“基于知识反馈的强化学习”(RLKF)框架,旨在教会模型拒绝回答超出其知识范围的问题,从而减少幻觉现象,但该方法在给出答案时并不量化置信度。
相比之下,我们的方法直接使用一种具有理论基础的真性评分规则(proper scoring rule)作为奖励信号,针对事实性校准进行优化,使模型能够在无需外部偏好模型、知识监督或事后校准技术的前提下,发展出内在的不确定性意识,同时将经过校准的置信度表达无缝整合到LLM的回答生成过程中。
3 奖励怀疑
我们提出一种新颖的强化学习方法,旨在提升大型语言模型(LLM)对先前生成答案进行准确数值化置信度表达的能力。如图2所示,LLM在模拟环境中充当一个智能体,面临具有挑战性的问答场景。它被输入任务查询,例如事实性问题,并被要求同时预测对查询的回答以及一个置信度得分。根据答案的正确性以及所表达的置信度,我们对模型进行奖励,激励其表达出经过校准的置信度。
![]()
![]()
![]()
为了促进准确的置信度估计,模型的奖励函数必须满足在其表达的置信度 p^等于真实认知概率 p∗时取得最大值。当模型以高置信度正确预测结果时,应获得更高的奖励;相反,当模型以高置信度做出错误预测时,应受到更严厉的惩罚。相比之下,在不确定的情况下表达较低的置信度(即表现出不确定性)可以减少潜在的惩罚,从而在不确定性较高的情境中获得更高的期望奖励。这种方法激励模型仅在有充分把握时才表达高置信度,而在模糊或不确定的情况下表达怀疑。通过同时惩罚过度自信和信心不足,模型被引导去准确地校准其置信度,有效平衡了“最大化奖励”与“避免惩罚”之间的权衡。
我们设计的奖励函数采用对数评分函数(logarithmic scoring function),该函数满足上述最优性条件:
![]()
![]()
![]()
命题1的证明与证明对数评分规则是一种“真性评分规则”(proper scoring rule)的方法类似。我们在附录B中给出了完整的证明,并讨论了截断(clipping)操作对奖励函数最优性的影响。
4 实验设置
我们在单答案(Single-Answer)和多答案(Multiple-Answer)两种设置下评估我们的方法。我们提示模型为其每个答案提供一个介于0到10之间的整数作为置信度,并在计算奖励时对该值进行归一化处理。置信度为0表示模型确信答案错误,置信度为10表示模型确信答案正确。我们将奖励函数的取值范围归一化至[-1, 1]。
在单答案设置中,我们在 TriviaQA 数据集[16]上训练模型,该数据集包含问题-答案-证据三元组,但我们仅使用其中的问题和答案。为了验证泛化能力,我们在 CommonsenseQA[29] 和 MedQA[15] 数据集上评估我们的方法,这两个数据集分别是常识推理和医学领域的多项选择题数据集。在多答案设置中,我们在 QAMPARI 数据集[2]上进行训练,该数据集包含具有多个正确答案以及对应证据的问题,我们同样只使用问题和答案。
在单答案设置中,我们在 TriviaQA 数据集上将我们的方法与以下方法进行比较:思维链(Chain-of-Thought)[37]、Top-K[31]、代理token(Surrogate Token)[17]、序列概率(Sequence Probability)[14] 和自一致性(Self-Consistency)[35] 等零样本方法;LACIE[27](使用DPO优化置信度表达);训练探针(Trained Probe)[3](使用监督学习训练一个外部探针来估计置信度)。我们还将我们的方法与未经微调的基础模型进行零样本比较,该基础模型使用与我们“奖励怀疑”(Rewarding Doubt)方法相同的提示方式,我们称此设置为“言语化表达”(Verbalize)。在多答案设置中,我们仅与训练探针(Trained Probe)和序列概率(Sequence Probability)进行比较,因为这些方法在单答案设置中表现最佳,分别为训练型和零样本基线方法。LACIE 未报告该数据集上的结果,因此我们只能在 TriviaQA 上进行比较。
我们使用预期校准误差(Expected Calibration Error, ECE)和受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)作为评估指标。ECE 衡量模型预测置信度与其实际准确率之间的差异,用于评估置信度与真实结果的匹配程度。AUROC 评估模型区分正负类别的能力,得分为0.5表示随机猜测,1.0表示完美分类。此外,我们通过校准曲线可视化模型的校准情况:一个校准良好的模型应接近45°对角线,明显偏离则表明存在严重校准偏差。
回答生成:为了仅对置信度进行校准和奖励,而不影响答案本身,在训练过程中我们将生成过程分为两个步骤:答案生成和置信度生成。首先生成答案,之后将其与问题一起作为固定输入;然后在独立的生成步骤中生成置信度,并将其作为唯一的优化目标。通过这种方式,我们确保答案生成过程与优化过程解耦,从而保证答案的正确性不会受到置信度校准训练的影响。
正确性评估:对于多项选择题数据集 MedQA 和 CommonsenseQA,我们使用模型输出与真实答案之间的字符串完全匹配来判断答案是否正确。
对于 TriviaQA 和 QAMPARI 数据集,我们使用词重叠的F1分数来衡量模型回答与真实答案候选之间的相似度。对每个候选答案计算F1分数,并取最大值作为最终得分。若该得分超过0.5的阈值,则认为该答案正确。
5 实现细节
训练:在实验中,我们选用 Meta-Llama-3-8B-Instruct [10] 作为基础模型。我们采用了 Unsloth AI [12] 提供的4比特量化且性能优化的模型版本。此外,我们应用了 LoRA 微调技术 [13],将可训练参数数量从 8,030,265,345 减少到 41,947,137。在单答案设置中,我们对模型进行两个训练周期(epochs),学习率为 1e-5。在多答案设置中,由于训练数据集规模较大,且每个问题对应多个事实答案,因此我们限制训练步数为 24,000 步,批量大小(batch size)为 8,学习率同样为 1e-5,并将奖励尺度(reward scale)设为 5。所有模型均在单块 NVIDIA A40 显卡上进行训练,每次训练耗时约七天。平均而言,模型每条事实生成约 3.4 个答案。如果模型未能按照指定格式生成答案,将受到格式错误惩罚,奖励值为 -3。
基线方法:
对于序列概率(Sequence Probability)方法,我们计算模型响应中每个 token 的平均概率作为置信度估计。
在自一致性(Self-Consistency)方法中,我们让模型生成 10 条不同的推理路径,然后使用 BERTScore 指标 [39] 评估每条输出结果之间的相似性,以相似性程度作为置信度的代理。
对于训练探针(Trained Probe)方法 [3],原始研究引入了一个自定义数据集,包含被标注为“真”或“假”的简短陈述。通过提取模型在这些陈述输入下的特定层激活值,并在其上训练一个多层感知机(MLP),来预测陈述的真实性。为确保公平比较,我们对该方法进行了适配,使其更符合我们的数据设置:我们让模型生成对训练数据集中问题的回答,然后提取模型在第24层对“问题-答案”整体的激活值。每个样本的标签则按照我们在评估框架中描述的相同标准确定(即基于F1或字符串匹配判断正确性)。MLP 的网络结构与 Azaria 和 Mitchell [3] 使用的设计一致,我们以 1e-4 的学习率训练该探针模型,共训练四个周期,直至收敛。
所有基线方法所使用的具体提示词(prompts)详见附录 A。
6 结果和讨论
校准性能 为了评估我们的方法在提升置信度校准方面的效果,我们在单答案和多答案两类问答任务中,将我们的方法与零样本的LLM基线(Verbalize)以及多个已有方法进行了比较。单答案设置在 TriviaQA 上的结果如表1所示,多答案设置在 QAMPARI 上的结果见表2。在两项任务中,“奖励怀疑”(Rewarding Doubt)方法相比零样本的言语化表达,在置信度校准方面均有显著提升。
![]()
![]()
在 TriviaQA 的单答案任务中,“奖励怀疑”方法达到了 0.0226 的预期校准误差(ECE)和 0.8592 的AUROC,明显优于所有零样本基线方法,也优于基于DPO优化的LACIE方法。另一种经过微调的方法——训练探针(Trained Probe),依赖于监督微调,其ECE略低(0.0189),表明两种方法都接近完美校准。然而,“奖励怀疑”在AUROC上显著更高,说明尽管两者校准性能都很强,但“奖励怀疑”在区分正确与错误答案方面表现更优。
在 QAMPARI 的多答案任务中,“奖励怀疑”同样优于各基线方法,实现了 0.0816 的ECE和 0.6947 的AUROC。相比之下,Verbalize、序列概率(Sequence Probability)和训练探针(Trained Probe)的表现明显更差。
我们的研究结果支持了 Azaria 和 Mitchell [3] 的观点:模型的内部状态编码了关于陈述真实性的信息,这些信息可作为不确定性的指标。然而,若不进行微调,模型难以有效利用这些内部信息。我们的方法使模型能够利用这种相关性,并将其转化为对答案正确概率的准确表达。
图4中的校准曲线进一步直观展示了这些改进。无论是 TriviaQA 还是 QAMPARI,经过微调的模型的置信度都比零样本的 Verbalize 基线更贴近理想的45°对角线。此外,我们还观察到微调后置信度分布的变化。如图5所示,在零样本设置下,LLM(Verbalize)主要赋予高置信度评分(8及以上),表现出明显的过度自信现象。这一现象也与 Xiong 等人[37]的发现一致,他们将其归因于监督式预训练倾向于鼓励自信表达。而在使用“奖励怀疑”方法微调后,模型的置信度评分(如图5b所示)分布范围更广,包含了更多较低的置信值,表明模型对不确定性的表达更加细致。这一变化说明微调有效缓解了过度自信问题,使模型的置信度更好地与其实际表现相匹配。
![]()
![]()
答案正确性的稳定性 我们方法在训练置信度校准时,仅针对不确定性估计能力进行优化,并不旨在改变模型的回答内容。这一点通过仅对模型表达的置信度进行奖励来实现,而答案是在模型更新步骤之前独立生成的。实验结果表明,所有任务中的准确率保持稳定,基础模型(Verbalize)与经过“奖励怀疑”方法调整后的模型在任务准确率上没有显著差异。这说明使用“奖励怀疑”进行置信度校准训练不会影响模型在原始任务上的性能。
泛化能力 为了评估“奖励怀疑”(Rewarding Doubt)方法的泛化能力,我们将基于 TriviaQA 训练的模型应用于跨领域场景,分别在 CommonsenseQA [29] 和 MedQA [15] 数据集上进行测试。结果分别如第6节和表4所示。
![]()
![]()
在 MedQA 上,“奖励怀疑”方法在两个指标上均显著优于 Verbalize 基线。在 CommonsenseQA 上,它取得了与基线相当的预期校准误差(ECE),但AUROC显著更高。这一差异凸显了仅依赖ECE评估校准性能的局限性:ECE无法反映模型在不同置信度水平下区分正确与错误预测的能力。一个始终给出中等置信度的模型可能在ECE上表现良好,但实际上无法有效区分确定与不确定的情况。相比之下,AUROC直接衡量了这种区分能力。因此,AUROC的显著提升表明,“奖励怀疑”生成的置信度估计更具实用性,能为实际决策提供更有价值的参考。
与训练探针(Trained Probe)基线相比,“奖励怀疑”在各项指标上持续表现更优,显示出更强的跨数据集泛化能力。
我们还探索了实验设置之间的泛化能力,即将在单答案设置下训练的模型应用于多答案任务。尽管其性能未达到专为该任务训练的模型水平,但仍显著优于各类基线方法,表明模型学习到的置信度估计模式具有良好的可迁移性。这暗示了该方法在更复杂或结构更松散的场景(如事实验证、自由文本生成中的校准)中具有广阔的应用前景,即使在缺乏专门训练数据的情况下也能提升置信度估计效果。
总体而言,我们的实验表明,“奖励怀疑”提供了一种鲁棒且高效的方式来增强模型的校准性能,能够在不同任务间良好泛化,同时保持原始任务性能的稳定,是一种有效的语言模型置信度校准与表达方法。除了在校准质量上的提升,该方法还具有显著的实用优势:虽然微调需要一定的初始训练成本,但推理过程非常高效——只需生成少量固定的token即可表达置信度。相比之下,诸如思维链(Chain-of-Thought)和自一致性(Self-Consistency)等零样本方法在推理时需要生成冗长的推理链或多轮输出,计算开销较大。“奖励怀疑”方法无需额外模型,也不引入额外推理负担,仅通过LLM自身的简单语言表达即可直接提供可操作的置信度估计,因此非常适用于实际部署。
局限性 在实验过程中,我们观察到策略有时会收敛到始终预测固定置信度值的情况,这可能是由训练不稳定引起的。尽管这种情况并非持续发生,但仍提示未来可在奖励结构设计或引入额外约束(以鼓励更稳定的多样化置信度分布学习)等方面进行进一步优化。此外,当前方法仅适用于可以定义二元正确性(正确/错误)的场景。未来可将其扩展至支持连续性正确性度量的场景,例如常用于自由文本生成任务的评估方式。
7 结论
在本研究中,我们提出了“奖励怀疑”(Rewarding Doubt)这一新颖方法,使大型语言模型(LLMs)能够通过自然语言更准确地表达其对答案的置信度。我们采用基于对数评分规则的强化学习方法,设计了奖励函数,激励模型输出经过良好校准的置信度表达。通过我们的方法进行微调后,模型在置信度校准估计能力上显著提升,有效缓解了LLMs中普遍存在的过度自信问题。这不仅增强了人工智能生成结果的可信度,也为更可靠的人机协作奠定了基础——模型能够透明地传达自身的不确定性,这是迈向更安全、更可问责的人工智能系统的关键一步。
![]()
![]()
![]()
原文链接:https://arxiv.org/pdf/2503.02623
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.