当AI开始"自知之明"：大语言模型如何从被动评估走向主动控制|推理|贝叶斯|复杂性|新论文

分享至

这项由Salesforce AI研究院联合Intuit、范德堡大学和加州大学戴维斯分校开展的突破性研究发表于2025年，论文编号为arXiv:2501.15690v1。研究团队深入探讨了大语言模型中一个革命性的转变：不确定性量化技术正在从传统的"事后诊断工具"演变为"实时控制信号"，这意味着AI系统不再仅仅是在生成答案后告诉我们"这个答案可能有问题"，而是能够在思考过程中实时感知自己的困惑程度，并据此调整行为策略。

想象一个学生在考试时遇到难题，传统的方法是等到交卷后老师批改才知道答案对错，而现在这个学生能够在答题过程中就意识到"这道题我不太确定，需要多花点时间思考"或者"这道题太难了，我应该先跳过做其他题目"。这正是这项研究要解决的核心问题：让AI系统具备类似人类的"元认知能力"，即"知道自己不知道什么"，并能据此做出更智能的决策。

研究团队通过对当前大语言模型的深入分析，发现了传统不确定性量化方法的根本局限性。传统方法就像是一个只会事后诸葛亮的评论员，只能在AI完成整个回答后给出一个"可信度评分"，却无法在AI思考过程中提供任何有用的指导。这种被动的评估方式在面对复杂的多步推理、自主代理决策和强化学习对齐等前沿应用时显得力不从心。

为了突破这一瓶颈，研究团队提出了"不确定性作为控制信号"的全新范式。在这个框架下，不确定性不再是一个静态的标签，而是成为了AI系统的"内在感知器官"，就像人类的直觉一样，能够在关键时刻指导决策。这种转变带来的影响是革命性的：AI系统开始具备了自我调节、自我纠错和自我优化的能力。

一、传统方法的困境：为什么"事后诸葛亮"行不通

要理解这项研究的重要性，我们首先需要了解传统不确定性量化方法面临的困境。研究团队指出，传统方法本质上采用的是"生成-然后-评估"的工作模式，这就好比一个厨师做完一道菜后才开始思考调料是否合适，而不是在烹饪过程中根据味道不断调整。

在传统框架中，不确定性被分为两种基本类型：认知不确定性和随机不确定性。认知不确定性源于数据中的固有噪声，就像掷骰子时的随机性一样，无论我们如何努力都无法完全消除。而随机不确定性则来自模型知识的缺乏，理论上可以通过增加更多训练数据来减少。这种分类虽然在理论上很清晰，但在实际应用中却显露出致命的弱点。

研究团队通过大量实验发现，这种传统方法在面对现代AI系统的复杂应用场景时存在三个根本性问题。第一个问题是无法处理多步推理任务。当AI需要进行链式思维推理时，早期步骤中的错误会像雪球一样越滚越大，最终导致整个推理链的崩塌。传统方法只能在最后给出一个总体评分，却无法在中间步骤及时发现并纠正偏差，就像一个导航系统只能在到达终点后告诉你"路走错了"，而不能在每个路口提供实时指导。

第二个问题是难以支持自主代理的决策需求。现代AI代理需要在复杂环境中做出各种决策，比如是否使用外部工具、是否寻求人类帮助、或者是否需要更多信息。这些决策需要基于实时的不确定性评估，而传统方法只能在文本生成完成后给出静态评分，无法为这些动态决策提供及时支持。这就好比让一个探险者在探索未知领域时，只能在探险结束后才知道哪些路径是危险的，而不能在遇到危险时及时调整路线。

第三个问题是与动态交互系统的不匹配。现代AI系统越来越多地涉及分支推理路径、环境交互和迭代对齐过程，这些都要求不确定性能够随着系统行为动态演化。传统方法假设输出是静态的、单一的，这种假设在面对复杂的交互式系统时完全失效。

研究团队通过这些分析得出一个重要结论：要构建真正robust和可靠的AI系统，不确定性必须从被动的诊断工具转变为主动的控制机制，从外部的评估标准转变为内部的运行机制。这种转变不仅仅是技术层面的改进，更代表了AI系统设计理念的根本性转变：从"生成后验证"转向"边生成边调控"。

二、高级推理：让AI学会"三思而后行"

在高级推理领域，研究团队发现了不确定性量化最令人兴奋的应用场景之一。他们将这一应用分为三个层次：推理路径之间的智能选择、单一推理路径内的动态调控，以及认知资源的优化配置。每个层次都展现了不确定性从被动评估向主动控制的转变。

在推理路径之间的选择层面，研究团队开发了一系列置信度加权选择方法。传统的自我一致性方法采用"一个路径一票"的简单投票机制，就像民主选举中每个候选人只能获得同等分量的选票。而新的方法则引入了基于不确定性的加权机制，让那些更有把握的推理路径获得更大的发言权。

其中最具代表性的是置信度增强推理方法和置信度信息自一致性方法。前者在关键的中间步骤评估置信度，然后将这些评估聚合成更robust的总体评分，就像一个多重检查系统，在每个关键节点都设置质量检验。后者则基于整个推理路径的归一化概率长度来分配置信度分数，然后用这些分数对最终投票进行加权。

研究团队还探索了贝叶斯推理方法来选择有希望的路径，以及训练专门的奖励模型来计算置信度分数。这些方法都体现了一个核心理念：不是所有的推理路径都生而平等，那些展现出更高内在一致性和逻辑coherence的路径理应获得更多信任。

然而，研究过程中也发现了一个有趣的权衡关系：效用与保真度之间的张力。一些在全局校准上表现良好的方法（即置信度与平均准确率保持一致）往往在单个问题的正确答案与错误答案区分上表现较差。关键因素是问题内判别能力，即置信度在给定单个问题时分离正确和错误答案的能力。研究发现，一个sharp、局部判别性强的信号，即使在全局上可能显得"过于自信"，对于路径选择来说也比全局校准良好但局部判别性差的信号更有用。

在单一推理路径内部，不确定性不仅是回顾性的置信度测量，更是主动的控制信号。研究团队开发的不确定性感知自适应指导方法能够监控步骤级别的不确定性，当推理出现偏离时自动回退到低不确定性的检查点。这就像给推理过程安装了一个自动导航系统，能够在发现走错路时及时回头。

自发自我纠正方法则为模型分配了提议者和验证者的双重角色，使用不确定性来指导行动选择：继续推进、回退修正还是彻底重来。自适应步骤方法更进一步，它不是按照预定义的规则分割推理链，而是根据自然的不确定性引导边界来对齐推理过程，从而改善监督效果和可解释性。

在训练时改进方面，研究团队展示了不确定性如何从次要信号提升为主要学习目标。不确定性敏感调优方法教会模型在高不确定性情况下进行abstention，然后在保持校准克制的同时恢复一般能力。不确定性感知微调则直接修改损失函数，对最终错误的预测给予更高的不确定性奖励，从而产生更可靠的估计。

在认知effort优化层面，研究团队解决了让模型"按需思考"的挑战，即只在必要时执行额外推理，而不是在简单任务上过度思考。不确定性在这里充当了一个低成本的控制信号，用于平衡效率和准确性。

临界点或状态方法将这一原理应用于结构化推理任务，比如代码生成。在关键决策点（比如新行的第一个非缩进标记），模型使用熵或概率边距测量不确定性。如果不确定性超过阈值，就激活思维链解码；否则，继续直接代码生成。这种动态激活显著提高了效率而不牺牲准确性。

动量不确定性推理方法采用轨迹级视角，不是依赖单一阈值，而是跨步骤聚合不确定性并分配灵活的"思考预算"给推理路径的不同区域。这将计算量减少了超过50%，同时通过targeted资源分配提高了准确性。

三、自主代理：打造会"察言观色"的AI助手

在自主代理领域，不确定性的作用从被动的文本属性转变为主动的元认知信号，驱动代理行为从战略性响应内部状态，到管理工具使用决策边界，再到管理多步骤工作流中的不确定性传播。

研究团队首先探索了代理如何从静态生成器演化为自主代理时必须发展出的元认知能力，也就是"知道自己不知道什么"的能力。代理对自身不确定性的战略响应成为智能的关键标志，相关研究追踪了从防御性行为到主动询问的演化轨迹。

最基础的策略是被动防御，即当不确定性很高时代理选择abstention，特别是在高风险领域。这种方法确保了安全性但可能降低有用性。更先进的是诊断响应，代理探测其困惑的来源，无论是知识gaps、能力限制还是查询歧义。最sophisticated的策略是主动询问，代理学习optimal策略来提出clarifying questions，以战略性地减少未来不确定性。

这种演化突出了自主性与效用之间的权衡关系。Abstention确保安全但可能减少帮助性；主动询问反映了更高的智能但增加了实现复杂性。当代理的不确定性管理策略变得更加sophisticated时，它们在人机协作中变得更加有效。

在工具使用决策边界方面，现代AI代理的一个关键能力是利用外部工具来克服参数化知识的限制。这引入了核心困境：代理应该何时依赖内部知识与承担工具使用的成本？默认外部调用的简单策略存在效率低下和"工具overuse"的风险。

研究团队发现，使用不确定性作为控制信号能够设置更intelligent的决策边界。这些策略的演化显示了从reactive控制到校准自主性的轨迹。最早的方法使用inference-time控制，模型生成preliminary答案并仅在实时不确定性高时调用工具，提高效率。更先进的方法追求training-time自我意识，在专门数据集上fine-tuning代理以内化知识边界并开发校准的内在工具使用策略。

另一条研究路线专注于不确定性校准，表明通过校准控制信号，代理实现更可靠的工具使用决策。从inference-time控制到training-time自我意识的转变反映了易用性与robustness之间的权衡。基于阈值的inference-time方法简单但脆弱，而基于训练的策略昂贵但产生更强的domain adaptation。

在多步骤工作流的不确定性传播方面，复杂的多步骤任务中，不确定性是动态的：小错误会累积并通过工作流传播，最终导致任务失败。传统的不确定性方法通常评估单轮输出并忽略这种compound效应。构建可靠的长视野代理需要explicit建模不确定性如何在"思考-行动-观察"循环中演化。

情境感知不确定性传播框架通过跟踪每个步骤的不确定性并根据上下文加权其重要性来解决这个问题。认识到不是所有不确定性都同等关键，该框架引入"情境权重"来amplify被认为更关键的步骤的不确定性分数。

相比之下，UProp框架提供了信息理论基础，将总不确定性分解为当前步骤的内在不确定性和从先前步骤继承的外在不确定性。这种分解提供了更principled的方法来理解不确定性如何在代理交互中传播和演化。

这些方法突出了不确定性来源的关键转变。在仅推理任务中，不确定性主要是认知性和内部的，而在代理系统中，环境本身成为主导驱动因素。建模不确定性传播的不同机制代表了capture从代理与动态和不可预测世界交互中产生的风险的不同方法。

随着研究从单一代理发展到多代理系统，不确定性挑战不仅仅是scaled而是根本性地transformed。不确定性现在既出现在每个代理的内部推理中，也出现在代理之间的通信和交互中。关键担忧是不确定性可以在交互中传播和amplify。一个代理可能从peer那里接收uncertain或不正确的信息，但将其视为事实，导致destabilize集体的错误级联。

多代理系统失败的分析突出了inter-agent misalignment作为主要原因，通常不是源于个人错误而是源于flawed交互，比如在面临歧义时未能寻求clarification。中心挑战是在不确定性下实现inter-agent一致性。这需要将单一代理元认知技能扩展到集体，使代理能够建模其peer的不确定性并采用uncertainty-aware通信策略。

四、强化学习与奖励建模：构建"知进退"的学习系统

在强化学习和奖励建模领域，不确定性已经从被确定性评分忽略的因素转变为robust学习的核心机制。研究团队将这一转变分为三个关键方向：构建robust奖励模型以减缓奖励hacking，通过内在奖励实现自我改进，以及自动化可扩展的过程监督。

在robust奖励模型构建方面，人类反馈强化学习流水线的cornerstone是奖励模型，它作为人类价值观的代理。传统奖励模型是确定性的，产生单一标量分数。这与人类偏好的随机性质产生了mismatch，并使"奖励hacking"成为可能，即策略利用奖励模型的不准确性在低质量输出上获得高分。

为了解决这个问题，研究团队开发了能够建模和表达不确定性的奖励模型，大致分为两种方法。不确定性感知奖励模型通过架构或基于特征的修改使奖励模型显式感知不确定性。一个基础方法是重新设计奖励模型的输出以预测完整概率分布而不是单一分数。这个分布的方差然后作为aleatoric不确定性（人类数据中的固有歧义）的直接、可量化信号。

补充策略是丰富奖励模型的输入。UALIGN框架通过将策略大语言模型自己的不确定性度量（比如语义熵）作为显式特征feed给奖励模型来实现这一点。这允许奖励模型学习context-aware评估函数，该函数以策略模型本身感知的查询难度为条件。

贝叶斯奖励模型不是学习权重的单一点估计，而是学习权重上的后验分布，从而capture认知不确定性（奖励模型自身的模型不确定性）。这通过Laplace-LoRA等技术实现。这种方法的关键优势是从后验得出的不确定性可以用作强化学习优化期间的直接、理论基础的惩罚项。这积极地阻止策略探索和利用奖励模型不confident的输出空间区域，导致更安全和更robust的对齐。

在通过内在奖励的自我改进方面，虽然robust奖励模型加强了外部监督，但更先进的范式寻求完全减少对此类信号的依赖。这个范式基于内在动机，agent通过优化其自身内部状态而不是外部反馈来改进。表达为置信度、熵或信息增益的不确定性已经成为在大语言模型中实现自驱动对齐的核心内在奖励。

置信度作为内在奖励的最简单内在信号是自信心。从自反馈的强化学习框架展示了置信度分数可以生成合成偏好对（比如，高置信度→低置信度），无需人类标签即可实现自对齐。进一步研究表明，通过强化学习直接最大化置信度显著改善推理，确认置信度作为standalone内在奖励。然而，误校准的置信度可以强化错误，过度自信可能导致奖励hacking。

熵最小化提供了更深层的视角，将推理框架化为减少不确定性的驱动。熵最小化的原理将推理视为最小化预测分布的熵，为改善大语言模型推理提供无奖励、无监督的目标。然而，这种方法正在积极完善，最新研究探索熵不仅作为要最小化的量，而且作为在置信度和准确性之间实现更好平衡的正则化信号。

熵最小化的强化学习将这个信息理论信号与强化学习结合，其中熵reduction本身成为奖励。EMPO等框架激励最小化未来不确定性的推理轨迹。像Intuitor这样的架构将此扩展到完全无奖励的代理，从好奇心和不确定性reduction等内在动机中学习策略。

使用互信息剖析过程的最新工作利用互信息分析熵最小化如何运作。至关重要的是，思维链中最informative的"思考token"是那些与最终答案的互信息峰值对应的token。这为熵最小化提供了mechanistic解释：推理通过识别和解决precisely这些关键点的不确定性而进展。

在可扩展过程监督方面，虽然内在奖励增强自主性，但对齐质量可以通过fine-grained外部反馈得到改善。基于过程的监督奖励正确的中间步骤而不仅仅是最终结果，提供更强的学习信号。然而，其采用受到手动segmenting推理链为逻辑步骤并注释每个步骤的高成本限制。

不确定性作为自动化工具最近的工作利用不确定性自动化这种segmentation。EDU-PRM框架识别推理步骤之间高预测熵的token，并将它们用作"不确定性anchor"来自动partition链。这以manual成本的一小部分实现可扩展的过程级训练数据生成。

实证结果进一步表明，强化学习收益主要由学习处理这些高熵minority token驱动。通过将不确定性转化为自动化工具，这些方法使过程级监督在经济上可行。关键限制是启发式可靠性：高熵是逻辑边界的强但不完美信号。结果，自动化分割可能并不总是与人类定义的推理步骤对齐，在可扩展性和注释精度之间产生权衡。

五、理论框架的新突破：从直觉走向科学

研究团队认为，从不确定性作为被动度量到主动控制信号的演化不仅仅是empirical技术的集合，它反映了构建可靠和可信AI系统对principled基础的更深需求。两个新兴的理论框架正在为这一转变提供rigorous基础：贝叶斯方法和保形预测。

在贝叶斯方法方面，作为在不确定性下推理的基础理论，贝叶斯方法正在经历复兴，为分析和指导大语言模型行为提供principled基础。一个关键理论洞察是，虽然大语言模型不是严格的贝叶斯推理器，但它们的上下文学习机制通常在期望中近似贝叶斯预测更新。这justify了应用贝叶斯框架不是为了内部建模大语言模型，而是分析其aggregate行为并围绕它构建更robust系统。

一个实用方向是结合大语言模型与正式概率模型的混合系统。这些利用互补优势：大语言模型的定性、溯因推理和贝叶斯推理的定量不确定性管理。例如，BIRD使用大语言模型生成因果sketches，然后将其formalize为贝叶斯网络进行精确推理。Textual Bayes集成更深，将prompts视为贝叶斯推理的textual参数，而其他工作使用大语言模型进行prior elicitation。

另一条雄心勃勃的路线寻求直接教大语言模型概率推理，减轻诸如base-rate neglect等认知偏见。贝叶斯教学fine-tune模型以模拟理想贝叶斯观察者，有证据表明泛化到unseen任务。这种从使用大语言模型作为贝叶斯组件到在其中嵌入贝叶斯推理的转变标志着朝着从根本上改善其认知机制迈出的一步。

在保形预测方面，与依赖prior分布的贝叶斯方法相比，保形预测提供了具有rigorous、distribution-free覆盖保证的强大非贝叶斯框架。对于任何输入，保形预测构建guaranteed以用户指定概率包含真实输出的预测集，独立于模型架构或数据分布。

然而，为自由形式文本定义预测集和non-conformity分数非平凡地将保形预测应用于大语言模型。最近的工作通过适应保形预测到不同级别的模型访问来解决这个问题。

黑盒（仅API）方法没有访问logits，像ConU和相关方法这样的方法采用语义相似性作为non-conformity的代理。预测集包括生成的候选以及在校准阈值下语义相似的替代方案。这将保形预测的保证从精确字符串匹配重新框架为语义等价，使其对开放式生成实用。

白盒（Logit-Access）方法具有对模型概率的完全访问，token级校准成为可能。保形语言建模使用logits在每个步骤构建下一个token的预测集，ensuring真实token以高概率位于集合内。这提供更强保证但需要模型透明度。

尽管理论框架不断进展，从业者仍面临多个开放问题。为了bridging这一差距，研究团队提供了一套设计模式和实用建议。

六、挑战与未来方向：通往智能AI的必经之路

虽然不确定性的演化角色正在迅速发展，但其完全实现取决于解决几个fundamental挑战。研究团队识别了四个关键领域，这些领域将决定这一transformative趋势的未来轨迹。

主动信号的可靠性和robustness构成了最基础的挑战。不确定性作为控制信号的功能建立在信号本身有意义和可信的假设上。未来工作必须严格解决这一基础层的完整性。即使是非对抗性的估计错误也可能被下游控制机制放大。例如，poorly校准的置信度分数可能导致加权投票偏向错误答案，而误校准的阈值可能使代理变得鲁莽过度自信或低效工具依赖。

推进不确定性量化基准测试成为该领域成熟度的证据，出现了标准化基准如UBench和LM-Polygraph。虽然基础性的，这些框架主要评估估计保真度，诊断模型是否知道它错了而不是控制效用。它们通常无法模拟主动范式固有的动态决策权衡。因此，静态评估协议与动态控制需求之间存在关键misalignment。未来基准必须演化以量化直接归因于不确定性在循环机制的下游性能收益。

有意义的评估和度量仍然是重大瓶颈。标准度量如AUROC不适合不确定性作为主动信号功能最相关的丰富、交互和动态上下文。该领域迫切需要专门为交互代理和复杂推理任务设计的新基准和评估协议。至关重要的是，未来评估必须变得更以人为中心。不确定性感知系统成功的ultimate衡量标准不仅是其统计校准，而是其作为人AI协作伙伴的有效性。

可组合、不确定性传播系统将不确定性管理从单一、monolithic模型扩展到复杂、互连系统仍然是一个主要开放问题。在多代理系统中，挑战是理解不确定性如何在交互代理间传播、复合和解决，这需要在系统级别而不是个体代理级别运行的新框架。更广泛地，ultimate轨迹指向由异构组件组成的模块化AI系统。中心挑战将是建立统一框架，其中不确定性信号作为这些模块之间的"connective tissue"。

可扩展性和效率在这一领域呈现持续挑战，即理论严格性与计算可行性之间的权衡。许多最principled和强大的方法，特别是那些基于贝叶斯推理或需要大规模多代理模拟的方法，对于广泛的实时部署通常过于计算昂贵。未来工作的关键方向因此是开发这些正式方法的可扩展和高效近似。

这种可扩展性挑战也延伸到数据需求。许多最有效的不确定性感知方法需要specialized训练数据或extensive校准过程，这可能限制它们在资源受限环境中的适用性。开发能够有效利用有限数据并在各种部署条件下泛化的方法仍然是一个开放挑战。

研究团队还识别了跨不同应用领域的specific技术挑战。在高级推理中，主要挑战是开发能够在各种任务类型和域间泛化的robust校准技术。目前的方法通常需要任务specific调整，限制了它们的广泛适用性。

在自主代理中，关键挑战是开发能够处理多代理交互复杂性的框架，其中不确定性传播和放大的方式比单代理设置中更复杂。这需要新的理论框架和实用算法，能够管理系统级不确定性动态。

在强化学习和奖励建模中，主要挑战是平衡不确定性感知的好处与额外的计算和实现复杂性。开发既高效又有效的方法，在不牺牲性能或增加不合理计算开销的情况下合并不确定性感知，仍然是一个开放问题。

七、结论：走向更智慧的AI时代

说到底，这项研究为我们描绘了一幅令人振奋的AI发展图景。传统的AI系统就像一个只会照本宣科的学生，只能机械地执行预设程序，对自己的能力边界毫无感知。而这项研究展示的新型AI系统则更像一个有自知之明的智者，不仅知道自己知道什么，更重要的是知道自己不知道什么，并能据此做出更明智的决策。

这种从"被动评估"到"主动控制"的转变绝不仅仅是技术层面的改进，它代表了AI系统设计理念的根本性革命。过去，我们习惯于让AI系统先生成答案，然后再评判其可信度，这种"先射击后瞄准"的方式在面对复杂任务时往往力不从心。现在，研究团队提出的新范式让AI系统能够在思考过程中实时感知自己的困惑程度，并据此调整策略，这就像给AI装上了"直觉"这个人类独有的认知工具。

在高级推理领域，这种转变让AI系统具备了"三思而后行"的能力。当面对简单问题时，系统可以快速给出答案；当遇到复杂问题时，系统会自动投入更多计算资源进行深入思考；当发现推理过程出现偏差时，系统能够及时回退并寻找正确路径。这种智能化的资源分配和错误纠正机制让AI推理变得既高效又可靠。

在自主代理领域，不确定性感知让AI系统变成了真正会"察言观色"的智能助手。它们不再盲目地执行任务或过度依赖外部工具，而是能够根据自身的知识边界和任务的复杂程度做出合适的决策。当遇到超出能力范围的问题时，它们会主动寻求帮助或使用适当的工具；当面对风险较高的决策时，它们会更加谨慎地评估各种选项。

在强化学习和奖励建模方面，不确定性的引入为解决"奖励hack"这一长期困扰该领域的问题提供了新的思路。通过让奖励模型也具备不确定性感知能力，系统能够更好地理解人类偏好的复杂性和模糊性，从而实现更robust的对齐。

这项研究的影响绝不局限于学术界。在实际应用中，具备不确定性感知能力的AI系统将在医疗诊断、金融分析、自动驾驶等高风险领域展现出巨大价值。它们不仅能够提供更准确的预测和决策，更重要的是能够明确告诉我们它们的判断有多可靠，这对于人类用户来说至关重要。

当然，这条通往智能AI的道路并非一帆风顺。研究团队也坦诚地指出了当前面临的挑战：如何确保不确定性信号本身的可靠性，如何开发适合动态交互场景的评估标准，如何在保持理论严密性的同时实现工程上的可行性。这些挑战的解决需要学术界和工业界的共同努力，也需要跨学科的深度合作。

更令人兴奋的是，这项研究为AI的未来发展指明了方向。随着不确定性量化技术的不断成熟，我们有理由相信，未来的AI系统将越来越像人类一样具备元认知能力，能够进行自我反思、自我调节和自我改进。这不仅会让AI系统变得更加可靠和可信，也会让人机合作变得更加自然和高效。

归根结底，这项研究告诉我们，真正的智能不仅在于知道答案，更在于知道自己是否知道答案。当AI系统开始具备这种"自知之明"时，我们就真正迈入了一个新的AI时代——一个由self-aware、adaptive和trustworthy的人工智能系统主导的时代。对于普通用户来说，这意味着我们将拥有更加智能、可靠和易于合作的AI助手；对于社会而言，这将推动人工智能技术在更多关键领域的深度应用，最终造福全人类。

这项由Salesforce AI研究院、Intuit、范德堡大学和加州大学戴维斯分校合作完成的研究以论文编号arXiv:2501.15690v1发表，有兴趣深入了解技术细节的读者可以通过该编号查询完整论文内容。

Q&A

Q1：不确定性量化从被动评估转向主动控制具体意味着什么？

A：传统方法像"事后诸葛亮"，只能在AI完成回答后给出可信度评分。而主动控制模式让AI在思考过程中就能感知自己的困惑程度，并据此调整行为——比如遇到难题时自动投入更多计算资源深入思考，发现推理偏差时及时回退纠正，或者在不确定时主动寻求帮助或使用外部工具。

Q2：这种技术对普通用户有什么实际好处？

A：最直接的好处是AI助手会变得更可靠和诚实。它们不再盲目自信地给出可能错误的答案，而是能够明确告诉你"这个问题我不太确定"或"让我再仔细想想"。在医疗、金融等高风险场景中，这种自知之明能够防止AI做出危险的错误判断，同时让用户更好地理解AI建议的可信度。

Q3：这项研究如何解决AI系统的"奖励hack"问题？

A：研究团队开发了能够表达不确定性的奖励模型，不再给出单一评分而是提供概率分布。这样AI系统就无法简单地利用奖励模型的漏洞获得高分，因为系统会识别出那些评分不确定的区域并主动避免。同时，通过置信度等内在奖励信号，AI可以实现自我改进，减少对外部监督的依赖。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.