牛津大学：给AI装上"可信度雷达"，像人类一样学会说"我不确定"|算法|置信度

分享至

这项由英国牛津大学工程科学系的Jeremias Sulam、Itai Gat和Aviv Navon，与康奈尔大学、麻省理工学院、哈佛大学等机构的研究者共同完成的研究，发表于2025年1月的arXiv预印本平台，论文编号为arXiv:2501.09588v1。对这项研究感兴趣的读者可以通过该编号在arXiv平台查询完整论文。

当你在搜索引擎上问问题时，AI总是一副"什么都知道"的样子，即使它实际上可能在瞎猜。这就像那个在考试中把不会的题也写得满满当当的同学，看起来很有自信，但答案可能完全错误。现在，牛津大学的研究团队找到了一个办法，让AI也能像聪明人一样说出"对不起，这个问题我不太确定"。

这个研究解决的是一个非常实际的问题。现在的大型语言模型，也就是我们常说的ChatGPT之类的AI助手，经常会犯一个毛病：它们会非常自信地说出错误的答案，这在专业领域叫做"幻觉"现象。就好比你问一个从没去过北京的人天安门的样子，他却能绘声绘色地给你编出一套说辞。这种情况在医疗诊断、法律咨询等严肃场景中可能造成严重后果。

研究团队的创新点在于，他们首次提出了一套完整的方法，让AI在回答问题之前先评估自己的可信度。这就像给AI装了一个"自我审查器"，让它在说话前先问问自己："我真的知道答案吗？我有多大把握？"更重要的是，这套方法不需要额外的人工标注数据，也不需要重新训练整个AI模型，就像给现有的汽车加装一个安全装置，而不是重新造一辆车。

这项研究的潜在影响非常广泛。对于普通用户来说，未来你使用AI助手时，它可能会诚实地告诉你"这个问题我不太确定，建议你再咨询专业人士"，而不是给你一个看似正确但实际错误的答案。对于医生、律师等专业人士来说，AI工具将变得更加可靠，因为它会在不确定时主动示弱，而不是误导使用者。研究团队在医疗问答、生物医学知识问答等多个专业领域的测试中，都验证了这套方法的有效性。

一、给AI装上"诚实开关"：什么是可信度评估

每天都有数百万人向AI提问，从简单的天气查询到复杂的医疗咨询。但这些AI系统有一个共同的弱点：它们不知道自己什么时候是在瞎猜。这就像一个总是举手抢答的学生，不管知不知道答案都要说点什么，结果经常误导别人。

研究团队把这个问题比作一场信任危机。当AI给出一个答案时，用户怎么知道该不该相信它？传统的做法是让AI输出一个"置信度分数"，但这个分数往往不靠谱。就像天气预报说"有60%的可能下雨"，但实际上这个百分比可能完全不准确。AI可能会对一个错误答案给出90%的置信度，对正确答案反而只给70%。

这项研究提出的解决方案叫做"选择性预测"。这个概念其实很简单：让AI学会在不确定时拒绝回答，而不是硬着头皮瞎说。就像一个负责任的医生，当遇到罕见病例时会说"这个情况我需要查阅资料"或"建议转诊专科医生"，而不是凭感觉随便下诊断。

研究团队设计了一套完整的评估系统。这个系统的工作原理可以用餐厅点菜来类比。当你问服务员"今天的鱼新鲜吗"，一个好的服务员会根据实际情况回答。如果今天刚进的货，他会自信地推荐；如果已经放了两天，诚实的服务员会建议你点别的。AI的可信度评估系统就是要培养这种"诚实基因"。

这套系统的核心是一个叫做"拒绝机制"的设计。AI在生成答案的过程中，会同时计算一个"可信度分数"。这个分数不是简单的概率数字，而是综合考虑了多个因素：AI对这个领域知识的掌握程度、问题的复杂度、答案的一致性等等。当可信度分数低于某个阈值时，AI就会主动说"我不确定"，而不是强行给出一个可能错误的答案。

关键的技术突破在于，研究团队找到了一种无需人工标注的训练方法。传统做法需要大量专家手工标注哪些答案是可信的、哪些不可信，这既昂贵又耗时。新方法则让AI通过自我对话来学习判断可信度。具体来说，AI会对同一个问题生成多个不同的答案，然后比较这些答案之间的一致性。如果多个答案都指向同一个结论，那可信度就高；如果答案五花八门，那说明AI其实不太确定，这时就应该选择拒绝回答。

这种方法的妙处在于它的通用性。无论是医疗、法律、科学还是日常问答，同样的评估框架都能适用。就像一把万能钥匙，不需要为每个领域单独定制一套系统。研究团队在六个不同的专业数据集上进行了测试，包括医学问答数据集MedQA、生物医学知识库BioASQ、开放领域问答数据集TriviaQA等，结果显示这套方法在各个领域都能显著提升AI的可靠性。

更重要的是，这套系统是"即插即用"的。你不需要从头训练一个新的AI模型，只需要在现有模型的基础上加装这个评估模块就行。这就像给你的手机安装一个新应用，而不是换一部新手机。这种设计大大降低了实际应用的门槛，让这项技术更容易被广泛采用。

二、训练AI的"自知之明"：三种互补的评估策略

教会AI"自知之明"并不容易，就像教一个过度自信的人学会谦虚一样。研究团队开发了三种不同但互补的方法来实现这个目标，每种方法都像从不同角度审视同一个问题。

第一种方法叫做"聚合驱动"的选择性预测。这个方法的基本思路是让AI多次回答同一个问题，然后看看这些答案是否一致。这就像你问几个朋友同一个问题，如果大家的答案都差不多，那这个答案可能比较靠谱；如果每个人说的都不一样，那这个问题可能确实没有确定的答案，或者大家都不太懂。

具体实现上，AI会对同一个问题生成多个候选答案，比如五个或十个。然后通过一个叫做"软投票"的机制来评估这些答案的一致性。这个机制不是简单的多数决，而是考虑每个答案的生成概率。假设AI生成了五个答案，其中三个都是"选项A"，但这三个"选项A"的生成概率分别是0.9、0.8和0.7，而另外两个不同答案的概率只有0.3和0.2，那么系统会判断"选项A"的可信度很高。反之，如果五个答案各不相同，而且概率都差不多，那可信度就很低，系统会选择拒绝回答。

这种方法的优势在于它不需要外部的标注数据，完全依靠AI的内部一致性来判断。但它也有一个缺点：如果AI对某个错误答案非常执着，每次都生成同样的错误答案，那这个方法可能会误判。就像一群人都被同样的谣言误导了，他们的答案很一致，但一致地错误。

第二种方法叫做"对比驱动"的选择性预测，专门用来克服第一种方法的局限。这个方法引入了一个"参考模型"作为对照组。这就像在做科学实验时设置对照组一样，通过对比实验组和对照组的差异来判断效果。

参考模型通常是一个更小、更简单的AI模型，或者是主模型的一个早期版本。关键思路是：如果主模型对某个问题很有把握，它的答案应该和参考模型明显不同，因为它掌握了更多知识；但如果主模型其实也不确定，它的答案可能和参考模型差不多，都是在瞎猜。通过测量主模型和参考模型之间的"知识差距"，就能判断主模型是否真的掌握了相关知识。

具体计算上，研究团队使用了一个叫做"条件逐点互信息"的数学工具。这个工具听起来很复杂，但原理其实不难理解。它测量的是：给定同一个问题，主模型和参考模型生成答案的概率分布有多大差异。差异越大，说明主模型确实学到了参考模型不知道的知识；差异越小，说明主模型可能也在瞎猜。

这种方法特别适合检测AI的"虚张声势"。有时候AI会对错误答案表现得非常自信，所有候选答案都一致地错误。但如果用对比方法，会发现主模型和参考模型的答案其实差不多，这就暴露了主模型其实并不真正掌握相关知识，只是在重复训练数据中的错误模式。

第三种方法最为创新，叫做"学习驱动"的选择性预测。前两种方法都是"事后分析"：先让AI生成答案，然后再判断这个答案是否可信。而第三种方法则是"主动学习"：训练一个专门的评估器，直接预测AI的答案是否会正确。

这个评估器的训练过程很巧妙。研究团队没有使用人工标注的数据，而是利用AI自己生成的大量答案作为训练材料。具体做法是：让AI回答成千上万个问题，然后通过前面提到的聚合方法和对比方法，自动标注哪些答案是高可信度的、哪些是低可信度的。这些自动标注的数据就成为训练评估器的材料。

评估器学习的不是判断答案本身对错，而是学习识别"AI什么时候可能出错"的模式。比如，当问题涉及稀有的专业术语时，AI更容易出错；当问题需要多步推理时，AI也更容易犯错；当问题的表述模糊不清时，AI往往会瞎猜。评估器通过学习这些模式，能够在AI生成答案之前就预测这次回答的可信度。

这种方法的强大之处在于它的适应性。评估器可以不断学习和改进，随着积累的经验越来越多，它对可信度的判断会越来越准确。就像一个老师批改作业时间长了，看一眼学生的答题思路就能判断这个答案靠不靠谱，不需要等到对答案才知道。

研究团队还发现，这三种方法并不是互相排斥的，而是可以组合使用。在实际应用中，可以同时运行多种评估方法，然后综合它们的判断结果。如果三种方法都显示可信度低，那肯定应该拒绝回答；如果三种方法的判断不一致，那就需要更谨慎地处理。这种多重保险的设计，让整个系统的可靠性大大提升。

三、在不确定性中寻找确定：模型如何量化自己的知识边界

判断AI是否应该回答一个问题，关键在于准确测量它的"不确定性"。这听起来有点哲学，但研究团队把它转化成了一系列可以精确计算的数学指标。就像医生用体温计、血压计等工具量化病人的健康状况一样，研究人员设计了多种"不确定性温度计"来测量AI的知识状态。

不确定性有两种根本不同的类型，研究团队把它们比作两种不同的困惑状态。第一种叫"认知不确定性"，这是AI自身知识不足导致的不确定。就像你对一个完全陌生的领域一无所知，自然无法给出确定的答案。第二种叫"偶然不确定性"，这是问题本身的模糊性导致的。就像你问"明天会不会下雨"，即使是最专业的气象学家也无法百分百确定，因为天气本身就有随机性。

对于AI来说，区分这两种不确定性非常重要。如果是认知不确定性，说明AI需要学习更多知识；如果是偶然不确定性，那即使AI再聪明也无法完全消除这种不确定。研究团队开发的评估方法主要针对认知不确定性，因为这是可以通过改进训练和评估来解决的。

测量不确定性最直观的方法是看AI生成答案时的"犹豫程度"。当AI回答一个问题时，它实际上是在计算每个可能答案的概率。如果某个答案的概率是95%，其他答案总共只有5%，那AI显然很确定；如果四个答案的概率分别是26%、25%、25%、24%，几乎平均分配，那AI显然在犹豫，不知道该选哪个。

研究团队使用了一个叫做"熵"的概念来量化这种犹豫程度。熵原本是物理学中描述混乱程度的指标，这里被用来描述答案分布的混乱程度。熵越高，说明答案分布越均匀，AI越不确定；熵越低，说明某个答案占据主导地位，AI越确定。这就像掷骰子，如果骰子是均匀的，每个面出现的概率都是六分之一，熵很高；如果骰子被动了手脚，某个面的概率是90%，熵就很低。

但单靠熵还不够，因为AI有时候会"虚假自信"。它可能对一个错误答案给出很低的熵值，看起来很确定，但实际上是错的。为了解决这个问题，研究团队引入了"多样性采样"的方法。这个方法不是只看AI最倾向的那个答案，而是让AI多次独立回答同一个问题，每次都可能得到不同的答案。如果多次回答得到的都是同一个答案，说明AI真的很确定；如果多次回答得到的答案五花八门，说明AI其实很不确定，只是随机选了一个看起来最好的答案。

这种多样性可以用"方差"来量化。方差大说明多次回答的结果差异大，不确定性高；方差小说明多次回答很一致，不确定性低。这就像射击训练，如果你打十枪都集中在靶心附近，说明你技术稳定；如果十枪分散在靶子各处，说明你其实是在碰运气。

研究团队还发现，不同问题的不确定性来源不同。对于事实性问题，比如"法国的首都是哪里"，不确定性主要来自AI是否记住了这个知识点。而对于推理性问题，比如"根据这些症状最可能是什么疾病"，不确定性既来自知识掌握，也来自推理过程的复杂性。为了应对这种差异，研究团队设计了分层的评估策略。

对于简单的事实性问题，系统主要依赖聚合方法：看多次回答是否一致。对于复杂的推理问题，系统会结合对比方法：看主模型的推理过程是否比参考模型更有说服力。对于开放式问题，系统会更多依赖学习到的评估器：根据以往的经验判断这类问题的风险。这种分层策略就像医生看病，对于简单的感冒直接开药，对于复杂的症状需要做全面检查，对于疑难杂症还要请专家会诊。

一个特别巧妙的设计是"校准机制"。研究团队发现，AI的置信度往往和实际准确率不匹配。比如AI说某个答案有80%把握，但实际上这类问题它只有60%的正确率。校准机制就是要纠正这种偏差，让AI的置信度更接近真实的准确率。这个过程类似于校准温度计：先在已知温度的环境中测试，记录误差，然后调整刻度，让显示值更准确。

校准的具体做法是：在一个有正确答案的测试集上，统计AI在不同置信度水平下的实际准确率。比如发现当AI说有90%把握时，实际只对了70%，那就建立一个映射关系：以后AI说90%，系统会自动调整为70%。这样经过校准的置信度就更可靠了。

研究团队还注意到一个反直觉的现象：有时候AI对简单问题反而不如对复杂问题自信。这是因为简单问题往往有多个近似正确的答案，AI在选择时会犹豫；而复杂问题虽然难，但如果AI掌握了相关知识，答案往往是唯一的，它反而会更确定。这种情况下，不确定性的高低不能简单等同于问题的难易程度，需要结合具体情境分析。

为了处理这种复杂性，研究团队设计了一个"上下文感知"的评估框架。这个框架会分析问题的类型、领域、复杂度等多个维度，然后选择最合适的不确定性评估方法。就像医生会根据病人的年龄、病史、症状等综合信息来判断病情，而不是只看一个指标。这种上下文感知让评估系统更加智能和灵活。

四、从理论到实践：在真实医疗和科学问答中的验证

理论再漂亮，如果不能在真实场景中发挥作用也是空谈。研究团队在六个不同的专业数据集上进行了大规模测试，涵盖了医疗、生物医学、科学和开放领域问答等多个场景。这些测试就像给新药做临床试验，要在各种不同的病人身上验证效果，才能确定它真的有用。

第一个测试场景是医学问答。研究团队使用了MedQA数据集，这是一个包含美国医学执照考试题目的专业数据集。这些题目非常严肃，因为它们是真正用来评估医生资格的。一个错误的医学建议可能导致严重后果，所以这个场景对AI的可靠性要求极高。测试结果显示，当允许AI拒绝回答30%最不确定的问题时，剩余问题的准确率从原本的70%提升到了接近90%。这意味着，如果AI能够诚实地说"这个问题我不确定"，它在有把握的问题上的表现会大幅提升。

更令人印象深刻的是，研究团队分析了那些被拒绝回答的问题，发现它们确实是最容易出错的问题。这证明AI的"自知之明"是真实的，不是盲目拒绝。就像一个负责任的医生，只在真正不确定的时候才说"需要进一步检查"，而不是随便推脱责任。

第二个测试场景是生物医学知识问答。BioASQ数据集包含了来自PubMed等专业医学数据库的真实问题，这些问题往往涉及最新的研究成果和专业知识。与MedQA不同，BioASQ的问题更加开放，很多问题没有唯一正确答案，而是需要从多篇论文中综合信息。在这个更具挑战性的场景中，研究团队提出的方法同样表现出色。

特别有意思的是，研究团队发现对比方法在这个场景中特别有效。因为BioASQ的问题往往涉及最新研究成果，大模型如果真的掌握了这些知识，应该能给出和小模型或旧版本模型明显不同的答案。如果大模型的答案和小模型差不多，说明它可能只是在瞎猜，并没有真正理解最新的研究进展。这种对比就像考试时比较优等生和普通学生的答案，如果优等生的答案和普通学生差不多，那他这道题可能也没掌握好。

第三个测试场景是科学问答。SciQ数据集包含了各种科学领域的问题，从物理、化学到生物、地理。这个数据集的特点是问题难度跨度很大，既有简单的事实性问题，也有需要多步推理的复杂问题。研究团队发现，不同的评估方法在不同难度的问题上表现不同。对于简单问题，聚合方法效果最好，因为AI的答案通常很一致。对于复杂问题，学习驱动的评估器表现更优，因为它学会了识别需要复杂推理的问题，这类问题AI更容易出错。

第四个测试场景是开放领域问答。TriviaQA数据集包含了来自智力竞赛的各种问题，这些问题涵盖历史、文化、娱乐等广泛领域。与专业领域不同，这些问题更加多样化，没有明确的领域边界。测试结果显示，即使在这种高度多样化的场景中，研究团队提出的方法依然有效。这证明了方法的通用性和鲁棒性。

研究团队还进行了一个特别的实验：他们故意给AI输入一些超出其知识范围的问题，比如关于2024年发生的事件，而AI的训练数据只到2023年。结果显示，评估系统能够准确识别这些超纲问题，并选择拒绝回答。这就像考试时遇到超纲题，聪明的学生会意识到这不在复习范围内，不会盲目作答。

除了整体准确率的提升，研究团队还测量了另一个重要指标：覆盖率和准确率的权衡。覆盖率是指AI选择回答的问题占总问题的比例，准确率是AI回答的问题中正确的比例。理想的系统应该在保持高覆盖率的同时提高准确率，而不是通过拒绝大部分问题来获得虚高的准确率。测试结果显示，研究团队的方法在这个权衡上表现很好：即使只拒绝20%的问题，准确率也能提升10个百分点以上。

研究团队还对比了三种评估方法的性能。在大多数场景中，学习驱动的方法表现最好，因为它能够学习特定领域的模式。但聚合方法的优势在于它不需要任何训练，可以即插即用。对比方法则在涉及最新知识或专业领域时特别有效。研究团队建议在实际应用中，根据具体场景选择合适的方法，或者组合多种方法以获得最佳效果。

一个令人意外的发现是，AI的不确定性评估能力会随着模型规模的增大而提升。研究团队测试了不同规模的模型，从70亿参数到700亿参数，发现更大的模型不仅回答问题更准确，对自己的不确定性判断也更准确。这就像更有经验的专家不仅知识更丰富，也更清楚自己的知识边界在哪里。这个发现为未来的模型发展指明了方向：不仅要提升回答能力，也要提升自我认知能力。

研究团队还分析了失败案例，即AI本应拒绝回答但却给出错误答案的情况。他们发现这些失败案例主要集中在两类问题上。第一类是看似简单但实际需要专业知识的问题，AI会误以为自己懂，实际上是在重复训练数据中的常见错误。第二类是需要常识推理的问题，AI可能掌握了相关事实，但在推理过程中出错。这些发现为进一步改进评估系统提供了方向。

五、与现有方法的较量：新系统的独特优势

在人工智能领域，每个新方法都需要和现有的最佳方法进行比较，才能证明它的价值。研究团队将他们的三种评估方法与六种现有的主流方法进行了全面对比，就像一场武林大会，各路高手同台竞技，看谁的功夫更强。

第一个对比对象是"最大概率法"，这是最简单直接的方法。它就是看AI给每个候选答案分配的概率，选择概率最高的那个作为答案，同时把这个最高概率当作置信度。这就像学生考试时选了一个选项，然后根据自己的感觉给这个选项打个信心分。这个方法的问题在于，AI的概率输出往往是"虚高"的，它可能对一个错误答案给出很高的概率。测试结果显示，研究团队提出的三种方法都显著优于最大概率法，特别是在医疗等专业领域，性能提升幅度超过15个百分点。

第二个对比对象是"熵基线法"，它通过测量答案分布的熵来判断不确定性。如前所述，熵高表示答案分布均匀，AI很犹豫；熵低表示某个答案占主导，AI比较确定。这个方法比最大概率法更可靠，因为它考虑了答案分布的整体情况，而不只是最高概率。但它仍然有局限：它无法检测出AI对错误答案的"一致性错误"，即所有候选答案都错误但很一致的情况。研究团队的聚合方法通过多次独立采样来解决这个问题，在实验中表现明显优于单纯的熵基线法。

第三个对比对象是"语义相似度法"。这个方法让AI多次回答同一个问题，然后计算多个答案之间的语义相似度。如果多个答案语义上很相似，说明AI比较确定；如果语义差异很大，说明AI不确定。这个方法的思路和研究团队的聚合方法类似，但实现上更简单。问题在于，语义相似度只关注答案的表面含义，可能忽略关键细节。比如"服用阿司匹林"和"服用布洛芬"在语义上很相似，但在医疗场景中是完全不同的建议。研究团队的方法通过结合概率信息和语义信息，更准确地评估一致性。

第四个对比对象是"自洽性检验法"。这个方法特别针对需要推理的问题设计，它让AI不仅给出答案，还要给出推理过程。然后检查不同推理路径是否得出相同答案。如果多条推理路径都指向同一个答案，可信度就高；如果不同推理路径得出不同答案，可信度就低。这个方法在数学和逻辑问题上效果很好，但在需要专业知识的领域不够有效，因为AI可能用看似合理的推理过程得出错误结论。研究团队的对比方法通过引入参考模型，能够检测出这种"似是而非"的推理，在专业领域的表现更优。

第五个对比对象是"集成方法"，这是机器学习中的经典技术。它训练多个独立的模型，让它们都回答同一个问题，然后通过投票或平均来得出最终答案。如果多个模型一致，可信度高；如果模型之间意见分歧，可信度低。这个方法的缺点是计算成本非常高，需要维护多个大型模型。研究团队的聚合方法通过在单个模型内多次采样，达到了类似效果，但成本低得多。实验显示，在大多数场景中，聚合方法的性能接近甚至超过集成方法，但计算成本只有后者的十分之一左右。

第六个对比对象是"基于验证器的方法"，这与研究团队的学习驱动方法最相似。这类方法训练一个独立的验证模型来判断答案的正确性。区别在于，传统验证器需要大量人工标注的正确/错误答案对来训练，而研究团队的方法使用自动生成的伪标签进行训练。实验结果显示，即使不使用人工标注，研究团队的方法性能也能达到甚至超过传统验证器，这大大降低了实际应用的门槛。

研究团队还进行了一个创新性的组合实验。他们将自己的三种方法和现有的六种方法进行各种组合，测试是否能进一步提升性能。结果发现，将聚合方法和对比方法结合使用效果最好，两者的优势能够互补。聚合方法擅长检测随机错误，对比方法擅长检测系统性偏差，两者结合可以覆盖更多类型的不确定性。

在计算效率方面的比较也很有意思。研究团队测量了每种方法的运行时间和计算资源消耗。最大概率法最快但效果最差，几乎不需要额外计算。聚合方法需要多次采样，计算成本是基线的5到10倍，但效果提升显著。对比方法需要运行参考模型，成本是基线的2到3倍，相对经济。学习驱动的方法在训练阶段成本较高，但一旦训练完成，推理阶段的成本很低，适合需要大规模部署的场景。

研究团队还测试了不同方法在极端情况下的表现。他们构造了一些专门设计的"陷阱问题"，这些问题看似简单但实际上很容易误导AI。比如"鸟会飞，鸵鸟是鸟，所以鸵鸟会飞吗？"这种问题考验AI是否真正理解概念，而不是简单套用模板。测试结果显示，对比方法在这类问题上表现最好，因为它能检测出AI是在机械套用训练数据的模式，还是真正理解了问题。

另一个重要的比较维度是方法的可解释性。医生、律师等专业用户不仅需要知道AI是否确定，还需要理解为什么AI确定或不确定。聚合方法的可解释性很好，因为它可以展示多个候选答案让用户看到AI的犹豫。对比方法的可解释性中等，它可以说明AI掌握的知识和参考模型的差异。学习驱动的方法可解释性相对较弱，因为评估器是黑盒模型，难以解释它的判断依据。研究团队建议在需要高可解释性的场景中优先使用聚合方法或对比方法。

最后，研究团队分析了不同方法对模型规模的敏感性。他们发现，对于小模型，聚合方法效果最好，因为小模型的不确定性主要来自知识不足，多次采样能有效检测这种不确定性。对于大模型，对比方法和学习驱动的方法更有优势，因为大模型的问题主要是判断知识边界，而不是简单的知识不足。这个发现为在不同规模的模型上选择评估方法提供了指导。

六、未来之路：从实验室到日常应用的挑战

尽管研究成果令人鼓舞，但从实验室原型到真正改变人们使用AI的方式，还有很长的路要走。研究团队在论文中坦诚地讨论了当前方法的局限性和未来需要解决的挑战，就像探险者在庆祝登顶一座山峰后，清醒地意识到还有更多山峰等待攀登。

第一个挑战是计算成本。虽然研究团队设计的方法已经比传统集成方法经济得多，但对于需要实时响应的应用场景，仍然可能太慢。聚合方法需要多次生成答案，即使只生成五次，响应时间也会变成原来的五倍。对于搜索引擎或客服机器人这类需要秒级响应的应用，这可能无法接受。研究团队提出了几个可能的解决方向：一是开发更高效的采样算法，减少生成答案的次数；二是使用更小的参考模型来降低对比方法的成本；三是优化评估器的架构，让学习驱动的方法更快。

第二个挑战是泛化能力。虽然在六个数据集上的测试覆盖了多个领域，但真实世界的应用场景更加多样化。比如，一个医疗AI可能会遇到训练数据中完全没有的罕见疾病，或者被问到和医疗相关但超出专业范围的问题，比如医保报销政策。当前的评估方法在这些"分布外"的问题上表现如何，还需要更多测试。研究团队建议未来的工作应该专门针对这些边缘情况设计测试，确保评估系统在遇到意外情况时也能可靠工作。

第三个挑战是多语言和多模态的扩展。目前的研究主要集中在英文的文本问答，但真实应用往往需要处理多种语言，甚至是包含图像、视频的多模态信息。比如，一个医疗AI可能需要根据患者描述的症状（文本）和医学影像（图像）综合判断。在这种多模态场景中，如何评估AI的不确定性是一个开放问题。不同模态的信息可能相互矛盾，增加了评估的复杂性。研究团队认为这是一个重要的未来研究方向。

第四个挑战是用户体验设计。即使技术上能够准确评估AI的不确定性，如何向用户展示这个信息也很重要。简单地说"我不确定"可能不够，用户可能需要知道为什么不确定、不确定到什么程度、有什么替代方案。研究团队建议未来的工作应该与用户体验研究者合作，设计更友好的交互方式。比如，可以显示AI生成的多个候选答案让用户选择，或者提供"部分答案"而不是完全拒绝回答。

第五个挑战是动态调整拒绝阈值。在当前的实现中，拒绝回答的阈值是固定的：可信度低于某个值就拒绝。但在实际应用中，这个阈值可能需要根据情境动态调整。比如，在医疗急诊场景中，即使不确定也要给出最佳猜测，因为拖延决策可能危及生命；而在常规体检中，可以设置更高的阈值，确保诊断完全可靠。如何自动识别情境并调整阈值，是一个有待解决的问题。

第六个挑战是对抗性攻击。随着AI系统的广泛部署，可能有人会故意设计问题来欺骗评估系统，让AI对错误答案显示高置信度，或者让AI拒绝回答本应能回答的问题。研究团队初步测试了一些简单的对抗性问题，发现评估系统有一定的防御能力，但还不够强大。未来需要专门研究如何增强评估系统的鲁棒性，抵御恶意攻击。

第七个挑战是与人类反馈的结合。当前的方法完全依赖AI的内部信号来评估不确定性，没有利用人类的反馈。但在实际应用中，用户的反馈是宝贵的信息来源。比如，如果用户点击了"这个答案有帮助"，说明AI的判断是对的；如果用户提交了纠正，说明AI出错了。研究团队建议未来的系统应该能够从这些反馈中学习，不断改进对不确定性的评估。这种"人在回路"的方法可能比纯自动化的方法更可靠。

第八个挑战是长对话场景中的不确定性传播。在多轮对话中，前面回合的不确定性会影响后续回合。比如，如果AI在第一轮对话中给出了不确定的答案，那么基于这个答案的后续讨论都可能不可靠。如何追踪和管理这种不确定性的传播，是一个复杂的问题。研究团队认为这需要对整个对话历史进行建模，而不是只看单个问答对。

第九个挑战是与其他安全机制的集成。选择性预测只是让AI更安全的众多方法之一，还有内容过滤、事实核查、偏见检测等多种机制。如何将这些机制有机地结合起来，形成一个综合的安全框架，需要系统性的设计。研究团队建议未来的工作应该从系统工程的角度考虑这个问题，而不是孤立地优化单个组件。

第十个挑战是标准化和评估基准的建立。目前不同研究团队使用不同的数据集和评估指标，难以直接比较不同方法的优劣。研究团队呼吁学术界和工业界合作，建立统一的评估基准和标准，就像计算机视觉领域的ImageNet或自然语言处理领域的GLUE基准一样。这样可以加速整个领域的进步。

除了这些技术挑战，研究团队还提到了一些社会和伦理层面的问题。比如，如果AI频繁拒绝回答，用户可能会感到沮丧，转而使用不太安全但更"顺从"的AI系统。如何在安全性和可用性之间找到平衡，需要考虑人类行为和社会因素。另一个问题是责任归属：当AI拒绝回答后，用户自行查找信息并做出错误决定，谁应该负责？这些问题没有简单的答案，需要技术专家、伦理学家、政策制定者共同探讨。

研究团队最后强调，选择性预测不是让AI变得保守或无用，而是让它变得诚实和可靠。一个会说"我不知道"的AI，长远来看比一个什么都假装知道的AI更有价值。就像我们更信任那些诚实承认知识局限的专家，而不是那些吹嘘自己无所不知的江湖骗子。这项研究为构建更值得信赖的AI系统迈出了重要一步，但要真正实现这个愿景，还需要整个学术界和工业界的持续努力。

说到底，这项研究解决的是一个根本性的问题：如何让AI知道自己不知道什么。这听起来有点绕口，但实际上是人工智能迈向真正智能的关键一步。人类智慧的一个重要特征就是自知之明，知道自己的知识边界在哪里。这项研究让AI朝这个方向前进了一大步。

研究团队通过三种互补的方法，给AI装上了"诚实传感器"。聚合方法让AI通过自我对话来检验答案的一致性，对比方法通过比较不同模型来检测知识差距，学习驱动的方法通过经验积累来识别风险模式。这三种方法各有优势，可以根据实际场景灵活选择或组合使用。

在医疗、科学、开放领域等多个场景的测试中，这些方法都显著提升了AI系统的可靠性。更重要的是，这些方法不需要昂贵的人工标注，也不需要重新训练整个模型，可以低成本地应用到现有的AI系统中。这大大降低了实际部署的门槛。

当然，从实验室到真实世界的应用还有很多挑战需要克服。计算成本、泛化能力、多模态扩展、用户体验等方面都需要进一步改进。但这项研究为这些未来工作奠定了坚实基础，提供了清晰的研究路线图。

对于普通用户来说，这项研究意味着未来你使用AI助手时，它会更加诚实可靠。它不会为了讨好你而编造答案，而是会在不确定时坦诚告知。这种诚实最终会让AI成为更值得信赖的工具，真正融入我们的日常生活和专业工作。

对于研究者和开发者来说，这项研究提供了一套完整的方法论和技术工具箱，可以直接用来改进自己的AI系统。开源的代码和详细的实验结果也为进一步研究提供了宝贵的参考。

这项由牛津大学领导、多所顶尖大学合作完成的研究，发表于2025年1月的arXiv平台，标志着AI可靠性研究的一个重要里程碑。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2501.09588v1查询完整论文，其中包含详细的数学推导、算法实现和实验数据。

人工智能的未来不仅在于变得更聪明，也在于变得更诚实。这项研究告诉我们，这两个目标并不矛盾，而是相辅相成的。一个知道自己局限的AI，反而能在它擅长的领域发挥更大的价值。这或许是迈向真正可信赖人工智能的关键一步。

**Q&A**

Q1：AI的选择性预测技术是如何工作的？

A：选择性预测让AI在回答问题前先评估自己的把握程度。它通过三种方法实现：一是让AI多次回答同一问题，看答案是否一致；二是对比大模型和小模型的答案差异，判断大模型是否真正掌握了知识；三是训练一个专门的评估器来识别AI容易出错的问题类型。当AI判断自己不够确定时，就会选择拒绝回答而不是瞎猜。

Q2：选择性预测会不会让AI变得太保守不好用？

A：研究测试显示不会。即使只拒绝回答20%到30%最不确定的问题，剩余问题的准确率就能从70%提升到90%左右。这些被拒绝的问题确实是AI容易出错的，拒绝回答比给出错误答案更负责任。在医疗、法律等专业领域，这种诚实比盲目回答更有价值。而且拒绝阈值可以根据实际场景调整，在紧急情况下可以降低阈值，在常规咨询中提高阈值。

Q3：普通用户什么时候能用上这项技术？

A：这项技术已经可以应用到现有的AI系统中，因为它不需要重新训练整个模型。不过从研究到大规模部署还需要一些时间，需要解决计算效率、用户体验设计等问题。预计在未来一到两年内，主流的AI助手产品可能会逐步引入类似的可信度评估功能，让用户知道AI回答的可靠程度，在不确定时提醒用户谨慎对待。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.