网易首页 > 网易号 > 正文 申请入驻

剑桥大学突破性研究:如何让AI在对话中学会真正的自信判断

0
分享至


这项由剑桥大学与复旦大学合作开展的重要研究发表于2026年1月,论文编号为arXiv:2601.02179v1。研究团队首次系统性地探索了一个非常有趣但又极其重要的问题:当我们与AI进行多轮对话时,AI是否真的知道自己在说什么,它对自己答案的信心程度是否可靠。

设想这样一个场景:你正在与AI助手讨论一个复杂问题,随着对话的深入,你提供了越来越多的信息和线索。理想情况下,AI应该像一个聪明的学生一样,随着获得更多信息而变得更加自信和准确。但现实中,AI的表现究竟如何呢?

研究团队发现了一个令人意外的现象:尽管AI技术已经非常先进,但在多轮对话中,现有的AI系统在判断自己答案的可靠性方面存在严重问题。就像一个学生在考试中,即使题目变得越来越容易,他对自己答案的信心却可能忽高忽低,甚至完全不符合实际的正确率。

这项研究的意义远不止学术价值。在现实应用中,AI的自信度判断直接关系到我们是否能安全地依赖这些系统。当AI用于医疗诊断、法律咨询或金融决策时,它必须能够准确地告诉我们:"我对这个答案有多确定"。如果AI无法可靠地评估自己的信心水平,那么在关键时刻,我们就无法判断何时应该相信AI的建议,何时应该寻求人类专家的帮助。

一、多轮对话中的信心迷局:为什么这个问题如此重要

要理解这项研究的重要性,我们需要从日常生活中的一个常见场景说起。当你与朋友讨论一个复杂问题时,比如计划一次旅行,随着你们交换更多信息——预算、时间、偏好——你们对最终决策的信心通常会增加。这是人类思维的自然规律:更多相关信息通常带来更高的确定性。

然而,当前的AI系统在这方面表现得像一个情绪不稳定的顾问。有时它会因为获得一点点新信息就过分自信,有时即使掌握了足够的信息也依然缺乏信心。更糟糕的是,它的信心水平往往与实际的正确率不匹配——可能在错误答案上表现得非常自信,而在正确答案上却显得犹豫不决。

研究团队指出,以往的相关研究主要集中在单轮问答上,就像只研究学生回答单个选择题的表现。但现实中的AI应用,特别是智能助手、自动客服、甚至自主代理系统,都需要在多轮交互中保持可靠的信心判断能力。

这个问题的复杂性在于,多轮对话不是简单的信息累加。每一轮新的交互都可能改变整个问题的性质,就像拼图游戏中,每放上一块新拼图都可能让你对整幅图画有全新的理解。AI需要能够动态地调整自己的信心水平,既不能因为一点新信息就盲目自信,也不能在掌握充分信息时依然优柔寡断。

研究团队特别关注两个核心标准。第一个是校准性,简单来说就是"说到做到"的能力。如果AI声称自己有80%的信心,那么在类似情况下,它应该有大约80%的正确率。第二个是单调性,即随着获得更多有用信息,AI的信心应该逐步增加,而不是忽高忽低。

这两个标准听起来简单,但在实际应用中却极其困难。现实中的对话充满了噪音、歧义和误导信息。AI需要能够区分哪些新信息是真正有价值的,哪些只是对话的"填充词"。更重要的是,它需要在整个对话过程中保持对自己能力的准确认知。

二、创新的研究方法:从猜谜游戏到科学实验

为了系统性地研究这个问题,研究团队设计了一套巧妙的实验方法。他们没有直接分析现有的复杂对话数据,而是创造了一个可控的实验环境,就像在实验室中研究植物生长一样,通过控制各种变量来观察AI的真实表现。

研究团队的核心创新是开发了"暗示者-猜测者"范式。这个方法的灵感来自经典的猜谜游戏,但经过精心设计以满足科学研究的严格要求。在这个设置中,一个AI系统扮演"暗示者"的角色,它知道正确答案,需要逐步提供线索。另一个AI系统扮演"猜测者",需要根据累积的线索进行猜测,并评估自己的信心水平。

这种方法的巧妙之处在于它确保了信息的渐进性和相关性。与真实对话中可能出现的无关信息不同,每个新线索都是精心设计的,要么提供新的有用信息,要么是为了测试AI是否会被无关信息误导。这样,研究团队就能够清晰地观察AI的信心如何随着真正有价值的信息增加而变化。

研究涵盖了两种不同的场景。第一种是"信息不足"场景,类似于经典的20问游戏或者猜城市游戏。在这种情况下,初始问题可能有很多合理答案,随着线索的增加,可能的答案范围逐渐缩小。第二种是"信息充足但困难"场景,使用了现有的渐进式问答数据集,其中从一开始就存在唯一正确答案,但需要足够的信息才能推导出来。

为了确保实验的严谨性,研究团队还设计了巧妙的对照实验。他们创造了"安慰剂"线索——看似提供了新信息但实际上毫无价值的提示。这样可以测试AI是否真的在根据信息质量调整信心,还是仅仅因为对话轮次增加而变得更自信。

三、信心评估方法大比拼:五种方法的较量

研究团队系统性地评估了五种主要的信心评估方法,每种方法都有其独特的工作原理和适用场景。这就像比较五种不同的温度计,看看哪种在特定环境下最准确。

第一种方法是直接询问式(口头化)评估。研究团队设计了两种变体:简单版本直接要求AI对自己的答案给出0到100的信心分数;复杂版本则先要求AI进行步骤化思考,然后再给出信心评分。这种方法的优点是直观易懂,就像直接问学生"你对这个答案有多确定"。但研究发现,这种方法在多轮对话中表现不稳定,容易受到对话表面特征的影响。

第二种方法是自一致性检验。这种方法的原理是让AI多次独立回答同一个问题,然后看答案的一致程度。如果AI多次给出相同答案,就认为它对这个答案更有信心。这就像让一个人多次独立做同一道题,如果每次都得出相同答案,我们就认为这个答案更可靠。这种方法在单轮问答中通常表现良好,但在多轮对话的某些场景下效果有限。

第三种和第四种方法都基于AI内部的"神经信号"——即模型在生成答案时的内部概率分布。第三种方法(P(TRUE))询问AI其答案是否正确,第四种方法(P(SUFFICIENT))询问当前信息是否足以确定答案。这两种方法的区别虽然微妙,但在实际应用中产生了显著差异。

研究团队特别推荐的P(SUFFICIENT)方法在原理上更符合多轮对话的特点。它不是简单地询问答案是否正确,而是询问当前掌握的信息是否足以唯一确定正确答案。这种方法特别适合信息逐步揭示的场景,因为即使AI的当前猜测碰巧正确,如果信息不充分,它也会保持适当的谦逊。

实验结果显示,不同方法在不同场景下的表现差异巨大。在信息逐步揭示的场景中,P(SUFFICIENT)方法表现最佳,能够准确反映信息的充分程度。而在信息充足但困难的场景中,自一致性方法通常更可靠。这说明没有万能的信心评估方法,需要根据具体应用场景选择合适的工具。

四、令人意外的实验发现:AI信心判断的真实表现

当研究团队分析实验数据时,发现了一些既令人惊讶又发人深省的现象。首先,几乎所有被测试的AI系统在多轮对话中的信心校准都存在严重问题。用人类的标准来衡量,这些AI就像那些对自己能力缺乏准确认知的人——要么过度自信,要么过度谦虚,很少能准确反映自己的真实能力水平。

具体来说,传统的口头化信心评估方法表现最不稳定。AI系统经常会因为对话变长而变得更加自信,即使新增的信息完全无关紧要。这就像一个人仅仅因为谈话时间更长就认为自己更了解话题,而不考虑对话内容的实际价值。

更有趣的是,当研究团队使用"安慰剂信息"进行测试时,发现不同的评估方法对无用信息的敏感度差异巨大。一些方法会被毫无价值的信息误导,导致AI产生虚假的信心增长。而P(SUFFICIENT)方法在这方面表现最佳,它能够有效识别真正有价值的信息,甚至在接收到无用信息时降低信心水平。

研究还发现了一个有趣的规律:当评估AI对正确答案的信心时,所有方法的单调性都有显著改善。换句话说,如果我们事先知道正确答案,AI的信心变化模式会更加合理。这个发现暗示AI系统实际上具有一定的"自我认知"能力,它们能够部分识别自己的答案是否符合积累的证据,但这种能力在实际应用中难以完全发挥。

另一个重要发现是模型规模的影响。较大的AI模型在信心校准方面通常表现更好,特别是在使用P(SUFFICIENT)方法时。这符合我们的直觉:更大、更复杂的模型应该具有更好的自我认知能力。但令人意外的是,这种改善并不是线性的,不同模型家族之间也存在显著差异。

研究团队还比较了多轮对话与单轮总结的效果。他们发现,当把多轮对话中的所有信息整合成一个简洁的总结时,AI的准确率基本保持不变,但信心校准会发生明显变化。对于小型模型,总结格式往往导致更差的校准效果,说明这些模型依赖对话的结构性信息来做出合理的信心判断。而大型模型则展现出更强的适应性,能够在两种格式下都保持相对稳定的表现。

五、深入的机制分析:AI为什么会犯这些错误

为了理解AI在信心判断上的问题根源,研究团队进行了深入的机制分析。他们发现,AI的信心判断错误主要来自三个方面的混淆。

首先是信息价值与对话长度的混淆。许多AI系统倾向于将对话的进行本身视为信心增加的理由,而不是仔细评估新信息的实际价值。这就像一个学生认为学习时间越长成绩就一定越好,而忽略了学习内容的质量。这种混淆在口头化评估方法中最为明显,AI经常会因为对话轮次增加而表现出不合理的信心增长。

其次是局部正确性与全局证据充分性的混淆。AI系统有时会因为当前答案恰好正确就表现出高度信心,即使这个正确答案更多是基于不充分信息的幸运猜测。这就像在拼图游戏中,虽然你猜对了某个位置的拼图块,但实际上你并没有看到足够的线索来确定这个选择。P(SUFFICIENT)方法的优势正在于它能够区分"恰好正确"和"有充分依据"。

第三个问题是格式敏感性。研究发现,AI的信心判断会受到信息呈现方式的显著影响。同样的信息以对话形式呈现与以总结形式呈现,会导致完全不同的信心评估结果。这说明当前的AI系统还没有形成稳健的信心评估机制,容易被表面形式误导。

研究团队还发现了一个有趣的现象:AI系统在不同任务类型上的表现差异很大。在需要逐步缩小答案范围的任务中(如20问游戏),P(SUFFICIENT)方法表现最佳,因为它能够准确反映剩余不确定性。而在需要积累证据推导单一答案的任务中(如渐进式问答),自一致性方法往往更可靠。

这些发现揭示了一个重要事实:AI的信心判断不仅是技术问题,更是认知机制的问题。当前的AI系统缺乏类似人类的元认知能力——即对自己认知过程的认知。人类能够相对准确地评估自己对某个问题的了解程度,部分原因是我们有复杂的元认知系统来监控自己的思维过程。而AI系统虽然在许多认知任务上超越了人类,但在元认知方面还有很大差距。

六、实际应用的启示:如何在现实中运用这些发现

这项研究的价值不仅在于揭示问题,更在于为实际应用提供了具体指导。对于正在开发或使用AI对话系统的研究者和工程师来说,这些发现提供了宝贵的设计原则。

最直接的应用建议是根据具体场景选择合适的信心评估方法。在需要逐步收集信息的应用中,如智能客服或个人助理,P(SUFFICIENT)方法能够提供更可靠的信心指标。这种方法特别适合那些需要AI主动询问澄清问题的场景,因为它能够准确识别何时信息不充分,需要进一步探询。

对于需要在给定信息下做出最佳判断的应用,如文档分析或数据解读,自一致性方法可能是更好的选择。这种方法通过多次采样来评估答案的稳定性,能够有效识别那些基于充分推理的答案。

研究还为AI系统的用户界面设计提供了重要启示。传统的设计往往假设AI的信心评估是可靠的,直接向用户展示信心分数。但基于这项研究的发现,更明智的做法可能是设计更复杂的信心传达机制。例如,系统可以明确区分"我对这个答案有信心"和"我有足够信息来回答这个问题",为用户提供更细致的可信度信息。

对于高风险应用领域,如医疗诊断或法律咨询,研究结果强调了人机协作的重要性。AI系统不应该仅仅提供答案和信心分数,而应该能够解释其信心判断的基础,说明还需要什么额外信息来提高可靠性。这样,人类专家就能够更好地判断何时可以信任AI的建议,何时需要进行额外验证。

研究还揭示了模型规模对信心校准的影响,这对资源有限的应用场景具有重要意义。如果只能使用较小的模型,那么更需要谨慎设计信心评估机制,可能需要结合多种方法或引入额外的校准步骤。

另一个重要启示是关于训练数据和方法的改进方向。当前的AI训练主要关注准确性,但很少专门优化信心校准能力。未来的训练方法可能需要专门设计校准损失函数,或者在训练过程中加入专门的信心评估任务。

七、未来展望:通向更可信AI的路径

这项研究不仅揭示了当前AI系统的局限性,也为未来的改进指明了方向。研究团队提出了几个值得深入探索的研究方向,这些方向可能会带来AI信心估计的根本性突破。

首先是开发更专业的信心校准训练方法。当前的AI训练主要优化任务表现,但很少专门训练模型的自我认知能力。未来的研究可能会开发专门的训练目标和损失函数,让AI学会更准确地评估自己的知识边界。这就像训练学生不仅要知道答案,还要知道自己对答案的确定程度。

其次是探索更复杂的信心表达方式。目前的研究主要使用简单的数值信心分数,但人类的信心判断远比这复杂。未来的AI系统可能需要学会表达不同类型的不确定性,区分知识缺失、推理不确定、信息模糊等不同来源的不确定性。

第三个重要方向是开发适应性信心评估机制。理想的AI系统应该能够根据对话的具体情况动态选择最合适的信心评估方法,就像人类会根据不同场景调整自己的认知策略。这需要AI系统具备更高层次的元认知能力。

研究团队还强调了标准化评估框架的重要性。就像这项研究建立的InfoECE指标和单调性测试一样,未来需要更多专门针对多轮对话的评估方法和基准数据集。这将帮助研究社区更系统地改进AI的信心校准能力。

从更广阔的角度看,这项研究推动了对AI可解释性和可信赖性的深入思考。真正可信的AI不仅要能给出正确答案,还要能准确传达自己的可信程度。这对于AI技术在关键领域的广泛应用至关重要。

研究也启发我们思考人工智能与人类认知的本质区别。人类的信心判断虽然也不完美,但通常具有合理的校准性和适应性。理解这种差异的根源,可能会带来AI认知机制的根本性改进。

最后,这项研究强调了跨学科合作的价值。AI的信心校准问题不仅是技术问题,也涉及认知科学、心理学和决策理论。未来的突破可能需要来自多个领域的协作努力。

说到底,这项研究提醒我们,尽管AI技术已经取得了令人瞩目的进展,但在成为真正可信赖的智能伙伴方面还有很长的路要走。不过,正如这项研究所展示的,通过系统性的科学研究和创新的实验方法,我们正在逐步解决这些关键问题。这不仅会让AI变得更加可靠,也会让我们对人工智能的本质有更深入的理解。对于每个使用AI技术的人来说,了解这些局限性和改进方向,将有助于更明智、更安全地利用这些强大的工具。

Q&A

Q1:AI在多轮对话中的信心判断为什么这么重要?

A:AI的信心判断直接关系到我们能否安全依赖这些系统。在医疗诊断、法律咨询等关键应用中,AI必须准确告诉我们它对答案的确定程度。如果AI无法可靠评估自己的信心水平,我们就无法判断何时应该相信AI建议,何时需要寻求人类专家帮助。

Q2:P(SUFFICIENT)方法比其他信心评估方法好在哪里?

A:P(SUFFICIENT)方法询问当前信息是否足以确定答案,而不是简单询问答案是否正确。这种方法特别适合信息逐步揭示的场景,即使AI当前猜测碰巧正确,如果信息不充分,它也会保持适当谦逊。实验显示它能有效识别真正有价值的信息,甚至在接收无用信息时会降低信心。

Q3:这项研究对普通用户使用AI有什么实际指导意义?

A:普通用户应该意识到AI的信心分数并不总是可靠,特别是在复杂对话中。不要仅仅因为AI表现得很自信就完全相信它。在重要决策中,最好要求AI解释其信心判断的基础,说明还需要什么额外信息。同时,对于不同类型的问题,AI的可靠性可能差异很大,需要根据具体情况判断。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国股市:如果接下来迎来牛市,就买这种股票,几乎吃掉所有利润

中国股市:如果接下来迎来牛市,就买这种股票,几乎吃掉所有利润

股经纵横谈
2026-01-12 16:17:21
特朗普要强抢格陵兰,中国安心当个好观众,谁输谁赢对咱都是好事

特朗普要强抢格陵兰,中国安心当个好观众,谁输谁赢对咱都是好事

这班我上够了
2026-01-12 19:40:03
事件升级!闫学晶彻底凉凉,官媒下场、资本表态,赵本山没说错

事件升级!闫学晶彻底凉凉,官媒下场、资本表态,赵本山没说错

民间平哥
2026-01-12 20:18:45
她长得漂亮,演技好,父母却一个瘫痪,一个截肢,丈夫将她宠成宝

她长得漂亮,演技好,父母却一个瘫痪,一个截肢,丈夫将她宠成宝

阿讯说天下
2026-01-02 12:50:06
皇马9000万红星破防 目睹巴萨夺冠怒踢水瓶泄愤 狼狈滑倒看呆队友

皇马9000万红星破防 目睹巴萨夺冠怒踢水瓶泄愤 狼狈滑倒看呆队友

我爱英超
2026-01-12 07:53:47
日本发现海量稀土,部分稀土储量可供全球使用700多年,今日试采

日本发现海量稀土,部分稀土储量可供全球使用700多年,今日试采

蓝色海边
2026-01-12 01:18:11
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
不踢传控的安东尼奥绝对肚里有货,中国U23丑陋赢球背后其实是“看菜下饭”

不踢传控的安东尼奥绝对肚里有货,中国U23丑陋赢球背后其实是“看菜下饭”

上观新闻
2026-01-11 22:14:10
曝库皮扬斯克数百俄军被包围后投降!乌军摧毁俄罗斯军船

曝库皮扬斯克数百俄军被包围后投降!乌军摧毁俄罗斯军船

项鹏飞
2026-01-10 20:46:46
今天股市相当不对劲!不出意外的话,2020年行情或将会再次重演?

今天股市相当不对劲!不出意外的话,2020年行情或将会再次重演?

股市皆大事
2026-01-12 17:18:46
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,如今又被央视点名

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,如今又被央视点名

付老师种植技术团队
2026-01-12 20:08:51
抗癌归来的冯提莫,力挺“直播禁美颜”,素颜后恶心的一幕上演了

抗癌归来的冯提莫,力挺“直播禁美颜”,素颜后恶心的一幕上演了

跳跳历史
2026-01-09 11:32:07
鲍姆格特纳失踪次日 俄驻塞外交官办公室身亡 使馆拒警方调查

鲍姆格特纳失踪次日 俄驻塞外交官办公室身亡 使馆拒警方调查

老马拉车莫少装
2026-01-12 20:12:31
以前没人要,现在越来越香!盘点CBA本赛季3大CUBA球员

以前没人要,现在越来越香!盘点CBA本赛季3大CUBA球员

男足的小球童
2026-01-12 20:04:54
特斯拉一员工建议员工加班,被全票通过立即开除,终身拉黑

特斯拉一员工建议员工加班,被全票通过立即开除,终身拉黑

历史总在押韵
2026-01-11 15:12:47
1979年泰国的街头,25岁的成龙和24岁的林青霞留下了珍贵的合照

1979年泰国的街头,25岁的成龙和24岁的林青霞留下了珍贵的合照

动物奇奇怪怪
2025-12-30 05:01:40
男子向碗里放腋毛“碰瓷”餐馆被行拘罚款,市监局上门调查顺便查出其他小问题店方被罚200元,店主打算转让门店

男子向碗里放腋毛“碰瓷”餐馆被行拘罚款,市监局上门调查顺便查出其他小问题店方被罚200元,店主打算转让门店

极目新闻
2025-11-23 13:50:59
闫学晶儿子道歉:“娘的错,儿子担!感谢大家的监督批评!我们错了”

闫学晶儿子道歉:“娘的错,儿子担!感谢大家的监督批评!我们错了”

极目新闻
2026-01-12 13:54:18
慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

铭记历史呀
2026-01-12 15:12:59
CBA最新消息!曝上海男篮裁掉弗格,赵继伟正式复出

CBA最新消息!曝上海男篮裁掉弗格,赵继伟正式复出

体坛瞎白话
2026-01-12 10:32:51
2026-01-12 20:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6835文章数 546关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

旅游
教育
房产
时尚
军事航空

旅游要闻

中国文旅看山西:省文旅厅和交通厅联手规划打造“万里山河”景观路

教育要闻

刚迎超长寒假!北京中小学又撞上近十年“最短学期”?!

房产要闻

重磅调规!417亩商改住+教育地块!海口西海岸又要爆发!

伊姐周日热推:电视剧《御赐小仵作2》;电视剧《偶像疯子》......

军事要闻

官方确认:歼10CE在空战中击落多架战机

无障碍浏览 进入关怀版