厦门大学团队让机器人更诚实可靠的重大突破|实验|苏格拉底|人工智能

厦门大学团队让机器人更诚实可靠的重大突破

2026-01-28 23:35:03　来源: 至顶AI实验室

北京举报

分享至

在人工智能快速发展的今天，我们经常遇到这样的情况：向AI助手提问时，它们总是自信满满地给出答案，哪怕这个答案可能是错误的。就像一个不懂装懂的学生，明明不知道正确答案，却硬要编造一个听起来很有道理的回答。这个问题在需要搜索信息来回答复杂问题的AI系统中尤为突出。

厦门大学人工智能研究所联合美团、西湖大学和香港理工大学的研究团队，在2026年1月发表了一项突破性研究成果，论文编号为arXiv:2601.11037v1。这项研究首次系统性地解决了AI搜索助手"不敢承认无知"的问题，让AI学会了在确实无法回答问题时诚实地说出"我不知道"。

当前的AI搜索助手就像是一个过度自信的导游。当游客问路时，即使导游对某个地方完全不熟悉，他也会硬着头皮指一个方向，而不是诚实地承认"我不清楚这个地方在哪里"。同样，现在的AI助手在面对复杂的多步骤推理问题时，即使搜索到的信息不足以支撑准确答案，它们也很少会承认自己的局限性，而是倾向于给出看似合理但可能错误的答案。

这种现象背后有着深层的技术原因。目前训练AI助手的方法主要关注"答对题目"这个目标，就像学校里只奖励考试得高分的学生，却不鼓励学生诚实地承认自己不懂的地方。这种训练方式虽然提高了AI回答问题的准确率，但也让AI失去了自我认知的能力，不知道什么时候应该停下来说"我需要更多信息才能回答这个问题"。

研究团队发现，这个问题在使用强化学习训练的AI搜索助手中特别严重。强化学习就像是给AI设置了一个游戏规则：回答正确就得分，回答错误就扣分。在这种游戏规则下，AI很快学会了"宁可瞎猜也不能不回答"的策略，因为承认不知道往往不会得到任何奖励。

为了解决这个根本问题，研究团队提出了一个创新的解决方案，他们称之为"边界感知策略优化"（BAPO）。这个方法的核心思路就像教导一个学生不仅要会回答问题，还要知道自己能力的边界在哪里。

研究团队的解决方案包含了两个巧妙的设计。第一个是"群体边界感知奖励机制"。这就像组织一次团队考试，如果整个小组都无法正确回答某个问题，那么组内有人诚实地说"我不知道"就应该得到奖励。具体来说，当AI系统为同一个问题生成多个不同的回答尝试，如果所有尝试都没有得到正确答案，那么其中承认"不知道"的回答就会获得额外的奖励分数。

第二个设计是"适应性奖励调节器"。这个机制就像一个有经验的老师，知道在什么时候该鼓励学生探索未知领域，什么时候该鼓励学生诚实承认自己的局限。在AI学习的早期阶段，系统主要鼓励AI积极探索和尝试回答问题，避免它过早地放弃思考。只有当AI在某个领域已经相对成熟，遇到确实超出能力范围的问题时，系统才会奖励它诚实地承认不知道。

这种设计解决了一个关键的平衡问题。如果过早地鼓励AI说"不知道"，它可能会变得过于保守，遇到稍微困难的问题就放弃。但如果从不鼓励承认无知，AI就会变得盲目自信，经常给出错误答案。研究团队的方法巧妙地在这两个极端之间找到了平衡点。

为了验证这个方法的效果，研究团队设计了一系列复杂的多步骤问答测试。这些测试就像侦探推理游戏，需要AI通过搜索多个信息来源，逐步拼凑出最终答案。他们使用了四个不同的数据集进行测试，包括HotpotQA、MuSiQue、2WikiMultiHopQA和Bamboogle，这些数据集包含了需要多步推理的复杂问题。

实验结果令人惊喜。经过新方法训练的AI助手不仅保持了原有的问题解决能力，还获得了判断自身能力边界的新技能。在测试中，当面对信息不足或超出能力范围的问题时，这些AI助手会诚实地承认"我不知道"，而不是胡乱猜测答案。

更重要的是，研究团队发现，学会说"不知道"的AI助手在整体可靠性方面有了显著提升。他们引入了一个"可靠性"指标来衡量AI的表现，这个指标同时考虑了准确性和精确性。结果显示，使用新方法训练的AI助手在可靠性方面平均提升了15.8分，这是一个相当可观的改进。

研究团队还进行了一个有趣的测试，他们称之为"拒绝成功率"测试。这个测试检查当AI选择说"不知道"时，这个选择是否合理。结果显示，AI助手拒绝回答的问题中，有超过75%确实是连更强大的AI系统也无法正确回答的难题。这证明了AI助手确实学会了准确判断自己的能力边界。

令人印象深刻的是，这个方法不仅在大型AI模型上有效，在较小规模的模型上也表现出色。研究团队在3B、7B和14B参数的不同规模模型上都验证了方法的有效性，这意味着这项技术有着广泛的应用潜力。

在具体的案例分析中，研究团队展示了新方法的实际效果。比如，当被问及某部电影导演的出生地时，传统的AI助手可能会基于不完整的搜索结果胡乱猜测一个答案，而经过新方法训练的AI助手则会诚实地说："根据我搜索到的信息，无法确定这位导演的具体出生地，我不知道这个问题的答案。"

这种诚实的态度看似简单，实际上对AI系统的实用价值有着深远影响。在医疗咨询、法律建议、投资决策等高风险场景中，AI承认不知道比给出错误信息要安全得多。用户可以根据AI的诚实反馈，决定是否需要寻求其他信息来源或专业人士的帮助。

研究团队还发现，让AI学会承认无知并不会显著损害其解决问题的能力。相反，通过更好的自我认知，AI可以将精力集中在确实能够解决的问题上，从而提高整体的工作效率和可信度。

值得一提的是，这项研究还解决了一个技术难题：如何在不影响AI探索能力的前提下培养其边界意识。过去的一些尝试往往会让AI变得过于保守，遇到稍有挑战的问题就退缩。而新方法通过精心设计的奖励机制，确保AI既保持了积极探索的精神，又具备了适时停止的智慧。

从更广的视角来看，这项研究为AI的可信计算开辟了新的方向。随着AI系统在各个领域的应用越来越广泛，如何确保AI的输出是可靠和可信的，成为了一个关键挑战。这项研究提供的解决方案不仅技术先进，而且具有很强的实用性。

研究团队通过大量的对比实验证实了方法的优势。他们将新方法与多种现有技术进行了比较，包括基于不确定性估计的方法、基于置信度的方法等。结果显示，新方法在各项指标上都表现出色，特别是在平衡准确性和可靠性方面具有明显优势。

这项研究的影响不仅限于技术层面。它为AI伦理和负责任AI的发展提供了重要参考。一个能够诚实承认自身局限的AI系统，比一个看似无所不知但经常出错的系统更值得信赖。这种设计理念体现了对用户负责的态度，也符合AI技术发展的长远利益。

当然，这项研究也面临一些挑战和局限。研究主要集中在知识密集型任务上，在其他类型的推理问题上的效果还需要进一步验证。同时，如何在更大规模的AI系统上应用这种方法，以及如何处理更复杂的实际应用场景，都是未来需要探索的方向。

尽管如此，这项研究为AI系统的可靠性提升指明了一条可行的道路。通过让AI学会说"不知道"，我们不仅提高了AI系统的诚信度，也为用户提供了更好的使用体验。毕竟，一个诚实的助手比一个经常给错误建议的"专家"更有价值。

说到底，这项研究的核心价值在于重新定义了AI的"智能"概念。真正的智能不仅仅是回答问题的能力，更包括了解自身局限和诚实沟通的能力。正如苏格拉底的名言"我知道我一无所知"所体现的智慧，承认无知往往是通向真知的第一步。

对于普通用户来说，这项研究的成果意味着未来的AI助手将更加可靠和值得信赖。当AI助手告诉你"我不确定这个答案"时，你可以放心地寻找其他信息来源，而不用担心被误导。当AI助手给出确定答案时，你也可以更有信心地相信这个答案的准确性。

这项研究还为AI产业的发展提供了重要启示。在追求更高准确率的同时，我们也应该关注AI系统的诚信度和可靠性。只有建立了可信的AI系统，人工智能技术才能真正服务于人类社会，在各个领域发挥积极作用。

研究团队表示，他们已经将相关代码和数据公开，希望能够推动整个AI社区在这个方向上的进一步研究和发展。这种开放的态度本身就体现了科研诚信的精神，也为这项有关"诚实AI"的研究增添了更多的可信度。

有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2601.11037v1查找完整的技术论文，了解更多实现细节和实验结果。

Q&A

Q1：边界感知策略优化BAPO是如何工作的？

A：BAPO就像教导学生既要努力回答问题，又要知道自己能力边界的教学方法。它包含两个核心机制：当AI系统多次尝试都无法正确回答某个问题时，会奖励其中诚实说"不知道"的回答；同时使用适应性调节器，在AI学习初期鼓励探索，成熟后才鼓励承认局限，避免过早放弃或盲目自信。

Q2：让AI说"不知道"会不会影响其解决问题的能力？

A：研究结果显示不会显著影响。经过BAPO训练的AI助手在保持原有问题解决能力的同时，获得了判断自身边界的新技能。实验中，AI的准确率只下降了2.2%，但整体可靠性提升了9.7%，精确性提升了11.8%。AI学会将精力集中在确实能解决的问题上，提高了工作效率。

Q3：这项技术对普通用户有什么实际好处？

A：最大的好处是AI助手变得更加诚实可靠。当AI说"不知道"时，用户可以安心寻找其他信息来源，不用担心被误导。当AI给出确定答案时，用户也可以更有信心相信其准确性。特别是在医疗、法律、投资等高风险场景中，诚实的AI比经常出错的"专家"更安全有价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.