网易首页 > 网易号 > 正文 申请入驻

厦门大学团队让机器人更诚实可靠的重大突破

0
分享至


在人工智能快速发展的今天,我们经常遇到这样的情况:向AI助手提问时,它们总是自信满满地给出答案,哪怕这个答案可能是错误的。就像一个不懂装懂的学生,明明不知道正确答案,却硬要编造一个听起来很有道理的回答。这个问题在需要搜索信息来回答复杂问题的AI系统中尤为突出。

厦门大学人工智能研究所联合美团、西湖大学和香港理工大学的研究团队,在2026年1月发表了一项突破性研究成果,论文编号为arXiv:2601.11037v1。这项研究首次系统性地解决了AI搜索助手"不敢承认无知"的问题,让AI学会了在确实无法回答问题时诚实地说出"我不知道"。

当前的AI搜索助手就像是一个过度自信的导游。当游客问路时,即使导游对某个地方完全不熟悉,他也会硬着头皮指一个方向,而不是诚实地承认"我不清楚这个地方在哪里"。同样,现在的AI助手在面对复杂的多步骤推理问题时,即使搜索到的信息不足以支撑准确答案,它们也很少会承认自己的局限性,而是倾向于给出看似合理但可能错误的答案。

这种现象背后有着深层的技术原因。目前训练AI助手的方法主要关注"答对题目"这个目标,就像学校里只奖励考试得高分的学生,却不鼓励学生诚实地承认自己不懂的地方。这种训练方式虽然提高了AI回答问题的准确率,但也让AI失去了自我认知的能力,不知道什么时候应该停下来说"我需要更多信息才能回答这个问题"。

研究团队发现,这个问题在使用强化学习训练的AI搜索助手中特别严重。强化学习就像是给AI设置了一个游戏规则:回答正确就得分,回答错误就扣分。在这种游戏规则下,AI很快学会了"宁可瞎猜也不能不回答"的策略,因为承认不知道往往不会得到任何奖励。

为了解决这个根本问题,研究团队提出了一个创新的解决方案,他们称之为"边界感知策略优化"(BAPO)。这个方法的核心思路就像教导一个学生不仅要会回答问题,还要知道自己能力的边界在哪里。

研究团队的解决方案包含了两个巧妙的设计。第一个是"群体边界感知奖励机制"。这就像组织一次团队考试,如果整个小组都无法正确回答某个问题,那么组内有人诚实地说"我不知道"就应该得到奖励。具体来说,当AI系统为同一个问题生成多个不同的回答尝试,如果所有尝试都没有得到正确答案,那么其中承认"不知道"的回答就会获得额外的奖励分数。

第二个设计是"适应性奖励调节器"。这个机制就像一个有经验的老师,知道在什么时候该鼓励学生探索未知领域,什么时候该鼓励学生诚实承认自己的局限。在AI学习的早期阶段,系统主要鼓励AI积极探索和尝试回答问题,避免它过早地放弃思考。只有当AI在某个领域已经相对成熟,遇到确实超出能力范围的问题时,系统才会奖励它诚实地承认不知道。

这种设计解决了一个关键的平衡问题。如果过早地鼓励AI说"不知道",它可能会变得过于保守,遇到稍微困难的问题就放弃。但如果从不鼓励承认无知,AI就会变得盲目自信,经常给出错误答案。研究团队的方法巧妙地在这两个极端之间找到了平衡点。

为了验证这个方法的效果,研究团队设计了一系列复杂的多步骤问答测试。这些测试就像侦探推理游戏,需要AI通过搜索多个信息来源,逐步拼凑出最终答案。他们使用了四个不同的数据集进行测试,包括HotpotQA、MuSiQue、2WikiMultiHopQA和Bamboogle,这些数据集包含了需要多步推理的复杂问题。

实验结果令人惊喜。经过新方法训练的AI助手不仅保持了原有的问题解决能力,还获得了判断自身能力边界的新技能。在测试中,当面对信息不足或超出能力范围的问题时,这些AI助手会诚实地承认"我不知道",而不是胡乱猜测答案。

更重要的是,研究团队发现,学会说"不知道"的AI助手在整体可靠性方面有了显著提升。他们引入了一个"可靠性"指标来衡量AI的表现,这个指标同时考虑了准确性和精确性。结果显示,使用新方法训练的AI助手在可靠性方面平均提升了15.8分,这是一个相当可观的改进。

研究团队还进行了一个有趣的测试,他们称之为"拒绝成功率"测试。这个测试检查当AI选择说"不知道"时,这个选择是否合理。结果显示,AI助手拒绝回答的问题中,有超过75%确实是连更强大的AI系统也无法正确回答的难题。这证明了AI助手确实学会了准确判断自己的能力边界。

令人印象深刻的是,这个方法不仅在大型AI模型上有效,在较小规模的模型上也表现出色。研究团队在3B、7B和14B参数的不同规模模型上都验证了方法的有效性,这意味着这项技术有着广泛的应用潜力。

在具体的案例分析中,研究团队展示了新方法的实际效果。比如,当被问及某部电影导演的出生地时,传统的AI助手可能会基于不完整的搜索结果胡乱猜测一个答案,而经过新方法训练的AI助手则会诚实地说:"根据我搜索到的信息,无法确定这位导演的具体出生地,我不知道这个问题的答案。"

这种诚实的态度看似简单,实际上对AI系统的实用价值有着深远影响。在医疗咨询、法律建议、投资决策等高风险场景中,AI承认不知道比给出错误信息要安全得多。用户可以根据AI的诚实反馈,决定是否需要寻求其他信息来源或专业人士的帮助。

研究团队还发现,让AI学会承认无知并不会显著损害其解决问题的能力。相反,通过更好的自我认知,AI可以将精力集中在确实能够解决的问题上,从而提高整体的工作效率和可信度。

值得一提的是,这项研究还解决了一个技术难题:如何在不影响AI探索能力的前提下培养其边界意识。过去的一些尝试往往会让AI变得过于保守,遇到稍有挑战的问题就退缩。而新方法通过精心设计的奖励机制,确保AI既保持了积极探索的精神,又具备了适时停止的智慧。

从更广的视角来看,这项研究为AI的可信计算开辟了新的方向。随着AI系统在各个领域的应用越来越广泛,如何确保AI的输出是可靠和可信的,成为了一个关键挑战。这项研究提供的解决方案不仅技术先进,而且具有很强的实用性。

研究团队通过大量的对比实验证实了方法的优势。他们将新方法与多种现有技术进行了比较,包括基于不确定性估计的方法、基于置信度的方法等。结果显示,新方法在各项指标上都表现出色,特别是在平衡准确性和可靠性方面具有明显优势。

这项研究的影响不仅限于技术层面。它为AI伦理和负责任AI的发展提供了重要参考。一个能够诚实承认自身局限的AI系统,比一个看似无所不知但经常出错的系统更值得信赖。这种设计理念体现了对用户负责的态度,也符合AI技术发展的长远利益。

当然,这项研究也面临一些挑战和局限。研究主要集中在知识密集型任务上,在其他类型的推理问题上的效果还需要进一步验证。同时,如何在更大规模的AI系统上应用这种方法,以及如何处理更复杂的实际应用场景,都是未来需要探索的方向。

尽管如此,这项研究为AI系统的可靠性提升指明了一条可行的道路。通过让AI学会说"不知道",我们不仅提高了AI系统的诚信度,也为用户提供了更好的使用体验。毕竟,一个诚实的助手比一个经常给错误建议的"专家"更有价值。

说到底,这项研究的核心价值在于重新定义了AI的"智能"概念。真正的智能不仅仅是回答问题的能力,更包括了解自身局限和诚实沟通的能力。正如苏格拉底的名言"我知道我一无所知"所体现的智慧,承认无知往往是通向真知的第一步。

对于普通用户来说,这项研究的成果意味着未来的AI助手将更加可靠和值得信赖。当AI助手告诉你"我不确定这个答案"时,你可以放心地寻找其他信息来源,而不用担心被误导。当AI助手给出确定答案时,你也可以更有信心地相信这个答案的准确性。

这项研究还为AI产业的发展提供了重要启示。在追求更高准确率的同时,我们也应该关注AI系统的诚信度和可靠性。只有建立了可信的AI系统,人工智能技术才能真正服务于人类社会,在各个领域发挥积极作用。

研究团队表示,他们已经将相关代码和数据公开,希望能够推动整个AI社区在这个方向上的进一步研究和发展。这种开放的态度本身就体现了科研诚信的精神,也为这项有关"诚实AI"的研究增添了更多的可信度。

有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2601.11037v1查找完整的技术论文,了解更多实现细节和实验结果。

Q&A

Q1:边界感知策略优化BAPO是如何工作的?

A:BAPO就像教导学生既要努力回答问题,又要知道自己能力边界的教学方法。它包含两个核心机制:当AI系统多次尝试都无法正确回答某个问题时,会奖励其中诚实说"不知道"的回答;同时使用适应性调节器,在AI学习初期鼓励探索,成熟后才鼓励承认局限,避免过早放弃或盲目自信。

Q2:让AI说"不知道"会不会影响其解决问题的能力?

A:研究结果显示不会显著影响。经过BAPO训练的AI助手在保持原有问题解决能力的同时,获得了判断自身边界的新技能。实验中,AI的准确率只下降了2.2%,但整体可靠性提升了9.7%,精确性提升了11.8%。AI学会将精力集中在确实能解决的问题上,提高了工作效率。

Q3:这项技术对普通用户有什么实际好处?

A:最大的好处是AI助手变得更加诚实可靠。当AI说"不知道"时,用户可以安心寻找其他信息来源,不用担心被误导。当AI给出确定答案时,用户也可以更有信心相信其准确性。特别是在医疗、法律、投资等高风险场景中,诚实的AI比经常出错的"专家"更安全有价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
微信双版本同步更新,终于支持这项新功能了!

微信双版本同步更新,终于支持这项新功能了!

花果科技
2026-01-28 23:03:49
李亚鹏的“料”不能深扒!负债1.8亿的背后,还藏着17年前的诺言

李亚鹏的“料”不能深扒!负债1.8亿的背后,还藏着17年前的诺言

离离言几许
2026-01-28 00:17:18
沈阳一商场宣告破产

沈阳一商场宣告破产

沈阳公交网小林
2026-01-29 00:11:37
字母哥离队概率升至55%!三大心仪下家曝光:专家解析交易难度

字母哥离队概率升至55%!三大心仪下家曝光:专家解析交易难度

罗说NBA
2026-01-29 01:45:33
苹果新品上架:1 月 28 日,正式首销

苹果新品上架:1 月 28 日,正式首销

科技堡垒
2026-01-28 12:11:08
杨鸣下课,辽篮崩塌始于郭艾伦被赶走!现在终于知道谁才是队魂了

杨鸣下课,辽篮崩塌始于郭艾伦被赶走!现在终于知道谁才是队魂了

嘴炮体坛
2026-01-28 21:19:48
武汉市民投诉辅警早上七点半贴单,单位:自觉遵守

武汉市民投诉辅警早上七点半贴单,单位:自觉遵守

风露清青
2026-01-27 16:26:34
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
又要下纯雪啦!江苏更新雨雪落区预报

又要下纯雪啦!江苏更新雨雪落区预报

江南晚报
2026-01-28 17:31:46
中到大雪、局地暴雪,湖北又要下雪降温

中到大雪、局地暴雪,湖北又要下雪降温

鲁中晨报
2026-01-28 20:35:05
20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

ETtoday星光云
2026-01-26 12:30:22
周大生门店锐减560家,金价暴涨成行业杀手

周大生门店锐减560家,金价暴涨成行业杀手

燕梳楼频道
2026-01-28 21:34:06
卖女性玩具的大人糖都开进广州天环了

卖女性玩具的大人糖都开进广州天环了

蓝鲸新闻
2026-01-27 08:58:15
马上,70万亿美元!

马上,70万亿美元!

路财主
2026-01-10 19:59:20
说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

阿伧说事
2026-01-28 15:24:53
中国军号发布日语海报:日方构成严重威胁

中国军号发布日语海报:日方构成严重威胁

看看新闻Knews
2026-01-28 16:05:05
大S雕像正式完工!具俊晔设计太巧妙,做两个决定,恐回韩国!

大S雕像正式完工!具俊晔设计太巧妙,做两个决定,恐回韩国!

古希腊掌管月桂的神
2026-01-28 11:09:10
央视曝光军工重大泄密:间谍使用了美人计

央视曝光军工重大泄密:间谍使用了美人计

南权先生
2026-01-27 15:39:22
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
CBA一夜变天:三队惨败,实力分级残酷上演

CBA一夜变天:三队惨败,实力分级残酷上演

魔血獄苼
2026-01-29 00:56:26
2026-01-29 03:55:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1460文章数 157关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

健康
时尚
艺术
教育
旅游

耳石症分类型,症状大不同

想年前用3周“刷新”好状态?做第一点就够

艺术要闻

沙特醒悟,“全球最大单体建筑”停止施工!

教育要闻

回龙观二小赴南农小学做“三自”课堂分享会

旅游要闻

普陀:城市亲水公园美丽景色等你来解锁

无障碍浏览 进入关怀版