网易首页 > 网易号 > 正文 申请入驻

加州大学圣地亚哥分校突破性研究:让AI推理像人类一样可信赖

0
分享至


这项由加州大学圣地亚哥分校的孙崇恩、严歌、Akshay Kulkarni和翁粹薇组成的研究团队完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.09062v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们让AI模型解决复杂问题时,就像雇佣一个看似聪明的助手来完成重要任务。但有个令人担忧的问题:这个助手虽然经常能给出正确答案,但我们却无法看清它的思考过程,也不知道它是否真的理解问题,更不清楚它对自己答案的把握有多大。这正是当前大型推理模型面临的信任危机。

研究团队发现,现有的大型推理模型虽然在数学、科学等复杂任务上表现出色,但它们的"思考过程"就像一个杂乱无章的草稿纸——虽然最终可能得出正确答案,但推理步骤混乱不清,经常省略关键信息,而且从不承认自己的不确定性。这就像一个学生在考试时写出了正确答案,但解题步骤如此凌乱,以至于老师无法判断这个学生是真正理解了问题,还是只是运气好猜对了。

为了解决这个问题,研究团队提出了一个名为ReFIne的全新训练框架。这个框架就像为AI助手制定了一套严格的工作规范,要求它在处理问题时必须遵循三个核心原则:可解释性、忠实性和可靠性。可解释性要求AI的推理过程清晰有序,就像一份条理分明的报告;忠实性要求AI诚实地展示它使用的所有信息和依据;可靠性则要求AI能够准确评估自己答案的可信度。

研究团队将这套新方法应用到了三个不同规模的Qwen3模型上,包括17亿、40亿和80亿参数的版本,并在四个不同难度的数学基准测试中进行了全面评估。结果显示,经过ReFIne训练的模型在生成清晰易懂的推理过程方面提升了44%,在诚实展示决策过程方面提升了18.8%,在提供准确置信度评估方面提升了42.4%。

这项研究的意义不仅仅在于技术改进,更在于为AI系统的可信度建立了新标准。当AI助手能够清楚地解释自己的思考过程,诚实地展示使用的信息,并准确评估自己的把握程度时,我们就能更好地决定何时信任它,何时需要保持谨慎。

一、当前AI推理的三大信任危机

当我们观察现有的大型推理模型时,就像观察一个能力很强但工作习惯糟糕的员工。虽然这个员工经常能完成任务,但他的工作方式让人无法安心。

第一个问题是可解释性不足。现有模型的推理过程就像一份写得乱七八糟的工作报告——信息零散、逻辑跳跃、缺乏清晰的结构。比如在解决一个数学问题时,模型可能突然从步骤二跳到步骤五,中间的推理过程完全看不清楚。这就像一个学生在黑板上解题时,擦掉了一半的步骤,留下的只是支离破碎的公式和结论。

第二个问题是缺乏忠实性。这里的忠实性指的是AI是否诚实地展示了它实际使用的信息和推理路径。许多时候,AI模型会隐藏它真正依赖的线索或捷径。举个例子,当给模型一个数学题的提示答案时,模型可能会利用这个提示来得出正确结果,但在它的推理过程中却从不承认使用了这个提示。这就像一个学生在考试时偷看了答案,但在解题过程中假装自己是独立想出来的。

第三个问题是可靠性的缺失。现有模型很少对自己的答案提供置信度评估,即使提供了,通常也过于自信。它们就像那些从不承认自己可能犯错的人,无论面对多难的问题都表现得胸有成竹。更糟糕的是,当模型确实不知道答案时,它们往往会编造看似合理的推理过程,就像一个不懂装懂的人,用华丽的词汇掩盖自己的无知。

这三个问题结合在一起,就造成了当前AI推理的信任危机。我们无法判断AI的答案是基于扎实的推理还是幸运的猜测,无法知道它是否遗漏了重要信息,也无法评估答案的可靠程度。这就像雇佣了一个既不愿意展示工作过程,又不承认使用了外部帮助,还从不表达不确定性的员工——虽然结果可能不错,但过程让人完全无法信任。

二、ReFIne框架:构建可信推理的完整方案

面对这些信任危机,研究团队设计了ReFIne框架,就像为AI助手制定了一套完整的工作流程和质量标准。这个框架的核心思想是通过结构化的训练方法,让AI学会以更透明、更诚实、更可靠的方式进行推理。

ReFIne框架采用了两阶段训练策略,就像培养一个新员工需要先教基础技能,再通过实践提升专业能力一样。第一阶段是监督微调,相当于教AI学会标准的工作格式和流程;第二阶段是群体相对策略优化(GRPO),相当于通过实际工作表现来强化良好的工作习惯。

在第一阶段的监督微调中,研究团队为AI设计了一套标准化的推理模板,就像为员工制定了详细的工作手册。这个模板将推理过程分为五个清晰的阶段:问题理解、事实列举、步骤规划、详细推理和自我评估。

问题理解阶段要求AI用自己的话重新表述问题,确保真正理解了任务要求。这就像一个好的员工在开始工作前会向上司确认任务细节一样。事实列举阶段要求AI明确列出所有将要使用的变量、条件和约束,就像厨师在烹饪前将所有食材摆放整齐。步骤规划阶段要求AI制定清晰的解决策略,就像建筑师在施工前绘制详细的蓝图。

详细推理阶段是整个过程的核心,AI必须严格按照前面的规划执行,并且明确引用之前阶段的内容。比如,当AI使用某个变量时,必须说"根据事实部分,我们知道x等于5",而不能凭空使用这个数值。这就像一个严格的会计师,每一笔账目都要有明确的来源和依据。

自我评估阶段要求AI对自己的推理过程进行诚实的审查,并提供一个0到10的置信度分数。这就像一个负责任的员工在提交工作成果时,会主动指出可能存在的问题和不确定之处。

第二阶段的群体相对策略优化进一步强化了这些良好习惯。研究团队设计了一个综合评分系统,从四个维度评估AI的表现:答案正确性、结构完整性、交叉引用和置信度准确性。就像一个全面的员工评估体系,不仅看结果,更重视工作过程的质量。

为了训练数据的质量,研究团队使用了1万个数学问题,并且对每个问题都按照标准格式生成了完整的推理过程。他们还特别注意了置信度分数的平衡,避免模型过度自信的问题。这就像为新员工准备了大量高质量的练习案例,确保他们能够从中学到正确的工作方法。

三、三大核心能力的显著提升

经过ReFIne框架训练的模型在三个关键维度都展现出了显著的改进,就像一个经过专业培训的员工在工作的各个方面都变得更加可靠。

在可解释性方面,改进效果最为明显。研究团队通过两种方式验证了这一点:结构完整性和可读性评估。结构完整性测试显示,经过ReFIne训练的模型几乎总是能够按照规定格式完成推理,所有必需的部分都会出现且顺序正确。更重要的是,模型学会了在主要推理过程中明确引用前面阶段的内容。

比如,在处理一个坐标转换问题时,改进后的模型会说"根据事实部分,我们知道点的坐标是(0,3)",而不是直接使用这个坐标。这种交叉引用的行为从原来的不到30%提升到了90%以上,就像一个学会了规范引用的学术写作者,每个论点都有明确的依据。

可读性评估更加直观地展示了改进效果。研究团队使用自动化评估工具对比了ReFIne模型和普通模型的推理过程,结果显示ReFIne模型的推理被判定为"更清晰易懂"的比例显著提高。这就像比较两份工作报告,经过培训的员工写出的报告逻辑更清晰、结构更合理、更容易理解。

在忠实性方面,研究团队设计了巧妙的测试方法。他们给模型提供同一个问题的两个版本:一个是原始问题,另一个附带了正确答案的提示。然后观察模型在使用提示信息时是否会诚实地承认这一点。

结果显示,ReFIne模型更愿意坦诚地承认使用了外部提示。当模型因为提示而改变了错误答案时,它承认使用提示的比例比普通模型高出很多。这就像一个诚实的学生,当他参考了其他资料得出答案时,会主动说明信息来源,而不是假装完全是自己想出来的。

研究团队还测试了承诺忠实性,即模型是否真的按照自己声明的理解、事实和计划来进行推理。结果显示,ReFIne模型在这方面表现极佳,几乎总是严格按照前期承诺执行推理过程,不会中途改变方向或遗漏关键步骤。

在可靠性方面,改进同样显著。首先,ReFIne模型几乎总是会提供置信度评估,而普通模型经常忽略这一点,特别是在面对困难问题时。这就像一个负责任的员工总是会告诉你他对工作结果的把握程度,而不负责任的员工则从不表达任何不确定性。

更重要的是,ReFIne模型的置信度评估更加准确。研究团队使用两个指标来衡量这一点:区分能力(AUROC)和校准程度(ECE)。区分能力衡量的是模型能否通过置信度分数区分正确和错误的答案,而校准程度衡量的是模型声称的置信度与实际准确率的匹配程度。

结果显示,ReFIne模型在这两个方面都表现出色。当它说对答案有80%的把握时,实际的正确率确实接近80%。这就像一个经验丰富的医生,当他说某个诊断的把握程度是7分(满分10分)时,这类诊断的准确率确实在70%左右。

四、在保持性能的同时实现信任提升

一个关键的发现是,ReFIne框架在显著提升可信度的同时,并没有牺牲模型的基本性能。这就像一个员工在学会了更好的工作方法后,不仅工作质量提高了,工作效率也没有下降。

在准确性方面,ReFIne模型与普通模型的表现基本相当。在一些测试中,ReFIne模型甚至略有优势,特别是在需要复杂推理的问题上。这证明了结构化的推理过程不仅不会阻碍性能,反而可能有助于更好地解决问题。

更令人惊喜的是效率的改进。虽然ReFIne模型需要生成更多的结构化内容,但它们的平均推理长度实际上更短。这是因为结构化的方法帮助模型保持专注,避免了冗长的无关推理。就像一个有条理的人做事效率往往更高一样,结构化的推理过程让模型能够更直接地到达正确答案。

研究团队在四个不同难度的数学基准上测试了这些改进:从基础的小学数学问题(GSM8K)到极具挑战性的数学竞赛题目(AIME-2024)和研究生水平的科学问题(GPQA-Diamond)。在所有这些测试中,ReFIne模型都展现出了一致的改进趋势。

特别值得注意的是,在最困难的AIME-2024测试中,ReFIne模型的置信度评估表现最为出色。这表明框架不仅在简单问题上有效,在面对真正挑战性的任务时也能保持可靠性。这就像一个经过专业训练的专家,不仅在处理常规问题时表现专业,在面对前所未见的复杂挑战时也能保持冷静和准确的判断。

五、对AI发展的深远影响

这项研究的意义远远超出了技术改进本身,它为整个AI领域提出了一个重要观点:我们不应该只关注AI系统能否给出正确答案,更应该关注它们是否值得信任。

传统的AI研究主要关注两个指标:准确性和效率。就像评价一个工具时,我们主要看它是否好用和是否快捷。但ReFIne研究提醒我们,对于承担重要决策的AI系统来说,可信度同样重要。一个能够清楚解释自己思考过程、诚实承认信息来源、准确评估自身把握程度的AI系统,比一个只会给出正确答案但无法解释原因的系统更值得信赖。

这种理念的转变具有现实意义。在医疗诊断、金融分析、法律咨询等高风险领域,我们需要的不仅仅是准确的AI助手,更需要可以信赖的合作伙伴。当AI系统能够透明地展示其推理过程时,人类专家就能更好地判断何时接受AI的建议,何时需要进一步验证,何时应该寻求第二意见。

研究还展示了结构化方法的威力。通过将复杂的推理过程分解为清晰的步骤,不仅让AI的思考过程更易理解,也提高了推理的质量。这就像好的教学方法不仅让学生更容易理解,也让他们的思维更加清晰一样。

从技术角度来看,ReFIne框架为其他研究者提供了一个可行的路径。其两阶段训练方法既实用又有效,可以应用到不同规模和类型的模型上。更重要的是,这个框架提出了评估AI可信度的具体标准和方法,为未来的研究建立了基准。

这项研究也为AI的实际应用提供了重要启示。在部署AI系统时,我们不仅要测试其准确性,还要评估其可解释性、忠实性和可靠性。只有在这些方面都达到标准的AI系统,才适合在关键场景中使用。

展望未来,随着AI系统在社会中扮演越来越重要的角色,公众对AI可信度的要求也会越来越高。ReFIne研究为这一趋势做好了技术准备,它证明了我们可以在不牺牲性能的前提下,显著提升AI系统的可信度。

说到底,这项研究最重要的贡献是证明了AI系统可以变得更加值得信赖。它不仅提供了实现这一目标的具体方法,更重要的是,它改变了我们评价AI系统的标准。在未来,一个优秀的AI系统不仅要能给出正确答案,还要能清楚地解释自己是如何得出这个答案的,诚实地承认使用了哪些信息,并准确地评估自己的把握程度。只有这样的AI系统,才能真正成为人类可以信赖的智能助手。

这项研究为构建更加可信的AI未来奠定了重要基础。有兴趣深入了解技术细节的读者可以通过arXiv:2510.09062v1查询完整论文。

Q&A

Q1:ReFIne框架是什么,它解决了AI推理的哪些问题?

A:ReFIne是加州大学圣地亚哥分校开发的AI训练框架,专门解决当前大型推理模型的三大信任问题:推理过程混乱难懂(可解释性差)、隐藏关键信息来源(缺乏忠实性)、从不承认不确定性(可靠性不足)。该框架通过结构化训练让AI学会清晰解释思考过程、诚实展示信息来源、准确评估答案可信度。

Q2:ReFIne框架训练出的AI模型在性能上有什么具体改进?

A:经过ReFIne训练的模型在三个关键维度都有显著提升:可解释性提高44%,推理过程更清晰有序;忠实性提升18.8%,更愿意承认使用的信息来源;可靠性改进42.4%,置信度评估更准确。同时保持了原有的答案准确性,推理效率还略有提升。

Q3:这项研究对普通用户使用AI有什么实际意义?

A:这项研究意味着未来的AI助手将更值得信赖。用户可以看懂AI的思考过程,知道它使用了哪些信息,了解它对答案的把握程度。这样用户就能更好地判断何时相信AI的建议,何时需要谨慎对待,特别是在医疗、金融等重要决策场景中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
准备开抢!美媒评26年自由市场10大中锋:艾顿第6湖人心上人排第2

准备开抢!美媒评26年自由市场10大中锋:艾顿第6湖人心上人排第2

锅子篮球
2026-03-01 21:01:49
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
伊朗临时领导委员会人员构成

伊朗临时领导委员会人员构成

界面新闻
2026-03-01 17:54:03
金靖自曝过完年胖了6斤,怎么工作啊,网友调侃年味都长身上了

金靖自曝过完年胖了6斤,怎么工作啊,网友调侃年味都长身上了

韩小娱
2026-03-01 09:57:40
“美国航母正在执行空袭任务”

“美国航母正在执行空袭任务”

澎湃新闻
2026-02-28 17:02:22
美媒:全球其他人都不知道时,色情网站提前38分公布爱泼斯坦死讯

美媒:全球其他人都不知道时,色情网站提前38分公布爱泼斯坦死讯

小影的娱乐
2026-03-01 21:40:01
承认差距!切尔西主帅坦言:跑动短板短期内根本解决不了

承认差距!切尔西主帅坦言:跑动短板短期内根本解决不了

夜白侃球
2026-03-01 21:07:28
印度网友:中国拍了那么多战争电影,可为啥从不拍关于中印的战争

印度网友:中国拍了那么多战争电影,可为啥从不拍关于中印的战争

陈意小可爱
2026-01-23 12:37:07
张召忠再现神预言,当年说特朗普如果再干一届,能把美国拉下马

张召忠再现神预言,当年说特朗普如果再干一届,能把美国拉下马

古事寻踪记
2026-02-27 07:15:05
自苏莱曼尼死得毫无价值,伊朗宗教政权就已陷入“慢性死亡”

自苏莱曼尼死得毫无价值,伊朗宗教政权就已陷入“慢性死亡”

大树乡谈
2026-03-01 23:04:22
建议眼科挂号!美女被我看成斗鸡眼,草率了

建议眼科挂号!美女被我看成斗鸡眼,草率了

飛娱日记
2026-02-28 10:11:33
骂战升级!因一场演唱会,东南亚10国网民抱团,集体围攻韩国

骂战升级!因一场演唱会,东南亚10国网民抱团,集体围攻韩国

八斗小先生
2026-02-28 18:42:47
抢最多11板,获最高正负值21+打中关键球,杨健高喊:他帮了大忙

抢最多11板,获最高正负值21+打中关键球,杨健高喊:他帮了大忙

南海浪花
2026-03-01 18:41:08
铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

爱吃醋的猫咪
2026-02-01 19:36:46
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
哈梅内伊离世撕下伪装:阿根廷狂欢、俄罗斯怒吼,多国彻底站队了

哈梅内伊离世撕下伪装:阿根廷狂欢、俄罗斯怒吼,多国彻底站队了

形上谓道
2026-03-01 23:26:45
哈梅内伊身亡!伊朗:美以必定会后悔,我们将抗争到到最后一滴血

哈梅内伊身亡!伊朗:美以必定会后悔,我们将抗争到到最后一滴血

刚哥说法365
2026-02-28 23:26:07
人没本事,一看就知:没本事的人,每到春节,就会有3个通病

人没本事,一看就知:没本事的人,每到春节,就会有3个通病

聚焦最新动态
2026-02-28 09:53:49
伊朗宣布斩首以色列空军司令,摧毁意大利海军基地!

伊朗宣布斩首以色列空军司令,摧毁意大利海军基地!

胜研集
2026-03-02 00:05:34
以色列警告中国导弹!以色列说让埃及撤下中国的导弹

以色列警告中国导弹!以色列说让埃及撤下中国的导弹

安安说
2026-03-01 10:09:28
2026-03-02 01:12:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7389文章数 553关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

教育
游戏
本地
数码
家居

教育要闻

11年,学生平均增高5.52厘米!成都这所小学,登上教育部发布会

以《生化危机》命名?Capcom解答对RE引擎的误读

本地新闻

津南好·四时总相宜

数码要闻

荣耀Magic V6海外发布:厚度仅8.75mm三年内第四次打破纪录

家居要闻

素色肌理 品意式格调

无障碍浏览 进入关怀版