网易首页 > 网易号 > 正文 申请入驻

中科院团队突破AI诚信对齐新难题:千分之一数据实现AI诚信对齐

0
分享至


这项由中科院计算技术研究所的倪世宇、毕克平、郭嘉丰、唐明昊等研究人员与华为团队合作完成的重要研究,发表于2025年10月的预印本论文(arXiv:2510.17509v1),为解决大语言模型的诚信对齐难题提供了突破性方案。有兴趣深入了解的读者可以通过论文编号arXiv:2510.17509v1查询完整论文。

当前的大语言模型就像一个博学但有时过于自信的朋友,它们在回答问题时往往表现得信心满满,即使对答案并不确定。这种现象被称为"过度自信"问题,就好比一个学生明明对某道题没有把握,却在考试时写得非常肯定。这不仅会误导用户,更可能在关键决策中造成严重后果。

研究团队发现,现有的解决方案主要分为两大类:一类是不需要额外训练的方法,比如通过分析模型生成文本的概率来判断其置信度,或者让模型多次回答同一问题来看答案的一致性;另一类则需要大量人工标注的正确答案来训练模型表达准确的置信度。第二类方法虽然效果更好,但成本极高,就像为了教会孩子区分对错,需要为每道题都提供标准答案一样费时费力。

面对这个困境,研究团队提出了一个巧妙的解决方案,他们称之为"EliCal"(先激发后校准)框架。这个方法的核心思想是:如果能先用便宜的方式教会模型表达置信度,那么后续只需要少量的正确答案就能完成精确校准。

一、两阶段训练:化繁为简的智慧策略

EliCal框架的工作原理就像训练一个优秀的医生诊断疾病。第一阶段相当于让医学生大量观察病例,学会根据症状的一致性来判断自己的诊断信心。如果一个患者的多个症状都指向同一种疾病,那就更有信心;如果症状相互矛盾,就应该更谨慎。这个阶段使用的是"自一致性"信号,类似于让模型对同一问题回答多次,看答案是否保持一致。

具体来说,研究人员发现当模型对某个问题的多次回答高度一致时,它答对的概率也更高。这种现象为第一阶段的训练提供了免费的监督信号。通过大规模的自一致性训练,模型学会了内化这种判断规律,能够在单次回答时就表达出准确的置信度,而不需要反复生成多个答案。

第二阶段则像是给这位已经具备基本判断能力的医生提供少量的确诊案例,帮助其校准判断标准。这时只需要很少的人工标注数据,就能让模型的置信度表达与实际准确性完美对齐。

二、创新架构:在不损害原有能力的前提下增强诚信

为了确保训练过程不会损害模型原有的问答能力,研究团队采用了一种巧妙的技术架构。他们没有直接修改模型的核心参数,而是使用了低秩适应(LoRA)技术,这就像在原有的精密机械上安装一个小巧的传感器,既能获得新的感知能力,又不会影响原有功能。

具体实现上,研究团队在模型的最后一层添加了一个线性头部,专门用于输出置信度分数。这个设计使得模型能够在回答问题之前就给出置信度预测,避免了传统方法需要多次采样的计算开销。整个训练过程使用均方误差作为损失函数,确保模型学会准确预测自己的表现。

三、HonestyBench基准:构建全面评估体系

为了支持大规模研究和公平比较,研究团队还构建了一个名为HonestyBench的综合基准数据集。这个数据集整合了十个广泛使用的开放式问答数据集,包含超过56万个训练样本和7万个评估样本,覆盖了单跳问答、多跳推理和模板生成等多种问题类型。

HonestyBench的独特之处在于为每个模型-问题对提供了详细的标注信息。研究团队使用三个代表性的开源大语言模型(Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct和Llama3-8B-Instruct)生成了大量回答,并对每个回答进行了正确性和自一致性标注。这种设计使得研究者能够在统一标准下比较不同方法的效果。

数据集还特别设计了域内和域外两种评估场景。域内评估使用训练数据集的测试集,而域外评估则引入了五个额外的问答数据集,包括SQuAD、WebQuestions等知名基准。这种设计能够全面测试方法的泛化能力,确保研究结果的可靠性。

四、实验验证:用数据说话的效果证明

研究团队进行了大规模的实验验证,结果令人印象深刻。在对比各种训练方法时,他们发现EliCal仅使用1000个正确性标注(约占全部监督数据的0.18%)就能达到使用全部56万个标注数据训练的校准方法约98%的性能。这个结果就像用一把钥匙就能打开原本需要一大串钥匙才能打开的门。

更重要的是,EliCal在未见过的MMLU任务上表现出了优异的泛化能力。MMLU是一个多选题基准,其问题格式与训练时使用的开放式问答完全不同。即使在这种挑战性场景下,EliCal训练的模型仍然显著优于仅使用校准方法训练的模型,这证明了该方法学到的是更本质的置信度表达能力,而非特定任务的拟合。

研究团队还发现,传统的训练方法在数据量有限时往往表现不佳,甚至不如最好的无训练方法。这就像试图用很少的例子教会孩子复杂的概念,往往事倍功半。相比之下,EliCal通过两阶段设计有效解决了这个问题,在各种数据规模下都表现出色。

五、技术细节:精心设计的实现方案

在技术实现上,研究团队展现了精湛的工程能力。他们使用强大的Qwen2.5-32B-Instruct模型来评估答案的正确性和语义一致性,确保标注质量的可靠性。对于答案生成,他们采用了贪婪搜索生成主答案,同时使用温度采样生成20个候选答案来计算自一致性信号。

置信度的计算基于语义一致性比例,即主答案与候选答案中语义相同的比例。这种方法避免了简单的词汇匹配可能带来的误判,能够更准确地反映模型的真实置信度。所有的语义一致性判断都通过精心设计的提示词完成,确保评估的准确性和一致性。

训练过程采用了AdamW优化器和均方误差损失函数,批次大小设为16,梯度累积步数为8。研究团队还使用了专门的SFTTrainer进行训练,所有的检查点选择都基于域内测试集的表现,确保模型选择的客观性。

六、深入分析:洞察方法成功的关键因素

通过深入的消融实验,研究团队揭示了EliCal成功的关键因素。他们发现,置信度激发阶段的训练数据规模对最终效果有重要影响。随着训练数据的增加,模型的置信度表达能力逐步提升,最终接近自一致性方法的上限。这证明了大语言模型确实具备学习内在置信度表达的能力。

研究团队还测试了仅使用线性头部的简化版本,发现虽然这种设计参数更少,训练更快,但表现略逊于完整的LoRA版本。这说明适度的参数增加和模型交互对于学习复杂的置信度模式是必要的。

在评估指标方面,除了广泛使用的AUROC(接收者操作特征曲线下面积)外,研究团队还采用了ECE(期望校准误差)和对齐度等多种指标。结果显示EliCal在各种指标上都表现出色,证明了方法的全面性和可靠性。

特别值得关注的是,EliCal学会的置信度表达能够直接用于二元决策。通过设定合适的阈值,模型可以判断是否应该回答某个问题,这对于实际应用中的可靠性控制具有重要意义。就像一个负责任的专家会在不确定时选择承认"不知道",而不是给出可能错误的答案。

说到底,这项研究解决的是让AI系统变得更加诚实可信的根本问题。在AI技术日益普及的今天,模型的诚信对齐不仅是技术问题,更是关系到AI安全和可信度的重要议题。EliCal框架通过巧妙的两阶段设计,在大幅降低标注成本的同时实现了优异的性能,为构建更可靠的AI系统提供了重要技术路径。

这种方法的意义远超技术层面。当AI助手能够准确判断自己的知识边界时,它们就能在确定的问题上提供可靠帮助,在不确定的问题上寻求外部援助或坦诚告知用户其局限性。这将大大提升人们对AI系统的信任,推动AI技术在关键应用领域的安全部署。

研究团队承诺将开源所有代码、HonestyBench数据集和训练好的模型,这将为后续研究提供宝贵资源。他们的工作为实现真正可信的通用人工智能迈出了重要一步,值得学术界和产业界的广泛关注。

Q&A

Q1:EliCal框架的两阶段训练具体是怎么工作的?

A:EliCal的第一阶段通过自一致性信号训练模型表达置信度,就像让模型学会根据多次回答的一致性来判断自信程度。第二阶段使用少量正确答案标注来精确校准这种置信度表达,确保模型的自信程度与实际准确性保持一致。

Q2:为什么EliCal只需要很少的标注数据就能达到好效果?

A:因为EliCal将置信度学习分为两个步骤:先用免费的自一致性信号教会模型基本的置信度表达能力,然后只需少量标注数据进行微调校准。这就像先让学生掌握基本概念,再用少量练习题精确调整,比从零开始训练效率高得多。

Q3:HonestyBench数据集有什么特殊之处?

A:HonestyBench整合了10个问答数据集,包含超过56万训练样本和7万评估样本,为每个问题都提供了正确性和自一致性双重标注。它还设计了域内外两种评估场景,能够全面测试方法的泛化能力,是目前最大规模的诚信对齐评估基准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
国乒坏消息!一哥遭遇严峻挑战,功勋陪练退役对王楚钦能力讲实话

国乒坏消息!一哥遭遇严峻挑战,功勋陪练退役对王楚钦能力讲实话

三十年莱斯特城球迷
2026-01-31 23:50:45
A股大消息,陈永亮被留置

A股大消息,陈永亮被留置

中国基金报
2026-02-01 18:55:43
法布雷加斯不敢相信:狂射28次0球,阿根廷天才成罪人:罚丢点球

法布雷加斯不敢相信:狂射28次0球,阿根廷天才成罪人:罚丢点球

足球狗说
2026-02-02 00:37:16
英超3-2神剧情:91分钟被扳平 94分钟绝杀 7.2亿豪门3连胜重返前4

英超3-2神剧情:91分钟被扳平 94分钟绝杀 7.2亿豪门3连胜重返前4

狍子歪解体坛
2026-02-02 00:02:17
贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

新京报
2026-02-01 17:34:07
交易已达成,老鹰将克雷伊奇交易至开拓者,换里斯和2次轮选秀权

交易已达成,老鹰将克雷伊奇交易至开拓者,换里斯和2次轮选秀权

好火子
2026-02-02 01:29:09
大局已定,今年的返乡潮可能彻底消失了!

大局已定,今年的返乡潮可能彻底消失了!

达文西看世界
2026-01-29 19:30:48
高市早苗受伤,正接受治疗!

高市早苗受伤,正接受治疗!

新民晚报
2026-02-01 15:02:11
好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

我心纵横天地间
2026-01-30 22:17:29
吸烟有害健康是大骗局,尼古丁其实根本不致癌?告诉你真相

吸烟有害健康是大骗局,尼古丁其实根本不致癌?告诉你真相

健康之光
2026-02-01 08:40:05
曾精准预判金价狂飙的人,如何看待这场暴跌

曾精准预判金价狂飙的人,如何看待这场暴跌

新浪财经
2026-02-01 18:13:05
哈哈,“错就错在不该带记者去采访......"

哈哈,“错就错在不该带记者去采访......"

李万卿
2026-02-01 09:13:51
舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

奥拜尔
2026-02-02 00:09:16
没想到,李湘风波还没完,让她怀二胎的人竟因一个举动口碑暴涨!

没想到,李湘风波还没完,让她怀二胎的人竟因一个举动口碑暴涨!

五姑娘台球
2026-02-01 08:16:47
极其凶残!非法移民德州大桥扫射百余枪,现场弹壳遍地

极其凶残!非法移民德州大桥扫射百余枪,现场弹壳遍地

华人生活网
2026-02-01 00:54:24
7场不败,曼联是目前英超保持不败最长的球队

7场不败,曼联是目前英超保持不败最长的球队

懂球帝
2026-02-02 00:39:38
工厂里真有男人思想如此龌龊?网友:女生一定不要一个人进厂

工厂里真有男人思想如此龌龊?网友:女生一定不要一个人进厂

带你感受人间冷暖
2026-01-25 00:05:08
深夜利空,46股业绩暴雷,机器人龙头暴降250%,化工龙暴降2007%

深夜利空,46股业绩暴雷,机器人龙头暴降250%,化工龙暴降2007%

鹏哥投研
2026-02-01 11:10:33
美媒:美或考虑对伊朗动用新军事选项

美媒:美或考虑对伊朗动用新军事选项

参考消息
2026-02-01 16:19:07
2026-02-02 02:23:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7081文章数 548关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

家居
本地
手机
房产
军事航空

家居要闻

蓝调空舍 自由与个性

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版