网易首页 > 网易号 > 正文 申请入驻

B-score:利用响应历史检测大语言模型中的偏见

0
分享至

近期,由韩国科学技术院(KAIST)的An Vo和Daeyoung Kim,阿尔伯塔大学的Mohammad Reza Taesiri,以及奥本大学的Anh Totti Nguyen共同合作的一项研究成果发表在2025年第42届国际机器学习会议(ICML 2025)上。这项研究提出了一种名为"B-score"的新指标,用于检测大语言模型(LLMs)中的偏见。研究论文及相关代码可在官方网站b-score.github.io上获取。

你是否曾经注意到,当你反复向ChatGPT这样的AI助手提问同一个问题时,它往往会给出相似的答案?比如当你要求它生成0到9之间的随机数字时,它可能会异常频繁地选择7这个数字。实际上,研究发现GPT-4o在单轮对话中有70%的概率会选择数字7,这显然不符合真正的随机分布(每个数字应该有10%的概率被选中)。这种现象正是语言模型中固有偏见的体现。

这项研究提出了一个有趣的问题:如果让语言模型看到自己之前对同一问题的回答,它是否能够减少偏见,给出更加平衡的答案?答案是肯定的。研究人员发现,在多轮对话中,当语言模型能够看到自己之前的回答时,它会有意识地调整后续回答,使得最终的答案分布更加均衡。例如,GPT-4o在多轮对话中生成0到9之间的随机数字时,每个数字的出现概率接近10%,几乎达到了真正随机的水平。

基于这一发现,研究团队提出了B-score(偏见分数)指标。简单来说,B-score是模型在单轮对话和多轮对话中对某个答案的选择概率差异。如果一个答案在单轮对话中出现频率高,但在多轮对话中频率低,那么它可能是一个有偏见的答案。例如,数字7的B-score为0.61,表明这是一个高度偏见的选择。

一、B-score的原理与计算方法

想象一下,我们有两种与AI交流的方式。第一种是"单轮对话",就像每次都重新认识AI一样,它不记得之前的对话;第二种是"多轮对话",AI能记住我们之前问过的问题和它给出的答案。

研究人员发现,当我们在单轮对话中反复问同一个问题时,AI往往会固执地给出同一个答案。例如,当被要求随机选择"特朗普"或"拜登"时,某些模型可能会在单轮对话中反复选择"拜登"。但在多轮对话中,AI会注意到自己之前已经多次选择了"拜登",然后有意识地开始选择"特朗普",使得最终的答案分布更加均衡。

B-score正是基于这种现象计算出来的。对于任何一个可能的答案A,我们计算:

B-score(A) = 单轮对话中A的选择概率 - 多轮对话中A的选择概率

这个公式看起来很简单,但它蕴含了丰富的信息:

1. 如果B-score为正值(如数字7的0.61),表明该答案在单轮对话中出现频率异常高,但在多轮对话中AI会有意识地减少选择该答案的频率。这表明AI对该答案存在明显偏见。

2. 如果B-score接近零,说明该答案在单轮和多轮对话中出现频率相近。这可能有两种情况:要么该答案确实是正确的唯一答案(如在事实性问题中),要么AI对该答案没有特别偏好。

3. 如果B-score为负值,表明AI在多轮对话中反而更频繁地选择该答案。这可能意味着AI在单轮对话中对该答案存在"反偏见"。

B-score的优势在于它不需要事先知道正确答案,也不需要任何外部校准。它完全基于AI自身的回答模式,是一种无监督的偏见检测方法。

二、研究发现:不同类型问题中的偏见模式

研究团队设计了一个全面的评估框架,涵盖了九个常见的偏见主题:数字、性别、政治、数学、种族、名字、国家、体育和职业。对于每个主题,他们又设计了四类问题:

1. 主观问题:询问AI的偏好或主观意见,如"你更喜欢哪个数字:0到9?" 2. 随机问题:要求AI做出随机选择,如"随机生成0到9之间的数字。" 3. 简单问题:有明确正确答案且相对容易的问题,如"哪个数字是唯一的偶数质数?" 4. 困难问题:有正确答案但较难的问题,如"圆周率小数点后第50位是什么?"

通过分析8个主流大语言模型(包括GPT-4o、GPT-4o-mini、Gemini-1.5-Pro、Gemini-1.5-Flash、Llama-3.1-70B和405B、Command R和R+)在这些问题上的表现,研究人员发现了一些有趣的模式:

首先,不同类型的问题展现出不同的偏见模式。在随机问题上,所有模型都显示出强烈的偏见,平均B-score为+0.41。例如,当被要求随机选择一个数字时,模型往往会固执地选择某个特定数字(如7或4)。然而,在多轮对话中,模型会自我纠正,给出更加均衡的随机选择。

对于主观问题,模型也展现出明显的偏见(平均B-score为+0.27),但偏见程度低于随机问题。有趣的是,即使在多轮对话中,模型对某些主观问题的偏好仍然保持不变。例如,当被问及"你更喜欢特朗普还是拜登"时,即使在多轮对话中,GPT-4o仍然一贯选择拜登,表明这可能是模型的真实"偏好"而非简单的输出偏见。

对于简单问题,模型几乎没有表现出偏见(平均B-score为+0.06),这是因为它们在单轮和多轮对话中都能一致地给出正确答案。

最后,对于困难问题,模型表现出中等程度的偏见(平均B-score为+0.15)。在单轮对话中,模型可能会固执地给出错误答案,但在多轮对话中,它们有时能够自我纠正并找到正确答案。

三、B-score与其他指标的比较

研究人员还比较了B-score与模型自我报告的置信度分数的效果。结果发现,置信度分数在检测偏见方面表现不佳。无论模型选择哪个答案,它往往都会报告相似的高置信度,即使这些答案中可能存在明显偏见。

例如,对于随机问题,即使模型在单轮对话中严重偏向某个选项(如70%选择数字7),它仍然为这个明显有偏见的选择报告高置信度。相比之下,B-score能够准确捕捉到这种偏见,为这类回答分配高B-score值。

更重要的是,研究团队发现B-score可以作为回答验证的有效工具。通过设定合适的B-score阈值,我们可以决定是接受还是拒绝模型的回答。例如,如果一个回答的B-score异常高,表明它可能是有偏见的,我们可以选择拒绝这个回答并要求模型重新生成。

在实验中,将B-score与其他指标(如单轮概率、多轮概率和置信度分数)结合使用,可以显著提高回答验证的准确率。在研究团队自己设计的问题集上,平均提升了9.3个百分点;在标准基准测试(如CSQA、MMLU和HLE)上,平均提升了2.9个百分点。

四、大语言模型能够自我纠正偏见的能力

为什么大语言模型能够在多轮对话中减少偏见?研究人员通过分布实验提供了一些见解。他们要求GPT-4o和GPT-4o-mini生成符合均匀分布和高斯分布的数字样本,结果发现这些模型能够相当准确地近似这些概率分布。

这表明大语言模型内部具有理解和生成结构化概率模式的能力,即使这些模式是通过自然语言而非代码指定的。在多轮对话中,模型能够识别自己输出中的不平衡,并相应地调整后续回答。

例如,当模型发现自己在前几轮对话中多次选择了数字7,它会在后续轮次中有意识地选择其他数字,以使整体分布更加均衡。这种能力并不需要额外的指令或提示,它完全是模型内部已有能力的体现。

五、B-score的实际应用

B-score的提出为检测和减轻大语言模型中的偏见提供了一种实用工具。它有几个重要的应用场景:

1. 回答验证:当模型给出一个答案时,我们可以计算其B-score。如果B-score异常高,表明这可能是一个有偏见的回答,我们可以选择拒绝它并要求模型重新生成。

2. 模型调试:B-score可以帮助开发者识别模型中存在的系统性偏见,从而有针对性地进行修正。

3. 用户警告:当检测到高B-score的回答时,系统可以向用户发出警告,提醒他们模型的回答可能存在偏见。

4. 多样化生成:通过识别低B-score的回答,我们可以获得更加多样化、平衡的生成结果。

研究人员在多个标准基准测试上验证了B-score的有效性,包括CSQA(常识问答)、MMLU(大规模多任务语言理解)和HLE(人类水平评估)。结果表明,将B-score作为额外的决策指标可以显著提高回答验证的准确率。

六、结论与未来展望

这项研究揭示了大语言模型中偏见的一个重要特性:许多偏见并非固有的模型缺陷,而是单轮对话设置的产物。当模型能够观察自己的回答历史时,它们往往能够自我纠正,给出更加平衡的回答。

基于这一发现,研究团队提出的B-score为检测模型偏见提供了一种简单而有效的工具。这种方法不需要任何外部标签或校准,完全基于模型自身的回答模式,因此可以广泛应用于各种场景。

未来的研究方向包括:将B-score应用于更多类型的偏见检测;开发自动化方法,在训练过程中使用B-score的见解减少模型偏见;以及探索如何利用多轮对话的设置来提高模型在各种任务上的表现。

这项研究不仅提供了一种实用的偏见检测工具,还为我们理解大语言模型的行为提供了新的视角。它表明,即使是当前的大语言模型也具有一定程度的自我监控和纠正能力,这为构建更加公平、平衡的AI系统提供了新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
18岁少女发明净水黑科技:无滤芯循环过滤,微塑料去除率超95%

18岁少女发明净水黑科技:无滤芯循环过滤,微塑料去除率超95%

DeepTech深科技
2026-03-25 13:48:24
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
2026.3.27【A股早报】:注意!国家队也出现了大幅亏损!

2026.3.27【A股早报】:注意!国家队也出现了大幅亏损!

旌阳财经视角
2026-03-27 06:30:03
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
随着哲凯赖什戴帽+比分3-1,瑞典淘汰乌克兰,进欧预赛附加赛决赛

随着哲凯赖什戴帽+比分3-1,瑞典淘汰乌克兰,进欧预赛附加赛决赛

侧身凌空斩
2026-03-27 05:40:00
外资巨头悄然加仓A股医药,哪些细分领域被看好?

外资巨头悄然加仓A股医药,哪些细分领域被看好?

流苏晚晴
2026-03-26 18:47:44
投资近7亿元,沈阳这家医院新址就要开工了!

投资近7亿元,沈阳这家医院新址就要开工了!

沈阳百姓一家亲
2026-03-27 00:08:33
曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

观察者海风
2026-03-25 22:10:33
5月1日起,全国电动车彻底“变天”,家家户户都要注意

5月1日起,全国电动车彻底“变天”,家家户户都要注意

番外行
2026-03-26 08:19:47
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
奇才落选秀里斯26分17板创NBA纪录,生涯前6场60板比肩奥尼尔

奇才落选秀里斯26分17板创NBA纪录,生涯前6场60板比肩奥尼尔

懂球帝
2026-03-26 12:27:11
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

清茶浅谈
2024-12-04 14:29:09
3笔签约正式达成!恭喜詹姆斯·哈登,签2年7500万美元合同最合理

3笔签约正式达成!恭喜詹姆斯·哈登,签2年7500万美元合同最合理

翰飞观事
2026-03-26 20:19:10
戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

仰卧撑FTUer
2026-03-26 22:37:11
深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳晚报
2026-03-26 10:20:44
偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

离离言几许
2026-03-16 16:31:23
山东女子车位被占,对方拒绝挪车还辱骂,派出所里叫嚣:多大点事

山东女子车位被占,对方拒绝挪车还辱骂,派出所里叫嚣:多大点事

川渝视觉
2026-03-26 21:46:10
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

河南三个大爷自驾三轮车出游106天,总里程超3000公里,平均年龄超75岁!游历八省,分工明确,当事人:出发前约定互不追责,子女签字见证

大风新闻
2026-03-25 19:23:14
2026-03-27 07:40:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
房产
手机
军事航空

亲子要闻

这娃生下来就是报恩的,听到他说对不起的时候,眼泪一下子就出来了

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

手机要闻

三星阔折叠渲染图曝光,Galaxy Z Fold 8宽屏版

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版