网易首页 > 网易号 > 正文 申请入驻

PNAS | 瞳孔里的“确认偏误”:主观信念如何重塑我们对假新闻的强化学习?

0
分享至


认知神经科学前沿文献分享


基本信息

Title:Eye of the beholder: Pupillary response reflects how subjective prior beliefs shape reinforcement learning with fake news

发表时间:2026-4-16

发表期刊:PNAS

影响因子:9.1

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本



研究背景

在社交媒体时代,尽管事实核查工具日益普及,虚假新闻依然能够广泛传播并被许多人深信不疑。为什么人们会如此固执地相信假新闻?


传统的心理学观点通常将其归咎于“确认偏误”(Confirmation Bias),即人们倾向于寻找和记住符合自己已有信念的信息。然而,这种看似非理性的偏误为何在人类进化中被保留下来?一种新兴的假设认为,确认偏误可能根植于大脑基础的强化学习(Reinforcement Learning, RL)机制中。在充满噪音和不确定性的信息环境中,优先处理与预期一致的信息,可能是一种维持预测稳定性的适应性策略。

但这引出了一个更深层的问题:当个体必须将外部的反馈(例如奖励或事实核查)与自己内部的认知预期相整合时,既有的信念究竟是如何干扰学习过程的?

为了回答这一问题,这项发表于 PNAS 的最新研究设计了一个巧妙的多阶段实验。研究者不仅要求被试对真实和虚假的新闻标题进行判断并给出自信度,还让他们带着这些“主观先验”进入一个概率性强化学习任务。结合计算建模瞳孔测量技术,该研究试图拆解“主观真实感”和“自信度”这两个维度,究竟是如何在生理和行为层面重塑我们对信息的价值学习的


研究核心总结

这项研究的核心发现可以拆解为四个递进的层面,从决策前的生理唤醒,到行为层面的学习偏差,再到背后的计算机制与信念固化。

一、 瞳孔扩张提前暴露了主观自信度对信念评估的卷入

在实验的第一阶段(映射期),被试需要判断新闻标题的真伪,并通过下注虚拟货币来表达自己的自信度。行为数据显示,被试整体上能够以高于随机的水平区分真假新闻,且在判断新闻为“假”时往往表现出更谨慎的标准和更高的下注金额。

更有价值的发现来自神经生理层面。在被试做出判断前的两秒钟内,瞳孔的动态变化已经提前反映了他们的主观认知状态。具体而言,当被试以“高自信”做出判断时(尤其是高自信地判定某条新闻为假时),其瞳孔扩张幅度显著更大。重要的是,这种瞳孔反应完全不受新闻客观真伪的影响,而是纯粹由被试内部的“主观确定性”驱动。这表明,自信度在决策早期就已经调动了自主神经系统的唤醒与认知资源。


Fig 1. 实验的三个阶段:新闻真实性与自信度评估(映射期)、概率性强化学习(学习期)以及最终的信念修正(反馈期)。


Fig 2. 映射期的信号检测指标与自信度测量,显示被试在判断假新闻时倾向于下注更高的金额。


Fig 3. 决策前的瞳孔扩张幅度受主观自信度显著调节,高自信试验中瞳孔收缩更少,且独立于新闻的客观真实性。
二、 强化学习高度依赖与既有信念的“一致性”

在随后的强化学习任务中,被试需要在两两配对的新闻标题中做出选择以获取概率性奖励。研究者暗中操控了奖励规则:在某些区块中,奖励与被试之前判断的“真实性”挂钩;而在另一些区块中,奖励与被试的“自信度”挂钩。

结果显示,当外部奖励规则与被试的主观真实性判断一致时,被试能够迅速适应,准确率和学习效率显著提升,他们会频繁选择那些自己曾高自信认定为“真”或“假”的标题。然而,当奖励规则要求他们优先考虑“自信度”而非“真实性”时(尤其是奖励低自信选项时),被试的学习表现大幅下降,甚至退化到随机选择的水平。这说明,人类的强化学习系统极度依赖既有的认知结构,当外部反馈与内部信念不兼容时,学习行为会变得极其僵化。


Fig 4. 强化学习任务中的行为表现:当奖励与先验真实性判断一致时,被试的准确率显著更高;而当奖励与自信度挂钩时,学习表现大幅下降。
三、 学习策略的动态切换:从特征泛化到效价驱动

为了探究这种行为僵化背后的机制,研究者对比了两种强化学习计算模型:一种是对称的特征模型(同等对待正负预测误差),另一种是非对称模型(对正负预测误差赋予不同的学习率)。

建模结果揭示了一个精妙的策略转换。当奖励规则与“真实性”一致时,被试依赖对称的特征泛化机制,即把“真实”或“虚假”作为一个可靠的抽象特征来指导全局学习。但是,当奖励规则与既有信念冲突(如奖励自信度)时,被试的认知系统无法再依赖原有的抽象特征,转而采用非对称的、受效价驱动的更新策略——他们开始过度赋予“获得奖励”(正预测误差)更高的权重,行为变得更加刻板和受限。

此时的瞳孔数据也印证了这一认知冲突。当被试强烈持有的先验信念与外部奖励信号发生冲突时,决策前的瞳孔出现了显著的扩张,标志着认知负荷与内部冲突的加剧。


Fig 5. 计算建模参数分布:对称模型与非对称模型在不同奖励区块下的学习率与逆温度参数差异,以及模型对人类行为的拟合表现。


Fig 6. 学习期决策前的瞳孔反应:当强烈持有的先验信念与外部奖励规则发生冲突时,瞳孔显著扩张。
四、 高自信信念具有极强的抗拒修正特性

在实验的最后阶段,被试看到了最初的新闻和自己的判断,并被允许修改意见。数据表明,被试表现出强烈的“信念坚持”倾向,极少改变初始判断,尤其是那些最初以高自信做出的判断。无论这些高自信判断客观上是对是错,它们都同样难以被撼动。

只有在初始自信度较低时,被试才表现出一定的信念更新意愿。此外,当被试坚持了自己的初始判断,却收到了意料之外的负面反馈时,其瞳孔出现了显著的“惊讶”扩张。这进一步说明,确认偏误降低了人们对反证信息的敏感度,使得与信念相悖的反馈在认知上变得极具冲击力。


Fig 7. 反馈期的信念修正比例:被试极度倾向于维持初始判断,信念更新几乎只发生在低自信条件下。


Fig 8. 确认初始判断后的瞳孔反应:面对与既有信念相悖的负面反馈时,瞳孔出现显著的扩张,反映了预期违背与惊讶。


研究意义

这项工作为我们理解“人类为何难以摆脱假新闻”提供了一个机制层面的解释框架。它清晰地剥离了信念的两个维度在学习中的不同分工:“真实性”负责指导价值学习的泛化,而“自信度”则负责锁定和稳固信念的表征。

从理论意义上看,该研究证明了确认偏误并非单纯的认知缺陷,而是强化学习系统在处理先验结构与外部反馈时的一种计算妥协。当外部环境的反馈逻辑与我们大脑中预设的“真假”框架不符时,我们的学习系统会退化为一种短视的、受效价驱动的模式,从而失去了灵活适应的能力。

从现实启发来看,这项研究解释了为什么单纯的“辟谣”或“事实核查”往往收效甚微。因为一旦某个虚假信息被个体以“高自信”接纳,它不仅会在生理层面调动更高的唤醒度,还会直接改变个体后续处理奖励和反馈的计算权重。这也提示我们,在对抗虚假信息时,降低受众在接触信息初期的“盲目自信”,可能比事后提供正确答案更为关键。

分享人:饭鸽儿

审核:PsyBrain 脑心前沿编辑部

你好,这里是「PsyBrain 脑心前沿

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊 及核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯

科研是一场探索未知的长跑,但你无需独行。欢迎加入PsyBrain 学术社群,和一群懂你的同行,共同丈量脑与心智的无垠前沿。

点击卡片进群,欢迎你的到来

一键关注,点亮星标 ⭐ 前沿不走丢!


一键分享,让更多人了解前沿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国民党台北市松信区议员初选出炉!蓝营“最美发言人”出线

国民党台北市松信区议员初选出炉!蓝营“最美发言人”出线

海峡导报社
2026-04-22 11:52:17
斯诺克世锦赛最新战报!中国4胜4负,丁俊晖大战赵心童时间敲定!

斯诺克世锦赛最新战报!中国4胜4负,丁俊晖大战赵心童时间敲定!

曹说体育
2026-04-22 10:33:30
铁丝、死蛙、放狗吓鸟,网友称广州多个公园出现“诱拍装置”,园方回应

铁丝、死蛙、放狗吓鸟,网友称广州多个公园出现“诱拍装置”,园方回应

环球网资讯
2026-04-21 15:13:44
“高净值家庭”标准出炉:全中国共有512.8万户,你家达标了吗?

“高净值家庭”标准出炉:全中国共有512.8万户,你家达标了吗?

蓝色海边
2026-04-21 18:00:04
我50了,记不住后,李小冉再回应孙艺洲模仿:好皮的孩子!

我50了,记不住后,李小冉再回应孙艺洲模仿:好皮的孩子!

默默有话说
2026-04-22 11:40:39
联合国秘书长发言人在记者会上用中文问好 并表示希望联合国的多语种服务越来越好

联合国秘书长发言人在记者会上用中文问好 并表示希望联合国的多语种服务越来越好

每日经济新闻
2026-04-21 14:32:56
伊朗处决米尔贾法里

伊朗处决米尔贾法里

南方都市报
2026-04-22 08:49:14
孙俪儿子画个妆能演甄嬛了!等等五官完全复刻了妈妈,尤其是眼睛

孙俪儿子画个妆能演甄嬛了!等等五官完全复刻了妈妈,尤其是眼睛

观鱼听雨
2026-04-21 18:07:05
31+30!探花爆了!4个1-1!季后赛杀疯了!小杨激动坏了!

31+30!探花爆了!4个1-1!季后赛杀疯了!小杨激动坏了!

贵圈真乱
2026-04-22 11:37:05
51岁徐静蕾美国超市被拍,胖到不敢认!旁边黄立行头发花白?

51岁徐静蕾美国超市被拍,胖到不敢认!旁边黄立行头发花白?

乐天闲聊
2026-04-22 11:33:09
多所985高校鼓励博士生去读硕士,网友说:毕业没几年就退休了!

多所985高校鼓励博士生去读硕士,网友说:毕业没几年就退休了!

灯锦年
2026-04-21 16:21:39
5200万镑+球员互换!曼联这次玩真的?红魔为皇马真核豁出去了

5200万镑+球员互换!曼联这次玩真的?红魔为皇马真核豁出去了

奶盖熊本熊
2026-04-22 01:02:35
出卖马杜罗才3个月,报应就来了!委内瑞拉高层遭集体清洗

出卖马杜罗才3个月,报应就来了!委内瑞拉高层遭集体清洗

时尚的弄潮
2026-04-22 10:01:34
百亿美元砸出的荒诞死局:一国正规军为何永远打不赢一支民兵

百亿美元砸出的荒诞死局:一国正规军为何永远打不赢一支民兵

寰球经纬所
2026-04-20 22:59:41
恭喜特朗普,这场中东冲突,终于被他搞成了全球都喜欢的样子

恭喜特朗普,这场中东冲突,终于被他搞成了全球都喜欢的样子

田园小归
2026-04-22 08:29:10
又打起来了,美军扣押巨型货轮,中国商品全在船上,胡塞彻底翻脸

又打起来了,美军扣押巨型货轮,中国商品全在船上,胡塞彻底翻脸

凡知
2026-04-21 11:13:52
39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

揽星河的笔记
2026-04-14 15:18:30
最后24小时,伊朗仍未点头赴会,特朗普挑明后果,美国敌人浮现

最后24小时,伊朗仍未点头赴会,特朗普挑明后果,美国敌人浮现

军机Talk
2026-04-21 20:07:17
特朗普不演了,警告中国有大麻烦,话音刚落,美国人推动罢免总统

特朗普不演了,警告中国有大麻烦,话音刚落,美国人推动罢免总统

混沌录
2026-04-21 21:10:15
越老越妖,维尔贝克晒Siu庆祝照片并艾特C罗

越老越妖,维尔贝克晒Siu庆祝照片并艾特C罗

懂球帝
2026-04-22 09:54:09
2026-04-22 12:36:49
PsyBrain脑心前沿
PsyBrain脑心前沿
追踪脑科学新动态,聚焦认知与神经新研究
339文章数 16关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

柬埔寨国王在京手术 洪森携子看望:感谢中方

头条要闻

柬埔寨国王在京手术 洪森携子看望:感谢中方

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

四款全球首秀+AI落地 大众汽车集团在华转型全面提速

态度原创

游戏
艺术
教育
亲子
军事航空

魔兽世界:60版本最牌面的物理命中武器,谁才是你心中的天花板?

艺术要闻

无花不风景

教育要闻

博主分享数学速算技巧,三位数的平方轻松算出来,网友:干嘛不用计算器

亲子要闻

影响心理健康的两种快乐因素:一旦失衡,孩子将会厌学抑郁

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版