Nat Ment Health | 渴求如何改写强化学习：酒精与大麻使用者的计算机制|成瘾|health

Nat Ment Health | 渴求如何改写强化学习：酒精与大麻使用者的计算机制

分享至

认知神经科学前沿文献分享

基本信息

Title:A computational mechanism linking momentary craving and decision-making in alcohol drinkers and cannabis users

发表时间:2026

发表期刊:Nature Mental Health

影响因子:8.7

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

成瘾研究中存在两个长期并行的传统：一是关注线索反应（cue-reactivity），即个体看到酒精或大麻相关线索后主观“更想要”的渴求感；二是关注决策过程中的强化学习（reinforcement learning），即人在反复试错中如何根据奖励反馈更新选择策略。然而，临床上常关注的“当下渴求”与行为学分析的“下一步选择”之间，一直缺少一个能落到计算参数上的统一解释。

本研究试图回答的核心问题是：当下渴求究竟如何影响成瘾相关决策？而决策过程中的预期价值（expected value）与实际结果（outcome），又是否会反过来塑造下一刻的渴求？如果这种双向作用存在，能否用一套统一的计算建模（computational modeling）机制来描述，并在酒精饮用者与大麻使用者之间进行跨物质比较？

实验设计与方法逻辑

研究招募了132名中高风险物质使用者（酒精组68人、大麻组65人），并设置了健康对照与“交叉线索”控制样本。实验采用改造的双臂老虎机反转学习（two-armed bandit reversal learning）范式。被试需要在两台机器间反复选择以追踪高概率奖励，任务分为金钱区块（赢得货币图片）与成瘾区块（赢得被试预先选出的最诱人酒精或大麻图片）。任务期间，被试需间歇性报告当下的渴求感与心境。

验证分为三步：首先，通过模型无关检验确认各组均能有效学习任务，排除单纯的表现差异；其次，构建决策模型，比较标准强化学习、渴求调制结果感知（o-bias）、调制学习率（α-bias）等多种候选模型，定位渴求如何影响选择；最后，构建渴求模型，检验预期价值与实际结果如何共同驱动渴求。此外，研究还评估了这些模型提取的参数能否提升对成瘾风险分数的预测能力。

核心发现

发现一：在成瘾线索下，渴求通过改变学习率影响决策，且在酒精与大麻组中方向相反

在成瘾区块中，最能解释两组行为数据的决策模型均为 α-bias 模型，即当下的渴求感会直接改变个体的学习率（learning rate）。这意味着渴求并非简单让人“更冲动”，而是改写了大脑从反馈中更新价值的速度。更关键的是，这种调制方向在两组中完全相反：酒精组的调制参数为正，意味着渴求越高，酒精相关学习越快；大麻组的调制参数为负，意味着渴求越高，大麻相关学习反而越慢。这提示两类物质使用者虽然在表面上都能学会任务，但内部的计算更新规则并不相同。

Fig. 3 中，作者展示了成瘾条件下 α-bias 模型在两组中均优于其他候选模型，且酒精组的调制参数显著为正，大麻组显著为负

发现二：当下的渴求并非单纯的线索反应，而是由预期价值与实际结果共同驱动

针对“渴求从何而来”的问题，模型比较显示，无论是在成瘾还是金钱条件下，两组最佳的渴求生成模型均为“预期价值 + 实际结果”（EV + outcome）。这表明，任务中的动态渴求不仅是被外部图片线索瞬间点燃的，还会随着个体对奖励的预期（预计会得到多大回报）以及实际获得的结果而不断更新。模型预测的渴求轨迹与被试真实的渴求评分高度相关，证实了主观想要感是一个随内部价值状态与结果证据动态变化的变量。

Fig. 4 中，作者展示了包含预期价值与实际结果的联合模型在两组中表现最佳，且模型预测值与真实渴求评分显著相关；

发现三：渴求的计算机制具有情境特异性，且部分参数能提升酒精成瘾风险预测

渴求对决策的影响高度依赖奖励情境。在金钱区块中，两组的最佳模型均变为 o-bias，即渴求不再改变学习率，而是放大对金钱结果的主观感知。此外，健康对照组和交叉线索（如酒精使用者看大麻线索）控制实验表明，这种“渴求调学习率”的耦合主要针对个体的主要使用物质。在临床预测方面，将计算模型参数加入回归分析后，能显著提升对酒精成瘾风险分数的预测效果，但对大麻风险的预测增益有限，提示不同物质可能需要不同的临床建模维度。

Fig. 5 中，作者展示了结合人口学、模型无关指标与计算参数的全模型能最佳预测酒精成瘾风险，但大麻组并未从计算参数中获益；

省流总结

本研究结合计算建模发现，渴求与强化学习在成瘾决策中存在双向耦合。渴求不仅由预期价值与实际结果共同驱动，还会以物质特异性的方式改变学习率：酒精使用者越渴求学得越快，大麻使用者越渴求学得越慢。这为理解跨物质成瘾机制提供了新的计算视角。

请打分

这篇刚刚登上Nat. Mental Health的研究，是否实至名归？我们邀请您作为“云审稿人”，一同品鉴。精读全文后，欢迎在匿名投票中打分，并在评论区分享您的深度见解。

分享人：天天

审核：PsyBrain 脑心前沿编辑部

你好，这里是「PsyBrain 脑心前沿」

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊及核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯」

科研是一场探索未知的长跑，但你无需独行。欢迎加入PsyBrain 学术社群，和一群懂你的同行，共同丈量脑与心智的无垠前沿。

点击卡片进群，欢迎你的到来

一键关注，点亮星标 ⭐ 前沿不走丢！

一键分享，让更多人了解前沿

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.