追问daily | 游戏成瘾，心理问题是因而不是果；OpenAI揭示AI幻觉根源；老年人体重不稳定，加速认知衰退|抑郁症|脑科学|人工智能|openai

分享至

█脑科学动态

Nature：为什么“求稳”不如“避险”重要？

神经炎症通过IL-1诱导DNA双链断裂，导致空间记忆受损

短暂社交隔离显著增强青少年寻求奖励的行为

新型超声头盔无需手术即可实现高精度深部脑刺激

游戏成瘾：心理问题是“因”而非“果”

老年人体重不稳定，加速认知衰退

星形胶质细胞是早期压力导致行为异常的幕后黑手

█AI行业动态

OpenAI豪掷1150亿美元布局未来

█AI驱动科学

Meta新方法让LLM长上下文处理提速30倍

人类与AI学习机制惊人相似，为开发更直观AI提供新思路

利用放射科医生眼动数据提升医学影像诊断AI的可信度

AEquity：新AI工具通过修正数据源头偏差，提升医疗算法公平性

AI像人一样评估社交情境，可加速神经科学研究

社会技术交换理论：重新定义现代工作场所的人机关系

OpenAI揭示AI幻觉根源：现有评估机制奖励猜测而非诚实

脑科学动态

Nature：为什么“求稳”不如“避险”重要？大脑杏仁核给出答案

为何人类在规避风险时，反而比追求回报时更愿意冒险探索？来自魏茨曼科学研究所的 Tamar Reitich-Stolero 和 Rony Paz 等研究人员，通过记录人类大脑深处的单神经元活动，发现杏仁核中的两种独特神经信号共同调控着这一行为：一种是通用的探索信号，另一种是面对潜在损失时特异性增强的“神经噪声”。

▷得失对立条件下的范式与学习行为。Credit: Nature (2025).

研究团队招募了17名因治疗癫痫而已植入深层电极的患者，让他们参与一项二选一的概率游戏。游戏中，他们需要在“收益”（获得积分）和“损失”（扣除积分）两种不同情境下做出选择，以争取最佳结果。在此期间，研究人员同步记录了他们杏仁核和颞叶皮层神经元的活动。结果显示，在行为层面，人们在试图避免损失时，其探索未知选项的倾向明显高于追求收益时。

神经活动数据揭示了其背后的双重机制：首先，无论收益或损失，当人们决定探索时，杏仁核的神经放电率都会升高，这是一个通用的“开始探索”信号。更关键的发现是，在避免损失的情境下，杏仁核神经活动的变异性，即神经噪声会显著增加。这种增强的噪声与不确定感正相关，并直接导致了更多的探索行为。这表明，大脑在面对潜在威胁时，会通过增加神经系统的“随机性”来打破常规，促使个体更积极地寻找新的解决方案，这可能是一种深刻的进化适应机制。研究发表在 Nature 上。

阅读更多：

Reitich-Stolero, Tamar, et al. “Rate and Noise in Human Amygdala Drive Increased Exploration in Aversive Learning.” Nature, Aug. 2025, pp. 1–10. www.nature.com, https://doi.org/10.1038/s41586-025-09466-1

神经炎症通过IL-1诱导DNA双链断裂，导致空间记忆受损

大脑的慢性炎症为何会导致记忆丧失？来自图卢兹大学、法国国家健康与医学研究院和法国国家科学研究院的 Nicolas Blanchard 和 Elsa Suberbielle 等研究人员，通过小鼠模型的研究，首次揭示了其背后的分子机制：炎症信号通过破坏神经元DNA的表观遗传调控，直接引发认知功能障碍。

▷未感染对照小鼠海马齿状回区域内一种名为颗粒细胞的神经元亚群的放大图。细胞核染成蓝色，星形胶质细胞突起染成绿色。红色聚集信号表示 DNA 双链断裂（对照条件下的图像中不存在）。Credit: Benjamin Schmitt & Elsa Suberbielle.

研究团队构建了两种小鼠模型，分别通过感染常见寄生虫弓形虫和直接注入炎症细胞因子白细胞介素-1（interleukin-1, IL-1）来诱发慢性神经炎症。结果显示，两种模型中的小鼠均表现出明显的空间记忆缺陷。深入研究发现，IL-1是导致记忆损伤的关键信号分子，它直接作用于大脑海马体中的神经元，触发了细胞内DNA双链断裂信号的异常激活。正常情况下，DNA的断裂与修复是记忆巩固所必需的表观遗传过程，但过度的炎症信号打破了这一平衡，从而损害了记忆功能。最关键的证据是，当研究人员通过基因手段阻断神经元上的IL-1受体，或抑制下游的DNA断裂信号通路后，即使在严重的炎症状态下，小鼠的记忆能力也得到了保护。研究发表在 Nature Neuroscience 上。

阅读更多：

Belloy, Marcy, et al. “Toxoplasma Gondii Infection and Chronic IL-1 Elevation Drive Hippocampal DNA Double-Strand Break Signaling, Leading to Cognitive Deficits.” Nature Neuroscience, Aug. 2025, pp. 1–11. www.nature.com, https://doi.org/10.1038/s41593-025-02041-x

短暂社交隔离显著增强青少年寻求奖励的行为

几个小时的孤独会对青少年产生什么影响？为探究此问题，来自剑桥大学和卡迪夫大学的 Livia Tomova、Sarah-Jayne Blakemore 及其同事进行了一项实验研究。他们发现，即使是短暂的社交隔离也会显著增强青少年寻求奖励的动机，这一发现揭示了孤独可能驱使年轻人进行社交或转向药物滥用等风险行为的内在机制。

研究团队招募了40名16至19岁的健康青少年，让他们经历两种不同的隔离情境：一次是完全没有任何社交互动的隔离，另一次则允许使用社交媒体进行虚拟互动。研究发现在经历了短短约四小时的隔离后，青少年寻求奖励的动机显著增强，他们会更快地做出决定，并更愿意为获得金钱或积极的社交图片等奖励而付出努力。同时，他们的奖励学习能力也有所提升。这种效应在那些主观报告在隔离中感到更孤独的个体身上尤为强烈。

有趣的是，当被允许使用社交媒体时，青少年的孤独感有所减轻，寻求奖励的冲动也相对缓和。但这并非万能解药，因为虚拟社交并不能阻止因隔离而下降的积极情绪。这一结果表明，孤独感可能通过激活大脑的奖励系统来促使个体寻求连接，但当现实社交不可得时，这种强大的驱动力也可能将青少年推向酒精、毒品等不健康的替代性奖励。研究发表在 Communications Psychology 上。

阅读更多：

Tomova, Livia, et al. “Acute Isolation Is Associated with Increased Reward Seeking and Reward Learning in Human Adolescents.” Communications Psychology, vol. 3, no. 1, Sept. 2025, p. 135. www.nature.com, https://doi.org/10.1038/s44271-025-00306-6

新型超声头盔无需手术即可实现高精度深部脑刺激

如何无需开颅手术就能精准调控大脑深处，以治疗帕金森病等顽疾？来自伦敦大学学院和牛津大学的 Bradley Treeby、Eleanor Martin、Ioana Grigoras 等研究人员，成功开发出一款新型超声波头盔。

▷新型超声波设备示意图。Credit: Morgan Roberts

该系统通过一个内置256个独立超声元件的头盔，将聚焦的机械脉冲能量精确传递至大脑深处。其创新之处在于极高的精准度，能够靶向比传统超声设备小1000倍的目标区域，且无需侵入性手术。研究团队在7名健康志愿者身上进行了验证，目标是丘脑中微小的外侧膝状体核（LGN，一个处理视觉信息的关键中继站）。借助同步功能性磁共振成像的实时监测，研究人员发现，超声刺激能精确增强与LGN相连的视觉皮层活动。此外，采用一种特定的θ波爆发刺激模式后，视觉皮层的活动被持续抑制了至少40分钟，显示出该技术诱发持久性神经调节的潜力。这一成果为深部脑刺激等侵入性疗法提供了一种安全、可逆的替代方案，有望变革帕金森病、抑郁症等神经及精神疾病的治疗模式。研究发表在 Nature Communications 上。

阅读更多：

Martin, Eleanor, et al. “Ultrasound System for Precise Neuromodulation of Human Deep Brain Circuits.” Nature Communications, vol. 16, no. 1, Sept. 2025, p. 8024. www.nature.com, https://doi.org/10.1038/s41467-025-63020-1

游戏成瘾：心理问题是“因”而非“果”

青少年沉迷游戏，究竟是游戏的错，还是另有隐情？针对这一长期争论，加州大学圣巴巴拉分校的 Kylie Falcione 和 René Weber 进行了一项研究。他们通过一项大规模纵向分析发现，青少年游戏障碍并非凭空产生，而是更可能源于先前已存在的抑郁、焦虑等心理健康问题。

该研究利用了“青少年大脑认知发展研究”的庞大数据，对4,289名美国青少年进行了为期三年的跟踪调查（从11-12岁到13-14岁）。研究人员采用交叉滞后面板模型（CLPMs，一种能分析不同变量在时间上相互影响方向的统计方法）分析了精神病理学与游戏障碍之间的关系。结果清晰地指出了一条单向路径：在研究初期表现出更多抑郁、社交问题等症状的青少年，在一年后出现游戏障碍的风险显著更高。然而，反向关联并不成立，即游戏障碍本身并不会导致青少年在未来出现更多的心理健康问题。这表明，游戏成瘾行为在很多情况下是一种不健康的应对机制，是青少年为逃避或缓解现实中的心理痛苦而采取的行动，其根源在于已有的心理困扰。研究发表在 JAMA Network Open 上。

阅读更多：

Falcione, Kylie, and René Weber. “Psychopathology and Gaming Disorder in Adolescents.” JAMA Network Open, vol. 8, no. 7, July 2025, p. e2528532. Silverchair, https://doi.org/10.1001/jamanetworkopen.2025.28532

老年人体重不稳定，加速认知衰退

老年时期体重的变化如何影响大脑健康？宾夕法尼亚州立大学的Muzi Na及其合作团队，通过一项长达11年的研究揭示，65岁以上老年人的体重减轻或大幅波动，可能是认知能力加速下降的危险信号。该研究强调，维持稳定的体重对于老年人的认知健康至关重要。

研究团队分析了4304名65岁以上老年人从2011到2021年的健康数据。他们追踪了参与者每年的体重、体质指数（BMI）和腰围，并结合记忆力、执行功能等年度认知测试结果进行综合评估。结果清晰地表明，体重的稳定性与认知健康密切相关。数据显示，体重波动最大的老年人，其认知衰退的速度是体重最稳定人群的2到4倍。进一步分析发现，两种模式的体重变化尤为不利：体重减轻超过5%，以及在增减5%之间反复波动的“体重循环”。这两种情况都与最快的认知能力下降速度显著相关。有趣的是，单纯的体重增加并未显示出与认知加速衰退的关联，但这并不意味着增重有益，因为中年肥胖仍是公认的长期健康风险。这项研究提醒我们，监测老年人体重变化，尤其是避免大幅减轻和剧烈波动，可能是维护大脑功能的重要一环。研究发表在 Obesity 上。

阅读更多：

Flores, Ashley C., et al. Variability in Body Weight and Body Composition and Cognitive Trajectories in Older Adults in the United States. onlinelibrary.wiley.com, https://doi.org/10.1002/oby.24309. Accessed 8 Sept. 2025

星形胶质细胞是早期压力导致行为异常的幕后黑手

早期生活压力为何会增加成年后患抑郁症的风险？蒙特利尔大学附属医院研究中心的Ciaran Murphy-Royal、Lewis R. Depaauw-Holt及其团队通过小鼠研究揭示了关键的细胞机制。他们发现，压力首先扰乱大脑下丘脑外侧的星形胶质细胞，进而以性别差异化的方式改变神经元活动，最终导致成年后的行为异常，为预防和治疗相关精神疾病提供了新靶点。

▷LH 星形胶质细胞中 Gq 偶联的钙离子波动会刺激食欲素神经元，从而扰乱幼年小鼠的昼夜活动节律。Credit: Nature Communications (2025).

研究团队通过在幼鼠发育关键期模拟缺乏母爱的早期生活压力，发现成年后的小鼠表现出与人类抑郁症相似的性别差异行为：雄性在白天异常活跃，雌性在夜间活动水平显著下降。这些行为与大脑下丘脑外侧区域中调节觉醒的食欲素神经元的活动模式完全对应。进一步研究发现，作为大脑“管家”的星形胶质细胞是这场变化的始作俑者。在受过压力的动物中，星形胶质细胞变得更小、分支更少，显示出功能障碍。尤为关键的是，当研究人员通过基因手段特异性地阻断星形胶质细胞上的应激激素受体——糖皮质激素受体后，早期压力对神经元和行为的负面影响几乎被完全逆转。该研究还揭示了不同性别背后的分子机制，雄性的异常行为与嘌呤能信号增强有关，雌性则与L-乳酸供应减少有关。这一发现颠覆了以往认知，证明星形胶质细胞是应激反应的主要驱动者，先于神经元发生改变。研究发表在 Nature Communications 上。

阅读更多：

Depaauw-Holt, Lewis R., et al. “A Divergent Astrocytic Response to Stress Alters Activity Patterns via Distinct Mechanisms in Male and Female Mice.” Nature Communications, vol. 16, no. 1, July 2025, p. 6372. www.nature.com, https://doi.org/10.1038/s41467-025-61643-y

AI 行业动态

OpenAI豪掷1150亿美元布局未来，2030年营收目标剑指2000亿

OpenAI近期向股东披露了其雄心勃勃的战略规划，宣布未来五年将投入高达1150亿美元的资金，主要用于自建数据中心和算力基础设施。这一数字较半年前的预估大幅增加了800亿美元，凸显了公司对人工智能领域长期竞争的高强度投入。与此同时，OpenAI预测其年营收将在2030年达到2000亿美元，反映出其对商业化前景的极度乐观。尽管面临巨额支出压力，资本市场仍对其保持高度信心，软银、Thrive等投资方正以5000亿美元估值追加投资。

OpenAI的营收增长主要依赖ChatGPT业务的快速扩张。公司预计ChatGPT在2025年将贡献近100亿美元收入，成为绝对主体，到2030年该项收入有望突破900亿美元。为应对持续高企的算力与人力成本，OpenAI正探索电商导购抽佣、广告等新盈利模式，并计划将部分API和Agent功能整合至ChatGPT主体以优化资源分配。此外，公司还面临人才竞争加剧的挑战，例如Meta为顶尖AI研究人员开出的年薪高达1亿美元，迫使OpenAI不得不大幅提高薪酬支出。

巨额资金消耗的背后是算力需求的指数级增长。OpenAI预计2025年现金流出将超80亿美元，2025至2029年累计消耗达1150亿美元，其中服务器投入占比近1000亿美元。推理计算费用同期累计将超1500亿美元，而训练成本也从2025年的90亿美元攀升至2030年的持续高位。为降低对英伟达产能的依赖，OpenAI已启动自研服务器芯片和自有数据中心建设，以保障算力供应链的稳定性。

阅读更多：

https://www.theinformation.com/articles/openai-says-business-will-burn-115-billion-2029

AI 驱动科学

Meta新方法让LLM长上下文处理提速30倍

大型语言模型处理长文本时的巨大延迟和内存开销是其应用的主要瓶颈。来自Meta Superintelligence Labs、新加坡国立大学和莱斯大学的Xiaoqiang Lin与Aritra Ghosh等研究人员，共同提出了一种名为REFRAG的高效解码框架。该框架通过智能压缩上下文，在不损失精度的前提下，将长文本处理速度提升了高达30倍。

REFRAG框架的核心洞察在于，在检索增强生成应用中，大部分检索来的上下文信息是与问题无关的。针对这一特性，REFRAG设计了一个“压-缩-加-选”四步流程：首先，用轻量级编码器将tokens高效“压缩”成信息密度更高的“块向量”；接着，让主模型处理这些块向量，从而将输入序列“缩短”16倍；输入变短后，注意力计算和显存占用大幅降低，实现了“加速”；最后，为了防止关键信息丢失，框架通过强化学习策略智能“选择”并保留最重要的信息片段不被压缩。实验结果表明，该框架在大幅提升效率的同时，模型准确率并未下降。具体而言，它将首个词元生成时间（Time-To-First-Token，衡量模型反应速度的关键指标）提速高达30.8倍，并将模型的有效上下文窗口扩展了16倍。在GSM8K数学推理基准测试中，其性能甚至几乎翻倍。

阅读更多：

Lin, Xiaoqiang, et al. “REFRAG: Rethinking RAG Based Decoding.” arXiv:2509.01092, arXiv, 1 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.01092

人类与AI学习机制惊人相似，为开发更直观AI提供新思路

人类和人工智能如何整合快速学习与渐进式学习这两种模式？布朗大学的Jake Russin、Ellie Pavlick和Michael J. Frank团队通过训练AI系统发现，AI的两种学习模式的互动方式与人类的工作记忆和长期记忆惊人地相似。

研究团队将人类学习分为两种：一是快速灵活的“情境化”学习（in-context learning），如同通过几个例子学会井字棋规则；二是缓慢持续的“渐进式”学习（incremental learning），如同反复练习弹奏钢琴。在人工智能中，这分别对应于大模型根据当前输入灵活推理的能力（ICL，情境学习）和通过海量数据训练调整内部参数的权重学习（IWL，in-weight learning）。研究人员采用元学习的方法训练AI，发现灵活的ICL能力是在经历了大量渐进式IWL之后才涌现的，这好比人类在玩过上百种桌游后，能迅速掌握新游戏的规则。更有趣的是，该模型再现了人类学习中的一个经典权衡：需要费力纠错才能完成的任务（激活IWL），记忆会更牢固；而轻松学会的内容（依赖ICL），虽然应用灵活却容易遗忘。这表明，AI与人脑可能遵循着共同的计算原理，即错误是巩固长期记忆的关键驱动力。研究发表在 PNAS 上。

阅读更多：

Russin, Jacob, et al. “Parallel Trade-Offs in Human Cognition and Neural Networks: The Dynamic Interplay between in-Context and in-Weight Learning.” Proceedings of the National Academy of Sciences, vol. 122, no. 35, Sept. 2025, p. e2510270122. world, www.pnas.org, https://doi.org/10.1073/pnas.2510270122

利用放射科医生眼动数据提升医学影像诊断AI的可信度

当前医疗AI因决策过程不透明而面临信任危机，如何让机器像专家一样思考是关键。卡迪夫大学和威尔士大学医院的Hantao Liu、Richard White等人领导的研究团队，通过追踪放射科医生的眼球运动，成功创建了一个能模仿专家视觉模式的AI系统，有效提升了诊断AI的性能与可信度。

研究团队首先建立了一个大规模的眼动追踪数据集，邀请了13位资深放射科医生，记录下他们在查看近200张胸部X光片时的超过10万次眼球运动。这些数据揭示了专家在诊断时会优先关注哪些关键区域。基于该数据集，团队训练了一个名为CXRSalNet的新型AI模型，专门用于预测图像中的视觉显著性（visual saliency，即图像中最能吸引人类注意力的临床相关区域）。该模型的核心任务是学习并模仿专家的“火眼金睛”，自动定位出潜在的病灶区域。当研究人员将CXRSalNet作为“导航模块”与其他负责具体诊断的AI系统结合时，发现诊断系统的综合性能提升了1.5%。更重要的是，AI的决策焦点变得更像人类专家，增强了其行为的可解释性。这项工作为构建更值得信赖的医疗AI铺平了道路。研究发表在 IEEE Transactions on Neural Networks and Learning Systems 上。

阅读更多：

Lou, Jianxun, et al. “Chest X-Ray Visual Saliency Modeling: Eye-Tracking Dataset and Saliency Prediction Model.” IEEE Transactions on Neural Networks and Learning Systems, vol. 36, no. 9, Sept. 2025, pp. 16920–30. IEEE Xplore, https://doi.org/10.1109/TNNLS.2025.3564292

AEquity：新AI工具通过修正数据源头偏差，提升医疗算法公平性

医疗AI算法因训练数据中固有的偏见（如种族、社会经济地位）而可能加剧健康不平等，导致对特定人群的漏诊或不当治疗。西奈山伊坎医学院的Faris Gulamali, Girish N. Nadkarni及同事开发了一款名为AEquity的新工具，能在模型训练前直接识别并修正数据集中的偏差，旨在提升AI的公平性。

▷AEquity 工作流程用于识别和缓解胸部 X 光数据集中的偏差。Credit: Gulamali, et al.

研究团队开发的新工具AEquity，其核心在于从数据源头解决偏见问题。该工具通过一种名为子群体可学习性（subgroup learnability）的创新指标，评估AI模型从不同人群（如特定种族或社会经济地位）数据中学习的难易程度，从而精准定位并量化数据集中存在的偏见。研究人员在多种真实医疗数据上验证了AEquity的有效性，包括胸部X光片、医疗成本数据和一项大型公共卫生调查。结果显示，通过AEquity的指导来补充或修正数据，能够显著提升算法的公平性。例如，在胸部X光诊断任务中，偏见最高减少了96.5%；在针对接受医疗补助的黑人患者这一交叉群体的分析中，假阴性率偏见降低了33.3%。该工具不仅效果优于现有方法，且能兼容从简单模型到复杂的视觉Transformer等多种AI架构，为构建更可信、更公平的医疗AI系统提供了关键技术。研究发表在 Journal of Medical Internet Research 上。

阅读更多：

Gulamali, Faris, et al. “Detecting, Characterizing, and Mitigating Implicit and Explicit Racial Biases in Health Care Datasets With Subgroup Learnability: Algorithm Development and Validation Study.” Journal of Medical Internet Research, vol. 27, no. 1, Sept. 2025, p. e71757. www.jmir.org, https://doi.org/10.2196/71757

AI像人一样评估社交情境，可加速神经科学研究

评估社交场景以研究大脑活动，需要耗费数千小时的人工标注，效率极低。芬兰图尔库大学的Severi Santavirta及其同事进行了一项研究，他们发现，人工智能模型GPT-4V能够像人类一样可靠地评估社交互动，为神经科学研究提供了高效的自动化工具。

▷本研究的分析工作流程。Credit: Imaging Neuroscience (2025).

研究团队首先让GPT-4V评估了数百个描绘社交场景的图片和视频，涵盖了138种社交特征，如合作、敌意等。随后，他们将AI的评估结果与超过2000名人类观察者的评估进行比较，发现二者惊人地相似，AI的评估一致性甚至超过了单个普通人。更关键的是，研究人员利用这些评估数据来分析大脑活动。他们使用功能性磁共振成像数据，分别基于AI的标注和人类的标注来构建大脑的社会感知网络。结果显示，两种方法生成的大脑活动图谱几乎完全相同。这项成果意味着，原先需要上万个工时的人工标注任务，现在AI只需几小时即可完成，极大地加速了研究进程。研究发表在 Imaging Neuroscience 上。

阅读更多：

Santavirta, Severi, et al. “GPT-4V Shows Human-like Social Perceptual Capabilities at Phenomenological and Neural Levels.” Imaging Neuroscience, vol. 3, Sept. 2025, p. IMAG.a.134. Silverchair, https://doi.org/10.1162/IMAG.a.134

社会技术交换理论：重新定义现代工作场所的人机关系

当AI成为工作搭档，我们与它的关系是纯粹的工具使用，还是更复杂的社会互动？堪萨斯大学的Cameron W. Piercy和Reaia Turner-Leatherman通过访谈发现，员工在与机器协作时，会像对待人类同事一样进行成本与回报的权衡，这为理解人机关系提供了新的社会交换视角。

研究团队对22名来自不同行业的员工进行了深度访谈，这些员工日常工作都离不开复杂的机器技术（如人工智能、算法系统等）。研究以社会交换理论（Social Exchange Theory，一种认为人际关系建立在成本与回报权衡基础上的社会心理学理论）为框架，分析员工如何在人类同事与机器伙伴之间做出选择。结果显示，员工并非简单地将机器视为工具，而是将其看作工作生态系统中的一员。他们会根据具体情境发展出独特的互动策略，例如，当需要快速获取客观数据时，他们倾向于使用机器（回报高、社交成本低），而当任务需要创造性或主观判断时，则更依赖人类同事。这种权衡过程表明，社会交换理论的核心原则同样适用于人机互动。研究发表在 Human-Machine Communication 上。

阅读更多：

Piercy, Cameron, and Reaia Turner-Leatherman. “Socio-Technical Exchange with Machines: Worker Experiences with Complex Work Technologies.” Human-Machine Communication, vol. 10, no. 1, Aug. 2025. COinS, https://doi.org/10.30658/hmc.10.3

OpenAI揭示AI幻觉根源：现有评估机制奖励猜测而非诚实

大型语言模型为何会自信地编造事实？OpenAI的Adam Tauman Kalai、Ofir Nachum、Edwin Zhang及佐治亚理工学院的Santosh S. Vempala通过理论分析指出，根本原因在于当前AI的训练和评估机制错误地激励了模型的“猜测”行为，而非在不确定时承认“我不知道”。

研究人员从统计学角度剖析了幻觉的产生机制。他们指出，当前的模型评估普遍采用二元评分体系（binary 0-1 scheme），即答对得满分，答错或承认不确定均不得分。这种“应试教育”模式迫使模型像一个急于得分的学生，在不确定时倾向于冒险猜测，从而最大化预期得分，但这直接导致了幻觉的产生。在预训练阶段，幻觉的产生是统计学上的必然结果；对于那些没有规律可循的任意性事实（arbitrary facts），模型无法通过学习模式来确保回答正确，错误便由此而生。即使到了旨在减少幻觉的后训练阶段，由于主流评估排行榜依然被这种错误的评分机制主导，幻觉问题也因此顽固地持续存在。研究团队提出的解决方案并非设计新的幻觉评估工具，而是呼吁改革现有主流基准的评分规则：对自信地犯错给予负分惩罚，同时对模型承认不确定性的“谦逊”行为给予部分奖励，以此从根本上引导领域发展更诚实、可信的AI。

阅读更多：

Kalai, Adam Tauman, et al. “Why Language Models Hallucinate.” arXiv:2509.04664, arXiv, 4 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.04664

整理｜ChatGPT

编辑｜丹雀、存源

关于追问nextquestion

天桥脑科学研究院旗下科学媒体，旨在以科学追问为纽带，深入探究人工智能与人类智能相互融合与促进，不断探索科学的边界。如果您有进一步想要讨论的内容，欢迎评论区留言，或后台留言“社群”即可加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了加州理工天桥神经科学研究院。

Chen Institute建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括、、、科研型临床医生奖励计划、、等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.