追问daily | 性格大变，源于痴呆还是压力？心率与睡眠如何预测精神疾病？大脑在不确定时选择随波逐流|神经元|脑细胞|杏仁核|失智症|智能手表|钢琴演奏|功能障碍

分享至

█脑科学动态

Cell：心率与睡眠数据如何预测精神疾病？

脑细胞“元素周期表”揭示精神分裂症的关键细胞类型

人类合作的关键：神经元同步性决定团队表现

抑制过度活跃的LRRK2：帕金森病治疗的新希望

大脑在不确定时选择随波逐流

新型微泡技术让超声成像媲美MRI

性格大变，是阿尔茨海默病还是生活压力？

█AI行业动态

仅用10%数据，Genius智能体2小时训练秒杀人类玩家

2025年七大前沿科技：自动驾驶实验室、CAR-T细胞疗法与生物修复技术引领未来

█AI研发动态

Nature：GET，预测基因表达的实验级精度

无需动手，思维控制虚拟四轴飞行器

机器人外骨骼助力钢琴家突破速度极限

人脑通过增量机制整合语言信息，优于大语言模型

大语言模型在医学推理中的元认知能力不足

CliniFact数据集：评估大型语言模型在临床研究声明验证中的新基准

脑科学动态

Cell：心率与睡眠数据如何预测精神疾病？智能手表给出答案

精神疾病的复杂性使其研究充满挑战，传统方法难以精确捕捉行为特征。耶鲁大学的Mark Gerstein和巴塞罗那大学的Diego Garrido Martín等研究人员利用智能手表收集的生理数据，结合人工智能建模和全基因组关联分析（GWAS），揭示了精神疾病与遗传基因之间的新联系。

▷Credit: Jason J. Liu et al

研究团队从5000多名9至14岁青少年的智能手表数据中提取了超过250个特征，作为数字表型（digital phenotypes），用于训练AI模型。这些数据包括心率、卡路里消耗、体力活动强度、步数、睡眠水平和睡眠强度等。通过单变量和多变量GWAS分析，研究人员识别出16个显著的基因位点和37个与精神疾病相关的基因，例如ELFN1和ADORA3。研究还发现，心率是预测多动症（ADHD）的关键指标，而睡眠质量和阶段则对识别焦虑更为重要。与传统病例对照GWAS相比，可穿戴设备生成的数据在检测基因位点方面表现出更强的能力。研究发表在 Cell 上。

#大脑健康 #精神疾病 #智能手表 #数字表型 #GWAS

阅读更多：

Liu, Jason J., et al. “Digital Phenotyping from Wearables Using AI Characterizes Psychiatric Disorders and Identifies Genetic Associations.” Cell, vol. 0, no. 0, Dec. 2024. www.cell.com, https://doi.org/10.1016/j.cell.2024.11.012

脑细胞“元素周期表”揭示精神分裂症的关键细胞类型

精神分裂症等精神疾病的治疗进展缓慢，部分原因是其复杂的神经生物学机制尚未完全理解。斯坦福大学医学院的Laramie Duncan及其团队结合全基因组关联研究（GWAS）和全脑基因表达数据库，系统分析了461种脑细胞类型，揭示了与精神分裂症相关的关键细胞类型。

▷系统测试 461 种人类脑细胞类型与精神分裂症（以及测试的其他表型）之间关系的方法。Credit: Nature Neuroscience (2025).

研究团队首先通过GWAS分析了320,404人的基因组数据，鉴定了287个与精神分裂症相关的基因。随后，他们结合全脑基因表达数据库，分析了105个大脑区域的3,369,219个细胞，定义了461种脑细胞类型。通过筛选，研究人员发现109种细胞类型与精神分裂症相关，其中10种代表性细胞类型与疾病关联最强。

这些细胞主要分布在大脑皮层（cerebral cortex，负责高级认知功能）、杏仁核（amygdala，与情绪和恐惧相关）、海马体（hippocampus，与记忆相关）和丘脑（thalamus，感觉信息中继站）等区域。研究还发现了一种位于压后皮层（retrosplenial cortex）的新细胞类型，可能与多种精神疾病的自我意识障碍有关。此外，研究还揭示了与双相情感障碍、抑郁症、多发性硬化症和阿尔茨海默病相关的其他细胞类型。这项研究为精神疾病的细胞类型分类系统提供了框架，未来可能有助于药物开发和个性化治疗。研究发表在 Nature Neuroscience 上。

#大脑健康 #精神分裂症 #脑细胞类型 #全基因组关联研究 #个性化治疗

阅读更多：

Duncan, Laramie E., et al. “Mapping the Cellular Etiology of Schizophrenia and Complex Brain Phenotypes.” Nature Neuroscience, Jan. 2025, pp. 1–11. www.nature.com, https://doi.org/10.1038/s41593-024-01834-w

人类合作的关键：神经元同步性决定团队表现

合作是人类社会互动的关键，但其神经机制尚不明确。北京师范大学团队结合行为任务和颅内脑电图（iEEG）技术，设计了一个虚拟的三足赛车游戏，探索了合作的神经基础。研究发现，合作状态分为启动和维持两种，每种状态都有独特的社会动机和神经动力学特征。

▷a，实验设置。这里显示的是两组参与者进行三足赛车游戏的快照。b，杏仁核和 TPJ 中 iEEG 电极的定位映射到半透明标准化 MNI 大脑（位于右半球的通道镜像到左半球的对称位置）。每个彩色球体代表一个通道。每个通道位点的解剖定位是在每个参与者的原生空间内确定和目视检查的。c，虚拟三足赛车游戏的示意图。使用红色虚线来说明重置事件，并使用“爆炸”符号来指示断开的连接；这些元素在实际游戏中并不存在。Credit: Nature Neuroscience (2024).

研究人员招募了癫痫患者，利用他们大脑中植入的电极记录杏仁核（amygdala）和颞顶交界处（TPJ）的神经活动。参与者通过虚拟的三足赛车游戏进行合作，研究人员同时记录神经活动和行为数据。研究发现，合作状态分为启动和维持两种，每种状态都有独特的社会动机和神经动力学特征。神经元之间的同步水平与参与者之间的合作质量相关，同步性越高，合作越协调。研究还发现，TPJ和杏仁核的高伽马活动以状态依赖的方式同步，预测了合作者的协调程度。这些发现提供了对人类合作动态的精细理解，揭示了每种状态的独特神经认知特征。研究发表在 Nature Neuroscience 上。

#认知科学 #合作 #神经同步 #颅内脑电图 #颞顶交界处

阅读更多：

Wang, Jiaxin, et al. “Simultaneous Intracranial Recordings of Interacting Brains Reveal Neurocognitive Dynamics of Human Cooperation.” Nature Neuroscience, vol. 28, no. 1, Jan. 2025, pp. 161–73. www.nature.com, https://doi.org/10.1038/s41593-024-01824-y

抑制过度活跃的LRRK2：帕金森病治疗的新希望

帕金森病是一种影响近100万美国人的神经退行性疾病，LRRK2基因突变是其最常见的遗传原因。康涅狄格大学健康中心的Yulan Xiong及其团队通过细胞和小鼠模型，发现了一个关键调节因子CalDAG-GEFI（CDGI），它能够控制LRRK2的GTPase功能，从而抑制其过度活跃。这一发现为开发新的治疗方法提供了可能。

▷LRRK2 GTPase 功能调节图。Credit: University of Connecticut

研究团队首先发现，酶ATIC及其底物AICAR在mRNA水平上调节LRRK2，导致帕金森病患者体内产生过多的dardarin蛋白。在此基础上，团队进一步研究了LRRK2的GTPase功能。LRRK2蛋白包含两个酶结构域：激酶（kinase）和GTPase结构域。尽管大多数研究集中在激酶结构域，但Xiong团队发现了一个名为CalDAG-GEFI的生理性GEF（鸟苷酸交换因子），它能够与LRRK2相互作用并增加其GDP到GTP的交换活性。通过果蝇和小鼠模型，研究证明CDGI能够调节LRRK2的细胞功能及其诱导的神经退行性变。这一发现表明，LRRK2的GTPase功能受到GAPs和GEFs的调控，为开发针对帕金森病的新疗法提供了潜在靶点。研究发表在 Science Advances 上。

#大脑健康 #帕金森病 #LRRK2 #GTPase #CalDAG-GEFI

阅读更多：

Liu, Qinfang, et al. “CalDAG-GEFI Acts as a Guanine Nucleotide Exchange Factor for LRRK2 to Regulate LRRK2 Function and Neurodegeneration.” Science Advances, vol. 10, no. 47, Nov. 2024, p. eadn5417. science.org (Atypon), https://doi.org/10.1126/sciadv.adn5417

大脑在不确定时选择随波逐流

在不确定的环境中，大脑如何做出决策是一个复杂的问题。UNIST生物医学工程系的Dongil Chung与弗吉尼亚理工大学的合作者研究了这一问题，发现这些参与者在评估风险选项时遇到困难，并且在社交情境中更倾向于模仿他人的选择。

▷(a) 参与者在一项“更安全”的赌博和一项“风险更高”的赌博之间做出一系列选择。在一些试验中，参与者单独做出选择（单独试验）。在其他试验中，他们被要求在观察其他两名玩家的选择后做出选择（信息试验）。显示 (b) dACC (N = 6) 和 (c) 岛叶 (N = 10) 病变的重建。颜色条代表患者之间病变重叠的程度。(d) 通过负对数似然测量的单独试验的功效效用模型拟合度表明，患有岛叶或 dACC 病变的个体的模型拟合度明显差于非病变对照参与者。Credit: PLOS Computational Biology (2024).

研究团队通过对大脑岛叶（insula）或背侧前扣带皮层（dACC）部分损伤的参与者进行赌博任务实验，发现这些参与者在评估风险选项时使用标准效用计算的能力受到干扰。在社交情境中，这些参与者表现出更高的从众行为，独立于基于社会效用的计算。这表明，在社交环境中，当基于效用的风险处理受到干扰时，跟随他人的选择可能成为一种启发式决策策略。研究结果发表在 PLOS Computational Biology 上。

#认知科学 #决策 #社会影响 #大脑损伤

阅读更多：

Orloff, Mark A., et al. “Social Conformity Is a Heuristic When Individual Risky Decision-Making Is Disrupted.” PLOS Computational Biology, vol. 20, no. 12, Dec. 2024, p. e1012602. PLoS Journals, https://doi.org/10.1371/journal.pcbi.1012602

新型微泡技术让超声成像媲美MRI

超声成像在医疗诊断中应用广泛，但其图像质量受限于操作者技能。Skoltech的Tatiana Estifeeva、Polina Rudakovskaya和Dmitry Gorin教授及其同事，与其他机构的研究人员合作，开发了一种新型的蛋白质-聚合物混合微泡造影剂，显著提高了图像对比度和在血液中的停留时间。

▷左：构成微泡壳的蛋白质和聚合物。右：纯蛋白质微泡与同时使用蛋白质和聚合物的新型混合品种提供的对比度之间的比较。Credit: Tatiana Estifeeva et al./Biomaterials Advances

研究团队合成了100种不同的微泡配方，通过静脉注射到大鼠体内，测试其在血液中的停留时间和图像对比度。新型混合微泡在血液中的停留时间比现有造影剂长1.5到2倍，图像对比度显著提高。这种改进使得在某些情况下，超声成像可以替代更昂贵且有害的MRI和CT扫描。研究发表在 Biomaterials Advances 上。

#神经技术 #超声成像 #微泡造影剂 #蛋白质-聚合物混合

阅读更多：

“Ultrasound Protein-Copolymer Microbubble Library Engineering through Poly(Vinylpyrrolidone-Co-Acrylic Acid) Structure.” Biomaterials Advances, vol. 166, Jan. 2025, p. 214074. www.sciencedirect.com, https://doi.org/10.1016/j.bioadv.2024.214074

性格大变，是阿尔茨海默病还是生活压力？

北亚利桑那大学的Katsuya Oi和宾夕法尼亚州立大学的Cleothia Frazier分析了12,000多名50岁及以上美国人的数据发现，性格变化更多与生活压力相关，而非记忆损伤。

▷个体在“大五”人格因素（包括神经质、开放性、外向性、宜人性和责任心）、认知功能测试（TICS-m）以及生活压力指数上的变化趋势。Credit: Scientific Reports (2024).

研究使用潜在增长曲线模型（Latent Growth Curve Models, LGCMs）分析了12,912名50岁以上参与者的纵向数据。结果显示，所有“大五”人格因素在八年期间均有所下降，但记忆损伤病例与非病例在性格变化上无显著差异。生活压力增加与神经质上升显著相关，并与责任心、外向性、宜人性和开放性下降相关。研究强调，性格变化更多是对生活压力的适应性/发展性反应，而非与记忆损伤相关的神经病理变化。研究发表在 Scientific Reports 上。

#大脑健康 #性格变化 #生活压力 #记忆损伤 #潜在增长曲线模型

阅读更多：

Oi, Katsuya, and Cleothia Frazier. “Testing of Significant Changes in Big-Five Personality Factors over Time in the Presence and Absence of Memory Impairment and Life-Related Stress.” Scientific Reports, vol. 14, no. 1, Aug. 2024, p. 19555. www.nature.com, https://doi.org/10.1038/s41598-024-70388-5

AI 行业动态

仅用10%数据，Genius智能体2小时训练秒杀人类玩家

Verses团队研发的Genius智能体在经典游戏Pong中创造了奇迹，仅用2小时训练和10%的数据就超越了人类顶尖玩家和其他顶级AI模型。Genius的规模仅为当前最先进模型IRIS的4%，且能在搭载M1芯片的MacBook上运行。这一突破标志着首个超高效贝叶斯智能体在复杂游戏环境中实现通用解决方案的重要里程碑。

Genius的灵感来源于四年前的“盘中大脑”实验，该实验展示了神经元如何通过自由能量原理和主动推断进行学习。Genius不仅具备认知、推理、规划、学习和决策能力，还赋予了智能体主动性和好奇心，这是当前基于大语言模型的智能体所缺乏的。Verses团队认为，Genius的成功标志着贝叶斯推理革命的开始，未来AI将朝着更高效、更经济、更可持续的方向发展。

#AI智能体 #贝叶斯推理 #自由能量原理 #主动推断 #Verses团队

阅读更多：

https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence

2025年七大前沿科技：自动驾驶实验室、CAR-T细胞疗法与生物修复技术引领未来

nature刊文预测，2025年科技领域将迎来七大前沿技术的突破，涵盖自动驾驶实验室、CAR-T细胞疗法、生物修复技术、光计算、可持续冷却材料、单细胞微生物分析和生物学基础模型。

1. 自动驾驶实验室：通过人工智能和机器人技术，加速材料科学的研究。加拿大多伦多大学的Alán Aspuru-Guzik团队开发的ORGANA系统，能够通过自然语言指令指导实验，显著提升了材料发现的效率。

2. CAR-T细胞疗法：在治疗血液癌症方面取得了显著进展，并逐渐扩展到实体瘤和自身免疫疾病的治疗。波士顿麻省总医院的Marcela Maus团队在脑瘤治疗中展示了CAR-T细胞的潜力，能够快速缩小复发性胶质母细胞瘤。

3. 生物修复技术：利用微生物降解塑料和有害化学物质。伦敦布鲁内尔大学的Ronan McCarthy团队开发的生物膜技术，有望解决微塑料污染问题。此外，密苏里大学的Susie Dai团队利用白腐真菌降解致癌的“永久化学品”PFAS，展示了生物修复的广泛应用前景。

4. 光计算：通过光子处理器提升人工智能的能效。清华大学的方璐团队开发的Taichi光子芯片，在计算效率上取得了显著突破，为未来AI模型的可持续发展提供了新方向。

5. 可持续冷却材料：应对全球变暖，开发新型冷却材料。澳大利亚新南威尔士大学的Matthaios Santamouris团队开发的“超冷光子材料”，在沙特阿拉伯的实地测试中成功降低了环境温度，减少了城市热岛效应。

6. 单细胞微生物分析：通过高分辨率技术研究微生物多样性。杜克大学的Ophelia Venturelli团队开发的DoTA-seq技术，能够分析单个微生物细胞的基因组，为理解微生物群落的复杂性提供了新工具。

7. 生物学基础模型：利用大规模预训练模型推动生物学研究。多伦多大学的Bo Wang团队开发的scGPT模型，能够分析单细胞转录组数据，为药物发现和疾病研究提供了强大支持。

#自动驾驶实验室 #CAR-T细胞疗法 #生物修复技术 #光计算 #可持续冷却材料

阅读更多：

https://www.nature.com/articles/d41586-025-00075-6

AI 研发动态

Nature：GET，预测基因表达的实验级精度

转录调控涉及调控序列和蛋白质之间的复杂相互作用，指导所有生物过程。哥伦比亚大学的研究人员开发了GET（general expression transformer），这是一种可解释的基础模型，旨在揭示213种人类胎儿和成人细胞类型的调控语法。GET模型完全依赖染色质可及性数据和序列信息，能够在未见过的细胞类型中达到实验级的准确度，预测基因表达。

GET模型通过整合染色质可及性数据（chromatin accessibility data）和基因组序列信息，实现了与实验重复相当的预测精度水平。GET模型在新测序平台和检测中表现出显著的适应性，能够对广泛的细胞类型和条件进行调控推断，并揭示通用和细胞类型特异性的转录因子相互作用网络。研究结果表明，GET模型在预测调控活性、推断调控元件和调控因子以及识别转录因子之间的物理相互作用方面优于现有模型。此外，GET模型还识别了以前未知和已知的胎儿血红蛋白上游调节剂，并构建了人类转录因子和辅激活因子的结构相互作用目录。研究发表在 Nature 上。

#神经技术 #转录调控 #GET模型 #染色质可及性 #转录因子

阅读更多：

Fu, Xi, et al. “A Foundation Model of Transcription across Human Cell Types.” Nature, Jan. 2025, pp. 1–9. www.nature.com, https://doi.org/10.1038/s41586-024-08391-z

无需动手，思维控制虚拟四轴飞行器

密歇根大学的研究团队开发了一种脑机接口技术，使四肢瘫痪的患者能够通过思维控制虚拟四轴飞行器。该技术通过手术将电极植入患者的大脑运动皮层，利用人工神经网络解读患者的运动意图，从而控制虚拟手指和四轴飞行器。

▷游戏显示的屏幕截图显示四轴飞行器沿着环周围的绿色路径飞行。插图显示了手部头像。来自附近神经元的神经植入记录和算法确定了手部化身的预期运动。然后使用手指位置来控制虚拟四轴飞行器。Credit: Nature Medicine (2025).

研究团队将手分为三个部分，每个部分可以独立控制。通过电极记录大脑运动皮层的神经信号，利用人工神经网络（Artificial Neural Network）解读这些信号，控制虚拟手指和四轴飞行器。研究结果显示，与传统的脑电图（EEG）方法相比，直接从运动神经元读取信号使四轴飞行器的飞行性能提高了六倍。参与者能够通过思维控制虚拟四轴飞行器完成复杂的障碍课程，展示了该技术在娱乐和远程工作方面的潜力。研究发表在 Nature Medicine 上。

#神经技术 #脑机接口 #虚拟四轴飞行器 #人工神经网络 #四肢瘫痪

阅读更多：

Ramsey, Nick F., and Mariska J. Vansteensel. “The Expanding Repertoire of Brain–Computer Interfaces.” Nature Medicine, vol. 31, no. 1, Jan. 2025, pp. 31–32. www.nature.com, https://doi.org/10.1038/s41591-024-03440-6.

Willsey, Matthew S., et al. “A High-Performance Brain–Computer Interface for Finger Decoding and Quadcopter Game Control in an Individual with Paralysis.” Nature Medicine, vol. 31, no. 1, Jan. 2025, pp. 96–104. www.nature.com, https://doi.org/10.1038/s41591-024-03341-8

机器人外骨骼助力钢琴家突破速度极限

钢琴演奏者在长期练习后常遇到演奏能力平台期，难以进一步提升速度。为了解决这一问题，索尼计算机科学实验室公司和京都神经钢琴研究所的研究团队开发了一种手部外骨骼机器人（hand exoskeleton robot），通过被动训练帮助钢琴家突破这一瓶颈。研究结果显示，训练显著提高了演奏速度，并引发大脑神经可塑性变化。

▷附着在右手手指上的手外骨骼机器人。该装置可以弯曲和伸展各个手指的掌指关节。Credit: Shinichi Furuya

研究团队招募了118名训练有素的钢琴家，使用手部外骨骼机器人进行实验。外骨骼附着在右手手指上，能够快速且独立地控制手指运动，模拟钢琴演奏所需的复杂动作。实验分为两个阶段：首先，钢琴家通过自主练习达到个人演奏速度的平台期；随后，外骨骼进行被动训练，以超过钢琴家自主能力的速度移动手指。

训练结束后，钢琴家的演奏速度显著提升，突破了原有的平台期。尽管仅训练了右手，但左手的能力也有所改善，体现了“手间转移效应”（intermanual transfer effect）。此外，研究团队通过经颅磁刺激测试发现，训练改变了大脑左运动皮层对多指运动的协调模式，表明神经可塑性变化。研究发表在 Science Robotics 上。

#神经技术 #机器人外骨骼 #钢琴演奏 #神经可塑性 #手间转移效应

阅读更多：

Furuya, Shinichi, et al. “Surmounting the Ceiling Effect of Motor Expertise by Novel Sensory Experience with a Hand Exoskeleton.” Science Robotics, vol. 10, no. 98, Jan. 2025, p. eadn3802. science.org (Atypon), https://doi.org/10.1126/scirobotics.adn3802

人脑通过增量机制整合语言信息，优于大语言模型

大语言模型（LLMs）在预测语言诱发的神经信号方面表现出色，但其处理长文本的方式与人脑不同。为了探索人脑如何整合短期和长期上下文信息，Refael Tikochinski、Ariel Goldstein、Yoav Meiri、Uri Hasson和Roi Reichart等人开展了一项研究。他们通过fMRI扫描记录了219名参与者在聆听口头叙述时的神经信号，并使用LLMs提取上下文嵌入向量进行预测。研究结果表明，人脑通过增量机制灵活整合信息，优于LLMs的固定窗口处理方式。

研究团队使用功能磁共振成像（fMRI）记录了219名参与者在聆听口头叙述时的神经信号，并通过大语言模型提取上下文嵌入向量来预测这些信号。研究发现，LLMs仅在上下文窗口较小时（约32个词）能有效预测大脑活动。研究团队还提出了一种增量上下文模型，将短期上下文信息与动态更新的先前上下文摘要相结合。这一模型显著提高了对高阶脑区神经活动的预测能力，尤其是在默认模式网络（DMN）中。研究结果表明，人脑通过在线总结和整合机制灵活处理多时间尺度的信息，而LLMs的固定窗口架构则缺乏这种能力。这一发现为理解人脑的语言处理机制提供了新视角，同时也为人工智能模型的改进提供了重要启示。研究发表在 Nature Communications 上。

#认知科学 #大语言模型 #神经编码 #增量上下文 #默认模式网络

阅读更多：

Tikochinski, Refael, et al. “Incremental Accumulation of Linguistic Context in Artificial and Biological Neural Networks.” Nature Communications, vol. 16, no. 1, Jan. 2025, p. 803. www.nature.com, https://doi.org/10.1038/s41467-025-56162-9

CliniFact数据集：评估大型语言模型在临床研究声明验证中的新基准

大型语言模型在健康声明验证方面具有潜力，但在幻觉和逻辑语句理解方面存在问题。为了评估LLMs在临床研究中的表现，研究人员创建了CliniFact数据集。该数据集从临床试验结果中提取声明，并与科学出版物中的支持信息相关联，涵盖了22个疾病类别的992个独特干预措施。

CliniFact数据集包含1,970个实例，涉及992个独特临床试验和1,540个独特出版物。研究团队使用判别模型（如BioBERT，准确率为80.2%）和生成模型（如Llama3-70B，准确率为53.6%）对LLMs进行评估。结果显示，判别模型在临床研究声明验证中表现更优。CliniFact数据集为评估LLMs在临床研究中的性能提供了一个新的基准，特别是在逻辑推理和假设检验层面。研究发表在 Scientific Data 上。

#认知科学 #大型语言模型 #临床研究 #CliniFact数据集 #声明验证

阅读更多：

Zhang, Boya, et al. “A Dataset for Evaluating Clinical Research Claims in Large Language Models.” Scientific Data, vol. 12, no. 1, Jan. 2025, p. 86. www.nature.com, https://doi.org/10.1038/s41597-025-04417-x

大型语言模型在医学推理中的元认知能力不足

大型语言模型在医学委员会考试中表现出专家级准确性，但其元认知能力尚未得到充分研究。Maxime Griot, Coralie Hemptinne, Jean Vanderdonckt & Demet Yuksel等研究人员开发了MetaMedQA基准，结合置信度评分和元认知任务，评估了12个模型的基于置信度的准确性、缺失答案召回率和未知召回率。结果显示，尽管LLMs在多项选择题上表现优异，但在元认知能力上存在显著缺陷，无法识别知识局限，临床应用存在风险。

研究团队开发的MetaMedQA基准将置信度评分（confidence scoring）和元认知任务融入多项选择医学问题中，评估了12个模型的基于置信度的准确性、缺失答案召回率和未知召回率。结果显示，尽管LLMs在多项选择题上表现出高准确性，但所有测试模型均显示出显著的元认知缺陷，无法识别自身知识局限，甚至在无正确答案时仍自信作答。研究表明，当前模型在医学推理中的感知能力与实际能力存在严重脱节，临床应用存在重大风险，需要更强大的评估框架以提升LLMs的元认知能力。研究发表在 Nature Communications 上。

#认知科学 #大型语言模型 #元认知 #医学推理 #MetaMedQA

阅读更多：

Griot, Maxime, et al. “Large Language Models Lack Essential Metacognition for Reliable Medical Reasoning.” Nature Communications, vol. 16, no. 1, Jan. 2025, p. 642. www.nature.com, https://doi.org/10.1038/s41467-024-55628-6

整理｜ChatGPT

编辑｜丹雀、存源

关于追问nextquestion

天桥脑科学研究院旗下科学媒体，旨在以科学追问为纽带，深入探究人工智能与人类智能相互融合与促进，不断探索科学的边界。如果您有进一步想要讨论的内容，欢迎评论区留言，或添加小助手微信questionlab，加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了加州理工天桥神经科学研究院。

Chen Institute建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括、、、科研型临床医生奖励计划、、中文媒体追问等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.