网易首页 > 网易号 > 正文 申请入驻

追问daily | 大脑皮层面积决定能力,厚度影响疾病;Cell:三抗细胞逆转衰老;大语言模型推理能力被误判?

0
分享至

脑科学动态

Cell:三抗细胞逆转衰老

自主神经系统是整体fMRI信号的关键驱动因素

大脑皮层面积决定能力,厚度影响疾病

光线穿透技术突破4厘米限制,为大脑成像打开了新的大门

孤独症的不同遗传根源可能导致共同的大脑活动和行为

大脑皮层网络快速重组以补偿丢失的神经元

AI行业动态

MIT工程师3.5小时修复600年名画,效率提升66倍

中国脑机接口技术重大突破!全球最小柔性电极实现意念操控

AI驱动科学

Cell:新技术实现哺乳动物组织多模态遗传筛查

可解释AI新突破:约束概念细化框架实现透明决策

AI工具通过血液DNA片段分析实现快速经济的癌症监测

AI动态建模开发出广谱抗冠状病毒口服药

视觉语言模型通过人工世界和3D场景描述获得空间推理能力

多模态推理模型幻觉问题新解

下一代神经网络:3D结构与递归循环带来突破性进展

大语言模型推理能力被误判?实验设计缺陷引发准确度崩溃争议

otto-SR模型:48小时更新整套Cochrane评价

脑科学动态

Cell:三抗细胞逆转衰老

干细胞耗竭与衰老的关系是什么?外源性干细胞移植能否有效延缓衰老?中国科学院动物研究所刘光慧研究员、首都医科大学宣武医院王思研究员及中国科学院动物研究所曲静研究员团队通过基因改造构建了具有抗衰老、抗应激、抗恶性转化三重抗性的工程化人类抗衰型间充质祖细胞(SRC),并在灵长类动物模型中证实其可显著延缓多器官衰老进程。

研究团队运用合成生物学方法对长寿基因通路进行重编程,在人类间充质祖细胞中对长寿节点基因FOXO3进行双位点工程化改造(T757G/T943G),成功构建了SRC。通过44周的灵长类动物试验,向老年食蟹猴静脉注射SRC细胞疗法后,全身衰老指标如细胞衰老、慢性炎症和组织退化均显著减少,且未检测到不良反应。特别值得注意的是,SRC治疗改善了大脑结构和认知功能,并缓解了生殖系统的衰退:基于机器学习的衰老时钟分析显示,未成熟神经元生物学年龄被逆转了6-7岁,卵母细胞的生物学年龄则被逆转了5岁。进一步机制分析表明,SRC的恢复作用部分归因于其外泌体,这些外泌体在促进细胞年轻化、抑制慢性炎症以及维持基因组与表观基因组稳定性方面发挥了核心作用。研究为人类衰老干预提供了可定制的细胞治疗范式。研究发表在 Cell 上。

#疾病与健康 #健康管理与寿命延长 #干细胞疗法 #抗衰老 #外泌体

阅读更多:

Lei, Jinghui, et al. “Senescence-Resistant Human Mesenchymal Progenitor Cells Counter Aging in Primates.” Cell, vol. 0, no. 0, June 2025. www.cell.com, https://doi.org/10.1016/j.cell.2025.05.021

自主神经系统是整体fMRI信号的关键驱动因素

整体fMRI信号的起源是什么?加州大学洛杉矶分校的Taylor Bolt团队与多机构合作发现,这种覆盖全脑的信号模式主要由自主神经系统驱动,揭示了脑-身相互作用的新机制。研究结合多种生理监测技术,证实全局信号与心血管、呼吸等多系统变化同步波动。

整体 fMRI 波动与系统性生理变化相关。Credit: Nature Neuroscience (2025).

研究团队整合了Catie Chang收集的综合性fMRI数据集,包含丰富的生理记录(心血管、肺、外分泌等系统),并补充了多个独立数据集验证。通过分析低频率范围(0.01-0.1 Hz)的共波动,发现静息状态下全局fMRI信号与自主神经系统调控的多系统变化显著相关。实验显示,提示性深呼吸和间歇听觉刺激引发的唤醒状态,以及睡眠中的自发觉醒(通过非周期性EEG激活测量),都产生了相同的脑体共波动模式。值得注意的是,即使抑制呼气末二氧化碳变化,全局fMRI信号的空间结构仍保持稳定,表明呼吸驱动的动脉CO2波动并非信号唯一来源。这些发现确立了自主神经系统在产生全局fMRI信号中的核心地位,为理解觉醒反应的神经机制提供了新视角。研究发表在 Nature Neuroscience 上。

#神经科学 #神经机制与脑功能解析 #肥胖治疗 #初级纤毛 #G蛋白偶联受体

阅读更多:

Bolt, Taylor, et al. “Autonomic Physiological Coupling of the Global fMRI Signal.” Nature Neuroscience, vol. 28, no. 6, June 2025, pp. 1327–35. www.nature.com, https://doi.org/10.1038/s41593-025-01945-y

大脑皮层面积决定能力,厚度影响疾病

大脑皮层形态如何影响人类心理能力与疾病风险?马斯特里赫特大学医学中心、乌得勒支大学的Bochao Danae Lin和Yunzhi Li团队通过大规模遗传数据分析,证实皮层表面积与厚度分别独立影响认知能力和精神疾病风险。

含 CP 的 SA 区域图。Credit: Nature Mental Health (2025).

研究团队利用增强神经影像遗传学(ENIGMA)项目的全球数据,采用孟德尔随机化方法(Mendelian randomization)克服传统研究的混杂因素限制。分析涵盖70个皮层形态指标与199种表型,发现大脑总表面积(TSA)通过增强信息处理容量,显著提升包括工作记忆、执行功能在内的18项认知能力指标。皮层平均厚度(MTH)则表现出保护效应:每增加1个标准差单位,精神分裂症风险降低19%。区域分析揭示颞叶横向区(transverse temporal gyrus)的表面积与认知呈正相关,而该区域厚度增加会升高精神分裂症风险。双向分析显示MTH与吸烟行为存在相互影响,提示尼古丁可能通过改变皮层结构影响成瘾行为。这些发现为理解脑结构-功能关系提供了因果证据,未来或可通过靶向皮层发育的干预措施改善心理健康。研究发表在 Nature Mental Health 上。

#神经科学 #神经机制与脑功能解析 #心理健康与精神疾病 #老龄化 #社会认知

阅读更多:

Lin, Bochao Danae, et al. “Dissecting Causal Relationships between Cortical Morphology and Neuropsychiatric Disorders: A Bidirectional Mendelian Randomization Study.” Nature Mental Health, vol. 3, no. 6, June 2025, pp. 613–25. www.nature.com, https://doi.org/10.1038/s44220-025-00397-4

光线穿透技术突破4厘米限制,为大脑成像打开了新的大门

近红外脑成像技术(fNIRS)因无法深入大脑而受限,格拉斯哥大学的Jack Radford团队检测到穿过整个成年人头部的光子,为研究深层脑区活动提供了新可能。

通过探测穿过成人整个头部的光子,可以探索大脑中光子传输的极限,从而进入目前非侵入式光学脑成像技术无法触及的大脑区域。Credit: J. Radford et al.

研究团队使用高功率脉冲激光(pulsed laser)和超灵敏探测器,在严格控制的环境中测量从头部一侧穿透到另一侧的光子。实验配合计算机模拟显示,光子确实能穿过整个头部,主要沿着脑脊液等低散射区域传播。研究克服了约10^18的光衰减,首次证明直径方向的光子探测可行。虽然目前技术仅适用于特定受试者(皮肤白皙无毛发)且需30分钟数据采集,但这一突破揭示了光学方法探测深层脑区(如小脑深部和中脑)的潜力。通过调整光源位置,可选择性探测不同脑区,为开发新一代非侵入式脑成像设备提供了理论支持。研究发表在 Neurophotonics 上。

#疾病与健康 #个性化医疗 #神经调控 #靶向治疗 #生物材料

阅读更多:

Radford, Jack, et al. “Photon Transport through the Entire Adult Human Head.” Neurophotonics, vol. 12, no. 2, May 2025, p. 025014. www.spiedigitallibrary.org, https://doi.org/10.1117/1.NPh.12.2.025014

孤独症的不同遗传根源可能导致共同的大脑活动和行为

孤独症患者为何表现出相似的认知行为特征?明尼苏达大学医学院Jean-Paul Noel团队联合The International Brain Laboratory发现,不同基因突变的孤独症小鼠模型存在共同的神经计算异常模式,这可能是导致相似行为表现的基础。

自闭症小鼠模型中统计规律的使用减少。Credit: Nature Neuroscience (2025).

研究采用高产出啮齿类心理物理学(rodent psychophysics)、广泛行为建模和全脑单细胞细胞外记录技术,分析了Fmr1、Cntnap2和Shank3B三种基因突变小鼠模型。结果显示,所有模型均表现出决策过程中先验更新(prior updating)能力减弱的共同特征。与正常小鼠相比,这些模型的大脑活动模式发生了系统性改变:编码权重从感觉皮层向前额皮层转移。具体而言,前额区更多神经元编码与长期先验的偏差,而感觉皮层反应无法区分预期与非预期观察。这种神经计算异常导致小鼠难以根据新信息调整预期,表现为行为上的不灵活性。研究为理解不同遗传类型孤独症的共同神经机制提供了重要证据,并提示前额叶-感觉皮层回路可能是潜在干预靶点。研究发表在 Nature Neuroscience 上。

#疾病与健康 #神经机制与脑功能解析 #计算模型与人工智能模拟 #孤独症

阅读更多:

Noel, Jean-Paul, et al. “A Common Computational and Neural Anomaly across Mouse Models of Autism.” Nature Neuroscience, June 2025, pp. 1–14. www.nature.com, https://doi.org/10.1038/s41593-025-01965-8

大脑皮层网络快速重组以补偿丢失的神经元

大脑如何在神经元丢失时维持功能?美因茨大学医学中心、法兰克福高等研究院(FIAS)和希伯来大学的研究团队发现,大脑皮层网络能在短时间内重组,其他神经细胞会接管丢失神经元的功能。

研究团队使用小鼠模型,通过双光子钙成像和靶向微消融(microablation,选择性去除神经元)技术,研究了听觉皮层的神经元网络。他们去除30-40个对声音响应的神经元后,发现活动模式最初变得不稳定,但几天内恢复至接近原始状态。恢复主要由之前对声音无响应的神经元驱动,这些神经元获得新功能并填补丢失神经元的作用。抑制性神经元的靶向消融会导致更持久的扰动,表明其在稳定网络中起关键作用。研究揭示了大脑皮层通过神经元重组维持功能的机制,可能对理解衰老和神经退行性疾病有重要意义。研究发表在 Nature Neuroscience 上。

#神经科学 #神经机制与脑功能解析 #神经调控 #计算模型与人工智能模拟

阅读更多:

Noda, Takahiro, et al. “Homeostasis of a Representational Map in the Neocortex.” Nature Neuroscience, June 2025, pp. 1–13. www.nature.com, https://doi.org/10.1038/s41593-025-01982-7

AI 行业动态

MIT工程师3.5小时修复600年名画,效率提升66倍

麻省理工学院的工程师Alex Kachkine凭借一篇独作论文登上Nature,展示了一种革命性的名画修复方法。传统修复需要数月甚至数年,而他的AI算法仅用3.5小时就完成了对一幅15世纪油画的修复。该方法的关键在于“数字遮罩”(Musk)技术:先在受损画作表面贴一层透明薄膜,通过AI分析并打印出修复所需的颜色层和白色层,最后用清漆固定。这一方法不仅高效,还能在不损伤原作的前提下轻松移除修复层,并保留数字记录供未来参考。

Alex Kachkine的跨界背景为这项突破提供了独特视角。他出身工程世家,本科学习机械工程和经济学,后加入MIT的微系统实验室,专注于质谱仪优化研究。同时,他从小热爱艺术,因预算有限常购买受损画作,从而萌生用工程思维改进修复流程的想法。他的方法尤其适合严重缺损的画作,效率比传统人工修复快66倍,有望让更多珍贵艺术品重现光彩。

目前,Alex仍在优化这一技术,目标是推动艺术修复领域的革新。他的研究不仅缩短了修复时间,还解决了传统方法难以记录修复历史的难题。未来,这项技术或将成为博物馆和修复师的得力工具,让更多文化遗产得以保存并回归公众视野。

#AI艺术修复 #MIT研究 #数字遮罩技术 #文化遗产保护 #跨界创新

阅读更多:

https://dspace.mit.edu/handle/1721.1/159269

中国脑机接口技术重大突破!全球最小柔性电极实现意念操控

中国科研团队在侵入式脑机接口领域取得里程碑式进展。由中国科学院脑科学与智能技术卓越创新中心、复旦大学附属华山医院等机构合作,成功完成国内首例侵入式脑机接口临床试验。一名四肢截肢的受试者通过植入仅硬币大小的全球最小神经电极(直径26毫米),实现了意念操控电脑下棋、发短信等功能。该技术采用半导体加工工艺,电极尺寸仅为头发丝的1/100,柔性超过马斯克Neuralink产品的百倍,且植入后"几乎无异物感"。

团队在硬件和算法上实现双重突破。通过半导体工艺提升电极的生物相容性,解决了Neuralink曾面临的电极脱落问题,设备寿命可达5年。同时,自主研发的毫秒级在线解码算法,能快速解析神经信号并生成控制指令。受试者仅训练2-3周即达到接近常人的操控水平,术后未出现感染或失效。更值得注意的是,该技术已在猕猴实验中验证了植入体可安全更换,为未来升级铺平道路。

#脑机接口 #Neuralink #意念控制 #半导体工艺 #医疗科技

阅读更多:

https://mp.weixin.qq.com/s?__biz=MTI0MDU3NDYwMQ==&mid=2657794984&idx=1&sn=024f1360c57b1147928fa31ca321a902&scene=21&poc_token=HIsFUGijI6JLfnMY4iALyX8e1u_d8zJGQxZlDciR

AI 驱动科学

Cell:新技术实现哺乳动物组织多模态遗传筛查

理解组织功能需要多维度基因表型解析,但传统技术存在局限。哈佛大学庄小威团队开发出Perturb-Multi平台,首次在完整哺乳动物组织中实现成像与测序的联合遗传筛查,揭示了肝脏功能的基因调控网络。

研究团队开发的Perturb-Multi技术整合了两种方法:RCA-MERFISH成像技术可在原位捕获基因型和多重RNA-蛋白质表型,固定细胞Perturb-seq则实现了保留完整转录组的体内CRISPR筛选。通过该平台,研究人员对小鼠肝脏中数百个基因进行并行扰动,同步获取了单细胞分辨率的三类关键数据——基因表达谱、亚细胞形态特征和空间位置信息。应用结果显示,该方法成功解析了肝细胞分区(hepatocyte zonation)的动态调控机制,揭示了未折叠蛋白反应(UPR)和脂肪变性(steatosis)的遗传调控因子。该技术突破了传统单细胞测序或显微成像的单一维度限制,为构建组织水平的基因型-表型图谱提供了标准化工具。研究团队指出,产生的大规模多模态数据还可用于训练预测细胞功能的机器学习模型。研究发表在 Cell 上。

#疾病与健康 #跨学科整合 #基因调控 #多模态分析 #肝脏生理学

阅读更多:

Saunders, Reuben A., et al. “Perturb-Multimodal: A Platform for Pooled Genetic Screens with Imaging and Sequencing in Intact Mammalian Tissue.” Cell, vol. 0, no. 0, June 2025. www.cell.com, https://doi.org/10.1016/j.cell.2025.05.022

可解释AI新突破:约束概念细化框架实现透明决策

医疗诊断等高风险领域需要AI决策透明化,但现有方法往往牺牲准确性。密歇根大学Geyu Liang、Senne Michielssen和Salar Fattahi团队开发的约束概念细化(CCR)框架,首次实现了解释性与性能的同步提升,运行效率提高十倍。

红色箭头表示经典可解释人工智能模型的反向传播训练过程。本文扩展了训练过程,通过约束概念嵌入与初始嵌入的偏差(绿色箭头和方框表示)来优化概念嵌入。Credit: arXiv (2025).

研究团队提出约束概念细化(Constrained Concept Refinement)框架,通过两个创新解决传统问题:1)将可解释性直接编码进模型架构,而非事后添加;2)引入弹性概念嵌入机制,允许CLIP等预训练模型生成的初始嵌入(如健康骨骼)根据任务数据自动校正误差。在CIFAR10/100等基准测试中,CCR准确率超越CLIP-IP-OMP和无标签CBM方法,同时保持人类可理解的决策路径。特别在医疗影像分类中,其临床可验证率达95%,运行时间仅为传统方法的1/10。理论分析表明,CCR能在生成模型中实现零训练损失,并通过约束优化渐进增强解释性。该框架支持参数调节,用户可最高提升15%解释性或8%准确性,为金融、医疗等高风险领域提供可靠解决方案。

#AI驱动科学 #预测模型构建 #跨学科整合 #医疗诊断 #可解释AI

阅读更多:

Liang, Geyu, et al. Enhancing Performance of Explainable AI Models with Constrained Concept Refinement. arXiv:2502.06775, arXiv, 27 May 2025. arXiv.org, https://doi.org/10.48550/arXiv.2502.06775

AI工具通过血液DNA片段分析实现快速经济的癌症监测

现有癌症监测方法成本高且依赖突变筛查,不同患者突变差异导致结果不稳定。新加坡A*STAR基因组研究所Guanhua Zhu、Anders Jacobsen Skanderup团队开发了Fragle系统,通过AI分析DNA片段长度模式,实现仅需50新元的精准监测。

研究团队训练深度学习模型识别循环肿瘤DNA(ctDNA)特有的片段长度分布特征。与传统需要筛查特定突变的方法不同,Fragle直接分析全基因组cfDNA(cell-free DNA)片段大小,在多种癌症类型中验证显示其检测限低至0.1%突变频率。在结直肠癌患者中,纵向监测显示ctDNA水平变化与治疗响应高度一致;对于术后肺癌患者,Fragle预测微小残留病(MRD)的准确率比传统方法提高35%。临床优势包括:检测成本降低95%,与医院现有DNA分析流程兼容,且无需预先获知患者特定突变信息。目前正在100多名患者中开展每两月一次的监测研究,探索早期预测复发的可能性。研究发表在 Nature Biomedical Engineering 上。

#AI驱动科学 #个性化医疗 #癌症监测 #液体活检

阅读更多:

Zhu, Guanhua, et al. “A Deep-Learning Model for Quantifying Circulating Tumour DNA from the Density Distribution of DNA-Fragment Lengths.” Nature Biomedical Engineering, vol. 9, no. 3, Mar. 2025, pp. 307–19. www.nature.com, https://doi.org/10.1038/s41551-025-01370-3

AI动态建模开发出广谱抗冠状病毒口服药

全球30%呼吸道感染由冠状病毒引起,但疫苗分配不均和变异株逃逸问题亟待解决。哈佛大学威斯生物启发工程研究所的Charles B. Reilly、Joel Moore等研究人员通过融合电影特效技术与AI建模,开发出可口服的广谱抗病毒药物WYS-694,显著降低动物模型病毒载量。

刺突蛋白(S)同源三聚体促进膜融合。Credit: Frontiers in Molecular Biosciences (2025).

研究团队采用电影行业程序动画软件构建分子动力学模拟(molecular dynamics simulation)流程,动态追踪刺突蛋白(Spike protein)从结合宿主细胞到膜融合的全过程。通过AI分析生成的合成数据,锁定S2亚基中一个在融合前暴露的保守口袋。对10,000种FDA批准药物进行虚拟筛选后,发现抗肿瘤药bemcentinib能结合该位点并抑制病毒入侵,且该作用独立于其原有靶点AXL激酶。进一步优化获得的化合物WYS-694在小鼠实验中使SARS-CoV-2病毒载量降低4倍,对α、β、γ、δ、ο变异株及SARS-CoV、MERS-CoV均有效。该药物通过冻结刺突蛋白构象变化阻断膜融合,为应对未来疫情提供新策略。研究发表在 Frontiers in Molecular Biosciences 上。

#AI驱动科学 #疾病与健康 #预测模型构建 #大模型技术 #跨学科整合

阅读更多:

Reilly, Charles B., et al. “Broad-Spectrum Coronavirus Inhibitors Discovered by Modeling Viral Fusion Dynamics.” Frontiers in Molecular Biosciences, vol. 12, May 2025. Frontiers, https://doi.org/10.3389/fmolb.2025.1575747

视觉语言模型通过人工世界和3D场景描述获得空间推理能力

如何让机器人像人类一样理解空间关系?意大利理工学院(IIT)和阿伯丁大学的Joel Currie、Gioele Migno、Davide De Tommaso等研究人员开发了新型合成数据集,通过3D模拟场景训练视觉语言模型(VLMs)的视觉视角采择(VPT)能力。

左侧为模拟环境,其中包含一个放置在平面上的长方体,并由一个摄像头进行观察,该摄像头放置在物体正上方,距离物体不同。右侧为用于训练模型的数据集元素示例:图像和文本提示作为输入,长方体和摄像头之间的空间关系以变换矩阵的形式表示,作为期望输出。Credit: Gioele Migno.

研究团队利用NVIDIA Omniverse Replicator平台构建虚拟环境,生成包含立方体的简单3D场景,并从不同角度和距离捕捉图像。每幅图像都配有自然语言描述和4×4变换矩阵,形成结构化训练数据。这种方法可快速生成数万组图像-矩阵对,克服了真实世界数据采集的困难。实验表明,该框架将VPT重新定义为可通过视觉和语言联合学习的认知能力,而非传统依赖的硬编码几何规则。特别值得注意的是,系统能教会AI不仅从自身视角,还能从他人视角理解空间关系,这是实现真正社会智能的基础。下一步,团队计划提升场景真实度,并探索该能力如何优化人机协作场景中的空间共识建立。

#AI驱动科学 #计算模型与人工智能模拟 #人机交互 #空间推理 #合成数据

阅读更多:

Currie, Joel, et al. Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds. arXiv:2505.14366, arXiv, 20 May 2025. arXiv.org, https://doi.org/10.48550/arXiv.2505.14366

多模态推理模型幻觉问题新解:RH-AUC指标揭示推理与感知的平衡

多模态大模型(如GPT-4V)在长推理链任务中频繁产生与输入图像不符的幻觉。加州大学圣克鲁斯分校Chengzhi Liu、斯坦福大学James Zou等团队开发了RH-AUC量化指标和RH-Bench诊断基准,首次系统评估了推理能力与幻觉风险的动态关系。

五种感知基准上推理和非推理模型的比较。左图为 3B 模型,右图为 7B 模型。分数越高,幻觉程度越低。Credit: arXiv (2025).

研究团队通过注意力分析发现,模型在长推理链中对视觉输入的关注度下降40-60%,导致更多依赖语言先验(language priors)而产生幻觉。新提出的RH-AUC指标通过计算不同推理长度下的感知准确度曲线下面积,量化模型保持视觉基础(visual grounding)的能力。在包含1,000个任务的RH-Bench测试中,7B规模模型比3B模型平衡能力提升15%,强化学习训练的模型比监督微调模型减少18%幻觉。关键发现表明:数据领域(如科学文本)比数据量对平衡影响更大,特定领域数据训练的模型RH-AUC可提升0.22。这些工具为开发可靠的多模态推理系统提供了新标准。

#大模型技术 #预测模型构建 #多模态学习 #AI评估 #视觉推理

阅读更多:

Liu, Chengzhi, et al. More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models. arXiv:2505.21523, arXiv, 31 May 2025. arXiv.org, https://doi.org/10.48550/arXiv.2505.21523

下一代神经网络:3D结构与递归循环带来突破性进展

AI模型规模扩大导致资源消耗剧增,如何突破这一瓶颈?伦斯勒理工学院的Ge Wang与香港城市大学的Feng-Lei Fan团队提出新解决方案:通过模拟生物神经网络的3D结构和引入递归循环,新架构在降低50%资源消耗的同时提升多维学习能力。

研究突破传统神经网络仅增加宽度和深度的思路,首创性引入垂直高度维度,构建类似生物神经网络的3D结构。通过整合跨尺度递归反馈循环,系统产生类似物理相变的复杂动态行为,显著增强网络自省能力。实验表明,该架构在三维及以上维度展现出卓越的学习适应性,特别适用于医疗影像的立体分析和教育场景的个性化建模。相比传统Transformer架构,新方法在保持同等性能前提下减少一半计算资源需求,同时为理解人脑工作机制提供新视角。研究团队指出,这一突破可能推动机器人实时决策和个性化医疗等领域发展。研究发表在 Patterns 上。

#大模型技术 #计算模型与人工智能模拟 #神经机制与脑功能解析 #跨学科整合

阅读更多:

Wang, Ge, and Feng-Lei Fan. “Dimensionality and Dynamics for Next-Generation Artificial Neural Networks.” Patterns, vol. 0, no. 0, Apr. 2025. www.cell.com, https://doi.org/10.1016/j.patter.2025.101231

大语言模型推理能力被误判?实验设计缺陷引发准确度崩溃争议

大型语言模型是否真的存在推理能力极限?Open Philanthropy的A. Lawsen对Shojaee等人(2025)的研究提出质疑,发现所谓"准确度崩溃"现象主要源于实验设计问题而非模型本质缺陷,为AI能力评估提供了重要方法论反思。

研究人员首先分析了原始实验的三个关键问题:河内塔测试中模型输出被token限制强制截断、自动评估框架无法区分真实推理失败与输出约束、渡河问题中包含数学上无解的测试案例。通过建立token需求模型,团队证明报告中的崩溃点(7-8层河内塔)恰好对应主流模型的token上限(64,000-100,000 tokens)。更关键的是,当改用函数生成等压缩表示法时,相同模型在原先"崩溃"的15层河内塔问题上表现出色,生成的Lua函数能正确实现递归算法。研究还指出原始评估将解决方案长度与问题难度错误关联——河内塔虽需指数级步骤但决策简单,而渡河问题步骤少却涉及NP难搜索。这些发现表明,现有评估方法可能严重低估了大语言模型的真实推理能力。

#大模型技术 #预测模型构建 #多模态学习 #AI评估 #视觉推理

阅读更多:

Opus, C., and A. Lawsen. Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. 1, arXiv:2506.09250, arXiv, 10 June 2025. arXiv.org, https://doi.org/10.48550/arXiv.2506.09250

otto-SR模型:48小时更新整套Cochrane评价

系统评价(Systematic Reviews)作为循证医学核心工具长期面临效率瓶颈。由多伦多大学Christian Cao、哈佛医学院Rohit Arora等27人组成的跨国团队开发出基于大语言模型的otto-SR系统,在两天内完成传统需12人年的工作,且准确率全面超越人工流程。

研究团队构建了端到端代理工作流otto-SR,采用GPT-4.1处理文献筛选(article screening),o3-mini-high负责数据提取。与传统双盲人工流程对比测试显示,otto-SR在筛选阶段达到96.7%敏感度(人类81.7%)和97.9%特异度(人类98.1%);数据提取准确率达93.1%(人类79.7%)。为验证实际效用,团队用该系统在48小时内复现更新了12篇Cochrane评价,相当于压缩12个工作年度。分析发现otto-SR平均检出2项可能被原评价遗漏的合格研究(四分位距1-6.5),并修正了3篇评价的统计学结论。该系统仅需输入研究方案、检索结果和提取变量即可运行,为医疗决策提供实时证据支持。

#大模型技术 #自动化科研 #循证医学 #医疗决策 #人工智能

阅读更多:

Cao, Christian, et al. Automation of Systematic Reviews with Large Language Models. medRxiv, 13 June 2025, p. 2025.06.13.25329541. medRxiv, https://doi.org/10.1101/2025.06.13.25329541

整理|ChatGPT

编辑|丹雀、存源

关于追问nextquestion

天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。

Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。

Chen Institute建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括、、、科研型临床医生奖励计划、、等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
19岁儿子被内马尔打巴掌!42岁罗比尼奥狱中暴怒:就这样报答我?

19岁儿子被内马尔打巴掌!42岁罗比尼奥狱中暴怒:就这样报答我?

风过乡
2026-05-06 06:49:56
刚刚确认:明天抵达湖北!这波太猛

刚刚确认:明天抵达湖北!这波太猛

极目新闻
2026-05-05 19:40:16
毛主席后代现状:无心进入政坛,大多从商,从不言是伟人后代

毛主席后代现状:无心进入政坛,大多从商,从不言是伟人后代

历史人文2
2026-05-05 11:30:03
顶级阳谋来了!中国一纸禁令硬刚美国:你不守规矩,我来立规矩!

顶级阳谋来了!中国一纸禁令硬刚美国:你不守规矩,我来立规矩!

浪子阿邴聊体育
2026-05-05 08:37:33
73年人生谢幕,她于2026年4月28日安详离去

73年人生谢幕,她于2026年4月28日安详离去

阿废冷眼观察所
2026-05-05 11:57:43
杨紫连续10年为张一山庆生,22年神仙友谊,一句“主食”看哭全网

杨紫连续10年为张一山庆生,22年神仙友谊,一句“主食”看哭全网

橙星文娱
2026-05-06 09:34:14
伊朗外长应邀访华透露的关键信息

伊朗外长应邀访华透露的关键信息

凤眼论
2026-05-05 19:20:10
选址确定!武汉一高校将整体搬迁!

选址确定!武汉一高校将整体搬迁!

越乔
2026-05-05 22:37:21
湖北怎么了!又一人被查,人大主任刚升正厅一年就落马

湖北怎么了!又一人被查,人大主任刚升正厅一年就落马

放开他让wo来
2026-05-06 08:50:46
AMD美股盘后涨幅扩大至15%

AMD美股盘后涨幅扩大至15%

每日经济新闻
2026-05-06 06:50:05
女老板介绍她妹妹给我,我说“不如娶你”,第二天她叫我去办公室

女老板介绍她妹妹给我,我说“不如娶你”,第二天她叫我去办公室

千秋文化
2026-05-05 20:23:38
离完婚我注销被婆婆拿走的工资卡,前夫立即来电怒吼:你把卡解开

离完婚我注销被婆婆拿走的工资卡,前夫立即来电怒吼:你把卡解开

云端小院
2026-05-06 07:00:39
故事:湖南一爷爷照顾小孙女,父亲发现女儿越来越圆润,误会弑父

故事:湖南一爷爷照顾小孙女,父亲发现女儿越来越圆润,误会弑父

卡西莫多的故事
2025-02-26 22:18:16
太豪了!诺兰的史诗级巨制,终于来了

太豪了!诺兰的史诗级巨制,终于来了

来看美剧
2026-05-05 21:47:15
湖南谭嗣同墓地:破败寒酸,杂草丛生,时至今日凭吊、瞻仰者不绝

湖南谭嗣同墓地:破败寒酸,杂草丛生,时至今日凭吊、瞻仰者不绝

浩渺青史
2026-05-03 17:18:22
红墙下的寒蝉:绍伊古成“政变嫌疑人”,普京的恐慌藏不住了

红墙下的寒蝉:绍伊古成“政变嫌疑人”,普京的恐慌藏不住了

老马拉车莫少装
2026-05-06 01:04:16
尴尬了,时间过了4个月,6大造车新势力目标完成率,差的很

尴尬了,时间过了4个月,6大造车新势力目标完成率,差的很

互联网.乱侃秀
2026-05-04 12:00:17
18栋楼重建,损失超7亿!甲方多人落马!施工单位降级

18栋楼重建,损失超7亿!甲方多人落马!施工单位降级

天天热点见闻
2026-05-06 06:36:48
出任主教练,王楠正式回归,体育局官宣,级别年薪曝光

出任主教练,王楠正式回归,体育局官宣,级别年薪曝光

乒乓网国球汇
2026-05-06 00:04:29
26死!一员工因亲属在浏阳花炮事故中离世请假,获领导暖心批复

26死!一员工因亲属在浏阳花炮事故中离世请假,获领导暖心批复

火山詩话
2026-05-06 10:04:31
2026-05-06 11:27:00
追问Nextquestion incentive-icons
追问Nextquestion
科研就是不断探索问题的边界
737文章数 37关注度
往期回顾 全部

科技要闻

告别废话文学与幻觉!GPT-5.5 Instant发布

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

70亿,保时捷把布加迪卖了

汽车要闻

吉利原生新能源越野架构亮相 AI如何带来极致越野

态度原创

游戏
家居
房产
手机
数码

《暗黑4》真有奶牛关!过程复杂到丧心病狂!

家居要闻

大胆前卫 时尚大宅

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

手机要闻

Q1全球十大畅销机型出炉,苹果+三星赢麻了

数码要闻

佳明捷力推出Primacy系列高端家庭音响

无障碍浏览 进入关怀版