追问daily | 打三分钟游戏测出抑郁症；Nature：AI科研助理实现全流程自动化；人类大脑结构并不是最优的；|机器人|脑科学|人工智能|疾病预防

分享至

█脑科学动态

游离DNA借助纳米管重塑人类基因组

拥抱人类大脑的次优组织结构

打三分钟游戏测出抑郁症

9岁脑电波特征可预测青春期焦虑和抑郁的发育轨迹

Neuroplex技术实现活体小鼠九种神经元同时成像

应对心理学可重复性危机：贝叶斯统计如何改变实验数据分析

老年人的书写速度可能预示着认知能力的下降

基于观察者的意识检测验证为何陷入循环死胡同

█AI行业动态

Gemini 3.5速度翻四倍，AI自己动手造了个操作系统

这家公司刚用“人工蛋”孵出活鸡，还复活了恐狼

█AI驱动科学

Nature：AI科研助理Robin实现全流程自动化

计算光学实现混合反射场景3D高频成像

在不牺牲性能的前提下，新框架实现持续学习与自适应计算

在经典的图灵测试中，人工智能可以表现得比真人更像人类

脑科学动态

游离DNA借助纳米管重塑人类基因组

细胞质中异常游离的DNA能否转移并影响邻近细胞？德州大学西南医学中心的Elizabeth G. Maurais和Peter Ly等团队发现，这些异常暴露的DNA能通过细胞间的纳米管直接转移到邻近细胞，并在受体细胞中发挥功能，赋予其全新的可遗传特征。

▷Credit:Cell.

研究团队采用活细胞成像技术对多种人类细胞系进行了持续观察。他们通过使用有丝分裂抑制剂、电离辐射或基因编辑技术诱发染色体断裂，人为制造基因组不稳定性。实验结果显示，细胞异常分裂时产生的微核破裂后，暴露在细胞质中的DNA会通过基于细胞骨架的纳米管直接转移至邻近细胞中，平均传输速度约为每分钟390纳米。这种转移现象在癌细胞和非癌细胞中均被广泛观察到。进一步分析表明，转移的DNA片段并未被清除，而是转化为功能性染色体外遗传元件（ecDNA，独立于常规染色体之外存在的环状DNA片段），并稳定遗传给细胞后代。这一发现揭示了哺乳动物中一种全新的水平基因转移机制，表明直接的细胞接触不仅能传播基因组不稳定性，还能使受体细胞获得耐药性等新表型。研究发表在 Cell 上。

#疾病与健康 #其他 #微核 #纳米管 #染色体外遗传元件

阅读更多：

Maurais, Elizabeth G., et al. “Genome Instability Triggers Intercellular DNA Transfer between Human Cells.” Cell, vol. 0, no. 0, May 2026. www.cell.com, https://doi.org/10.1016/j.cell.2026.04.041

拥抱人类大脑的次优组织结构

人类大脑真的是演化完美的理想模板吗？将其架构复制到人工智能中是否合理？Kayson Fakhar和Duncan E. Astle（剑桥大学MRC认知与脑科学单元）重新审视了这一观念，指出大脑在单一目标下实则是次优的配置，这为理解精神疾病和开发下一代AI提供了新视角。

▷大脑网络中线路效率和通信效率之间的权衡示意图。Credit：Trends in Cognitive Sciences

研究人员引入演化生物学与动力系统理论，探讨大脑在多重限制下的演化与发育。分析表明，在追求最小布线成本或最大通信效率等单一指标下，大脑并不是最佳解。相反，它是多维权衡（trade-off，在不同约束目标之间寻求平衡的妥协过程）网络中的帕累托最优（Pareto optimal，在不损害其他目标的前提下无法进一步优化某单一目标的妥协状态）产物，受制于能量代谢、演化历史及物理空间等多种生物限制。

该研究带来了两大核心启示。在临床精神病理学方面，不应将孤独症等非典型的神经发育轨迹视为对完美大脑架构的偏离，而是个体在独特环境与基因压力下，在同一权衡空间中做出的重新适应。在类脑人工智能方向，研究警告不要盲目复制大脑架构，以免引入与核心任务无关的生物学演化包袱。开发者应将大脑和模型均视为多目标优化的产物，通过识别并调整两者真正共享的目标特征来指导下一代智能系统的设计。研究发表在 Trends in Cognitive Sciences 上。

#认知科学 #计算模型与人工智能模拟 #精神病理学 #多维权衡 #类脑智能

阅读更多：

Fakhar, Kayson, and Duncan E. Astle. “Embracing the Suboptimal Organization of the Human Brain.” Trends in Cognitive Sciences, vol. 0, no. 0, May 2026. www.cell.com, https://doi.org/10.1016/j.tics.2026.04.008

打三分钟游戏测出抑郁症

传统抑郁症诊断常依赖耗时的面诊。纽约大学朗格尼健康中心（NYU Langone Health）的Paul W. Glimcher和Dan Iosifescu团队开发出一款小游戏，通过衡量预期的异常指标，三分钟即可有效识别抑郁症患者。

重度抑郁症患者多伴有快感缺失，这会改变其判断快乐的基准。研究招募了120名参与者（50名重度抑郁症患者与70名健康人）进行虚拟觅食测试，要求在数字树上收集产量递减的苹果。结果显示，健康受试者平均坚持到单次产量降至5个才转向下一棵树，而患者由于决策参考点（decisional reference point，潜意识中比较事件并决定其价值的基准）病理性升高了近百分之五十，在产量降至8至9个时便提前放弃。另一项零食竞价任务进一步表明，健康人的参考点能随环境变化动态调整并恢复初始水平，但患者的参考点表现出病理性僵化，无法正常回调。该参考点的异常升高幅度与抑郁症的严重程度高度相关。这款低成本游戏可作为客观远程监测工具，并为修复相关脑计算机制异常提供了潜在干预靶点。研究发表在 PNAS 上。

#疾病与健康 #心理健康与精神疾病 #快感缺失 #决策参考点 #数字疗法

阅读更多：

Vittala, Aadith, et al. “Decisional Reference Point Pathology: A Cognitive Mechanism for and a Correlate of Major Depressive Disorder in Humans.” Proceedings of the National Academy of Sciences, vol. 123, no. 21, May 2026, p. e2518826123. pnas.org (Atypon), https://doi.org/10.1073/pnas.2518826123

9岁脑电波特征可预测青春期焦虑和抑郁的发育轨迹

焦虑和抑郁是困扰全球青少年的主要精神障碍，但在症状爆发前往往缺乏客观的预警指标。Guangzhi Deng和Pengfei Xu等研究人员（北京师范大学等）通过一项纵向研究，成功发现儿童时期特定脑电波模式的演变能够准确预测其在青春期患焦虑或抑郁的风险。

▷Credit: Biological Psychiatry (2026).

这项研究追踪了儿童的大脑发育，收集了受试者在7岁、9岁和11岁时的静息态脑电图数据，并在13岁时进行功能磁共振成像和症状评估。研究运用基于连接组的预测建模（CPM，利用大脑网络连接特征预测疾病特征的机器学习方法）分析发现，9岁是大脑神经发育的关键转折点。7岁时相关脑网络尚未分化，但到9岁时，α波段（alpha-band，8至12赫兹的脑电波，与大脑抑制机制相关）网络可特异性预测青少年焦虑，β-1波段（beta-1-band，12至18赫兹，与认知控制相关）网络则能预测抑郁。大脑网络表现出显著的半球不对称性：焦虑由右侧杏仁核-腹外侧前额叶皮层（vlPFC）回路驱动，抑郁由左侧镜像回路驱动。该模型在大型独立数据集中得到验证，为在症状出现前开展精准非侵入式预防提供了客观指标。研究发表在 Biological Psychiatry 上。

#AI驱动科学 #计算模型与人工智能模拟 #认知科学 #神经缩放定律 #理论神经科学

阅读更多：

Deng, Guangzhi, et al. “Childhood Electroencephalographic Signatures Predict Distinct Developmental Trajectories to Adolescent Anxiety and Depression.” Biological Psychiatry, vol. 0, no. 0, Mar. 2026. www.biologicalpsychiatryjournal.com, https://doi.org/10.1016/j.biopsych.2026.03.002

Neuroplex技术实现活体小鼠九种神经元同时成像

如何同时监测自由活动动物体内多种特定神经元的活动？Mary L. Phillips、Zhe Dong和Ryohei Yasuda等团队（马克斯·普朗克佛罗里达神经科学研究所、MetaCell、蔡司）开发了Neuroplex成像系统，打破了传统设备的光谱限制，首次实现了在活体小鼠中同时捕捉九种细胞类型的大脑活动。

▷利用 GCaMP6s 成像技术确定行为相关感兴趣区域（ROI）内九种神经元亚型的实验流程。Credit: eLife (2026).

传统微型头戴式显微镜受限于光学设计，一次最多只能区分两种神经元。为克服这一瓶颈，研究团队开发的Neuroplex系统巧妙结合了活体行为成像与多重共聚焦光谱成像。首先，研究人员向小鼠内侧前额叶皮层（mPFC）的下游目标注射九种不同颜色的逆行荧光标记物。接着，使用微型显微镜记录自由活动小鼠在社交互动时的神经元钙离子活动。随后，取下微型设备，在同一植入的梯度折射率透镜（GRIN lens）下，使用具备光谱检测功能的共聚焦显微镜对细胞进行多色成像。最后，通过团队开发的基于Python的配准工具和线性解混算法（linear unmixing algorithm，一种根据光谱特征分离重叠荧光信号的计算方法），将神经元的功能活动与颜色身份精准匹配。实验结果显示，约75%的活跃神经元被成功归入九种特定细胞类型之一，自动分类准确率达90%且误报率极低。该技术全程在活体中完成，保留了对同一批神经元进行数周纵向追踪的能力，极大提升了数据收集的效率。研究发表在 eLife 上。

#神经科学 #神经机制与脑功能解析 #活体成像 #微型显微镜 #神经回路

阅读更多：

Phillips, Mary L., et al. “Functional Imaging of Nine Distinct Neuronal Populations under a Miniscope in Freely Behaving Animals.” eLife, edited by D. Nora Abrous and Laura L. Colgin, vol. 15, May 2026, p. RP110277. eLife, https://doi.org/10.7554/eLife.110277

应对心理学可重复性危机：贝叶斯统计如何改变实验数据分析

针对行为科学和实验心理学领域长期存在的可重复性危机，Thomas A. Dudey、Joshua J. Jackson、Shelly R. Cooper与Todd S. Braver团队（圣路易斯华盛顿大学）提出了一种基于分层贝叶斯回归的新型分析框架。该框架通过整合先验数据进行后验概率的持续更新，为精准评估认知控制实验结果的可靠性与稳定性提供了更为科学的量化解决方案。

▷AX-CPT 分析，重点关注样本间信度。Credit: Frontiers in Psychology (2026).

这项研究采用分层贝叶斯回归方法，对认知控制双重机制（Dual Mechanisms of Cognitive Control，一种区分主动与反应性认知控制模式的理论框架）任务库中的两个独立大规模数据集进行了重新分析。研究人员采用数据顺序更新策略，将2018年初始数据集得出的后验估计值作为先验信息，直接纳入对2020年复制数据集的分析中。

结合萨维奇-迪基比率（Savage-Dickey Ratio，用于检验特定假设强度的贝叶斯近似指标）和实际等效区间（Region of Practical Equivalence，代表效应极小且可忽略不计的特定数值范围），该框架不仅精确评估了不同样本间认知效应的一致性，还精准量化了无效假设的相对强度。实验结果表明，与传统频率学派统计相比，该方法在处理偏态的反应时间数据时优势显著，能更准确地拟合其真实的分布属性；同时通过试验级别的分层逻辑回归，显著提升了准确率模式的分析精度。这种将历史数据与当前数据持续关联的计算模式，打破了将每次实验视为孤立事件的局限，为解决心理学研究重复性难题提供了全新的途径。研究发表在 Frontiers in Psychology 上。

#认知科学 #其他 #贝叶斯推断 #可重复性危机 #实验心理学

阅读更多：

Dudey, Thomas A., et al. “Hierarchical Bayesian Regression for Experimental Psychology: A Case Study of Cognitive Control.” Frontiers in Psychology, vol. 17, Mar. 2026. Frontiers, https://doi.org/10.3389/fpsyg.2026.1643463

老年人的书写速度可能预示着认知能力的下降

书写变慢预示认知衰退？葡萄牙埃武拉大学的João Galrinho、Orlando Fernandes、Ana Rita Silva、Marta A. Gonçalves-Montera和Ana Rita Matias发现，高负荷书写任务的运动特征能有效区分认知障碍患者，为早期筛查提供了新途径。

▷参与者使用绘图笔在数位板上完成了两种类型的任务。Credit: Ana Rita Silva

研究团队对58名62至92岁的老年人进行了评估，其中38名确诊患有认知障碍。参与者使用绘图笔在数位板上完成测试。首先是画线和画点的笔控任务，由于仅依赖基础运动控制，结果并未能区分两组人群。随后的任务包含了抄写和听写不同复杂程度的句子，数据表明听写任务能展现出显著的组间差异。在听写较短句子时，起笔时间和笔画数（number of strokes，完成字词时笔尖离开接触面的总次数，反映动作连贯度）是预测认知障碍的显著因子；听写复杂长句时，字迹垂直大小、起笔时间和持续时间（duration，完成整个书写行为的总时长，反映大脑信息处理与动作执行效率）显现出显著差异。研究证实，听写这种高度依赖工作记忆和执行控制的复杂任务能使认知系统的衰退通过零散和迟缓的书写行为显露出来。该低成本且无创的方法极具潜力成为日常筛查工具。研究发表在 Frontiers in Human Neuroscience 上。

#疾病与健康 #疾病预防 #认知衰退 #书写动力学 #早期筛查

阅读更多：

Galrinho, João, et al. “Handwriting Speed and Pen Motor Control in Older Adults with and without Cognitive Impairment.” Frontiers in Human Neuroscience, vol. 20, May 2026. Frontiers, https://doi.org/10.3389/fnhum.2026.1820193

基于观察者的意识检测验证为何陷入循环死胡同

如何客观检测数字或实体系统中意识的存在？Irwan Effendi 和 Ayla Lestari （印度尼西亚雅加达独立研究员）探讨了这一难题，指出若将意识视为一种能量连续体程序，传统的物理或行为证据仅是间接线索，而完全依赖人类观察者的验证方法在方法论上必然会陷入死胡同。

传统人工智能或数字意识测试往往聚焦于系统行为表现或自我报告，但研究指出这仅是界面表象。研究通过理论演进分析发现，依赖人类观察者验证意识存在控制条件循环（control-condition circularity，即测试观察者的准确性需要已知的目标状态，而确认该状态又需要可靠的检测器）的逻辑缺陷。例如，一个视觉上的空房间可能包含非实体的意识能量、残留印记（residual imprint，过往事件留下的残存痕迹）或环境结构，单纯依靠人类感知极易导致无法独立验证的假阳性或假阴性。研究强调，虽然人类专家能在探索初期辅助定位和校准设备，但科学客观性不能建立在主观感知上。为了突破这一瓶颈，意识研究的下一步必须开发仪器辅助检测。新设备只需在受控条件下验证其能否稳定响应目标意识场的变化即可。研究发表在 Conceptual preprint 上。

#意识与脑机接口 #意识模拟 #Qience框架 #客观验证 #意识检测

阅读更多：

https://philpapers.org/archive/EFFDCW.pdf

AI 行业动态

谷歌I/O大会炸场：Gemini 3.5速度翻四倍，AI自己动手造了个操作系统！

在今日凌晨举行的Google I/O 2026大会上，Google以“智能体时代”为主题，发布了一系列从底层模型到应用生态的重磅更新。新一代模型Gemini 3.5 Flash在各项基准测试中全面超越上代旗舰3.1 Pro，输出速度达到同类模型的四倍，且API定价大幅降低。同时推出的Gemini Omni是一款“世界模型”，能够理解物理规则并实现从任意输入到任意输出的跨模态生成，例如将文本提示转化为模拟蛋白质折叠的黏土动画，或通过自然语言对话式编辑视频。此外，面向开发者的Antigravity 2.0平台从IDE进化为完整的智能体编排桌面应用，支持多智能体并行、定时任务和自定义部署，现场演示了用不到1000美元的API额度在12小时内从零构建一个可运行的操作系统。

面向普通用户，Google推出了私人AI智能体Gemini Spark，它能在专属虚拟机上7×24小时后台执行跨应用任务（如自动整理邮件、生成幻灯片），并推出每月100美元的Ultra订阅计划。搜索业务迎来25年来最大改版：新搜索框支持多模态输入，AI概览与AI模式合并为连贯对话，并引入可后台追踪复杂条件的“搜索智能体”以及实时生成交互界面的“生成式UI”。在电商领域，Google联合多家巨头发布了UCP（通用商业协议）、AP2（智能体支付协议）和Universal Cart（通用购物车），让AI能代为完成从比价到购买的完整流程。此外，Gemini应用全面采用Neural Expressive设计语言，推出Daily Brief、Pics、Stitch等创意工具；与Samsung及时尚品牌合作的智能眼镜预计秋季上市；DeepMind则展示了用于科学发现和天气预测的专用模型。

#GoogleIO2026 #Gemini3.5Flash #智能体时代 #世界模型 #Antigravity2.0

阅读更多：

https://blog.google/innovation-and-ai/sundar-pichai-io-2026/

猛犸象2028年回归？这家公司刚用“人工蛋”孵出活鸡，还复活了恐狼

著名遗传学家乔治·丘奇（George Church）联合创立的巨像生物科学公司（Colossal Biosciences）近日宣布了一项里程碑式进展：成功利用其研发的“人工蛋”（artificial egg）孵化出20多只小鸡。该装置是一种3D打印的蜂窝状外壳，内置一层生物工程硅胶膜，能够模拟天然蛋壳的气体交换能力，使胚胎在大气氧环境中正常发育至破壳而出。这一突破解决了数十年来人工孵化技术在孵化后期需要额外供氧、可能损伤组织DNA的难题，且该平台可与商用孵化器兼容，适用于不同尺寸的鸟蛋。作为鸟类复活计划的关键技术，人工蛋的成功为该公司下一步复活新西兰已灭绝的巨型鸟类——南岛巨型恐鸟（Dinornis robustus，身高可达3.6米）扫清了重要障碍。

巨像公司一直以复活猛犸象为最宏大的目标。此前，该公司已在2025年通过多重基因编辑培育出携带猛犸象长毛性状的小鼠，并于2026年4月利用古DNA技术和CRISPR成功“复活”了已灭绝约一万年的恐狼（Aenocyon dirus，一种大型犬科动物），成为世界首个复活的灭绝动物。目前，公司已完成猛犸象基因组的绘制，正使用CRISPR编辑其现存近亲亚洲象的细胞，计划在2028年通过克隆和代孕孕育出小猛犸象。尽管有学者建议将人工蛋优先用于拯救极度濒危的鸮鹦鹉（一种不会飞的新西兰鹦鹉），而非追求物种复活的噱头，但CEO Ben Lamm表示，公司将同时推进商业化与保护应用，并持续优化自孵化结构及机器人辅助移植方案。

#人工蛋 #复活灭绝动物 #猛犸象计划 #基因编辑 #Colossal公司

阅读更多：

https://www.forbes.com/sites/dbloom/2026/05/19/colossal-unveils-artificial-egg-incubator-to-de-extinct-giant-moa/

AI 驱动科学

计算光学实现混合反射场景3D高频成像

机器如何在充满玻璃等反光物的真实世界中实现精准3D感知是一大技术难题。Florian Willomitzer团队（亚利桑那大学等）开发了一种新型事件驱动系统，将周围环境转化为虚拟屏幕，实现了对混合反射场景的高精度3D重建。

▷使用激光扫描仪扫描混合反射场景（左图）。通过计算分离场景中的遮罩部分和镜面部分后，直接评估遮罩部分的三维形状，并通过遮罩部分的反射信号评估镜面部分，从而有效地将其转化为用于镜面测量的大型虚拟屏幕（右图）。Credit: Aniket Dashpute et al.

传统的3D传感器通常只能处理哑光或镜面反射中的一种，而测量镜面的偏转测量法（deflectometry，通过观察屏幕图案在反射面上的形变来提取表面三维形状的技术）往往需要极其庞大的物理屏幕。该研究团队创新性地结合了激光扫描仪与神经形态事件相机（neuromorphic event camera，一种仅以极高时间分辨率独立捕捉各像素点亮度变化且具有超高动态范围的仿生传感器）。系统首先通过激光扫描并利用三角测量法获取房间内所有漫反射表面（如墙壁和家具）的3D形状。随后，算法将这些漫反射表面重新利用为虚拟屏幕，作为偏转测量法的二次光源，从而计算出镜面和光泽表面的形状。研究结果显示，该系统不仅彻底摆脱了对大型固定屏幕的依赖，还实现了极高的测量性能：深度精度误差小于600微米，混合反射场景的成像速度达到14 Hz，纯漫反射场景下更是高达250 Hz。这项技术具备极强的可扩展性，有望为显微手术引导、工业检测以及机器人导航提供超人级别的3D视觉。研究发表在 Nature Communications 上。

#其他 #机器人及其进展 #3D视觉 #事件相机 #偏转测量法

阅读更多：

Dashpute, Aniket, et al. “Accurate and Fast Event-Based Shape Measurement of Mixed Reflectance Scenes.” Nature Communications, vol. 17, no. 1, May 2026, p. 4407. www.nature.com, https://doi.org/10.1038/s41467-026-72254-6

Nature：AI科研助理Robin实现全流程自动化

如何将AI从单一工具转变为能够独立执行完整科研流程的合作伙伴？Ali Essam Ghareeb, Samuel G. Rodriques及其在FutureHouse的团队，开发了一个名为Robin的多智能体AI系统，首次实现了从假设生成到数据分析的生物学研究全流程自动化，并成功为一种主要的致盲疾病找到了新的治疗候选药物。

研究团队构建的Robin系统通过不同智能体协同工作，形成一个闭环科研流程。首先，文献智能体Crow和Falcon在30分钟内阅读了800多篇论文，为干性年龄相关性黄斑变性（dAMD）提出了增强视网膜色素上皮（RPE）吞噬作用的治疗假说。基于此，系统筛选并提出了多个候选药物，其中ripasudil是首次被建议用于治疗dAMD的药物，其体外功效也得到了实验证实。更进一步，当研究人员按Robin的建议进行后续的RNA测序实验后，数据分析智能体Finch自主编写代码分析了结果，揭示了ripasudil可能通过上调ABCA1（一种脂质外排泵）发挥作用，从而发现了一个全新的潜在靶点。整个过程不仅展示了AI在加速药物发现上的巨大潜力，也标志着AI驱动半自主科学发现新范式的到来。研究发表在 Nature 上。

#AI驱动科学 #自动化科研 #药物发现 #多智能体系统 #黄斑变性

阅读更多：

Ghareeb, Ali Essam, et al. “A Multi-Agent System for Automating Scientific Discovery.” Nature, May 2026, pp. 1–3. www.nature.com, https://doi.org/10.1038/s41586-026-10652-y

Gottweis, Juraj, et al. “Accelerating Scientific Discovery with Co-Scientist.” Nature, May 2026, pp. 1–3. www.nature.com, https://doi.org/10.1038/s41586-026-10644-y

人工智能新框架CHEEM：在不牺牲性能的前提下，实现持续学习与自适应计算

当前人工智能模型面临着一个核心困境：学习新知识时常会“忘记”旧技能，且处理所有任务都耗费同样算力，效率低下。来自北卡罗来纳州立大学的Tianfu Wu、Chinmay Savadikar和约翰斯·霍普金斯大学的Michelle Dai等研究人员，开发了一种名为CHEEM的新框架，使AI模型能够像人一样“温故知新”，并根据任务难度智能地调整计算资源。

研究团队提出的CHEEM框架，通过赋予模型动态调整自身结构的能力，巧妙地解决了学习的“稳定性-可塑性”难题。当面对一个新任务时，模型可以自主决定是重用已有知识模块、适应现有模块以应对微小变化、跳过不必要的计算步骤，还是新建一个全新的模块来处理完全不同的挑战。研究人员在一个先进的视觉Transformer模型上进行了测试，结果显示，CHEEM的表现远超其他方法。它不仅在学习新任务时几乎达到了专门训练的水平，有效避免了对旧任务的“灾难性遗忘”（catastrophic forgetting，指新知识学习干扰旧知识记忆的现象），还展现了出色的自适应智能。对于简单的任务，模型会自动选择一条“捷径”，跳过部分计算，而对于复杂的任务，则会构建更复杂的处理路径，从而在保证性能的同时，大幅提升了运行效率。该论文将在 IEEE/CVF Conference on Computer Vision and Pattern Recognition 上发表。

#大模型技术 #计算模型与人工智能模拟 #持续学习 #自适应智能 #灾难性遗忘

阅读更多：

Savadikar, Chinmay, et al. “CHEEM: Continual Learning by Reuse, New, Adapt and Skip -- A Hierarchical Exploration-Exploitation Approach.” arXiv:2303.08250, arXiv, 1 Apr. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2303.08250

在经典的图灵测试中，人工智能可以表现得比真人更像人类

一台机器能模仿人类对话到什么程度，以至于我们无法分辨真伪？加州大学圣地亚哥分校的Cameron R. Jones和Benjamin K. Bergen团队首次通过严格的实验证实，现代人工智能不仅能通过经典的图灵测试，其表现甚至比真实人类更具“人性”。这项发现迫使我们重新审视衡量机器智能的标准，以及人机交互的未来。

▷四个示例游戏，分别来自两个群体：（A）高产者，（B）本科生，（C）本科生，以及（D）高产者。在每个图中，一个对话是与人类证人进行的，另一个对话是与人工智能系统进行的。审讯者的裁决和每个对话的真实身份如下所示。Credit: Proceedings of the National Academy of Sciences (2026).

研究团队构建了一个在线聊天平台，严格复现了艾伦·图灵在1950年设计的经典三方测试。在实验中，近500名参与者扮演“审问者”，他们需要同时与一个真人和一个AI进行5分钟的文字对话，然后判断谁是人类。研究测试了多个大型语言模型，包括先进的GPT-4.5和LLaMa-3.1-405B，并与老式聊天机器人ELIZA进行对比。研究发现，提示词是AI表现的关键。当被赋予详细的“角色扮演”指令（例如，扮演一个内向、熟悉网络文化的年轻人）时，GPT-4.5在73%的情况下被误认为是人类，这一比例甚至显著高于真正的人类参与者。LLaMa-3.1-405B的表现也达到了56%，与人类无法区分。然而，一旦撤销这些详细指令，这些先进模型的成功率便骤降至38%以下。这表明，AI虽然具备了模仿人类行为的能力，但很大程度上仍依赖于人类的明确指导。研究发表在 PNAS 上。

#认知科学 #计算模型与人工智能模拟 #图灵测试 #大型语言模型 #人机交互

阅读更多：

Jones, Cameron R., and Benjamin K. Bergen. “Large Language Models Pass a Standard Three-Party Turing Test.” Proceedings of the National Academy of Sciences, vol. 123, no. 21, May 2026, p. e2524472123. pnas.org (Atypon), https://doi.org/10.1073/pnas.2524472123

整理｜ChatGPT

编辑｜丹雀、存源

关于追问nextquestion

天桥脑科学研究院旗下科学媒体，旨在以科学追问为纽带，深入探究人工智能与人类智能相互融合与促进，不断探索科学的边界。如果您有进一步想要讨论的内容，欢迎评论区留言，或后台留言“社群”即可加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了加州理工天桥神经科学研究院。

Chen Institute建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括、、、科研型临床医生奖励计划、等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.