![]()
来源:量子号
在人工智能时代,“图灵测试”这个诞生于75年前的思想实验似乎已经失去了意义。如今的语言模型能与人类聊天、写诗、甚至模仿情感表达——但它们真的“理解”自己在说什么吗?
更关键的问题是:当机器不再需要通过“像人类”来证明自己聪明,我们是否该重新定义“智能”的标准?
据《自然》报道,最近,来自伦敦皇家学会的一场纪念图灵的研讨会上,科学家们提出了一个颇具颠覆性的观点——也许我们该彻底放弃图灵测试,把关注点转向更重要的议题:人工智能的安全性、社会价值,以及它能否真正造福人类。
本文有7小节,2400多字:
一场75年的回望:图灵的“模仿游戏”
人满为患的“低调”会议
超越图灵:语言模型并不“理解”
机器的“多项测验”与“新奥运会”
“通用智能”是伪命题?
安全与社会效益,才是新的标准
从“像人类”到“利于人类”
![]()
艾伦·图灵,1951年。(图源:Elliott & Fry, Public domain, via Wikimedia Commons)
在当下的人工智能浪潮中,最强大的语言模型已经轻松通过了“图灵测试”——这场由英国数学家艾伦·图灵在75年前提出的思想实验,原本用来判断一台机器是否能通过文字交流被误认为人类。如今,这一测试似乎已被时代淘汰。
但问题随之而来:如果图灵测试已经失效,我们是否还需要一个新的“替代者”,去衡量机器的智能极限?
1.
一场75年的回望:图灵的“模仿游戏”
1950年,图灵在论文中提出了著名的“模仿游戏”。测试方式看似简单:让评审者分别与人类和计算机进行短暂的文字对话,如果评审无法分辨哪一方是机器,则意味着这台计算机“像人类一样思考”。
这场看似游戏的实验,却开启了人类探索“机器思维”的哲学命题。
2025年10月2日,伦敦皇家学会举办了一场纪念图灵论文发表75周年的研讨会。与会科学家们却不约而同地表达了一个观点:图灵测试该被彻底淘汰。
英国萨塞克斯大学神经科学家阿尼尔·塞思(Anil Seth)在会上直言:“与其继续痴迷于通用人工智能(AGI)的幻想,我们更应该思考——究竟想要怎样的人工智能,又不想要怎样的系统。”他指出,那种“一步步通向通用智能”的思维模式反而限制了人类的想象力。
2.
人满为患的“低调”会议
这场并不追求“AI奇迹”的会议,却意外受到欢迎。超过千名线上观众参与,现场座无虚席。
演讲者之一、纽约大学神经科学家加里·马库斯(Gary Marcus),由摇滚乐队“创世纪”(Genesis)主唱彼得·加布里埃尔(Peter Gabriel)介绍出场,影星劳伦斯·菲什伯恩(Laurence Fishburne)也现身观众席。
![]()
人工智能研究员加里·马库斯(左)与演员劳伦斯·菲什伯恩出席图灵活动。(图源:Courtesy of the Web Science Institute at the University of Southampton)
马库斯在演讲中指出:“所谓通用人工智能,也许根本不是当下该追求的目标。”他举例称,谷歌旗下的DeepMind开发的蛋白质结构预测系统AlphaFold就是一种典型的“专才型”人工智能——它能精准预测蛋白质折叠结构,但不会写诗或作曲。“它只做一件事,而且做得极好。”
3.
超越图灵:语言模型并不“理解”
剑桥大学文学研究者莎拉·迪伦(Sarah Dillon)提醒人们,图灵测试从未被设计为真正的“智能评估工具”,而只是一个哲学性思考的起点。
如今的人工智能系统,特别是大型语言模型,正是依靠从海量网络数据中学习到的语言关联来生成文字。2025年3月,研究者对四个聊天机器人进行改良版图灵测试,结果显示其中表现最优的模型成功“骗过”评审。
但正如与会科学家强调的,这种语言模仿并不等同于理解。马库斯指出:“当你让模型回答它从未被问过的问题,它们往往会彻底失灵。”他举例说,有的模型甚至分不清大象的身体部位,或者在画钟表时永远只能画出“十点十”这一种角度。
因此,如果测试者足够专业,这些模型依旧可能在真正的图灵测试中“露馅”。
4.
机器的“多项测验”与“新奥运会”
尽管如此,大型语言模型在推理、学习等任务上的迅速进步,也让一些人开始重新思考机器是否即将达到人类认知水平。
科学家们正尝试设计更复杂的评测体系,例如“抽象推理语料库第二版”,用于评估AI在未知问题上的适应能力。这类测试被视为通往通用智能的“里程碑”,但目前还没有任何一种测试能被公认为“标准答案”。
马库斯提出,未来或许可以建立一场“图灵奥运会”,通过十余项任务来综合评估人工智能——例如观看一部电影并理解剧情,或根据说明书组装家具等。但他也承认,这仍然无法涵盖智能的全部形态。
塞思则提醒,所有这些测试都忽视了“具身智能”——即与物理身体相连的认知能力。他认为,身体并非智能的“附加功能”,而是构成人类思维方式的核心。
5.
“通用智能”是伪命题?
爱丁堡大学人工智能伦理学家香农·瓦洛尔(Shannon Vallor)更是直言不讳地称:“通用人工智能是一个过时的科学概念。它并不是一种真实存在的实体或特质。”
她指出,什么被视为“智能”,其实因文化、环境乃至物种而异。与其反复追问“机器是否智能”,不如问一句更实在的问题——“这台机器究竟能做什么?”
瓦洛尔建议,将AI的能力分解为不同维度,例如单独评估语言能力,而不是把语言当作人类理解力的标志。这样可以避免将“理解”“共情”等人类特质误加于机器之上。
“与其执着于那种模糊的智能概念,我们不如拆解它,去衡量那些具体的能力。”她说。
6.
安全与社会效益,才是新的标准
瓦洛尔还指出,科技公司对“通用智能”的执念,实际上转移了公众对AI潜在风险的关注。这些风险包括削弱人类技能、制造虚假认知、以及放大数据中已有的偏见。
她主张,AI的竞争不应再是“谁更聪明”,而应是“谁更安全”。模型应在安全性、滥用风险、以及现实应用中可能造成的意外伤害等维度上展开比拼。
来自谷歌DeepMind伦敦办公室的公共政策研究员威廉·艾萨克(William Isaac)也赞同这一观点。他认为,未来的“图灵测试”应该关注AI是否安全、可靠、真正造福公众——以及这些益处的成本由谁承担。
“科学家的责任,是用数据和实证来引导社会,而不是助长炒作。”艾萨克说。
7.
从“像人类”到“利于人类”
在AI发展的关键转折点上,这场讨论提出了一个重要的思维转向——我们不再需要让机器“像人类”,而是该问:它能否真正让人类社会变得更好。
当“图灵测试”成为历史,也许这正意味着人工智能终于迎来了它的成人礼——不再追求模仿,而开始追问意义。
本文头图由「量子号」公众号作者使用AI生成
参考资料:"AI language models killed the Turing test: do we even need a replacement?" by Elizabeth Gibney from Nature, Published 20 October 2025
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
![]()
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.