图灵测试已死，AI需要新的“灵魂测验”吗？|伦敦|威廉|莎拉|人工智能|艾伦·图灵

图灵测试已死，AI需要新的“灵魂测验”吗？

分享至

来源：量子号

在人工智能时代，“图灵测试”这个诞生于75年前的思想实验似乎已经失去了意义。如今的语言模型能与人类聊天、写诗、甚至模仿情感表达——但它们真的“理解”自己在说什么吗？

更关键的问题是：当机器不再需要通过“像人类”来证明自己聪明，我们是否该重新定义“智能”的标准？

据《自然》报道，最近，来自伦敦皇家学会的一场纪念图灵的研讨会上，科学家们提出了一个颇具颠覆性的观点——也许我们该彻底放弃图灵测试，把关注点转向更重要的议题：人工智能的安全性、社会价值，以及它能否真正造福人类。

本文有7小节，2400多字：

一场75年的回望：图灵的“模仿游戏”
人满为患的“低调”会议
超越图灵：语言模型并不“理解”
机器的“多项测验”与“新奥运会”
“通用智能”是伪命题？
安全与社会效益，才是新的标准
从“像人类”到“利于人类”

艾伦·图灵，1951年。（图源：Elliott & Fry, Public domain, via Wikimedia Commons）

在当下的人工智能浪潮中，最强大的语言模型已经轻松通过了“图灵测试”——这场由英国数学家艾伦·图灵在75年前提出的思想实验，原本用来判断一台机器是否能通过文字交流被误认为人类。如今，这一测试似乎已被时代淘汰。

但问题随之而来：如果图灵测试已经失效，我们是否还需要一个新的“替代者”，去衡量机器的智能极限？

一场75年的回望：图灵的“模仿游戏”

1950年，图灵在论文中提出了著名的“模仿游戏”。测试方式看似简单：让评审者分别与人类和计算机进行短暂的文字对话，如果评审无法分辨哪一方是机器，则意味着这台计算机“像人类一样思考”。

这场看似游戏的实验，却开启了人类探索“机器思维”的哲学命题。

2025年10月2日，伦敦皇家学会举办了一场纪念图灵论文发表75周年的研讨会。与会科学家们却不约而同地表达了一个观点：图灵测试该被彻底淘汰。

英国萨塞克斯大学神经科学家阿尼尔·塞思（Anil Seth）在会上直言：“与其继续痴迷于通用人工智能（AGI）的幻想，我们更应该思考——究竟想要怎样的人工智能，又不想要怎样的系统。”他指出，那种“一步步通向通用智能”的思维模式反而限制了人类的想象力。

人满为患的“低调”会议

这场并不追求“AI奇迹”的会议，却意外受到欢迎。超过千名线上观众参与，现场座无虚席。

演讲者之一、纽约大学神经科学家加里·马库斯（Gary Marcus），由摇滚乐队“创世纪”（Genesis）主唱彼得·加布里埃尔（Peter Gabriel）介绍出场，影星劳伦斯·菲什伯恩（Laurence Fishburne）也现身观众席。

人工智能研究员加里·马库斯（左）与演员劳伦斯·菲什伯恩出席图灵活动。（图源：Courtesy of the Web Science Institute at the University of Southampton）

马库斯在演讲中指出：“所谓通用人工智能，也许根本不是当下该追求的目标。”他举例称，谷歌旗下的DeepMind开发的蛋白质结构预测系统AlphaFold就是一种典型的“专才型”人工智能——它能精准预测蛋白质折叠结构，但不会写诗或作曲。“它只做一件事，而且做得极好。”

超越图灵：语言模型并不“理解”

剑桥大学文学研究者莎拉·迪伦（Sarah Dillon）提醒人们，图灵测试从未被设计为真正的“智能评估工具”，而只是一个哲学性思考的起点。

如今的人工智能系统，特别是大型语言模型，正是依靠从海量网络数据中学习到的语言关联来生成文字。2025年3月，研究者对四个聊天机器人进行改良版图灵测试，结果显示其中表现最优的模型成功“骗过”评审。

但正如与会科学家强调的，这种语言模仿并不等同于理解。马库斯指出：“当你让模型回答它从未被问过的问题，它们往往会彻底失灵。”他举例说，有的模型甚至分不清大象的身体部位，或者在画钟表时永远只能画出“十点十”这一种角度。

因此，如果测试者足够专业，这些模型依旧可能在真正的图灵测试中“露馅”。

机器的“多项测验”与“新奥运会”

尽管如此，大型语言模型在推理、学习等任务上的迅速进步，也让一些人开始重新思考机器是否即将达到人类认知水平。

科学家们正尝试设计更复杂的评测体系，例如“抽象推理语料库第二版”，用于评估AI在未知问题上的适应能力。这类测试被视为通往通用智能的“里程碑”，但目前还没有任何一种测试能被公认为“标准答案”。

马库斯提出，未来或许可以建立一场“图灵奥运会”，通过十余项任务来综合评估人工智能——例如观看一部电影并理解剧情，或根据说明书组装家具等。但他也承认，这仍然无法涵盖智能的全部形态。

塞思则提醒，所有这些测试都忽视了“具身智能”——即与物理身体相连的认知能力。他认为，身体并非智能的“附加功能”，而是构成人类思维方式的核心。

“通用智能”是伪命题？

爱丁堡大学人工智能伦理学家香农·瓦洛尔（Shannon Vallor）更是直言不讳地称：“通用人工智能是一个过时的科学概念。它并不是一种真实存在的实体或特质。”

她指出，什么被视为“智能”，其实因文化、环境乃至物种而异。与其反复追问“机器是否智能”，不如问一句更实在的问题——“这台机器究竟能做什么？”

瓦洛尔建议，将AI的能力分解为不同维度，例如单独评估语言能力，而不是把语言当作人类理解力的标志。这样可以避免将“理解”“共情”等人类特质误加于机器之上。

“与其执着于那种模糊的智能概念，我们不如拆解它，去衡量那些具体的能力。”她说。

安全与社会效益，才是新的标准

瓦洛尔还指出，科技公司对“通用智能”的执念，实际上转移了公众对AI潜在风险的关注。这些风险包括削弱人类技能、制造虚假认知、以及放大数据中已有的偏见。

她主张，AI的竞争不应再是“谁更聪明”，而应是“谁更安全”。模型应在安全性、滥用风险、以及现实应用中可能造成的意外伤害等维度上展开比拼。

来自谷歌DeepMind伦敦办公室的公共政策研究员威廉·艾萨克（William Isaac）也赞同这一观点。他认为，未来的“图灵测试”应该关注AI是否安全、可靠、真正造福公众——以及这些益处的成本由谁承担。

“科学家的责任，是用数据和实证来引导社会，而不是助长炒作。”艾萨克说。

从“像人类”到“利于人类”

在AI发展的关键转折点上，这场讨论提出了一个重要的思维转向——我们不再需要让机器“像人类”，而是该问：它能否真正让人类社会变得更好。

当“图灵测试”成为历史，也许这正意味着人工智能终于迎来了它的成人礼——不再追求模仿，而开始追问意义。

本文头图由「量子号」公众号作者使用AI生成

参考资料："AI language models killed the Turing test: do we even need a replacement?" by Elizabeth Gibney from Nature, Published 20 October 2025

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.