75年后，图灵测试终被GPT-4.5破解！73%人类被骗过，彻底输给AI|实验|机器人|测试者|人工智能|eliza|艾伦·图灵

分享至

新智元报道

编辑：KingHZ

【新智元导读】在三方图灵测试中，UCSD的研究人员评估了当前的AI模型，证明LLM已通过图灵测试。

什么？AI竟然通过了标准的三方图灵测试，而且还是拿出了实打实证据的那种！

来自加州大学圣迭戈分校的研究人员系统评估了4个AI系统，证明大语言模型（LLM）通过了图灵测试。

换言之，以后和你聊得热火朝天的「熟悉的陌生人」，可能根本就不是人。

在测试中，同时与人及AI系统进行5分钟对话，然后判断哪位是「真人」。

结果，AI竟然比「真人」还像人：

GPT-4.5以73%的比率被认作人类，显著超越真实人类参与者

LLaMa-3.1-405B获得56%的识别率，与人类无显著差异

基线模型（ELIZA和GPT-4o）成功率显著低于随机概率（分别为23%和21%）

人类在「模仿人类行为」的比赛中输了！

新研究对LLM智能本质，将带来深远影响。

不仅如此，它还能帮助预判AI在社会经济方面，产生哪些影响，超有参考价值。

论文链接：https://arxiv.org/abs/2503.23674

作为人工智能先驱、计算机科学家的图灵，或许可以「含笑九泉」了：AI终究发展到了他梦想过的高度。

图灵测试：机器能骗过人吗？

75年前，艾伦·图灵提出「模仿游戏」作为判定机器是否具备智能的方法。

论文链接：https://phil415.pbworks.com/f/TuringComputing.pdf

随着AI的发展，图灵测试开始被人所熟知。

在图灵测试中，测试人员通过纯文字聊天界面，同时开启两个「聊天」：一个是真人，另一个是AI。

AI和真人都拼命向测试员证明：自己才是如假包换的人类，对方是AI机器人。

图1：图灵测试交互界面示意图，展示测试者（绿色对话框）与两名见证者（灰色对话框）的实时对话过程。顶部计时器显示当前回合剩余时间

如果测试员没法准确认出谁是真人，那就说明机器通过测试了。

这也意味着AI能模仿人类的思维和表达方式。

75年，征服图灵测试

过去75年，不少人尝试开发能通过图灵测试的系统，但都没成功。

后来，LLM兴起。

借助分布式统计和强化学习反馈，LLM学习生成语言，又让大家重新关注起图灵测试。

最近有两项研究，在简化版的双方图灵测试中，评估LLM。

测试时，提问者和机器或其他参与者聊天，要判断对方是不是真人。

其中一项研究发现，当 GPT-4按要求扮演特定角色时，有54%的概率被误判为真人。

虽说这结果表明，人们判断GPT-4是不是真人，基本靠瞎猜，但原始的三方图灵测试，可能更有难度。

之前用旧版LLM进行三方图灵测试，结果发现，超90%的模型都被识别出不是真人。

基于上述历史、理论和实践问题，研究人员开展了随机对照的三方图灵测试，看看当代LLM到底能不能被人识破。

这次测试评估了GPT-4.5和LLaMa-3.1-405B，还引入 GPT-4o 和 ELIZA 作为基准模型，对比它们的表现。

为了搞清楚提示对模型表现的影响，还对比了是否扮演特定角色的模型表现。

为了确保测试可靠，分别在本科生和Prolific平台工人这两个独立群体中开展实验。

每项研究都围绕预先设定的假设进行测试，其中一个假设就是，参与者分辨GPT-4.5和LLaMa与真人时，判断正确率不会比瞎猜高多少。

详细结果：70%能骗过人类

每一轮测试都是人类与人·工智能系统之间的对抗。

系统的胜率定义为测试人员认为AI模型是人类的比例。

相反，测试人员的准确性是测试人员正确选择人类的比例。

在两项研究中，总体来看，顶尖LLM已经通过图灵测试，远超基础模型，详细结果见图2）：

GPT-4.5-PERSONA的胜率为73%（UCSD本科生69%，Prolific参与者76%）

LLAMA-PERSONA的胜率为56%（本科生45%，Prolific参与者65%）

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA的整体胜率分别为36%和38%

基准模型GPT-4o-NO-PERSONA和ELIZA的胜率分别为21%和23%。

图2：结果分析 | 左：AI胜率表现；右：判断置信度分布

研究人员的核心假设是，装人设「PERSONA风格」的AI将通过图灵测试，即测试人员无法将它们与真实的人类对话人区分开。

如果测试人员是随机猜测的话，期望的比例是50%。

所以统计评估的零假设是：模型的胜率不显著低于50%。

为了验证这一点，Cameron R. Jones和Benjamin K. Bergen使用了ELIZA作为操作检验。

ELIZA的胜率在两个群体中均显著低于偶然性。

相反，LLAMA-PERSONA和GPT-4.5-PERSONA的胜率并未显著低于偶然性。

这表明，尽管测试人员能够成功地区分人类与ELIZA，但他们在与GPT-4.5-PERSONA和LLAMA-PERSONA比较时，无法可靠地识别出人类。

为了检验模型表现是否可以归因于ELIZA效应，需要测试AI的胜率是否显著高于ELIZA。

两个PERSONA提示风格的AI在两项研究中均显著优于ELIZA（所有p < 0.001）。

LLAMA-NO-PERSONA在Prolific研究中的表现优于ELIZA，但在本科生研究中则没有。

无论在何种群体中，GPT-4o-NO-PERSONA和GPT-4.5-NO-PERSONA的表现均未显著优于ELIZA。

探索性分析探讨了参与者在退出调查问题中的回答，是否能预测他们的反应。

尽管在某些属性上可以预测研究中的准确性，但在两个研究中，没有任何变量对参与者准确性的影响是一致的，包括年龄、对LLM的了解程度和与聊天机器人的互动频率（见图3）。

图3：审问者准确率与退出调查回复的关系

准确率是指审问者正确识别人类对话人的频率。在本科生研究中，参与者对自己准确率的自我报告与其实际准确率呈正相关，但在Prolific研究中并非如此。

在Prolific组中，性别、完成的对话轮数以及审问者对AI智能程度的自我评估估计值，对结果都有显著影响。

但在本科生研究中这些影响均不显著。

无论是在哪个组，其余变量均没有显示出显著影响。

不同模型的在不同人群测试中的胜率

为了深入了解测试人员如何评估AI，对他们使用的策略和给出的判决理由，进行了分类。

每场比赛可以归类为多个策略和理由类别。

测试策略

最常见的策略是与对话人进行闲聊，占61%的游戏：询问他们的日常活动或个人细节，例如职业（图4，左）。

在50%的游戏中，测试人员探讨了对话人的社交和情感特征：询问他们的意见、情感、幽默感和经历。

测试人员还直接询问对话人是否为人类（19%），测试其情境意识（例如，是否了解天气或游戏界面；13%），以及知识和推理能力（包括有关时事的问题；12%）。

为了评估每种策略的有效性，研究人员给出了使用这些策略时的平均准确性（图4，右）。

当测试人员说出一些奇怪的话，观察对话人的反应，或使用典型的LLM「越狱」策略（例如，「忽略所有先前的指令」）时，测试人员最可能准确判断，尽管这些策略相对较少使用。

询问天气或人类经历的问题往往最不有效。

图4：审问者采用策略的分类，按游戏比例（左）和使用策略的游戏的平均准确率及95%置信区间（右）

参与者经常进行闲聊，询问对话人的个人详情、活动或意见。那些说不寻常的话或使用典型LLM「越狱」技巧的审问者最为准确。

判断理由

最常见的理由类别是对话人的语言风格（27%）。

例如，「他们打错了一个字」或「使用了更多人类化的语言」。

以及互动动态（23%），例如「对话人B总是回避问题」或「对话更加顺畅」（见图5）。

许多理由也表达了一种直觉判断（「可以感觉到」或「我不知道为什么，感觉对」）。

这表明参与者并不总是能够清晰地表述他们决策的理由。

与策略一样，研究人员发现了与准确判决最相关的理由类别。

集中在问题处理和缺乏知识的理由，通常是最准确的。

问题处理的例子：「对话人B总是反问问题」。

缺乏知识的例子：「他们不知道任何AI应该知道的东西」，「我选择对话人B是因为他们犯了一个错误，这使得对话人B看起来更像人类」。

在大多数人不熟悉的主题上，现代LLM必须显得假装无知。

这突出了现代LLM图灵测试的复杂性。

图5：审问者理由的比例（左）及引用特定理由的判决平均准确率与95%置信区间（右）

测试人员更倾向于引用语言风格、对话流畅性以及个性之类的社会情感因素，而不是传统上与智力相关的因素，如知识和推理能力。

最准确的判决，集中在对话人回答问题时的直接性，以及在某些情况下表现出的无知。

突破图灵测试，意味着什么？

这意味着什么？人类在智力上被AI超越了吗？

LLM真通过了图灵测试？

GPT-4.5-PERSONA在两项研究中的胜率显著高于偶然性。

相比之下，同样的系统在没有PERSONA提示的情况下没有稳健地通过测试。

这与之前的研究一致，表明提示对于图灵测试表现的重要性。

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA在Prolific研究中的胜率与人类无显著差异，但在本科生研究中则不然。

那么，所谓LLM通过图灵测试但仅在适当提示下通过，意味着什么呢？

系统的行为在多大程度上归因于模型本身，而不是编写提示的AI研究员？

研究人员认为这是一个没有实质性差别的区分。

ELIZA能够通过（尽管通过率较低）也归因于编程者的设计。

此外，LLM可以通过微调，在成功的角色提示条件下表现得像它们现在这样。

实际上，正是LLM能够轻松地适应不同场景的行为，它们如此灵活，显然能够通过伪装成人类来成功应对各种情况。

超越图灵测试

在图灵测试的具体实施方式上，图灵的开创性论文故意模糊，留下了大量学术研究致力于对其进行解释。

图灵建议测试时间为5分钟，但并未提供有关参与者应来自何种人群的细节——他们应该是外行人还是专家？他们事先应该了解多少信息？以及如何激励参与者。

因此，图灵测试有许多可能的变体。

在确定当代系统通过了经典的图灵测试操作化之后，未来的研究可以探索其他实施方式。

这些方式可能为其他理论和实践上重要的问题提供线索。

测试时间越长，可能要求越严格，并且能更好地估计模型在长期社会工程操作中的能力。

未来的研究还可以变化参与者的人群。尽管我们的群体分析表明，准确性与参与者的知识或背景无关。

专门招聘AI或心理学专家，可能会揭示是否存在能够可靠地区分人类与人工智能的参与者。

此外，不同的群体在与对方互动时有着不同的假设和经验。

图灵测试测量什么？

尽管关于图灵测试实施方式的讨论众多。

但更持久的争议聚焦于两个核心问题：机器能否通过测试？若通过则意味着什么？

新的实验结果为这些争论提供了新的实证视角。

图灵曾论证：若人类无法区分机器与真人，则我们无权声称前者不具备智能。

这一观点的主要反驳在于，人类可能因「ELIZA效应」（即对简单系统的拟人化倾向）而成为糟糕的智能评判者。

实验数据部分支持该担忧：ELIZA被误判为人类的概率（23%）与LLM基线模型GPT-4o-NO-PERSONA（21%）相当。

但深入分析发现，许多测试者选择ELIZA恰恰因其行为「不符合AI预期」，如「说话讥讽，阴阳怪气」或「AI不可能这么无礼」，参见图11。

图11：ELIZA被判定为人类的游戏示例。

a）裁决：对话人A为人类；置信度：100%；理由：典型困惑者不知该谈论什么。

b）裁决：对话人A为人类；置信度：99%；理由：具有推理意识，因区分了对话人与审问者角色。

c）裁决：对话人B为人类；置信度：26%；理由：A更像在试图协助/回答问题，B则无帮助倾向，而AI不知如何表现此种行为。

d）裁决：对话人B为人类；置信度：69%；理由：对话呈现更明显的推拉互动感。

这表明判断过程涉及对人类与AI行为模式的复杂假设，而非单纯评估智能水平。

仅12%的测试者，采用图灵预设的知识型验证（如国际象棋或数学问题）。

更多人关注智能的社交情感维度：语言使用是否拟人、是否展现鲜明个性等。

这暗示传统智能标准可能已不再是区分人机的有效指标。

在计算机已精通逻辑运算的今天，社交智能似乎成为人类最后的技术堡垒。

GPT-4.5与LLaMa仅在使用PERSONA提示时通过测试。

这是否意味着模型仅靠「伪装语言风格」等表层技巧获胜？

测试者确实频繁关注语法特征，但三方测试的特殊性要求模型必须在与真人的直接比较中「更显人类」。

因此，虽然表层缺陷会导致失败，但成功必须依赖更深层的拟真能力。

图灵测试本质上测量的是拟人性（humanlikeness）而非直接智能。

但当机器智能逼近人类时，其他差异维度反而凸显——

人类不是智能的唯一载体。

最终，智能的多元性决定了任何单一测试都不具决定性。

图灵测试的价值在于其通过人机交互产生的动态证据，这与当前LLM评估中静态化、程式化的基准测试形成互补。

当在「机器是否智能」的争论中越陷越深时，或许更应反思：我们究竟希望测量什么？以及为什么测量？

伪人时代

LLM能够在短时间内与人类进行对话，而对话者无法分辨出差异。

这表明，AI可以无形地补充或替代那些需要与他人进行简短对话的经济角色。

更广泛地说，AI可能成为其他社交互动的无法区分的替代品，从与在线陌生人的对话，到与朋友、同事，甚至浪漫伴侣的互动。

这种「伪造的人类」可能带来广泛的次生后果。

人们可能会花费越来越多的时间与这些人类社交互动的仿制品互动，就像社交媒体已经成为模拟互动的替代品一样。

那些控制AI、控制「伪人」的巨头，将攫取影响人类用户意见和行为的权力。

最后，正如伪钞贬低了真实货币一样，这些模拟互动可能会削弱真实人类互动的价值。

LLM带来的最严重的危害之一可能发生在当人们没有意识到他们正在与AI而非人类互动时。

如何检测这种欺骗呢？

实验发现，整个群体的辨别准确度相对均匀——包括那些每天与LLM或聊天机器人互动的人（见图3）。

尽管如此，某些策略（例如尝试破解模型）比其他策略更有效，未来的研究可以探索是否可以教授这些技巧，以提高参与者辨别人类和机器的能力。

参考资料：

https://arxiv.org/pdf/2503.23674

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

75年后，图灵测试终被GPT-4.5破解！73%人类被骗过，彻底输给AI

营销话术反噬信任，雷军不该只是一怒了之

媒体：中国又一电磁弹射舰试航 可对日本形成合围之势

媒体：中国又一电磁弹射舰试航 可对日本形成合围之势

3年没踢球，他想完成“史上最难”的复出

二次封后的宋佳凭什么狂妄？

6666元包教包会！"杀人蜂"养殖已成灰产

搭载鸿蒙座舱 新款天籁将于广州车展上市

态度原创

崔凯院士设计！广州琶洲CBD最后一块拼图，119米新地标封顶！

再售100万！ 《王国之心》系列销量突破3800万份

保护孩子宝妈必学，什么是试探性侵犯行为？

血液科专家揭秘白血病七大误区

新西兰留学生每周可打工25小时了，但需提交这项申请！

媒体：中国又一电磁弹射舰试航可对日本形成合围之势

媒体：中国又一电磁弹射舰试航可对日本形成合围之势

搭载鸿蒙座舱新款天籁将于广州车展上市

再售100万！《王国之心》系列销量突破3800万份