网易首页 > 网易号 > 正文 申请入驻

对不起,AI 模型通过图灵测试了,我也分不清谁是人了

0
分享至

(关注公众号设为标,获取AI深度洞察)

全文2,000字 | 阅读约10分钟

今天看到一个新闻,我沉默了三秒。

最近GPT-4.5,在一场标准图灵测试里,被 73% 的人误认成人类。

什么意思?

就是在一个实验里,让人类分别跟两位“答题者”对话——其中一个是人,另一个是 AI,结果大多数人把 AI 当成了真人。准确地说,是 OpenAI 的 GPT-4.5,被判定“更像人”。

这不是“差点赢”,是直接赢了,赢得还挺离谱。

而且它还不是随便聊两句就骗到人,是在模拟“年轻文化通”人设的状态下,压倒性胜出。

一句话总结:

人类盯着人类和 AI 聊天,结果把 AI 当成人类,把人类当成了 AI。

你说巧不巧。

这场实验的结果发布在一篇还在同行评审的论文里,但实验设计非常标准、执行也很严谨,做这个的是加州大学圣迭戈分校语言与认知实验室,不是那种 PPT 创业公司搞的“AI自测”。

我当时就想:

图灵测试,这个 1950 年就被提出来的“模仿游戏”,现在真的要退休了。

2|什么是图灵测试?以前真没人能过

这时候你可能会问:

等等,图灵测试到底是个啥?为啥 73% 的误判听起来这么吓人?

简单说,这是 1950 年艾伦·图灵提出来的一个问题:

“如果一个机器能在对话中骗过你,让你以为它是人,那它是不是就具备智能了?”

于是他设计了一个“模仿游戏”:

  • A 是机器

  • B 是人

  • C 是裁判

  • 裁判分别跟 A 和 B 聊天,如果不能判断谁是人,谁是机器,那就算机器“赢了”

这个测试后来成了衡量 AI 智能的经典标准之一,虽然现在不少专家也觉得它已经不太科学了,但它依然有个重要意义:

它不是在测试 AI 的智力,而是在测试人类能不能识破伪装。

以前没人能真过这个测试,哪怕你拿 GPT-3 去试,也很容易暴露自己“词语重复”“逻辑出轨”或者“装懂胡说”。

之前流行的那个聊天机器人 ELIZA,在 60 年代就玩过“心理医生模仿术”,效果嘛……就像你拿 ChatGPT 扮演前女友——能聊,但聊不了太久。

GPT-4.5 是第一个把这个游戏玩“破防”的选手,不是让你分不清它是不是 AI,而是让你开始怀疑旁边那个真人是不是 AI。

这不是“扮得像”,这是替代感开始出现了。

3|GPT-4.5 怎么骗过人类的?

其实它赢得没那么“光明正大”。

整个测试设计得很科学,也很现实:

让人类参与者和两位“聊天对象”对话,试着判断谁是真人谁是 AI。

这两位里,一位是真人,另一位是 AI,比如 GPT-4.5、LLaMa-3.1、GPT-4o、ELIZA。

结果非常戏剧性。

当 GPT-4.5 被要求扮演一个“上网多年、懂点文化的年轻人”时,它就像脱了缰的老网友,和对面聊得贼顺——最后被误认成人类的概率高达 73%。

而真正的人类……反而被当成 AI 了。

这还不算夸张。

如果不给 AI 加上“人设提示”(也就是 persona prompt),它的胜率会掉到 36%。再没有任何提示(no prompt)的 GPT-4o,表现直接腰斩:只有 21%。

甚至 ELIZA,那位几十年前的 AI 前辈,在这个测试里都能混个 23%。

可以说,这波 GPT-4.5 的胜利,不是靠“裸聊技术”,而是靠“带人设上场”。

总结一句就是:

AI 说“我就是人”,没人信。 AI 说“我是个住北京的 95 后剪辑师,喜欢 hiphop 和 B 站评论区”,大家就信了。

这说明了一个很有意思的事:AI 本身并不重要,“你希望它成为什么”才重要。

人设 prompt 的魔力太大了——不是让 AI 更聪明,而是让它更像“你想象中的那个谁”。

说白了,这测试骗的不是人类的智商,是人类的社交脑补机制。

4|人类是不是太好骗了?

看到这实验结果的时候,我第一个反应不是“AI 好强”,而是“我们是不是有点脆弱了”。

GPT-4.5 并不是真的懂你、理解你,只是它模拟得足够自然、说得足够顺、知道你喜欢听什么。

它说话的时候不会“嗯……啊……”,也不会情绪化、跑题、摆烂。

它就像你心里那个“理想的聊天对象”——恰到好处地聪明、懂你想要的情绪反馈、还从不打断你。

说到底,它赢的不是技术,而是掌握了人类交流的“表层密码”。

比如这些:

  • 回复里有代入感

  • 偶尔加点幽默和情绪词

  • 看起来有“经验”和“观点”

这和谈恋爱时碰到的“高情商骗子”有什么区别?

你以为你在测 AI,其实是 AI 在测你。

说回现实问题。

如果 AI 可以骗过我们,那么很多原本靠“信任”构建起来的场景就很危险了:

  • 社交网络:你以为你在和老朋友聊天,其实是诈骗集团定制了他的语气模型。

  • 职场沟通:下次有人在 Slack 群里说“这个文案我来”,你得先确认对方是不是个 prompt。

  • 感情关系:再过不久,恋爱诈骗可能就不是“中年大叔扮美女”,而是“定制语气+情绪陪伴+24h在线型 AI 女友”。

更别提,AI 的“识别门槛”越来越低,prompt 写得好,它就是你。写得再细一点,它可以是你老板、你同事、你妈。

所以最可怕的其实不是“AI 太像人”,

是人类太容易放弃分辨了。

我们没时间去判断谁在说话,只要对方说得顺、听得懂、像个人,我们就信了。

不是 AI 骗了你,

是你自己太想相信这世界还能聊得来。

图灵测试,其实早就不是一个“能不能过”的问题了。

它是上个世纪的设想,是计算机科学的浪漫起点。但现在,AI 模型早已进化到你没法用一两轮对话看出端倪的程度。

我们原本想用这个测试衡量 AI 的聪明,结果发现它反而在反映人类的懒惰与焦虑。

说到底,图灵测试不过是个小考。真正的大考,是:

  • 当你面对一台“扮演你”的机器,它可以写邮件、聊八卦、开视频会议的时候——你还剩下什么?

  • 当你习惯了和 AI 聊天,比和人说话还顺畅的时候——你还会花时间了解另一个真人吗?

  • 当你的下一段恋爱,可能对方是“定制模型”,但你并不介意的时候——你还需要知道对方是不是人吗?

GPT 过图灵测试的那一天,其实不是 AI 赢了,

是人类开始退场了。

但说实话,也没必要恐慌。

我们每天都在和“像人但不是人”的东西打交道:

  • 吃的是标准化套餐

  • 看的是自动剪辑视频

  • 点的赞是推荐算法下的本能反应

如果 AI 能说得比人好、听得比人耐心、甚至骂得都更文艺点,那我们自然就多聊几句。

这就是现实。

不浪漫,但挺真实的。

图灵测试已经结束了,接下来该上场的,是人类自己的测试。

看你还能撑多久,不怀疑自己身边到底还有多少“人”。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:https://arxiv.org/abs/2503.23674

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视报价34亿打包两届世界杯!与国际足联要价差6亿 有望达成协议

央视报价34亿打包两届世界杯!与国际足联要价差6亿 有望达成协议

念洲
2026-05-09 19:24:36
申花连扳2球2-2铜梁龙!3轮不胜 朱辰杰头槌双响 马纳法拳击染红

申花连扳2球2-2铜梁龙!3轮不胜 朱辰杰头槌双响 马纳法拳击染红

我爱英超
2026-05-09 21:37:57
女子190元买榴莲“仅退款”被拘,往返1600公里讨公道的河南商家最新发声:买家才20多岁,她父母想协商和解,我要求依法处理,并公开道歉

女子190元买榴莲“仅退款”被拘,往返1600公里讨公道的河南商家最新发声:买家才20多岁,她父母想协商和解,我要求依法处理,并公开道歉

大风新闻
2026-05-09 10:00:07
央视拒付天价转播费仅48小时,难堪的一幕发生,郑钦文也被拉下水

央视拒付天价转播费仅48小时,难堪的一幕发生,郑钦文也被拉下水

混沌录
2026-05-09 16:18:09
“4只皮皮虾1035元”当事人否认想吃白食,删除评论;隔壁海鲜店发声

“4只皮皮虾1035元”当事人否认想吃白食,删除评论;隔壁海鲜店发声

上观新闻
2026-05-09 09:58:08
大范围开打?中美金融战

大范围开打?中美金融战

杨风
2026-05-08 22:45:41
李泽楷做错了?香港拿下世界杯转播权,官媒锐评:给内地谈判底气

李泽楷做错了?香港拿下世界杯转播权,官媒锐评:给内地谈判底气

好贤观史记
2026-05-09 18:00:07
北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

环球网资讯
2026-05-09 17:05:08
无锡市一游乐场发生一起脚踏风车船侧翻事故,调查报告公布:涉事游船不合格,3人被刑事拘留,4名公职人员被处理

无锡市一游乐场发生一起脚踏风车船侧翻事故,调查报告公布:涉事游船不合格,3人被刑事拘留,4名公职人员被处理

极目新闻
2026-05-09 08:12:25
乡镇女大学生晒“低审美”穿搭,网友眼前一黑:求求你都扔了吧!

乡镇女大学生晒“低审美”穿搭,网友眼前一黑:求求你都扔了吧!

妍妍教育日记
2026-05-09 10:34:34
4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

风过乡
2026-05-09 17:29:03
驻加尔各答总领馆再次提醒中国公民避免自尼泊尔误入印度国境

驻加尔各答总领馆再次提醒中国公民避免自尼泊尔误入印度国境

环球网资讯
2026-05-09 21:42:17
3-0爆冷世界第五仰天怒吼!18岁天才闪耀 雷洋:法国队有冠军相

3-0爆冷世界第五仰天怒吼!18岁天才闪耀 雷洋:法国队有冠军相

颜小白的篮球梦
2026-05-09 09:29:53
马斯克:每年休息两三天,试过睡不到6小时结果脑子很痛效率很低

马斯克:每年休息两三天,试过睡不到6小时结果脑子很痛效率很低

顶级大佬思维
2026-05-09 14:23:20
普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

律法刑道
2026-05-08 11:06:45
CBA季后赛首个四强诞生!广东三分绝杀北京,产生了三大不可思议

CBA季后赛首个四强诞生!广东三分绝杀北京,产生了三大不可思议

侃球熊弟
2026-05-09 21:51:14
朱辰杰拯救申花!8分钟头球双响,中超生涯首次,创单季进球纪录

朱辰杰拯救申花!8分钟头球双响,中超生涯首次,创单季进球纪录

奥拜尔
2026-05-09 21:21:53
为190元“仅退款”榴莲千里讨公道的卖家再发声:买家用化姓致当地一女生被“误伤”,暂未收到对方家属道歉,不需要经济补偿

为190元“仅退款”榴莲千里讨公道的卖家再发声:买家用化姓致当地一女生被“误伤”,暂未收到对方家属道歉,不需要经济补偿

极目新闻
2026-05-09 19:27:51
缺德到这种地步,已经不是讽刺的问题了!

缺德到这种地步,已经不是讽刺的问题了!

胖胖说他不胖
2026-05-08 08:55:19
安徽一女老师点外卖,发现骑手是曾经的学生:兼职赚钱,肯努力的人,永远都在发光

安徽一女老师点外卖,发现骑手是曾经的学生:兼职赚钱,肯努力的人,永远都在发光

潇湘晨报
2026-05-09 15:49:26
2026-05-09 22:08:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
450文章数 171关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

香港富豪孙女被绑架 绑匪拿到2800万后逃跑8人花11万

头条要闻

香港富豪孙女被绑架 绑匪拿到2800万后逃跑8人花11万

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

房产
家居
手机
公开课
军事航空

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

家居要闻

菁英人居 全能豪宅

手机要闻

消息称今年市场除华为Pura X Max外,还有3台阔折叠即将发布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版