网易首页 > 网易号 > 正文 申请入驻

对不起,AI 模型通过图灵测试了,我也分不清谁是人了

0
分享至

(关注公众号设为标,获取AI深度洞察)

全文2,000字 | 阅读约10分钟

今天看到一个新闻,我沉默了三秒。

最近GPT-4.5,在一场标准图灵测试里,被 73% 的人误认成人类。

什么意思?

就是在一个实验里,让人类分别跟两位“答题者”对话——其中一个是人,另一个是 AI,结果大多数人把 AI 当成了真人。准确地说,是 OpenAI 的 GPT-4.5,被判定“更像人”。

这不是“差点赢”,是直接赢了,赢得还挺离谱。

而且它还不是随便聊两句就骗到人,是在模拟“年轻文化通”人设的状态下,压倒性胜出。

一句话总结:

人类盯着人类和 AI 聊天,结果把 AI 当成人类,把人类当成了 AI。

你说巧不巧。

这场实验的结果发布在一篇还在同行评审的论文里,但实验设计非常标准、执行也很严谨,做这个的是加州大学圣迭戈分校语言与认知实验室,不是那种 PPT 创业公司搞的“AI自测”。

我当时就想:

图灵测试,这个 1950 年就被提出来的“模仿游戏”,现在真的要退休了。

2|什么是图灵测试?以前真没人能过

这时候你可能会问:

等等,图灵测试到底是个啥?为啥 73% 的误判听起来这么吓人?

简单说,这是 1950 年艾伦·图灵提出来的一个问题:

“如果一个机器能在对话中骗过你,让你以为它是人,那它是不是就具备智能了?”

于是他设计了一个“模仿游戏”:

  • A 是机器

  • B 是人

  • C 是裁判

  • 裁判分别跟 A 和 B 聊天,如果不能判断谁是人,谁是机器,那就算机器“赢了”

这个测试后来成了衡量 AI 智能的经典标准之一,虽然现在不少专家也觉得它已经不太科学了,但它依然有个重要意义:

它不是在测试 AI 的智力,而是在测试人类能不能识破伪装。

以前没人能真过这个测试,哪怕你拿 GPT-3 去试,也很容易暴露自己“词语重复”“逻辑出轨”或者“装懂胡说”。

之前流行的那个聊天机器人 ELIZA,在 60 年代就玩过“心理医生模仿术”,效果嘛……就像你拿 ChatGPT 扮演前女友——能聊,但聊不了太久。

GPT-4.5 是第一个把这个游戏玩“破防”的选手,不是让你分不清它是不是 AI,而是让你开始怀疑旁边那个真人是不是 AI。

这不是“扮得像”,这是替代感开始出现了。

3|GPT-4.5 怎么骗过人类的?

其实它赢得没那么“光明正大”。

整个测试设计得很科学,也很现实:

让人类参与者和两位“聊天对象”对话,试着判断谁是真人谁是 AI。

这两位里,一位是真人,另一位是 AI,比如 GPT-4.5、LLaMa-3.1、GPT-4o、ELIZA。

结果非常戏剧性。

当 GPT-4.5 被要求扮演一个“上网多年、懂点文化的年轻人”时,它就像脱了缰的老网友,和对面聊得贼顺——最后被误认成人类的概率高达 73%。

而真正的人类……反而被当成 AI 了。

这还不算夸张。

如果不给 AI 加上“人设提示”(也就是 persona prompt),它的胜率会掉到 36%。再没有任何提示(no prompt)的 GPT-4o,表现直接腰斩:只有 21%。

甚至 ELIZA,那位几十年前的 AI 前辈,在这个测试里都能混个 23%。

可以说,这波 GPT-4.5 的胜利,不是靠“裸聊技术”,而是靠“带人设上场”。

总结一句就是:

AI 说“我就是人”,没人信。 AI 说“我是个住北京的 95 后剪辑师,喜欢 hiphop 和 B 站评论区”,大家就信了。

这说明了一个很有意思的事:AI 本身并不重要,“你希望它成为什么”才重要。

人设 prompt 的魔力太大了——不是让 AI 更聪明,而是让它更像“你想象中的那个谁”。

说白了,这测试骗的不是人类的智商,是人类的社交脑补机制。

4|人类是不是太好骗了?

看到这实验结果的时候,我第一个反应不是“AI 好强”,而是“我们是不是有点脆弱了”。

GPT-4.5 并不是真的懂你、理解你,只是它模拟得足够自然、说得足够顺、知道你喜欢听什么。

它说话的时候不会“嗯……啊……”,也不会情绪化、跑题、摆烂。

它就像你心里那个“理想的聊天对象”——恰到好处地聪明、懂你想要的情绪反馈、还从不打断你。

说到底,它赢的不是技术,而是掌握了人类交流的“表层密码”。

比如这些:

  • 回复里有代入感

  • 偶尔加点幽默和情绪词

  • 看起来有“经验”和“观点”

这和谈恋爱时碰到的“高情商骗子”有什么区别?

你以为你在测 AI,其实是 AI 在测你。

说回现实问题。

如果 AI 可以骗过我们,那么很多原本靠“信任”构建起来的场景就很危险了:

  • 社交网络:你以为你在和老朋友聊天,其实是诈骗集团定制了他的语气模型。

  • 职场沟通:下次有人在 Slack 群里说“这个文案我来”,你得先确认对方是不是个 prompt。

  • 感情关系:再过不久,恋爱诈骗可能就不是“中年大叔扮美女”,而是“定制语气+情绪陪伴+24h在线型 AI 女友”。

更别提,AI 的“识别门槛”越来越低,prompt 写得好,它就是你。写得再细一点,它可以是你老板、你同事、你妈。

所以最可怕的其实不是“AI 太像人”,

是人类太容易放弃分辨了。

我们没时间去判断谁在说话,只要对方说得顺、听得懂、像个人,我们就信了。

不是 AI 骗了你,

是你自己太想相信这世界还能聊得来。

图灵测试,其实早就不是一个“能不能过”的问题了。

它是上个世纪的设想,是计算机科学的浪漫起点。但现在,AI 模型早已进化到你没法用一两轮对话看出端倪的程度。

我们原本想用这个测试衡量 AI 的聪明,结果发现它反而在反映人类的懒惰与焦虑。

说到底,图灵测试不过是个小考。真正的大考,是:

  • 当你面对一台“扮演你”的机器,它可以写邮件、聊八卦、开视频会议的时候——你还剩下什么?

  • 当你习惯了和 AI 聊天,比和人说话还顺畅的时候——你还会花时间了解另一个真人吗?

  • 当你的下一段恋爱,可能对方是“定制模型”,但你并不介意的时候——你还需要知道对方是不是人吗?

GPT 过图灵测试的那一天,其实不是 AI 赢了,

是人类开始退场了。

但说实话,也没必要恐慌。

我们每天都在和“像人但不是人”的东西打交道:

  • 吃的是标准化套餐

  • 看的是自动剪辑视频

  • 点的赞是推荐算法下的本能反应

如果 AI 能说得比人好、听得比人耐心、甚至骂得都更文艺点,那我们自然就多聊几句。

这就是现实。

不浪漫,但挺真实的。

图灵测试已经结束了,接下来该上场的,是人类自己的测试。

看你还能撑多久,不怀疑自己身边到底还有多少“人”。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:https://arxiv.org/abs/2503.23674

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪深夜发飙!给经销商270人发命令,张雪:删视频,马上,重罚

张雪深夜发飙!给经销商270人发命令,张雪:删视频,马上,重罚

阿纂看事
2026-05-29 11:15:42
“穷人得了公主病!”大学女生吐槽洗衣机收费贵,反手被网友喷!

“穷人得了公主病!”大学女生吐槽洗衣机收费贵,反手被网友喷!

林林先生
2026-05-29 07:40:06
辽宁铁人连胜!会做人:徐正源挨个安抚对手,对海港主帅躬身帖耳

辽宁铁人连胜!会做人:徐正源挨个安抚对手,对海港主帅躬身帖耳

足球大腕
2026-05-29 23:07:35
直到特朗普下令深夜突袭伊朗,全世界才惊觉,中国有句话说得很对

直到特朗普下令深夜突袭伊朗,全世界才惊觉,中国有句话说得很对

观史搜寻着
2026-05-30 01:37:55
抢七战前再迎坏消息!马刺处境堪忧,客场挑战雷霆凶多吉少

抢七战前再迎坏消息!马刺处境堪忧,客场挑战雷霆凶多吉少

夜白侃球
2026-05-29 15:47:27
泽连斯基做梦没料到,先等来的不是俄军打基辅,中方突然划下红线

泽连斯基做梦没料到,先等来的不是俄军打基辅,中方突然划下红线

咣当地球
2026-05-30 02:04:32
最近李晨的瓜,有点大

最近李晨的瓜,有点大

In风尚
2026-05-29 06:06:05
上海外援洛夫顿:我做了最大的努力 最后时刻入选大名单

上海外援洛夫顿:我做了最大的努力 最后时刻入选大名单

狼叔评论
2026-05-29 13:59:50
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
中国终于夺回了"工业血液"的控制权,太厉害了!

中国终于夺回了"工业血液"的控制权,太厉害了!

普陀动物世界
2026-05-30 01:47:19
广东一女教师被6次投诉后续,家长今日再要求撤诉被拒绝

广东一女教师被6次投诉后续,家长今日再要求撤诉被拒绝

九方鱼论
2026-05-29 22:30:14
曝30岁央美艺术家苏航出轨多人!将备注改成亲人,还拍下私密视频

曝30岁央美艺术家苏航出轨多人!将备注改成亲人,还拍下私密视频

裕丰娱间说
2026-05-28 12:44:39
2-1、1-1,中超火爆之夜,河南闪耀跃进前六,天津与冠军依旧在底层

2-1、1-1,中超火爆之夜,河南闪耀跃进前六,天津与冠军依旧在底层

烟浔渺渺
2026-05-29 17:27:15
王曦雨:我都不知道自己进前一百了,多打一轮算一轮

王曦雨:我都不知道自己进前一百了,多打一轮算一轮

懂球帝
2026-05-30 00:48:20
白养了!2儿子非亲生后续:大儿子狂骂姜洪涛,连法官都看不下去

白养了!2儿子非亲生后续:大儿子狂骂姜洪涛,连法官都看不下去

不似少年游
2026-05-29 09:42:48
心理学:已婚女人一旦有了别的男人,一般不拒绝丈夫亲近,但会有两个表现

心理学:已婚女人一旦有了别的男人,一般不拒绝丈夫亲近,但会有两个表现

心理观察局
2026-05-26 06:15:06
长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

马拉松跑步健身
2026-05-29 21:25:54
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
0-2上海!广厦队能夺冠吗?王仕鹏给出了自己的答案

0-2上海!广厦队能夺冠吗?王仕鹏给出了自己的答案

体育哲人
2026-05-29 17:07:11
北工大连爆“核弹”!又站上风口浪尖!

北工大连爆“核弹”!又站上风口浪尖!

京城教育圈
2026-05-29 20:37:43
2026-05-30 04:52:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
453文章数 171关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

房产
数码
健康
游戏
军事航空

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

数码要闻

宏碁推多款游戏新品:两款笔记本、一款串流掌机,还有键盘、背包

尝试干细胞疗法如何避免踩坑?

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版