网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

2024-05-18 13:51:04　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子庸庸

【新智元导读】GPT-4通过图灵测试了！UCSD研究团队通过实证研究，人类无法将GPT-4与人类进行区分。而且，有54%的情况下，它被判定为人类。

GPT-4可以通过图灵测试吗？

当一个足以强大的模型诞生之后，人们往往会用图灵测试去衡量这一LLM的智能程度。

最近，来自UCSD的认知科学系研究人员发现：

在图灵测试中，人们根本无法区分GPT-4与人类！

论文地址：https://arxiv.org/pdf/2405.08007

在图灵测试中，GPT-4有54%的情况下，被判定为人类。

实验结果更是表明，这是首次有系统在「交互式」双人图灵测试中，被实证通过测试。

研究者Cameron R.Jones招募了500名志愿者，他们被分为5个角色：4个评估员，分别是GPT-4、GPT-3.5、ELIZA和人类，另一个角色就「扮演」人类自己，藏在屏幕另一端，等待着评估员的发现。

以下是节选的游戏，你能看出哪个对话框是人类吗？

图 1：人类审讯者（绿色）与证人（灰色）之间的部分对话

其实，这四段对话中，有一段是与人类证人的对话，其余都是与人工智能的对话。

首次开启受控「图灵测试」

过去74年里，人们进行了许多图灵测试的尝试，但很少进行过受控实验。

著名的Loebner奖是一项年度竞赛，然而从1990年首次举办一直到2020年，没有一个系统通过测试。

最近的一项大规模研究发现，人类在2分钟的在线对话中，识别一系列LLM准确率达到 60%。

迄今为止，还没有任何机器通过测试的「受控」实验演示。

为了测试人们是否有可能识破当前AI系统的欺骗行为，研究人员使用GPT-4进行了一次随机控制的双人图灵测试。

测试要求很简单，即人类参与者与人类、人工智能开启5分钟对话，并判断对话者是否是人类。

正如开篇所述，研究人员一共测评了3个模型——GPT-4、GPT-3.5，以及ELIZA。

针对前两个LLM，研究者通过改编GPT-4和GPT-3.5探索性研究中表现最佳的提示，来指示大模型如何去响应消息。

研究人员称，解释图灵测试的一个核心挑战是，系统表现出色可能源于两种原因：

- 一是出色地模仿人类

- 二是评判者过于轻信

后一种情况，常被称为ELIZA效应，即参与者甚至会将简单的系统也人性化。

ELIZA系统对于每个人来说，再熟悉不过了。

它是20世纪60年代的一款基于规则的简单聊天机器人，但用户发现自己也会将人类特征归因于它。

因此，在实验中，研究人员将ELIZA作为基线，一方面是为了从经验上量化ELIZA效应，另一方面也是为了在实验中进行操作检查。

那么，这项图灵测试的结果，具体如何呢？

GPT-4通过率54%

首先看一个重要的指标：通过率。

研究者将通过率定义为在游戏中，评估对象被评估者判定为人类的比例。

GPT-4的通过率为54%，超过了GPT-3.5（50%）和ELIZA基线（22%），但低于人类被试者（67%）。

评估对象通过率（左）和评估者信任度（右）。右图每个点代表一场游戏

这个结果其实并不令人意外，与研究初始阶段的设想基本相符合。

在试验之前，研究者就做出了几个假设：首先，假设人类在检测GPT-4方面的能力不会超过偶然性（50%）。

为了验证这一点，研究者拟合了一个逻辑回归模型来预测只有截距的通过率。

截距与0（z=0.14, p=0.482）没有明显差距，这表明GPT-4的通过率可以约等于50%。贝叶斯模型预测GPT-4截距的95%可信区间为-0.24-0.55（相当于44%-63%的通过率）。

这意味着，人类在面对GPT-4时，成功分辨的概率跟抛硬币差不多！

结果还证实了研究人员的第二和第三个假设：人类的通过率明显高于GPT-4的通过率（z=2.42，p=0.017），而GPT-4的通过率高于ELIZA的通过率（z=4.11，p<0.001）。

然而，与研究者的试验设想不一致的是：GPT-4和GPT-3.5的表现几乎差不多（z=0.497，p=0.619）。

在「伪装人类」这一块，打了个平手。

同样出人意料的是，那些自称更了解LLM工作原理的参与者并没有更成功地识别出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者发现年龄对询问者的准确性有负面影响（z = -2.24，p = 0.025），但其他人口统计学变量（包括性别、教育水平和与聊天机器人互动的频率）则没有显著影响。

为什么会是这样的结果？让我们来分析一下背后的原因。

为了深入了解到底是什么在影响评估者的决策，我们对评估者使用的策略和他们为决策提供的理由进行了分类。

36%的评估者会与评估对象闲聊，询问一些个人细节或日常活动。

第二类和第三类最常用的策略是社交与情感（25%）——例如，询问评估对象的观点和经历，观察他们是否具备幽默感。

还有人侧重考察知识与推理（13%），包括有关数学、逻辑和常识的问题。

询问策略（左）和平均准确率（右）

为了对比每种策略的有效性，研究者计算了使用这些策略的平均准确率。

当评估对象问及对方有关人类经历（75%）、逻辑和数学（78%）或直接「指控」对方是人工智能（80%）时，通常会距离「正确答案」更近。

在游戏中，人工智能之所以会「露出马脚」，通常是因为评估者认为他们似乎在强迫自己扮演角色，要么过于随意，要么则缺乏个性。

而ELIZA 很容易「暴露」，主要是因为反应不自然和缺乏语境意识。

可以看出，无论是从参与游戏的志愿者所使用的策略还是决策理由来看，他们都更注重语言风格和社会情感因素，而不是更传统的智力范畴（知识和推理）。

这似乎反映出志愿者们的一个潜在假设——社会智能才是AI最无法模仿的人类特征。

图灵测试，过了

如何判断系统何时通过了图灵测试？

图灵在1950年的论文中预测，到本世纪末， AI系统将能够很好地玩模仿游戏，以至于审查员在5分钟的交流后，做出正确识别的机会不会超过70%。

这一结论，导致了AI的通过率是否能够达到30%，成为许多研究者的讨论目标。

然而，这个基准似乎是任意的，并且不清楚图灵是否将其作为成功的定义。

其实，50%的基线更加合理，因为它更能证明人类审查者，在识别AI方面并不比偶然性更强。

这一定义，与发现用户是否可以在在线互动中，可靠地识别其他人类这一目标尤为相关。

在研究者的预公开的分析中，通过使用ELIZA基线作为操作检查来解决这个问题。

只有当分析表明ELIZA的通过率低于概率，而GPT-4的通过率不低于概率的情况下，才能判定模型通过了测试。

而根据这一定义，GPT-4显然通过了这一版本的图灵测试。

此外，参与者的置信度得分和决策依据，都表明他们并非随意猜测：GPT-4是人类的平均置信度为73%（见图 2）。

网友讨论

有网友表示，如果我们要将图灵测试等同于智力，图灵测试就不是一个好的测试。然而，AI几乎始终可以「欺骗」人类的事实有点令人担忧。

还有人称，自己对这种测试表示怀疑。因为GPT-4的表现会超过大多数人，所以很容易区分谁是人类，谁是人工智能。

研究者对此表示，这确实是我们遇到的一个问题。比如，GPT-4的知识储备「太丰富」或者掌握的语言太多。我们明确提示该模型避免这种情况，这在一定程度上是有效的。

参考资料：

https://x.com/camrobjones/status/1790766472458903926

https://x.com/emollick/status/1790877242525942156

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

机器之心Pro 2024-06-07 16:11:22
23 跟贴 23
纯太阳能电车何时能实现，马斯克怎么看？

钛媒体APP 2024-03-18 18:27:27
1381 跟贴 1381

张亚勤：Transformer五年内会被逐步重构，15-20年内实现AGI

量子位 2024-06-08 14:30:00
3 跟贴 3

GPT-4 更强的标志，原来藏在了 logo 里

爱范儿 2024-02-20 17:25:29
26 跟贴 26
开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危

量子位 2024-06-08 14:17:46
13 跟贴 13

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

量子位 2024-06-07 16:36:18
16 跟贴 16

何小鹏：智能驾驶的事故率是人工驾驶的十分之一以内

钛媒体APP 2024-03-20 12:17:44
0 跟贴 0
布鲁金斯学会高级研究员唐睿思：人工智能本质上是美国主导的算力霸权

钛媒体APP 2024-03-28 17:00:26
0 跟贴 0

鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

量子位 2024-05-25 15:40:12
0 跟贴 0
一说AI会思考，祖师爷图灵就发笑：这个问题无意义，不值得讨论

量子位 2024-06-07 17:28:04
0 跟贴 0
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
89 跟贴 89
Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

爱范儿 2024-05-15 14:09:36
23 跟贴 23
国产机器人也会空翻了！打破限制，世界首款！

爱范儿 2024-01-24 18:09:40
1311 跟贴 1311
字节突然上线 AI 虚拟交友聊天平台“小黄蕉”，网友：我想换女朋友了｜钛媒体AGI

钛媒体APP 2024-06-08 09:52:51
20 跟贴 20
不用时光机！AI模拟“老年自我”，用户可与60岁自己交谈

华尔街见闻官方 2024-06-05 21:15:41
0 跟贴 0
AI时代，谁还没用AI智能硬件提升工作效率？

量子位 2024-05-15 18:09:32
0 跟贴 0
这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

爱范儿 2024-05-17 16:21:21
0 跟贴 0
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
0 跟贴 0
3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

量子位 2024-04-19 11:23:24
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0
美军机器狗获人工智能技术加成！不用人员实时操控也能执行任务！

兵器说本人 2024-06-07 17:00:00
2 跟贴 2
任非到访四川大学余承东陪同，未来希望与川大在人工智能、大数据、云计算等领域开展深度合作

探山城 2024-06-08 14:27:47
5 跟贴 5
1937年淞沪会战：各省部队驰援上海，百万大军与日寇死战！

影像历史先生 2024-06-07 19:24:10
4365 跟贴 4365
AI人工智能技术遥遥领先的国家，美国第一毋庸置疑，韩国让人意外

豆荚看生活 2024-06-07 08:15:05
0 跟贴 0
你真是个逻辑鬼才啊

青烟剪影 2024-06-04 22:58:00
9 跟贴 9
三个Agent顶个GPT-4，基于开源小模型的那种｜中大阿里联合出品

量子位 2024-02-11 14:07:36
0 跟贴 0
任正非：中国人工智能不可能快速发展，因为中国缺数学家

钛媒体APP 2024-02-20 14:13:29
0 跟贴 0
AI创作《迪塞尔喝汽油》，一起欣赏AI的脑回路... (人工智能chatgpt技术)

卢菁老师 2024-06-05 11:04:29
0 跟贴 0
，黄仁勋：英伟达的灵魂，已具备想象通用人形机器人的必要技术

每日经济新闻 2024-03-19 11:22:12
1 跟贴 1
GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
1387 跟贴 1387
作为乘客我找到了国内做智能驾驶最好的车没有之一

周鸿祎 2024-06-04 11:55:40
0 跟贴 0
AI 讲故事，分饰多角，可萌可御可盐可甜！让 ChatGPT 讲一个关于机器人和爱的睡前故事，它

爱范儿 2024-05-14 15:54:45
1 跟贴 1
果然实验能检验真理

耿耿说电影 2024-06-08 14:09:32
0 跟贴 0
不公平！高考作文题目：人工智能与AI，网友：这不是坑农村孩子吗

360度评说 2024-06-07 19:37:23
3071 跟贴 3071
两个ChatGPT互相指责对方是人工智能（人工智能技术）

卢菁老师 2024-06-08 16:07:31
0 跟贴 0
合肥七中同学说作文写人工智能，网友：安徽用了一卷，数学不好考

东东趣谈 2024-06-07 14:08:07
74 跟贴 74
不知不觉，我们已经被墙了二十年

清晖有墨 2024-06-08 20:13:28
18064 跟贴 18064
详解新课标1高考作文题新课标1，人工智能能解答，人类的问题会不会越来越少，这题怎么写？写人工智能的...

托塔老师 2024-06-07 18:57:53
0 跟贴 0
闹大了！高考作文被指责歧视农村孩子，人工智能根本不会写

毒舌天下 2024-06-08 18:02:05
0 跟贴 0
马光远：人工智能发展方向错了应该让人工智能去干苦力活，人类写诗作画现在是人干着苦力活思考交给了

金融界 2024-06-07 15:04:50
0 跟贴 0

2-0踢成0-0！中国男足爆冷亚洲冠军，韩国靠1进球登顶，形势反转

2-0踢成0-0！中国男足爆冷亚洲冠军，韩国靠1进球登顶，形势反转

侃球熊弟

2024-06-08 22:29:44

法网三连冠！斯瓦泰克夺大满贯第5冠，创多项纪录，独揽1800W巨奖

法网三连冠！斯瓦泰克夺大满贯第5冠，创多项纪录，独揽1800W巨奖

大秦壁虎白话体育

2024-06-08 22:21:33

俄罗斯国家电视台公然声称“真正的敌人只有中国！”公方彬：不用大惊小怪

俄罗斯国家电视台公然声称“真正的敌人只有中国！”公方彬：不用大惊小怪

霹雳炮

2024-06-07 22:15:37

回顾:邵逸夫的长寿秘诀：运动、饮水都靠边站，真正重要的是这3点

回顾:邵逸夫的长寿秘诀：运动、饮水都靠边站，真正重要的是这3点

养生讲堂专席

2024-06-08 13:17:11

太难了，2024年大学生就业率崩了？

太难了，2024年大学生就业率崩了？

请叫我教育君

2024-06-07 08:25:52

普京：俄不用靠核武器取胜

参考消息

2024-06-08 12:21:07

王思聪回应疑与黄一鸣有私生子

金陵隐士

2024-06-08 23:25:41

突然“爆雷”？知名平台被曝大量欠钱，有人十几万元取不出来，“他们员工让我们打官司”！平台称“没有跑路”，曾是“新东方劲敌”

突然“爆雷”？知名平台被曝大量欠钱，有人十几万元取不出来，“他们员工让我们打官司”！平台称“没有跑路”，曾是“新东方劲敌”

每日经济新闻

2024-06-08 17:55:12

不知不觉，我们已经被墙了二十年

不知不觉，我们已经被墙了二十年

清晖有墨

2024-06-08 20:13:28

读者出版集团原董事长吉西平被查，已退休近7年

读者出版集团原董事长吉西平被查，已退休近7年

观察者网

2024-06-07 16:21:07

李章洙：以现在韩国队的战略和球员能力，中国队想赢下来肯定很难

李章洙：以现在韩国队的战略和球员能力，中国队想赢下来肯定很难

直播吧

2024-06-08 23:12:08

抵达韩国，国足出现严重的低级错误，包括电视台、韦世豪都有责任

抵达韩国，国足出现严重的低级错误，包括电视台、韦世豪都有责任

尘语者

2024-06-08 21:26:51

前儿媳举报公公巨额不明财产儿媳妇多张高清无码照片曝光长相清纯

前儿媳举报公公巨额不明财产儿媳妇多张高清无码照片曝光长相清纯

法制社会报

2024-06-08 22:55:52

关键的路走错了，就回到50年前

关键的路走错了，就回到50年前

历史与财经

2024-06-08 13:37:39

胡塞武装讲述打击美航母行动

参考消息

2024-06-08 18:56:09

现场惨烈，1万乌军遭屠杀殆尽，法国顾问被俘，战场出现重大转变

现场惨烈，1万乌军遭屠杀殆尽，法国顾问被俘，战场出现重大转变

秦蓁

2024-06-08 12:00:07

星舰第四次试飞取得成功，证明航天业最需要的就是去政治化

星舰第四次试飞取得成功，证明航天业最需要的就是去政治化

回旋镖

2024-06-08 13:57:19

中菲快艇在仙宾礁海域爆发冲突，菲快艇主动撞击，美航母赶来支援

中菲快艇在仙宾礁海域爆发冲突，菲快艇主动撞击，美航母赶来支援

影孖看世界

2024-06-09 02:51:52

2013年妻子和堂弟通奸，被丈夫识破，妻子：想阻止我和堂弟，杀掉

2013年妻子和堂弟通奸，被丈夫识破，妻子：想阻止我和堂弟，杀掉

汉史趣闻

2024-06-07 17:36:57

金龟子为外孙办百天宴！多位少儿主持人现身，王宁站身后老太多

金龟子为外孙办百天宴！多位少儿主持人现身，王宁站身后老太多

裕丰娱间说

2024-06-08 17:46:45

AI产业主平台领航智能+时代

11129文章数 65533关注度

往期回顾全部

科技要闻

今年数学到底有多难？大模型：我也不太会

头条要闻

胖东来董事长于东来回应"患胃癌”:旧视频现在没问题

头条要闻

胖东来董事长于东来回应"患胃癌”:旧视频现在没问题

体育要闻

友谊赛-西班牙5-1逆转北爱尔兰佩德里双响莫拉塔破门亚马尔2助

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

重磅详解：为什么美国经济还没有衰退？

汽车要闻

上汽大通大家9售26.99万起综合续航1300km+

态度原创

艺术

健康

数码

旅游

亲子

艺术要闻

穿越时空的艺术：《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱，哪种更减肥？

数码要闻

年内无望？消息称 AMD、英特尔下一代 GPU 均定于2025年年初面世

旅游要闻

广州长隆野生动物世界推出“粽子”盛宴

亲子要闻

父母在一旁吃饭，宝宝坐边上不哭不闹看动画片

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版