网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

2024-05-18 13:51:04　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子庸庸

【新智元导读】GPT-4通过图灵测试了！UCSD研究团队通过实证研究，人类无法将GPT-4与人类进行区分。而且，有54%的情况下，它被判定为人类。

GPT-4可以通过图灵测试吗？

当一个足以强大的模型诞生之后，人们往往会用图灵测试去衡量这一LLM的智能程度。

最近，来自UCSD的认知科学系研究人员发现：

在图灵测试中，人们根本无法区分GPT-4与人类！

论文地址：https://arxiv.org/pdf/2405.08007

在图灵测试中，GPT-4有54%的情况下，被判定为人类。

实验结果更是表明，这是首次有系统在「交互式」双人图灵测试中，被实证通过测试。

研究者Cameron R.Jones招募了500名志愿者，他们被分为5个角色：4个评估员，分别是GPT-4、GPT-3.5、ELIZA和人类，另一个角色就「扮演」人类自己，藏在屏幕另一端，等待着评估员的发现。

以下是节选的游戏，你能看出哪个对话框是人类吗？

图 1：人类审讯者（绿色）与证人（灰色）之间的部分对话

其实，这四段对话中，有一段是与人类证人的对话，其余都是与人工智能的对话。

首次开启受控「图灵测试」

过去74年里，人们进行了许多图灵测试的尝试，但很少进行过受控实验。

著名的Loebner奖是一项年度竞赛，然而从1990年首次举办一直到2020年，没有一个系统通过测试。

最近的一项大规模研究发现，人类在2分钟的在线对话中，识别一系列LLM准确率达到 60%。

迄今为止，还没有任何机器通过测试的「受控」实验演示。

为了测试人们是否有可能识破当前AI系统的欺骗行为，研究人员使用GPT-4进行了一次随机控制的双人图灵测试。

测试要求很简单，即人类参与者与人类、人工智能开启5分钟对话，并判断对话者是否是人类。

正如开篇所述，研究人员一共测评了3个模型——GPT-4、GPT-3.5，以及ELIZA。

针对前两个LLM，研究者通过改编GPT-4和GPT-3.5探索性研究中表现最佳的提示，来指示大模型如何去响应消息。

研究人员称，解释图灵测试的一个核心挑战是，系统表现出色可能源于两种原因：

- 一是出色地模仿人类

- 二是评判者过于轻信

后一种情况，常被称为ELIZA效应，即参与者甚至会将简单的系统也人性化。

ELIZA系统对于每个人来说，再熟悉不过了。

它是20世纪60年代的一款基于规则的简单聊天机器人，但用户发现自己也会将人类特征归因于它。

因此，在实验中，研究人员将ELIZA作为基线，一方面是为了从经验上量化ELIZA效应，另一方面也是为了在实验中进行操作检查。

那么，这项图灵测试的结果，具体如何呢？

GPT-4通过率54%

首先看一个重要的指标：通过率。

研究者将通过率定义为在游戏中，评估对象被评估者判定为人类的比例。

GPT-4的通过率为54%，超过了GPT-3.5（50%）和ELIZA基线（22%），但低于人类被试者（67%）。

评估对象通过率（左）和评估者信任度（右）。右图每个点代表一场游戏

这个结果其实并不令人意外，与研究初始阶段的设想基本相符合。

在试验之前，研究者就做出了几个假设：首先，假设人类在检测GPT-4方面的能力不会超过偶然性（50%）。

为了验证这一点，研究者拟合了一个逻辑回归模型来预测只有截距的通过率。

截距与0（z=0.14, p=0.482）没有明显差距，这表明GPT-4的通过率可以约等于50%。贝叶斯模型预测GPT-4截距的95%可信区间为-0.24-0.55（相当于44%-63%的通过率）。

这意味着，人类在面对GPT-4时，成功分辨的概率跟抛硬币差不多！

结果还证实了研究人员的第二和第三个假设：人类的通过率明显高于GPT-4的通过率（z=2.42，p=0.017），而GPT-4的通过率高于ELIZA的通过率（z=4.11，p<0.001）。

然而，与研究者的试验设想不一致的是：GPT-4和GPT-3.5的表现几乎差不多（z=0.497，p=0.619）。

在「伪装人类」这一块，打了个平手。

同样出人意料的是，那些自称更了解LLM工作原理的参与者并没有更成功地识别出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者发现年龄对询问者的准确性有负面影响（z = -2.24，p = 0.025），但其他人口统计学变量（包括性别、教育水平和与聊天机器人互动的频率）则没有显著影响。

为什么会是这样的结果？让我们来分析一下背后的原因。

为了深入了解到底是什么在影响评估者的决策，我们对评估者使用的策略和他们为决策提供的理由进行了分类。

36%的评估者会与评估对象闲聊，询问一些个人细节或日常活动。

第二类和第三类最常用的策略是社交与情感（25%）——例如，询问评估对象的观点和经历，观察他们是否具备幽默感。

还有人侧重考察知识与推理（13%），包括有关数学、逻辑和常识的问题。

询问策略（左）和平均准确率（右）

为了对比每种策略的有效性，研究者计算了使用这些策略的平均准确率。

当评估对象问及对方有关人类经历（75%）、逻辑和数学（78%）或直接「指控」对方是人工智能（80%）时，通常会距离「正确答案」更近。

在游戏中，人工智能之所以会「露出马脚」，通常是因为评估者认为他们似乎在强迫自己扮演角色，要么过于随意，要么则缺乏个性。

而ELIZA 很容易「暴露」，主要是因为反应不自然和缺乏语境意识。

可以看出，无论是从参与游戏的志愿者所使用的策略还是决策理由来看，他们都更注重语言风格和社会情感因素，而不是更传统的智力范畴（知识和推理）。

这似乎反映出志愿者们的一个潜在假设——社会智能才是AI最无法模仿的人类特征。

图灵测试，过了

如何判断系统何时通过了图灵测试？

图灵在1950年的论文中预测，到本世纪末， AI系统将能够很好地玩模仿游戏，以至于审查员在5分钟的交流后，做出正确识别的机会不会超过70%。

这一结论，导致了AI的通过率是否能够达到30%，成为许多研究者的讨论目标。

然而，这个基准似乎是任意的，并且不清楚图灵是否将其作为成功的定义。

其实，50%的基线更加合理，因为它更能证明人类审查者，在识别AI方面并不比偶然性更强。

这一定义，与发现用户是否可以在在线互动中，可靠地识别其他人类这一目标尤为相关。

在研究者的预公开的分析中，通过使用ELIZA基线作为操作检查来解决这个问题。

只有当分析表明ELIZA的通过率低于概率，而GPT-4的通过率不低于概率的情况下，才能判定模型通过了测试。

而根据这一定义，GPT-4显然通过了这一版本的图灵测试。

此外，参与者的置信度得分和决策依据，都表明他们并非随意猜测：GPT-4是人类的平均置信度为73%（见图 2）。

网友讨论

有网友表示，如果我们要将图灵测试等同于智力，图灵测试就不是一个好的测试。然而，AI几乎始终可以「欺骗」人类的事实有点令人担忧。

还有人称，自己对这种测试表示怀疑。因为GPT-4的表现会超过大多数人，所以很容易区分谁是人类，谁是人工智能。

研究者对此表示，这确实是我们遇到的一个问题。比如，GPT-4的知识储备「太丰富」或者掌握的语言太多。我们明确提示该模型避免这种情况，这在一定程度上是有效的。

参考资料：

https://x.com/camrobjones/status/1790766472458903926

https://x.com/emollick/status/1790877242525942156

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

伯克利开源大型机器人操控基准，面对复杂自主操控任务不再犯难

机器之心Pro 2024-01-31 15:26:17
1 跟贴 1
谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

新智元 2024-06-01 13:26:09
8 跟贴 8

可以互相交谈的人工智能来了

钛媒体APP 2024-04-14 16:22:14
0 跟贴 0

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0
GPT-4 更强的标志，原来藏在了 logo 里

爱范儿 2024-02-20 17:25:29
0 跟贴 0

大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
58 跟贴 58

“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0
鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

量子位 2024-05-25 15:40:12
0 跟贴 0

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
0 跟贴 0
大模型不需要眼前的共识

钛媒体APP 2024-05-08 10:50:11
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0
谁给了一个保安检查民众思想的权力？

麦杰逊 2024-05-31 11:30:02
31472 跟贴 31472
小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

极目新闻 2024-06-01 18:00:32
14316 跟贴 14316
内需外需难以改善，五月经济景气继续回落，制造业重回收缩区

火星宏观 2024-06-01 13:20:02
8105 跟贴 8105
GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
0 跟贴 0
8枚海王星全命中，S-400没用，乌军以后干脆用反坦克导弹

移光幻影 2024-06-01 12:43:40
2046 跟贴 2046
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
773 跟贴 773
三个Agent顶个GPT-4，基于开源小模型的那种｜中大阿里联合出品

量子位 2024-02-11 14:07:36
0 跟贴 0
庆余年2：同样都是机器人，神庙使者为何打不过五竹？原因很现实

小凡娱影 2024-06-01 20:35:02
322 跟贴 322
数学爱好者必看：5个有趣的数学事实大揭秘！

遇见数学 2024-05-29 19:58:24
7 跟贴 7
拜登关上谈判大门，反制裁开始，中方砸3440亿元，英伟达卖不动了

赢梯 2024-06-01 18:50:06
1 跟贴 1
给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

量子位 2024-02-01 14:46:45
0 跟贴 0
娘家拆迁分200万，我装癌症考验老公，他通过测试却要离婚

甜茶妹极简生活 2024-06-01 01:23:12
1 跟贴 1
早就21世纪了，为何还有人想用“双生子佯谬”推翻相对论？

宇宙时空 2024-06-01 18:56:04
8 跟贴 8
好莱坞明星省钱清流！身价千万假装年薪5万刀，婚纱都穿旧礼服

英国那些事儿 2024-01-08 23:45:19
11 跟贴 11
犹太人搞了一百年的大骗局，是如何被河南人终结的？

爆角追踪 2024-06-01 17:03:00
2800 跟贴 2800
GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

机器之心Pro 2024-02-20 15:15:48
0 跟贴 0
小米SU7农村车主一夜9次起床看车：没车库不建议买车

手机中国 2024-05-30 11:52:08
727 跟贴 727
7 天全勤，日均科研 8.6 小时，最长 16 小时！天选打工人是你吗？

生物学霸 2024-04-07 19:48:59
2 跟贴 2
C罗哭成泪人！从世界杯到沙王冠，两年败给同一人，已3年无冠

奥拜尔 2024-06-01 05:35:30
10150 跟贴 10150
美国务院发言人下班回家笑着与家门口的抗议者打招呼

征垣之路 2024-06-01 21:09:03
3635 跟贴 3635
小镇做题家，在中年均值回归

虎嗅APP 2024-03-22 11:02:36
96 跟贴 96
小升初不管成绩有多好，到初中后的第一次考试，基本都会被打击到

好爸育儿 2024-05-30 14:07:49
25 跟贴 25
一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

生物学霸 2024-01-18 18:06:29
0 跟贴 0
脑科学：每月被打2次以上的孩子长到5岁，攻击性会提升50%

禾禾妈爱学习 2024-05-30 10:52:51
2 跟贴 2
上海男子买房被中介坑惨交了66万定金却有巨额抵押

上观新闻 2024-06-01 07:12:40
607 跟贴 607
超30%，创世界纪录！我国这一研究领域获重大突破

极目新闻 2024-06-01 18:32:22
427 跟贴 427
中方记者追问菲是否要在仙宾礁军事部署菲总统拒回答

环球网资讯 2024-06-01 15:36:04
1906 跟贴 1906
预售近30万起！问界新M7卖太火余承东：你们能把网站抢瘫越野车在考虑中

快科技 2024-06-01 14:48:32
59 跟贴 59
要想拉动经济增长，还得看小县城的公务员

火锅局 2024-06-02 00:05:26
334 跟贴 334

城管队长出轨女下属称对方“嫩妈”，女主照片曝光真白瞎这张脸！

城管队长出轨女下属称对方“嫩妈”，女主照片曝光真白瞎这张脸！

听风听你

2024-05-30 20:29:17

图解｜2024年美国最受欢迎的笔记本电脑品牌

图解｜2024年美国最受欢迎的笔记本电脑品牌

格隆汇APP

2024-05-30 17:29:59

《庆余年2》：看懂悬空庙之局，才知陈萍萍为什么会被凌迟处死？

《庆余年2》：看懂悬空庙之局，才知陈萍萍为什么会被凌迟处死？

子芫伴你成长

2024-05-31 22:58:43

意天空：劳塔罗续约后薪水排名意甲第三，弗拉霍维奇第一

意天空：劳塔罗续约后薪水排名意甲第三，弗拉霍维奇第一

懂球帝

2024-06-01 19:09:03

《浪姐》尚雯婕何洁起争执，郭碧婷的表现，佐证着向太的火眼金睛

《浪姐》尚雯婕何洁起争执，郭碧婷的表现，佐证着向太的火眼金睛

米椒娱乐

2024-06-01 14:40:47

横扫泰国现唯1失意者！刁琳宇二传起伏，无一传+防守，带许晓婷吧

横扫泰国现唯1失意者！刁琳宇二传起伏，无一传+防守，带许晓婷吧

篮球资讯达人

2024-06-01 22:21:32

凤凰传奇突然宣布：取消！

幸福沈阳人

2024-06-01 21:04:41

美国为什么敢扒掉俄罗斯的核底裤？

美国为什么敢扒掉俄罗斯的核底裤？

思想无疆

2024-05-31 11:45:11

西媒：塞维利亚涉嫌假球，西甲官方已经介入调查

西媒：塞维利亚涉嫌假球，西甲官方已经介入调查

懂球帝

2024-06-01 10:38:07

沈阳地铁调整！交通管制！公园关闭！

沈阳地铁调整！交通管制！公园关闭！

沈阳公交网小林

2024-06-02 00:10:12

我借调机关五年，加班时送保洁大姐一份外卖，晚上她悄悄来我宿舍，第二天我掀了领导桌子

我借调机关五年，加班时送保洁大姐一份外卖，晚上她悄悄来我宿舍，第二天我掀了领导桌子

职场火锅

2024-05-30 17:17:29

历城坍塌事故调查报告：3人被建议追究刑事责任，含1名实习生质量员

历城坍塌事故调查报告：3人被建议追究刑事责任，含1名实习生质量员

澎湃新闻

2024-06-01 17:16:28

又一个扶不起，人品差，能力不大脾气还不小，才20岁打球像老奶奶

又一个扶不起，人品差，能力不大脾气还不小，才20岁打球像老奶奶

冯律讲法

2024-05-05 12:00:07

恭喜，沈阳入选！有钱啦！

沈阳百姓一家亲

2024-06-02 00:03:54

太惨！广州海珠一充电桩发生大火，20分钟烧车一大片网友坐不住了

太惨！广州海珠一充电桩发生大火，20分钟烧车一大片网友坐不住了

娱乐圈的笔娱君

2024-06-01 18:29:50

不一定在中国？沙特足协主席：已收到4份主办沙特超级杯的邀请

不一定在中国？沙特足协主席：已收到4份主办沙特超级杯的邀请

直播吧

2024-06-01 09:38:09

从秦始皇开国到宣统帝退位，为何两千多年，中国都没什么进步

从秦始皇开国到宣统帝退位，为何两千多年，中国都没什么进步

云晓观历史

2024-05-25 14:11:26

穆里尼奥退出欧洲主流联赛去往土超？三大理由怀疑消息源不真实！

穆里尼奥退出欧洲主流联赛去往土超？三大理由怀疑消息源不真实！

开心体育站

2024-06-01 23:38:15

高考临近，张雪峰赚麻了，11999元梦想卡和17999元圆梦卡被抢购空

高考临近，张雪峰赚麻了，11999元梦想卡和17999元圆梦卡被抢购空

鬼谷子思维

2024-06-01 17:15:22

对着场下的C罗，内马尔高唱梅西名字，唱完大笑，球迷一旁起哄！

对着场下的C罗，内马尔高唱梅西名字，唱完大笑，球迷一旁起哄！

风过乡

2024-06-01 09:05:24

AI产业主平台领航智能+时代

11103文章数 65531关注度

往期回顾全部

科技要闻

余承东：不卷价格！雷军：将双班制生产！

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

体育要闻

女排最强2主攻合体合砍40分打懵泰国

娱乐要闻

白玉兰提名：胡歌、范伟争视帝

财经要闻

实锤！普华永道，危！

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

数码

旅游

亲子

家居

公开课

数码要闻

消息称 AMD 锐龙 9000 系列 Zen5 桌面处理器将于 7 月上市

旅游要闻

台北故宫博物院新展：文书珍品里的端阳时节

亲子要闻

爬行垫突然倒下砸向哥哥，倒地瞬间弟弟冲上去了！

家居要闻

风雅自来中式的和谐平衡

公开课

近视只是视力差？小心并发症

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版