网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

2024-05-18 13:51:04　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子庸庸

【新智元导读】GPT-4通过图灵测试了！UCSD研究团队通过实证研究，人类无法将GPT-4与人类进行区分。而且，有54%的情况下，它被判定为人类。

GPT-4可以通过图灵测试吗？

当一个足以强大的模型诞生之后，人们往往会用图灵测试去衡量这一LLM的智能程度。

最近，来自UCSD的认知科学系研究人员发现：

在图灵测试中，人们根本无法区分GPT-4与人类！

论文地址：https://arxiv.org/pdf/2405.08007

在图灵测试中，GPT-4有54%的情况下，被判定为人类。

实验结果更是表明，这是首次有系统在「交互式」双人图灵测试中，被实证通过测试。

研究者Cameron R.Jones招募了500名志愿者，他们被分为5个角色：4个评估员，分别是GPT-4、GPT-3.5、ELIZA和人类，另一个角色就「扮演」人类自己，藏在屏幕另一端，等待着评估员的发现。

以下是节选的游戏，你能看出哪个对话框是人类吗？

图 1：人类审讯者（绿色）与证人（灰色）之间的部分对话

其实，这四段对话中，有一段是与人类证人的对话，其余都是与人工智能的对话。

首次开启受控「图灵测试」

过去74年里，人们进行了许多图灵测试的尝试，但很少进行过受控实验。

著名的Loebner奖是一项年度竞赛，然而从1990年首次举办一直到2020年，没有一个系统通过测试。

最近的一项大规模研究发现，人类在2分钟的在线对话中，识别一系列LLM准确率达到 60%。

迄今为止，还没有任何机器通过测试的「受控」实验演示。

为了测试人们是否有可能识破当前AI系统的欺骗行为，研究人员使用GPT-4进行了一次随机控制的双人图灵测试。

测试要求很简单，即人类参与者与人类、人工智能开启5分钟对话，并判断对话者是否是人类。

正如开篇所述，研究人员一共测评了3个模型——GPT-4、GPT-3.5，以及ELIZA。

针对前两个LLM，研究者通过改编GPT-4和GPT-3.5探索性研究中表现最佳的提示，来指示大模型如何去响应消息。

研究人员称，解释图灵测试的一个核心挑战是，系统表现出色可能源于两种原因：

- 一是出色地模仿人类

- 二是评判者过于轻信

后一种情况，常被称为ELIZA效应，即参与者甚至会将简单的系统也人性化。

ELIZA系统对于每个人来说，再熟悉不过了。

它是20世纪60年代的一款基于规则的简单聊天机器人，但用户发现自己也会将人类特征归因于它。

因此，在实验中，研究人员将ELIZA作为基线，一方面是为了从经验上量化ELIZA效应，另一方面也是为了在实验中进行操作检查。

那么，这项图灵测试的结果，具体如何呢？

GPT-4通过率54%

首先看一个重要的指标：通过率。

研究者将通过率定义为在游戏中，评估对象被评估者判定为人类的比例。

GPT-4的通过率为54%，超过了GPT-3.5（50%）和ELIZA基线（22%），但低于人类被试者（67%）。

评估对象通过率（左）和评估者信任度（右）。右图每个点代表一场游戏

这个结果其实并不令人意外，与研究初始阶段的设想基本相符合。

在试验之前，研究者就做出了几个假设：首先，假设人类在检测GPT-4方面的能力不会超过偶然性（50%）。

为了验证这一点，研究者拟合了一个逻辑回归模型来预测只有截距的通过率。

截距与0（z=0.14, p=0.482）没有明显差距，这表明GPT-4的通过率可以约等于50%。贝叶斯模型预测GPT-4截距的95%可信区间为-0.24-0.55（相当于44%-63%的通过率）。

这意味着，人类在面对GPT-4时，成功分辨的概率跟抛硬币差不多！

结果还证实了研究人员的第二和第三个假设：人类的通过率明显高于GPT-4的通过率（z=2.42，p=0.017），而GPT-4的通过率高于ELIZA的通过率（z=4.11，p<0.001）。

然而，与研究者的试验设想不一致的是：GPT-4和GPT-3.5的表现几乎差不多（z=0.497，p=0.619）。

在「伪装人类」这一块，打了个平手。

同样出人意料的是，那些自称更了解LLM工作原理的参与者并没有更成功地识别出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者发现年龄对询问者的准确性有负面影响（z = -2.24，p = 0.025），但其他人口统计学变量（包括性别、教育水平和与聊天机器人互动的频率）则没有显著影响。

为什么会是这样的结果？让我们来分析一下背后的原因。

为了深入了解到底是什么在影响评估者的决策，我们对评估者使用的策略和他们为决策提供的理由进行了分类。

36%的评估者会与评估对象闲聊，询问一些个人细节或日常活动。

第二类和第三类最常用的策略是社交与情感（25%）——例如，询问评估对象的观点和经历，观察他们是否具备幽默感。

还有人侧重考察知识与推理（13%），包括有关数学、逻辑和常识的问题。

询问策略（左）和平均准确率（右）

为了对比每种策略的有效性，研究者计算了使用这些策略的平均准确率。

当评估对象问及对方有关人类经历（75%）、逻辑和数学（78%）或直接「指控」对方是人工智能（80%）时，通常会距离「正确答案」更近。

在游戏中，人工智能之所以会「露出马脚」，通常是因为评估者认为他们似乎在强迫自己扮演角色，要么过于随意，要么则缺乏个性。

而ELIZA 很容易「暴露」，主要是因为反应不自然和缺乏语境意识。

可以看出，无论是从参与游戏的志愿者所使用的策略还是决策理由来看，他们都更注重语言风格和社会情感因素，而不是更传统的智力范畴（知识和推理）。

这似乎反映出志愿者们的一个潜在假设——社会智能才是AI最无法模仿的人类特征。

图灵测试，过了

如何判断系统何时通过了图灵测试？

图灵在1950年的论文中预测，到本世纪末， AI系统将能够很好地玩模仿游戏，以至于审查员在5分钟的交流后，做出正确识别的机会不会超过70%。

这一结论，导致了AI的通过率是否能够达到30%，成为许多研究者的讨论目标。

然而，这个基准似乎是任意的，并且不清楚图灵是否将其作为成功的定义。

其实，50%的基线更加合理，因为它更能证明人类审查者，在识别AI方面并不比偶然性更强。

这一定义，与发现用户是否可以在在线互动中，可靠地识别其他人类这一目标尤为相关。

在研究者的预公开的分析中，通过使用ELIZA基线作为操作检查来解决这个问题。

只有当分析表明ELIZA的通过率低于概率，而GPT-4的通过率不低于概率的情况下，才能判定模型通过了测试。

而根据这一定义，GPT-4显然通过了这一版本的图灵测试。

此外，参与者的置信度得分和决策依据，都表明他们并非随意猜测：GPT-4是人类的平均置信度为73%（见图 2）。

网友讨论

有网友表示，如果我们要将图灵测试等同于智力，图灵测试就不是一个好的测试。然而，AI几乎始终可以「欺骗」人类的事实有点令人担忧。

还有人称，自己对这种测试表示怀疑。因为GPT-4的表现会超过大多数人，所以很容易区分谁是人类，谁是人工智能。

研究者对此表示，这确实是我们遇到的一个问题。比如，GPT-4的知识储备「太丰富」或者掌握的语言太多。我们明确提示该模型避免这种情况，这在一定程度上是有效的。

参考资料：

https://x.com/camrobjones/status/1790766472458903926

https://x.com/emollick/status/1790877242525942156

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

伯克利开源大型机器人操控基准，面对复杂自主操控任务不再犯难

机器之心Pro 2024-01-31 15:26:17
1 跟贴 1
谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

新智元 2024-06-01 13:26:09
8 跟贴 8

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0

GPT-4 更强的标志，原来藏在了 logo 里

爱范儿 2024-02-20 17:25:29
0 跟贴 0
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
62 跟贴 62

“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0

鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

量子位 2024-05-25 15:40:12
0 跟贴 0
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
0 跟贴 0

大模型不需要眼前的共识

钛媒体APP 2024-05-08 10:50:11
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0
谁给了一个保安检查民众思想的权力？

麦杰逊 2024-05-31 11:30:02
29153 跟贴 29153
小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

极目新闻 2024-06-01 18:00:32
14079 跟贴 14079
当普通人都感觉经济很难的时候，其实经济危机早就全面爆发了

芯怡飞 2024-06-01 14:19:03
3417 跟贴 3417
GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
0 跟贴 0
8枚海王星全命中，S-400没用，乌军以后干脆用反坦克导弹

移光幻影 2024-06-01 12:43:40
2260 跟贴 2260
三个Agent顶个GPT-4，基于开源小模型的那种｜中大阿里联合出品

量子位 2024-02-11 14:07:36
0 跟贴 0
数学爱好者必看：5个有趣的数学事实大揭秘！

遇见数学 2024-05-29 19:58:24
7 跟贴 7
庆余年2：同样都是机器人，神庙使者为何打不过五竹？原因很现实

小凡娱影 2024-06-01 20:35:02
336 跟贴 336
幼儿园不需要学任何知识，背后真相只有一个

拜托了爸妈 2024-06-02 06:07:58
1 跟贴 1
娘家拆迁分200万，我装癌症考验老公，他通过测试却要离婚

甜茶妹极简生活 2024-06-01 01:23:12
3 跟贴 3
拜登关上谈判大门，反制裁开始，中方砸3440亿元，英伟达卖不动了

赢梯 2024-06-01 18:50:06
1 跟贴 1
美国务院发言人下班回家笑着与家门口的抗议者打招呼

征垣之路 2024-06-01 21:09:03
6120 跟贴 6120
GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

机器之心Pro 2024-02-20 15:15:48
0 跟贴 0
犹太人搞了一百年的大骗局，是如何被河南人终结的？

爆角追踪 2024-06-01 17:03:00
2980 跟贴 2980
7 天全勤，日均科研 8.6 小时，最长 16 小时！天选打工人是你吗？

生物学霸 2024-04-07 19:48:59
2 跟贴 2
越野车爬坡失败从山坡滚落围观人群不停发出尖叫

众横四海 2024-06-01 20:54:45
1323 跟贴 1323
小镇做题家，在中年均值回归

虎嗅APP 2024-03-22 11:02:36
96 跟贴 96
一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

生物学霸 2024-01-18 18:06:29
0 跟贴 0
一场实验，打通任督二脉！初中生自主制出甩干机、机器人、绘画仪

成都好学校 2024-05-31 16:16:31
0 跟贴 0
小升初不管成绩有多好，到初中后的第一次考试，基本都会被打击到

好爸育儿 2024-05-30 14:07:49
25 跟贴 25
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
0 跟贴 0
中方记者追问菲是否要在仙宾礁军事部署菲总统拒回答

环球网资讯 2024-06-01 15:36:04
1732 跟贴 1732
超30%，创世界纪录！我国这一研究领域获重大突破

极目新闻 2024-06-01 18:32:22
851 跟贴 851
保定一商场三楼以上全装上网，抬头望去密密麻麻！

众横四海 2024-05-31 19:06:27
8192 跟贴 8192
要想拉动经济增长，还得看小县城的公务员

火锅局 2024-06-02 00:05:26
524 跟贴 524
上海男子买房被中介坑惨交了66万定金却有巨额抵押

上观新闻 2024-06-01 07:12:40
609 跟贴 609
早就21世纪了，为何还有人想用“双生子佯谬”推翻相对论？

宇宙时空 2024-06-01 18:56:04
8 跟贴 8
给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

量子位 2024-02-01 14:46:45
0 跟贴 0
一场境外演习证实中美差距，美媒：解放军“机器狗”领先美国一步

寒月国际 2024-05-31 09:48:08
0 跟贴 0
无法解开的贝茨球之谜

大科技杂志社 2024-05-30 23:45:58
8 跟贴 8

陈丹青：从来没有一个时代像今天这样，去鼓励虚荣，从来没有过！

陈丹青：从来没有一个时代像今天这样，去鼓励虚荣，从来没有过！

世态言凉

2024-05-29 17:16:32

消失许久的周立波突然发声！感慨：做我局的人已经叛逃，人不怕被冤枉就怕有报应

消失许久的周立波突然发声！感慨：做我局的人已经叛逃，人不怕被冤枉就怕有报应

可达鸭面面观

2024-05-30 12:24:04

突然倒下！知名机构宣布：资金链断裂，永久闭店

突然倒下！知名机构宣布：资金链断裂，永久闭店

中国经营报

2024-06-01 20:14:05

大快人心！因一句“不接待内地人”，前港姐所开茶餐厅纷纷倒闭

大快人心！因一句“不接待内地人”，前港姐所开茶餐厅纷纷倒闭

南风西洲

2024-06-01 22:57:51

外交部发言人毛宁：请问问这位美国特使，哪个国家因为参与“一带一路”被剥夺主权？

外交部发言人毛宁：请问问这位美国特使，哪个国家因为参与“一带一路”被剥夺主权？

北青网-北京青年报

2024-05-31 21:37:04

哈以最新：加沙只剩下最后一个悬念

哈以最新：加沙只剩下最后一个悬念

西楼饮月

2024-06-01 12:30:02

厦门楼市全军覆没，厦门岛内思明区从63000元调整为54000元

厦门楼市全军覆没，厦门岛内思明区从63000元调整为54000元

有事问彭叔

2024-05-31 11:41:41

朱丹真实在，胖成这样还不P图，穿得像大姐但在周一围面前没气场

朱丹真实在，胖成这样还不P图，穿得像大姐但在周一围面前没气场

酒盅故事汇

2024-06-01 16:36:46

高曙光高调晒全家福，小16岁妻子满脸皱纹像同龄，7岁儿子成翻版

高曙光高调晒全家福，小16岁妻子满脸皱纹像同龄，7岁儿子成翻版

酒盅故事汇

2024-06-01 16:28:26

国乒9人进8强！外战18连胜，3大世界冠军险爆冷，孙颖莎完美收官

国乒9人进8强！外战18连胜，3大世界冠军险爆冷，孙颖莎完美收官

环太平洋老正太

2024-06-01 21:54:57

官方民间下场重锤，秦L宣传翻车了？

官方民间下场重锤，秦L宣传翻车了？

户外小阿隋

2024-06-02 05:05:42

炸裂！森林北和男人屋内跳舞视频曝光，眉来眼去，身材柔媚至极！

炸裂！森林北和男人屋内跳舞视频曝光，眉来眼去，身材柔媚至极！

娱乐八卦木木子

2024-06-01 19:13:54

王楠女儿再次被横扫出局，郭斌说了实话：成为世界冠军基本不可能

王楠女儿再次被横扫出局，郭斌说了实话：成为世界冠军基本不可能

尘语者

2024-05-31 16:06:21

安切洛蒂：中场休息时说了维尼修斯几句，上半场我们有点懒散

安切洛蒂：中场休息时说了维尼修斯几句，上半场我们有点懒散

懂球帝

2024-06-02 06:25:03

天呐！林志玲近照曝光，胸部下垂严重，网友：这才是真实的她！

天呐！林志玲近照曝光，胸部下垂严重，网友：这才是真实的她！

太可的生活

2024-05-31 00:50:35

穿衣自由但得有度，广西女子牛仔裤一半拖地上，网友：不如不穿

穿衣自由但得有度，广西女子牛仔裤一半拖地上，网友：不如不穿

三叶秋文局

2024-06-01 19:54:59

韩国人暴走，要求中国归还大熊猫：我们不相信中国

韩国人暴走，要求中国归还大熊猫：我们不相信中国

步论天下事

2024-05-31 21:06:09

没想到老年人的瓜这么多！网友的评论太炸裂，我小脑都萎缩了

没想到老年人的瓜这么多！网友的评论太炸裂，我小脑都萎缩了

夢婷

2024-01-05 12:09:08

和大海的合影

花小猫的美食日常

2024-06-02 04:20:03

现在知道也不晚，这5样食物不怕过期，时间越长越值钱，快看看吧

现在知道也不晚，这5样食物不怕过期，时间越长越值钱，快看看吧

洪洋美食日记

2024-05-28 09:42:25

AI产业主平台领航智能+时代

11103文章数 65531关注度

往期回顾全部

科技要闻

余承东：不卷价格！雷军：将双班制生产！

头条要闻

美方带头允许援乌武器打击俄境内北约秘书长表态

头条要闻

美方带头允许援乌武器打击俄境内北约秘书长表态

体育要闻

女排最强2主攻合体合砍40分打懵泰国

娱乐要闻

白玉兰提名：胡歌、范伟争视帝

财经要闻

实锤！普华永道，危！

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

亲子

游戏

本地

旅游

公开课

亲子要闻

六一收到礼物，但女儿好像不太想要

《军团要塞2》机器人泛滥超14万人请愿V社重视一下

本地新闻

食味印象｜歙县限定！枇杷味儿的清甜初夏

旅游要闻

台北故宫博物院新展：文书珍品里的端阳时节

公开课

近视只是视力差？小心并发症

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版