网易首页 > 网易号 > 正文 申请入驻

GPT-4已通过图灵测试

0
分享至

在图灵测试中,越来越多的人无法再将 GPT-4 与人类区分开来。这是美国加州大学圣迭戈分校认知科学家本杰明-伯根和卡梅隆-琼斯的研究成果。在turingtest.live网站上进行的在线模拟测试中,近 500 名参与者中有 54% 的人将 ChatGPT 背后的人工智能(AI)模型评为人类。上一版本的 GPT-3.5 成功率为 50%。67%的测试者正确确认了自己是人类。

计算机科学家约瑟夫-韦曾鲍姆(Joseph Weizenbaum)于 1966 年开发的计算机程序 Eliza表现最差,只有 22% 的人将其归类为人类。

据科学家们称,这些结果首次提供了人工智能系统通过双人互动图灵测试的确凿证据,而且这很可能适用于未来几乎所有最先进的聊天机器人。英国数学家和计算机科学家阿兰-图灵于 1950 年首次提出了以他的名字命名的"模仿游戏"对话强度测试。

从那时起,它就成了确定机器模仿人类对话能力的一个著名但有争议的基准。在该测试的现代变体中,人类"评委"会在不知道谁是谁的情况下与另一个人类或聊天机器人对话。如果面试官在 50% 的情况下不能可靠地区分计算机系统和人类,那么机器就被认为通过了测试。

在当前的研究中,人类审讯者与代表其他人类、大型语言模型 GPT-4 和 GPT-3.5 以及基于对称列表处理器 (SLIP) 的简易对话系统 Eliza 的各种"证人"进行了互动,研究结果可在预印本服务器 Arxiv上找到。研究人员随机分配人类参与者扮演法官或证人的角色。样本包括 101 个人类和 GPT-3.5 游戏,以及 100 个 GPT 4 和 Eliza 游戏,所有游戏均通过一种消息应用程序进行,每个游戏持续五分钟。在 402 名审问者中,168 人为女性,212 人为男性,9 人为非二元。13人不想提供任何信息。参与者的平均年龄为 35 岁。

在2023 年的上一次研究中,Eliza 的表现明显更好,没有一个模型通过测试。这一次,科学家们采用了表现最好的 GPT-4 命令集(提示),并对其进行了修改。提示的第一部分指示模型表现得像一个年轻人,不要太认真地对待游戏,使用口语,不要出现拼写和语法错误。此外,它还不能提供太多的知识,尤其是语文和数学方面的知识。

每轮测试开始时,都会添加一些额外的信息,如姓名、地点和时间戳。二人解释说,人类之所以不能百分之百地识别同类,是因为提问者认为人工智能的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。

为了深入了解影响审讯者做出决定的定性因素,研究小组对他们使用的策略和做出判断的理由进行了分类。36%的人询问证人的个人细节或日常活动。第二和第三类最常见的是社会和情感问题(25%)--例如,有关意见、经历和幽默的问题。

审问者就其决定给出的最常见理由(43%)与基于拼写、语法、大小写和语气的语言风格有关。24%的人关注社会情感因素,如幽默感或个性。研究人员警告说,这些结果表明"当前人工智能系统的欺骗行为可能不会被发现"。能够成功模仿人类的机器人可能会产生"深远的经济和社会影响"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本人气球星高桥蓝因与女优河北彩伽爆绯闻,远走波超卢布林

日本人气球星高桥蓝因与女优河北彩伽爆绯闻,远走波超卢布林

排球大视界
2026-01-17 20:22:57
解放军原副总参谋长、原成都军区司令员隗福临上将逝世

解放军原副总参谋长、原成都军区司令员隗福临上将逝世

澎湃新闻
2026-01-17 15:12:26
面对亚洲球队23场仅输2场!安东尼奥:我们能抗衡任何对手

面对亚洲球队23场仅输2场!安东尼奥:我们能抗衡任何对手

篮球看比赛
2026-01-17 11:38:21
张本智和出局!挽救8个赛点仍被淘汰,国乒直拍名将3连胜日本劲敌

张本智和出局!挽救8个赛点仍被淘汰,国乒直拍名将3连胜日本劲敌

全言作品
2026-01-17 18:40:30
川普可能在航母没到前动伊朗,但更可能抓稳南美、开搞格陵兰再动

川普可能在航母没到前动伊朗,但更可能抓稳南美、开搞格陵兰再动

邵旭峰域
2026-01-16 15:11:13
尴尬到抠脚!加外长在北京被反复追问:当年骂中国的话还算数吗?

尴尬到抠脚!加外长在北京被反复追问:当年骂中国的话还算数吗?

我心纵横天地间
2026-01-17 19:10:31
贾国龙发怒后西贝员工仍被网友调侃:微波炉加热师是挺难找工作

贾国龙发怒后西贝员工仍被网友调侃:微波炉加热师是挺难找工作

映射生活的身影
2026-01-17 23:09:13
世界名画:U23国足18人激情相拥+仰天长叹 乌兹门将跪地埋头痛哭

世界名画:U23国足18人激情相拥+仰天长叹 乌兹门将跪地埋头痛哭

风过乡
2026-01-17 23:03:02
2600亿!四川超大规模拆迁启动,这134个片区价值要涨!

2600亿!四川超大规模拆迁启动,这134个片区价值要涨!

科学发掘
2026-01-17 15:57:17
广东今日早报!陈老板深夜约谈杜锋,萨林杰或被裁,小崔提前复出

广东今日早报!陈老板深夜约谈杜锋,萨林杰或被裁,小崔提前复出

多特体育说
2026-01-17 07:40:03
突发!又一家公司财务造假被ST,9万股东踩雷,这个周末过不好了

突发!又一家公司财务造假被ST,9万股东踩雷,这个周末过不好了

财经智多星
2026-01-17 12:08:59
中加签2000亿大单,加拿大取消对华关税,特朗普表态

中加签2000亿大单,加拿大取消对华关税,特朗普表态

寄星夜幕星河
2026-01-17 19:26:28
马杜罗之子最新发声:委应和美国建交并设立大使馆

马杜罗之子最新发声:委应和美国建交并设立大使馆

大风新闻
2026-01-17 11:10:04
多哈赛男单四强全出,周启豪迎战世界冠军,温瑞博挑战雨果有压力

多哈赛男单四强全出,周启豪迎战世界冠军,温瑞博挑战雨果有压力

郝小小看体育
2026-01-18 01:07:40
大量14T低价硬盘涌入闲鱼!1T折合44元,到底有啥猫腻?

大量14T低价硬盘涌入闲鱼!1T折合44元,到底有啥猫腻?

闲搞机
2026-01-16 11:14:40
杨瀚森谈与亚当斯对位:我哥实在太有劲,一只手推我就动不了了

杨瀚森谈与亚当斯对位:我哥实在太有劲,一只手推我就动不了了

懂球帝
2026-01-17 15:09:34
情感纠纷长达20余年?编剧汪海林爆黄慧颐曾在剧组捅伤保剑锋

情感纠纷长达20余年?编剧汪海林爆黄慧颐曾在剧组捅伤保剑锋

扬子晚报
2026-01-17 21:22:43
票房86.8亿亏损4亿,詹姆斯卡梅隆跌落神坛,《阿凡达4》不会再有

票房86.8亿亏损4亿,詹姆斯卡梅隆跌落神坛,《阿凡达4》不会再有

影视高原说
2026-01-17 08:57:31
多地“刨猪宴”临时取消!年味狂欢要热情更要理性

多地“刨猪宴”临时取消!年味狂欢要热情更要理性

极目新闻
2026-01-17 11:17:02
对手都被打服了!乌兹别克斯坦主帅盛赞李昊:他拥有光明的未来!

对手都被打服了!乌兹别克斯坦主帅盛赞李昊:他拥有光明的未来!

绿茵舞着
2026-01-18 00:18:10
2026-01-18 01:44:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
66172文章数 70058关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

U23国足门将扑点前和对手交流 镜头捕捉其致胜秘诀

头条要闻

U23国足门将扑点前和对手交流 镜头捕捉其致胜秘诀

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

家居
教育
手机
时尚
军事航空

家居要闻

岁月柔情 现代品质轻奢

教育要闻

高中没入团,今年不能报这5所大学!

手机要闻

OPPO、vivo再曝Pro Max机型,与超大杯芯片不同

“这个风格”今年冬天又火了!谁穿谁高级

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版