网易首页 > 网易号 > 正文 申请入驻

GPT-4已通过图灵测试

0
分享至

在图灵测试中,越来越多的人无法再将 GPT-4 与人类区分开来。这是美国加州大学圣迭戈分校认知科学家本杰明-伯根和卡梅隆-琼斯的研究成果。在turingtest.live网站上进行的在线模拟测试中,近 500 名参与者中有 54% 的人将 ChatGPT 背后的人工智能(AI)模型评为人类。上一版本的 GPT-3.5 成功率为 50%。67%的测试者正确确认了自己是人类。

计算机科学家约瑟夫-韦曾鲍姆(Joseph Weizenbaum)于 1966 年开发的计算机程序 Eliza表现最差,只有 22% 的人将其归类为人类。

据科学家们称,这些结果首次提供了人工智能系统通过双人互动图灵测试的确凿证据,而且这很可能适用于未来几乎所有最先进的聊天机器人。英国数学家和计算机科学家阿兰-图灵于 1950 年首次提出了以他的名字命名的"模仿游戏"对话强度测试。

从那时起,它就成了确定机器模仿人类对话能力的一个著名但有争议的基准。在该测试的现代变体中,人类"评委"会在不知道谁是谁的情况下与另一个人类或聊天机器人对话。如果面试官在 50% 的情况下不能可靠地区分计算机系统和人类,那么机器就被认为通过了测试。

在当前的研究中,人类审讯者与代表其他人类、大型语言模型 GPT-4 和 GPT-3.5 以及基于对称列表处理器 (SLIP) 的简易对话系统 Eliza 的各种"证人"进行了互动,研究结果可在预印本服务器 Arxiv上找到。研究人员随机分配人类参与者扮演法官或证人的角色。样本包括 101 个人类和 GPT-3.5 游戏,以及 100 个 GPT 4 和 Eliza 游戏,所有游戏均通过一种消息应用程序进行,每个游戏持续五分钟。在 402 名审问者中,168 人为女性,212 人为男性,9 人为非二元。13人不想提供任何信息。参与者的平均年龄为 35 岁。

在2023 年的上一次研究中,Eliza 的表现明显更好,没有一个模型通过测试。这一次,科学家们采用了表现最好的 GPT-4 命令集(提示),并对其进行了修改。提示的第一部分指示模型表现得像一个年轻人,不要太认真地对待游戏,使用口语,不要出现拼写和语法错误。此外,它还不能提供太多的知识,尤其是语文和数学方面的知识。

每轮测试开始时,都会添加一些额外的信息,如姓名、地点和时间戳。二人解释说,人类之所以不能百分之百地识别同类,是因为提问者认为人工智能的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。

为了深入了解影响审讯者做出决定的定性因素,研究小组对他们使用的策略和做出判断的理由进行了分类。36%的人询问证人的个人细节或日常活动。第二和第三类最常见的是社会和情感问题(25%)--例如,有关意见、经历和幽默的问题。

审问者就其决定给出的最常见理由(43%)与基于拼写、语法、大小写和语气的语言风格有关。24%的人关注社会情感因素,如幽默感或个性。研究人员警告说,这些结果表明"当前人工智能系统的欺骗行为可能不会被发现"。能够成功模仿人类的机器人可能会产生"深远的经济和社会影响"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

冷紫葉
2026-01-14 22:19:27
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
日韩这两件事咱不管,该国总理十年来首访华挺重要

日韩这两件事咱不管,该国总理十年来首访华挺重要

新民周刊
2026-01-14 09:08:54
灿灿杀猪宴还没开始就"翻车",账号被封知情人曝猛料 文旅删视频

灿灿杀猪宴还没开始就"翻车",账号被封知情人曝猛料 文旅删视频

史行途
2026-01-14 13:43:35
重庆市委书记,看望“棒棒”冉光辉等

重庆市委书记,看望“棒棒”冉光辉等

极目新闻
2026-01-14 14:02:36
影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

徐帮阳
2025-12-23 18:33:38
3000万粉的网红惊动央媒,全网封杀!此人虚假申报少缴个税215万

3000万粉的网红惊动央媒,全网封杀!此人虚假申报少缴个税215万

火山诗话
2026-01-15 06:24:11
唉!0分0板0助0断,一分钟3犯规,这种平庸之辈,咋进的国家队?

唉!0分0板0助0断,一分钟3犯规,这种平庸之辈,咋进的国家队?

金山话体育
2026-01-15 06:31:51
力压深圳、合肥,中国汽车第一城,易主了

力压深圳、合肥,中国汽车第一城,易主了

快刀财经
2026-01-14 22:45:37
部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

浮生实录集
2025-09-18 15:10:05
72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
《寻秦记》赵高角色被删,演员消失15年传精神失常

《寻秦记》赵高角色被删,演员消失15年传精神失常

阿嬍体育评论
2026-01-15 03:31:26
金庸给了这对姐妹最纯洁的名字,她们却爱上采花贼,甘心任人摆布

金庸给了这对姐妹最纯洁的名字,她们却爱上采花贼,甘心任人摆布

耳东文史
2026-01-13 00:03:59
美军首次打击,猛料曝光!

美军首次打击,猛料曝光!

环球时报国际
2026-01-14 00:18:41
殴打记者、拍桌飙脏话,国民党证实:该名郑丽文幕僚已被开除

殴打记者、拍桌飙脏话,国民党证实:该名郑丽文幕僚已被开除

阿天爱旅行
2026-01-15 05:33:47
阿里纳斯:NBA每年都有25支队不去争冠,但他们赚到钱就满意

阿里纳斯:NBA每年都有25支队不去争冠,但他们赚到钱就满意

懂球帝
2026-01-14 14:11:06
医生:一旦到了78岁,就算身体比较健康,平时也要注意这6个细节

医生:一旦到了78岁,就算身体比较健康,平时也要注意这6个细节

健康科普365
2026-01-12 09:06:51
未经同意 吃饭竟被百万网友围观?!

未经同意 吃饭竟被百万网友围观?!

看看新闻Knews
2026-01-14 22:52:04
当法国超跑撞上美国大排量——姆总与伊万卡这对跨界CP的离谱瓜田

当法国超跑撞上美国大排量——姆总与伊万卡这对跨界CP的离谱瓜田

罗氏八卦
2026-01-14 07:54:54
美股集体下跌,携程重挫18%,“妖镍”直线急升,加密货币反弹,超13万人爆仓

美股集体下跌,携程重挫18%,“妖镍”直线急升,加密货币反弹,超13万人爆仓

21世纪经济报道
2026-01-14 23:37:04
2026-01-15 07:16:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
66124文章数 70049关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

艺术
旅游
本地
数码
公开课

艺术要闻

历代书家集字春联大集合

旅游要闻

俄旅游业联盟:美禁发签证“不会造成灾难”

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

数码要闻

存储涨价冲击DIY市场,DDR3主板销量意外逆势倍增

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版