网易首页 > 网易号 > 正文 申请入驻

现代AI系统通过图灵测试首获证实,该测试是检验机器能否逼真模仿人类对话、使人们无法将其与真人区分开来的重要科学基准

0
分享至

据科技日报5月22日消息,美国加州大学圣迭戈分校科学家开展了一项实证研究,首次证明现代人工智能(AI)系统通过了图灵测试。相关论文发表于新一期《美国国家科学院院刊》。


△图片来源:物理学家组织网

这是首个严格采用图灵测试来评估大语言模型的研究。图灵测试由英国数学家、“计算机科学之父”阿兰·图灵于1950年提出,是检验机器能否逼真模仿人类对话、使人们无法将其与真人区分开来的重要科学基准。

为获得更具代表性的结果,团队研究了两组人群:一组是美国加州大学圣迭戈分校本科生;另一组是通过Prolific平台招募的更广泛的在线样本。整个实验共有近500人参与。

在随机对照试验中,参与者同时与另外两方聊天,一方是人类,另一方是大语言模型。实验涉及4种模型,包括目前最先进的GPT-4.5和LLaMa-3.1-405B,以及较旧的基线模型GPT-4o和ELIZA,后者是20世纪60年代基于规则的经典聊天机器人。

结果显示,GPT-4.5在73%的情况下被判定为人类,这意味着参与者将其选为“人类”的频率,明显高于他们选择真实人类参与者的频率。在同样提示下,LLaMa-3.1-405B在56%的情况下被判定为“人类”,在统计学上与其所比较的真实人类没有显著区别。基线系统的表现则逊色得多:ELIZA和GPT-4o总体上分别只有23%和21%的情况被选为“人类”。

若给予恰当的提示,先进大语言模型能表现出与人类无异的语气、直率、幽默,乃至易犯的错误。科学家此前已知道,大语言模型几乎可以轻松生成与任何主题相关的知识,但这项测试表明,它还能令人信服地展现社会行为特征,这对人们如何看待AI具有重大意义。

团队表示,每个大语言模型都有“性格”,会采用特定的人物设定和沟通风格。大语言模型并非依靠展示知识的能力取胜,而是因其像人类一样会犯错而胜出。这些特征,与他们认为图灵所设想的那种数学与逻辑解题能力并不相同。

不过,团队也发现,若无明确指示,这些模型被误认为人类的概率便会大打折扣:GPT-4.5的获选率降至36%,LLaMa-3.1降至38%,基线系统ELIZA和GPT-4o被选为人类的概率则更低。

来源:科技日报

【来源:潇湘晨报】

报料、维权通道:应用市场下载“晨视频”客户端,搜索“报料”一键直达,或拨打热线0731-85571188;如需内容合作,请拨打政企服务专席19176699651,商务合作联系0731-85572288。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
55岁李菁菁现状曝光:京郊务农每月注射,前夫在她治疗时直播分手

55岁李菁菁现状曝光:京郊务农每月注射,前夫在她治疗时直播分手

做一个合格的吃瓜群众
2026-07-04 18:53:25
化工股中报预告出炉!最高业绩增速达952%,这些个股业绩也“预喜”

化工股中报预告出炉!最高业绩增速达952%,这些个股业绩也“预喜”

财联社
2026-07-04 21:16:05
“尖叫瓶子”的邪修用法太厉害了!网友:尖叫可千万别涨价啊

“尖叫瓶子”的邪修用法太厉害了!网友:尖叫可千万别涨价啊

甜茶极简记
2026-07-03 13:06:09
24小时内,俄伊各出一个大消息!特朗普再不找中国,就来不及了!

24小时内,俄伊各出一个大消息!特朗普再不找中国,就来不及了!

牛锅巴小钒
2026-07-05 03:17:49
WTT美国大满贯:太遗憾!国乒女单又输1人,0:3被淘汰,单局2分

WTT美国大满贯:太遗憾!国乒女单又输1人,0:3被淘汰,单局2分

国乒二三事
2026-07-04 06:12:25
结婚12年,丈夫每年固定出差15天,有一次我偷偷买票跟到酒店

结婚12年,丈夫每年固定出差15天,有一次我偷偷买票跟到酒店

千秋文化
2026-06-01 20:18:09
令人振奋的发现:新中国成立后,果断将琉球群岛纳入中国领土版图

令人振奋的发现:新中国成立后,果断将琉球群岛纳入中国领土版图

抽象派大师
2026-07-05 03:26:25
糯康临刑吐露真相,毒枭不惧军警枪械,唯独忌惮尘封三十年密令

糯康临刑吐露真相,毒枭不惧军警枪械,唯独忌惮尘封三十年密令

磊子讲史
2026-07-03 11:41:04
注意,注意!有色金属的春天真的要来了!

注意,注意!有色金属的春天真的要来了!

趣味萌宠的日常
2026-07-04 20:30:23
哈梅内伊葬礼,其子穆杰塔巴至今仍未露面;消息人士:穆杰塔巴希望出席父亲葬礼,但被安全官员拦下,担心以色列借机发动暗杀

哈梅内伊葬礼,其子穆杰塔巴至今仍未露面;消息人士:穆杰塔巴希望出席父亲葬礼,但被安全官员拦下,担心以色列借机发动暗杀

鲁中晨报
2026-07-04 21:14:02
世界杯16强全部出炉!8组对决确认,赛程如下,阿根廷法国保送4强

世界杯16强全部出炉!8组对决确认,赛程如下,阿根廷法国保送4强

侃球熊弟
2026-07-04 11:32:03
阿萨德离开一年半,叙利亚人后悔了吗?看看百年前的新疆就知道了

阿萨德离开一年半,叙利亚人后悔了吗?看看百年前的新疆就知道了

晓徙娱乐
2026-07-04 11:04:31
高盛:美股AI上涨力竭,下半年布局防御板块,看好医疗、欧洲防务

高盛:美股AI上涨力竭,下半年布局防御板块,看好医疗、欧洲防务

华尔街见闻官方
2026-07-04 19:07:18
特朗普公开嘲讽伊朗!称出于人道给一周假期办国葬:我们是好人

特朗普公开嘲讽伊朗!称出于人道给一周假期办国葬:我们是好人

靓仔情感
2026-07-05 03:49:36
14.38万起,何小鹏期待MONA L03成全球销量最大车型

14.38万起,何小鹏期待MONA L03成全球销量最大车型

我是一个养虾人
2026-07-04 04:33:06
倒查1996至2026年履职记录,这类干部终身追责

倒查1996至2026年履职记录,这类干部终身追责

刘哥谈体育
2026-07-04 15:04:24
美光股价单日暴跌10.57%背后:一场700%的价格操纵指控,存储巨头集体塌方

美光股价单日暴跌10.57%背后:一场700%的价格操纵指控,存储巨头集体塌方

闪存猎手
2026-07-05 02:32:54
非洲之光:点球制胜,埃及5-3淘汰亚足联劲旅,晋级16强

非洲之光:点球制胜,埃及5-3淘汰亚足联劲旅,晋级16强

侧身凌空斩
2026-07-04 04:52:24
调查|一尊疑似失窃铜佛,究竟如何转手到观复博物馆的?

调查|一尊疑似失窃铜佛,究竟如何转手到观复博物馆的?

澎湃新闻
2026-07-04 17:00:28
哈梅内伊遗体告别仪式上,伊朗议长哭到身体不停颤抖,穆杰塔巴未出席,其岳父现身仪式

哈梅内伊遗体告别仪式上,伊朗议长哭到身体不停颤抖,穆杰塔巴未出席,其岳父现身仪式

极目新闻
2026-07-04 13:39:08
2026-07-05 05:51:00
潇湘晨报 incentive-icons
潇湘晨报
潇湘晨报,影响湖南
130418文章数 339310关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
教育
时尚
健康
公开课

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

教育要闻

高考地理中的植被响应

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

听说少吃点能抗衰老?专家讲解!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版