网易首页 > 网易号 > 正文 申请入驻

现代AI系统通过图灵测试首获证实,该测试是检验机器能否逼真模仿人类对话、使人们无法将其与真人区分开来的重要科学基准

0
分享至

据科技日报5月22日消息,美国加州大学圣迭戈分校科学家开展了一项实证研究,首次证明现代人工智能(AI)系统通过了图灵测试。相关论文发表于新一期《美国国家科学院院刊》。


△图片来源:物理学家组织网

这是首个严格采用图灵测试来评估大语言模型的研究。图灵测试由英国数学家、“计算机科学之父”阿兰·图灵于1950年提出,是检验机器能否逼真模仿人类对话、使人们无法将其与真人区分开来的重要科学基准。

为获得更具代表性的结果,团队研究了两组人群:一组是美国加州大学圣迭戈分校本科生;另一组是通过Prolific平台招募的更广泛的在线样本。整个实验共有近500人参与。

在随机对照试验中,参与者同时与另外两方聊天,一方是人类,另一方是大语言模型。实验涉及4种模型,包括目前最先进的GPT-4.5和LLaMa-3.1-405B,以及较旧的基线模型GPT-4o和ELIZA,后者是20世纪60年代基于规则的经典聊天机器人。

结果显示,GPT-4.5在73%的情况下被判定为人类,这意味着参与者将其选为“人类”的频率,明显高于他们选择真实人类参与者的频率。在同样提示下,LLaMa-3.1-405B在56%的情况下被判定为“人类”,在统计学上与其所比较的真实人类没有显著区别。基线系统的表现则逊色得多:ELIZA和GPT-4o总体上分别只有23%和21%的情况被选为“人类”。

若给予恰当的提示,先进大语言模型能表现出与人类无异的语气、直率、幽默,乃至易犯的错误。科学家此前已知道,大语言模型几乎可以轻松生成与任何主题相关的知识,但这项测试表明,它还能令人信服地展现社会行为特征,这对人们如何看待AI具有重大意义。

团队表示,每个大语言模型都有“性格”,会采用特定的人物设定和沟通风格。大语言模型并非依靠展示知识的能力取胜,而是因其像人类一样会犯错而胜出。这些特征,与他们认为图灵所设想的那种数学与逻辑解题能力并不相同。

不过,团队也发现,若无明确指示,这些模型被误认为人类的概率便会大打折扣:GPT-4.5的获选率降至36%,LLaMa-3.1降至38%,基线系统ELIZA和GPT-4o被选为人类的概率则更低。

(科技日报)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世纪婚礼落地!泰勒·斯威夫特官宣大婚,捐1.7亿超婚礼开销

世纪婚礼落地!泰勒·斯威夫特官宣大婚,捐1.7亿超婚礼开销

雅儿姐游世界
2026-07-04 14:47:40
为什么说科技竞争拼的是工业体系而非神话

为什么说科技竞争拼的是工业体系而非神话

烽火瞭望者
2026-07-04 06:24:08
南方系的媒体,依旧是社会的未来

南方系的媒体,依旧是社会的未来

林中木白
2026-07-04 10:01:50
世界杯竞彩湃|法国遭遇巴拉圭铁桶阵,加拿大难敌摩洛哥风暴

世界杯竞彩湃|法国遭遇巴拉圭铁桶阵,加拿大难敌摩洛哥风暴

澎湃新闻
2026-07-04 15:00:27
告别休斯顿!火箭今夏离队第2人出炉:场均4+2+1,曾是2号位首发

告别休斯顿!火箭今夏离队第2人出炉:场均4+2+1,曾是2号位首发

熊哥爱篮球
2026-07-04 15:36:56
马斯克揭示:全球有影响力的国家都拒中,只因中国制造取代了他们

马斯克揭示:全球有影响力的国家都拒中,只因中国制造取代了他们

此去经年q
2026-06-20 01:30:10
世界杯前四场八分之一决赛裁判确定,分别来自四个大洲足联

世界杯前四场八分之一决赛裁判确定,分别来自四个大洲足联

懂球帝
2026-07-04 15:19:09
潜伏在我国高层的4大间谍,被安插在军政两界,导致我国损失惨重

潜伏在我国高层的4大间谍,被安插在军政两界,导致我国损失惨重

夜里看海
2026-07-04 05:15:32
永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

小鋭有话说
2026-07-01 13:25:56
穿越回来的人?自称去过2118年:三战、AI统治、CIA时间机器

穿越回来的人?自称去过2118年:三战、AI统治、CIA时间机器

Science科学说
2026-07-03 08:05:03
中国女排好消息!李盈莹归队,大巴车上晒合照,有望第三站亮相

中国女排好消息!李盈莹归队,大巴车上晒合照,有望第三站亮相

跑者排球视角
2026-07-04 15:30:19
不结婚,怎么解决生理需求?58岁的歌唱家张也,给出了最佳回答

不结婚,怎么解决生理需求?58岁的歌唱家张也,给出了最佳回答

悦君兮君不知
2026-07-04 00:01:28
美国独立250周年,川普对美国回归传统的影响被低估

美国独立250周年,川普对美国回归传统的影响被低估

移光幻影
2026-07-04 16:49:13
穆杰塔巴被曝原计划9日出席父亲哈梅内伊的下葬仪式,但被安全官员阻止,他仍在以色列暗杀名单上

穆杰塔巴被曝原计划9日出席父亲哈梅内伊的下葬仪式,但被安全官员阻止,他仍在以色列暗杀名单上

新浪财经
2026-07-05 00:08:22
签完大豆协议,美国又掀桌,特朗普通告全球,绝不让中国接管运河

签完大豆协议,美国又掀桌,特朗普通告全球,绝不让中国接管运河

离离言几许
2026-07-04 00:27:44
86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

垛垛糖
2026-07-04 13:36:20
郑丽文这下彻底栽惨了!

郑丽文这下彻底栽惨了!

小马姨
2026-07-04 11:30:31
伊朗没乱,以色列先乱了,弹劾法案被否决,议员怒骂“犹太纳粹”

伊朗没乱,以色列先乱了,弹劾法案被否决,议员怒骂“犹太纳粹”

甜到你心坎
2026-07-05 02:25:47
一针见血!王治郅痛批中国男篮惨败:输球不是不努力,是不会打球

一针见血!王治郅痛批中国男篮惨败:输球不是不努力,是不会打球

冷桂零落
2026-07-04 10:10:52
“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

一丝不苟的法律人
2026-06-27 14:59:29
2026-07-05 04:31:00
齐鲁壹点 incentive-icons
齐鲁壹点
找记者,上壹点!
662673文章数 83344关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
艺术
手机
旅游
健康

教育要闻

两个孩子拾金不昧,没想到换来全套练习题

艺术要闻

为什么时尚圈集体“失语”?只因这个男人的镜头,太敢拍了!

手机要闻

iPhone Air2再次被确认:散热、双扬声器、双摄,均迎来升级!

旅游要闻

一块石板撑起整个彝族古村,当地流传千年神话,来过的人都称奇!

听说少吃点能抗衰老?专家讲解!

无障碍浏览 进入关怀版