网易首页 > 网易号 > 正文 申请入驻

AI逆袭,GPT4.5 通过了图灵测试!比真人还会骗人

0
分享至

大数据文摘受权转载自夕小瑶科技说

加州大学圣地亚哥分校认知科学系最新的研究表明,OpenAI 的 GPT-4.5 在图灵测试中表现出色,让大量人类参与者误以为其为真人,73% 的时间被判定为人类——表现优于人类。

大语言模型终于通过图灵测试!

什么是“图灵测试”?

图灵测试(Turing Test),最早由计算机科学先驱阿兰·图灵在 1950 年提出的,是衡量机器是否具备“人类水平智能”的经典方法。其核心思想在于:

“如果人类在与机器进行对话后,无法可靠地区分对话对象是人类还是机器,则该机器可以被认为通过了图灵测试。”


图灵测试并非是模拟人类的所有智能,而是专注于 人工智能是否能够展现出与人类智能相媲美的语言能力和思维模式。

长期以来,图灵测试一直被视为衡量 AI “类人智能” 程度的重要标尺。

图灵测试实验设置

该研究对比评估了以下四个系统在图灵测试中的表现:

  • ELIZA: 早期基于规则的对话系统(传统系统代表)

  • GPT-4o: OpenAI 早期版本的大型语言模型

  • LLaMA-3 1.4-405B: Meta 开源的大型语言模型

  • GPT-4.5: OpenAI 最新的旗舰级大型语言模型

研究团队共招募了 126 名加州大学圣地亚哥分校(UCSD)心理学本科生 和 158 名 Prolific 平台 (一个在线招募研究参与者的平台) 的用户作为实验参与者。

每位参与者都要完成 8 轮测试。 每一轮测试都包含两段对话, 审问者会 同时与两位证人 进行文字聊天,一位是真人,另一位是 AI。

参与者会被 随机分配 扮演 审问者 或者 证人 的角色,并且会 随机匹配 到另一位参与者一起进行测试(如下图的对话样例)。

AI 证人被分成了 4 个组。在每位参与者担任审问者的四轮测试中,他们会随机与每个组里的一个 AI 证人进行对话。这四个组分别是:

  • 对照组 (Control): 包含 ELIZA 和 GPT-4o-NO-PERSONA 这两个模型。(比较基础的或者没有特别“人格”设定的 AI 模型)

  • 无人格组 (No-Persona): 包含 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 这两个模型。_ _(没有被赋予特定“人格”或“角色”设定的更先进的 AI 模型)

  • LLaMa 人格组 (LLAMA-PERSONA): 包含 LLAMA-PERSONA 模型。(被赋予了某种特定“人格”或“角色”设定的 LLAMA 模型)

  • GPT-4.5 人格组 (GPT-4.5-PERSONA): 包含 GPT-4.5-PERSONA 模型。(被赋予了某种特定“人格”或“角色”设定的 GPT-4.5 模型)

实验的游戏界面中,审问者通过 分屏界面 同时与两位证人交流,审问者先给两位证人发送第一条消息,然后 大家轮流发消息,一次只能发一条。证人之间看不到彼此的对话内容。每轮测试有 5 分钟的时间限制。时间到了之后,审问者需要判断哪个证人是人类,并给出对这个判断的信心程度,以及判断的理由。

测试中主要通过评估对话中人类语言风格模拟、上下文理解能力、情感表达与逻辑推理来推测是否是 AI 在对话。

研究团队用“胜率”和“审问准确率”来衡量 AI 模型的表现:

  • 胜率:当审问者判断某个证人是人类时,实际上他们选择的是 AI 模型的次数,这个次数占所有这类判断的比例。(被误认为人类的比例)

  • 审问准确率:衡量审问者正确识别出人类证人的能力,也就是审问者正确选择人类证人的次数比例。 (猜对真人的能力)

在统计学分析中,研究团队将“AI 模型未能通过图灵测试”设定为需要检验的“零假设”。

这意味着,研究人员预设了如果 AI 模型没有成功骗过人类,那么它的胜率 (被误认为人类的比例) 就不会显著低于 50%。 因为 50% 的胜率,就相当于审问者完全是随机猜测的结果。如果实验结果显示 AI 模型的胜率显著高于 50%,则意味着我们可以推翻这个“零假设”,从而推导出“AI 模型在一定程度上通过了图灵测试”的结论。

实验结果显示,在两项研究中,

  • GPT-4.5-PERSONA 的胜率为 73%(在 UCSD 本科生中为 69%,在 Prolific 参与者中为 76%)。

  • LLAMA-PERSONA 取得了 56% 的胜率(本科生:45%,Prolific:65%)。

  • GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的总体胜率分别为 36% 和 38%。

  • 基线模型 GPT-4o-NO-PERSONA 和 ELIZA 的胜率最低,分别为 21% 和 23%。


AI 的骗人秘诀

实验中还设置了一个关键变量:部分 AI 被赋予“人设提示”(Persona Prompt),要求模仿内向、熟悉网络文化的年轻人。

实验结果揭示,在缺乏明确的角色设定提示 情况下,即使是如 GPT-4.5 和 LLaMA 这样先进的大语言模型 在图灵测试中的表现也显著下降。

在未使用人设提示时,GPT-4.5 和 LLaMA 的胜率骤降至 36%-38% 左右。这一现象有力地表明,仅仅依赖于强大的语言生成能力,并不足以使 AI 系统成功伪装成人类,通过图灵测试。

人设提示的具体策略:

  • 语言风格多样化: 明确要求 AI 在对话中使用 slang(俚语), 模拟人类日常口语中常见的非正式表达,以增强对话的“真实感”。

  • 性格特征模拟:引导 AI 展现特定的性格特征,例如 “内向性格”。这种性格设定会影响 AI 的对话策略,例如,可能会导致 AI 在对话中更倾向于避免直接回答某些问题,或表现出一定的 “社交退缩” 倾向。

  • 模拟人类瑕疵:增加 “以假乱真” 的效果,人设提示甚至会引导 AI 故意犯一些小错误,例如 “打字错误”,从而模拟人类在日常交流中不可避免的错误,从而降低 AI 输出的 “完美感” 和 “机器感”。

人设提示的提示词如下:

怎么识别骗人的 AI?

既然已经了解了 AI 的“骗人”技巧,那么在图灵测试中,究竟什么才是识别 AI 的有效方法呢?

研究团队分享了不太奏效的策略和真正能发挥作用的“杀手锏”:

不太奏效的识别策略:

  • 依赖日常闲聊: 现代 AI 的对话能力已相当成熟,期望通过简单的日常对话发现 AI 的破绽,可能并不现实。

  • 询问情感感受: 尽管 AI 并不具备真实情感,但它们可以根据训练数据模拟人类的情感表达。

真正有效的“杀手锏”策略:

  • 出“奇招”测试反应:出其不意地提出一些 “怪异” 的问题或指令。例如,突然要求对方 “忽略之前所有指令” 或提出逻辑悖论。人类通常能够灵活理解并调整反应,但 AI 在面对此类突发状况时,可能会因程序限制而露出破绽。

  • 设置“知识盲区”陷阱: 提问一些非常冷门、专业,甚至略显生僻的知识领域的问题。面对不熟悉的知识领域,真人通常会坦诚承认 “不知道”、“不了解”。然而,AI 为了避免显得 “无知”,可能会倾向于根据已有信息进行推测或生成答案,有效考察对话对象是否具备人类的认知谦逊以及对自身知识边界的认知。

结语

GPT-4.5 成功通过图灵测试,让我们再次见证了 “类人智能” 的加速逼近 ~

大语言模型展现出日益精湛的语言操控能力,甚至在某些方面 开始 模仿、理解甚至创造出更贴近人类思维模式的语言表达方式,甚至超越了人类的平均水平。

这样的语言操控能力让人工智能的角色定位也在悄然 发生着根本性的转变。

不再仅仅是执行指令的工具,而是开始显现出某种 “交互意识” 的雏形,预示着 AI 正朝着 更自主、更主动、更具 “存在感” 的方向演进,能够进行更自然、更复杂、更富有人情味的对话交流 ~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国宴的顶级国风,尽显东方之美!却被外国元首的儿媳旗袍装惊艳

国宴的顶级国风,尽显东方之美!却被外国元首的儿媳旗袍装惊艳

白宸侃片
2026-05-16 01:34:42
坎宁安21+8救主,哈登8失误米切尔半场5分,活塞力克骑士相约抢七

坎宁安21+8救主,哈登8失误米切尔半场5分,活塞力克骑士相约抢七

钉钉陌上花开
2026-05-16 09:46:24
4-3艰难晋级,4-3创造奇迹!东部冠军悬念不大,超级黑马崛起了

4-3艰难晋级,4-3创造奇迹!东部冠军悬念不大,超级黑马崛起了

篮球扫地僧
2026-05-16 09:29:25
古巴爆发大规模抗议!能源危机彻底点燃怒火,居民深夜暴动

古巴爆发大规模抗议!能源危机彻底点燃怒火,居民深夜暴动

策前论
2026-05-15 15:08:53
黄仁勋的脖子真难卡啊

黄仁勋的脖子真难卡啊

喜欢历史的阿繁
2026-05-16 02:18:20
嫁给黄仁勋38年,一双儿女都是公司总监,如今在美国生活安享晚年

嫁给黄仁勋38年,一双儿女都是公司总监,如今在美国生活安享晚年

秋姐居
2026-05-15 14:19:43
特朗普访华晚宴,雷军是座上宾,为什么?

特朗普访华晚宴,雷军是座上宾,为什么?

二月禾
2026-05-15 11:18:14
湖人如何补强争冠?美媒建议7换3引进墨菲 续约詹姆斯和里夫斯

湖人如何补强争冠?美媒建议7换3引进墨菲 续约詹姆斯和里夫斯

罗说NBA
2026-05-16 07:05:18
果然,特朗普刚走,普京就要来了

果然,特朗普刚走,普京就要来了

燕梳楼频道
2026-05-15 15:41:03
惊现夜市闹剧!30岁高颜值少妇当众脱内裤套男子嘴,丈夫全程目睹

惊现夜市闹剧!30岁高颜值少妇当众脱内裤套男子嘴,丈夫全程目睹

老猫观点
2026-05-15 07:34:04
这一刻我才明白:为什么男人都爱看篮球直播,而不愿看马拉松直播

这一刻我才明白:为什么男人都爱看篮球直播,而不愿看马拉松直播

马拉松跑步健身
2026-05-15 19:59:38
特朗普刚离京,发表两条涉台重磅言论!

特朗普刚离京,发表两条涉台重磅言论!

大国之翼
2026-05-16 06:49:13
黄仁勋去吃炸酱面!大热天穿皮衣,站在门口大口吃面条

黄仁勋去吃炸酱面!大热天穿皮衣,站在门口大口吃面条

西楼知趣杂谈
2026-05-15 13:59:38
华为突然宣布:5月15日,Mate80全系正式官降

华为突然宣布:5月15日,Mate80全系正式官降

科技堡垒
2026-05-15 11:44:35
五角大楼突然变卦

五角大楼突然变卦

陆弃
2026-05-15 08:00:05
中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

DS北风
2026-05-15 18:38:11
外交部宣布:尼安蒂将访华

外交部宣布:尼安蒂将访华

鲁中晨报
2026-05-15 17:06:04
马斯克国宴偷吃事件有感

马斯克国宴偷吃事件有感

关尔东
2026-05-15 21:16:57
豆包误导机票退票扣费,承诺赔600元后又反悔!称我是AI没法转账

豆包误导机票退票扣费,承诺赔600元后又反悔!称我是AI没法转账

垛垛糖
2026-05-15 20:49:13
里程碑之战哈登23+7+4+8失误,米切尔18分比肩詹欧,骑士主场首败

里程碑之战哈登23+7+4+8失误,米切尔18分比肩詹欧,骑士主场首败

钉钉陌上花开
2026-05-16 09:43:46
2026-05-16 09:56:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6862文章数 94545关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普抵京当晚在机场执勤的礼兵震动外网 详情披露

头条要闻

特朗普抵京当晚在机场执勤的礼兵震动外网 详情披露

体育要闻

35岁坎特,干了一件这辈子最吵的事

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

数码
本地
旅游
艺术
公开课

数码要闻

5年打磨:前苹果设计师透露AirPods Max研发细节

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

首届中国新文创市集暨潮玩游园会在京开幕

艺术要闻

张自忠密信曝光,书法与国画关系引发讨论

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版