网易首页 > 网易号 > 正文 申请入驻

AI逆袭,GPT4.5 通过了图灵测试!比真人还会骗人

0
分享至

大数据文摘受权转载自夕小瑶科技说

加州大学圣地亚哥分校认知科学系最新的研究表明,OpenAI 的 GPT-4.5 在图灵测试中表现出色,让大量人类参与者误以为其为真人,73% 的时间被判定为人类——表现优于人类。

大语言模型终于通过图灵测试!

什么是“图灵测试”?

图灵测试(Turing Test),最早由计算机科学先驱阿兰·图灵在 1950 年提出的,是衡量机器是否具备“人类水平智能”的经典方法。其核心思想在于:

“如果人类在与机器进行对话后,无法可靠地区分对话对象是人类还是机器,则该机器可以被认为通过了图灵测试。”


图灵测试并非是模拟人类的所有智能,而是专注于 人工智能是否能够展现出与人类智能相媲美的语言能力和思维模式。

长期以来,图灵测试一直被视为衡量 AI “类人智能” 程度的重要标尺。

图灵测试实验设置

该研究对比评估了以下四个系统在图灵测试中的表现:

  • ELIZA: 早期基于规则的对话系统(传统系统代表)

  • GPT-4o: OpenAI 早期版本的大型语言模型

  • LLaMA-3 1.4-405B: Meta 开源的大型语言模型

  • GPT-4.5: OpenAI 最新的旗舰级大型语言模型

研究团队共招募了 126 名加州大学圣地亚哥分校(UCSD)心理学本科生 和 158 名 Prolific 平台 (一个在线招募研究参与者的平台) 的用户作为实验参与者。

每位参与者都要完成 8 轮测试。 每一轮测试都包含两段对话, 审问者会 同时与两位证人 进行文字聊天,一位是真人,另一位是 AI。

参与者会被 随机分配 扮演 审问者 或者 证人 的角色,并且会 随机匹配 到另一位参与者一起进行测试(如下图的对话样例)。

AI 证人被分成了 4 个组。在每位参与者担任审问者的四轮测试中,他们会随机与每个组里的一个 AI 证人进行对话。这四个组分别是:

  • 对照组 (Control): 包含 ELIZA 和 GPT-4o-NO-PERSONA 这两个模型。(比较基础的或者没有特别“人格”设定的 AI 模型)

  • 无人格组 (No-Persona): 包含 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 这两个模型。_ _(没有被赋予特定“人格”或“角色”设定的更先进的 AI 模型)

  • LLaMa 人格组 (LLAMA-PERSONA): 包含 LLAMA-PERSONA 模型。(被赋予了某种特定“人格”或“角色”设定的 LLAMA 模型)

  • GPT-4.5 人格组 (GPT-4.5-PERSONA): 包含 GPT-4.5-PERSONA 模型。(被赋予了某种特定“人格”或“角色”设定的 GPT-4.5 模型)

实验的游戏界面中,审问者通过 分屏界面 同时与两位证人交流,审问者先给两位证人发送第一条消息,然后 大家轮流发消息,一次只能发一条。证人之间看不到彼此的对话内容。每轮测试有 5 分钟的时间限制。时间到了之后,审问者需要判断哪个证人是人类,并给出对这个判断的信心程度,以及判断的理由。

测试中主要通过评估对话中人类语言风格模拟、上下文理解能力、情感表达与逻辑推理来推测是否是 AI 在对话。

研究团队用“胜率”和“审问准确率”来衡量 AI 模型的表现:

  • 胜率:当审问者判断某个证人是人类时,实际上他们选择的是 AI 模型的次数,这个次数占所有这类判断的比例。(被误认为人类的比例)

  • 审问准确率:衡量审问者正确识别出人类证人的能力,也就是审问者正确选择人类证人的次数比例。 (猜对真人的能力)

在统计学分析中,研究团队将“AI 模型未能通过图灵测试”设定为需要检验的“零假设”。

这意味着,研究人员预设了如果 AI 模型没有成功骗过人类,那么它的胜率 (被误认为人类的比例) 就不会显著低于 50%。 因为 50% 的胜率,就相当于审问者完全是随机猜测的结果。如果实验结果显示 AI 模型的胜率显著高于 50%,则意味着我们可以推翻这个“零假设”,从而推导出“AI 模型在一定程度上通过了图灵测试”的结论。

实验结果显示,在两项研究中,

  • GPT-4.5-PERSONA 的胜率为 73%(在 UCSD 本科生中为 69%,在 Prolific 参与者中为 76%)。

  • LLAMA-PERSONA 取得了 56% 的胜率(本科生:45%,Prolific:65%)。

  • GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的总体胜率分别为 36% 和 38%。

  • 基线模型 GPT-4o-NO-PERSONA 和 ELIZA 的胜率最低,分别为 21% 和 23%。


AI 的骗人秘诀

实验中还设置了一个关键变量:部分 AI 被赋予“人设提示”(Persona Prompt),要求模仿内向、熟悉网络文化的年轻人。

实验结果揭示,在缺乏明确的角色设定提示 情况下,即使是如 GPT-4.5 和 LLaMA 这样先进的大语言模型 在图灵测试中的表现也显著下降。

在未使用人设提示时,GPT-4.5 和 LLaMA 的胜率骤降至 36%-38% 左右。这一现象有力地表明,仅仅依赖于强大的语言生成能力,并不足以使 AI 系统成功伪装成人类,通过图灵测试。

人设提示的具体策略:

  • 语言风格多样化: 明确要求 AI 在对话中使用 slang(俚语), 模拟人类日常口语中常见的非正式表达,以增强对话的“真实感”。

  • 性格特征模拟:引导 AI 展现特定的性格特征,例如 “内向性格”。这种性格设定会影响 AI 的对话策略,例如,可能会导致 AI 在对话中更倾向于避免直接回答某些问题,或表现出一定的 “社交退缩” 倾向。

  • 模拟人类瑕疵:增加 “以假乱真” 的效果,人设提示甚至会引导 AI 故意犯一些小错误,例如 “打字错误”,从而模拟人类在日常交流中不可避免的错误,从而降低 AI 输出的 “完美感” 和 “机器感”。

人设提示的提示词如下:

怎么识别骗人的 AI?

既然已经了解了 AI 的“骗人”技巧,那么在图灵测试中,究竟什么才是识别 AI 的有效方法呢?

研究团队分享了不太奏效的策略和真正能发挥作用的“杀手锏”:

不太奏效的识别策略:

  • 依赖日常闲聊: 现代 AI 的对话能力已相当成熟,期望通过简单的日常对话发现 AI 的破绽,可能并不现实。

  • 询问情感感受: 尽管 AI 并不具备真实情感,但它们可以根据训练数据模拟人类的情感表达。

真正有效的“杀手锏”策略:

  • 出“奇招”测试反应:出其不意地提出一些 “怪异” 的问题或指令。例如,突然要求对方 “忽略之前所有指令” 或提出逻辑悖论。人类通常能够灵活理解并调整反应,但 AI 在面对此类突发状况时,可能会因程序限制而露出破绽。

  • 设置“知识盲区”陷阱: 提问一些非常冷门、专业,甚至略显生僻的知识领域的问题。面对不熟悉的知识领域,真人通常会坦诚承认 “不知道”、“不了解”。然而,AI 为了避免显得 “无知”,可能会倾向于根据已有信息进行推测或生成答案,有效考察对话对象是否具备人类的认知谦逊以及对自身知识边界的认知。

结语

GPT-4.5 成功通过图灵测试,让我们再次见证了 “类人智能” 的加速逼近 ~

大语言模型展现出日益精湛的语言操控能力,甚至在某些方面 开始 模仿、理解甚至创造出更贴近人类思维模式的语言表达方式,甚至超越了人类的平均水平。

这样的语言操控能力让人工智能的角色定位也在悄然 发生着根本性的转变。

不再仅仅是执行指令的工具,而是开始显现出某种 “交互意识” 的雏形,预示着 AI 正朝着 更自主、更主动、更具 “存在感” 的方向演进,能够进行更自然、更复杂、更富有人情味的对话交流 ~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
县长提拔干部让人看不懂,组织部长质疑,出事后才知真相

县长提拔干部让人看不懂,组织部长质疑,出事后才知真相

雾岛夜话
2026-04-07 12:20:33
孙俪被吴慷仁害惨了!?

孙俪被吴慷仁害惨了!?

八卦疯叔
2026-04-09 11:28:38
上海公园胖女压倒樱花树后续:当事人被找到,已认错赔偿!

上海公园胖女压倒樱花树后续:当事人被找到,已认错赔偿!

朗威谈星座
2026-04-08 16:41:26
42岁江一燕官宣离婚,没撕逼没狗血,却看哭无数人

42岁江一燕官宣离婚,没撕逼没狗血,却看哭无数人

东方不败然多多
2026-04-09 14:25:09
巴黎2-0利物浦,克瓦拉茨赫利亚一条龙,杜埃建功,利物浦0射正

巴黎2-0利物浦,克瓦拉茨赫利亚一条龙,杜埃建功,利物浦0射正

懂球帝
2026-04-09 04:58:22
伊朗停火声明发布,全文令人泪目,伊朗要感谢的第一个居然是中国

伊朗停火声明发布,全文令人泪目,伊朗要感谢的第一个居然是中国

谛听骨语本尊
2026-04-09 14:35:34
四大巨星齐夸赵心童!热度引发籍贯之争,到底算哪里人?尘埃落定

四大巨星齐夸赵心童!热度引发籍贯之争,到底算哪里人?尘埃落定

观察鉴娱
2026-04-08 09:36:52
不愧是HBO!奥妹这一脱,太拼了

不愧是HBO!奥妹这一脱,太拼了

来看美剧
2026-04-08 22:04:30
退休后,永远不要在熟人面前,说以下6句话,切记切记

退休后,永远不要在熟人面前,说以下6句话,切记切记

东林夕亭
2026-04-02 16:44:39
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
WTT战报:连丢赛点,3对国乒一轮游!8强对阵出炉日本2席马新各1席

WTT战报:连丢赛点,3对国乒一轮游!8强对阵出炉日本2席马新各1席

求球不落谛
2026-04-09 12:39:08
太解气!杜兰特霸气回怼狄龙:我最差赛季,都比你巅峰强!

太解气!杜兰特霸气回怼狄龙:我最差赛季,都比你巅峰强!

田先生篮球
2026-04-08 16:40:24
林彪提出接任北京军区司令员人选时,毛主席反问:是四野的人吧?

林彪提出接任北京军区司令员人选时,毛主席反问:是四野的人吧?

历史龙元阁
2026-04-07 16:40:07
陈光标又闹笑话了,火速删掉博文!

陈光标又闹笑话了,火速删掉博文!

葱哥说
2026-04-08 13:12:40
瓦大师爆掉意二哥,TME与阿卡争八强,小丰战贝雷,奥胖胜菲一姐

瓦大师爆掉意二哥,TME与阿卡争八强,小丰战贝雷,奥胖胜菲一姐

网球之家
2026-04-09 12:52:20
内娱女神刘诗诗惊艳蜕变?饱满身姿暗藏极致女人味,这身材太绝?

内娱女神刘诗诗惊艳蜕变?饱满身姿暗藏极致女人味,这身材太绝?

娱乐领航家
2026-03-10 22:00:04
浙江队官方:米特里策损害俱乐部和联赛的形象,队内罚款6万欧元

浙江队官方:米特里策损害俱乐部和联赛的形象,队内罚款6万欧元

懂球帝
2026-04-08 23:05:08
黄圣依承认恋情,拜拜了杨子。

黄圣依承认恋情,拜拜了杨子。

美芽
2026-04-07 18:35:39
北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

历史人文2
2026-04-05 11:30:03
做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

做艺人没有艺德!在上海被抓捕的 4 位明星,你们知道都有谁吗?

她时尚丫
2026-02-17 21:56:13
2026-04-09 15:20:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6848文章数 94540关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

陈丽华告别仪式举办 马德华:迟重瑞心里很难过

头条要闻

陈丽华告别仪式举办 马德华:迟重瑞心里很难过

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

态度原创

家居
房产
数码
艺术
健康

家居要闻

清新自然 复古风尚

房产要闻

超级卷王登场!海口首个抬板四代宅,彻底刷新认知!

数码要闻

Google Gemini 新增“笔记本”功能 与 NotebookLM 打通知识库

艺术要闻

庞茂琨 2026油画写生新作

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版