网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

研究发现Llama 2在识别失礼行为上优于人类，同样场景下GPT频繁出错

2024-05-23 22:01:29　来源: DeepTech深科技

北京举报

0

分享至

人类是复杂的生物。我们的沟通方式是多层次的，心理学家已经设计了多种测试来衡量我们从互动中推断彼此的意义和理解的能力。

人工智能模型在这些测试中的表现越来越好。近日，发表在 Nature Human Behavior 上的一项新研究发现，一些大型语言模型在执行被称为“心智理论”的任务时，表现与人类一样好，在某些情况下甚至超越了人类。

这并不意味着人工智能系统实际上能够读懂我们的感受，但它确实表明在评估心理学家认为的人类独有能力的实验中，这些模型表现得越来越好。

为了更好地了解大型语言模型在这些任务中如何成功和失败以及背后的原理，研究人员希望沿用他们用来测试人类心智理论的相同系统性方法。

理论上，人工智能模型越善于模仿人类，它们在与我们的互动中就越有用和富有同情心。

OpenAI 和谷歌最近都宣布了超级人工智能助手。GPT-4o 和 Astra 的设计目的是提供比其之前版本更流畅、更自然的反馈。

但我们必须避免陷入相信它们拥有与“类人”能力的陷阱，即使它们看起来是这样。

德国汉堡埃彭多夫大学医学中心的神经科学教授克里斯蒂娜·贝基奥（Cristina Becchio）参与了这项研究。

她说：“我们有一种自然的倾向，即认为没有心智的实体也具备（类似人类的）精神状态、心智和意图。将心智理论放在大型语言模型身上，这样的风险是存在的。”

（来源：STEPHANIE ARNETT/MITTR）

心智理论是情商和社会智力的标志，它使我们能够推断他人的意图，并与其互动或表达同情。大多数孩子会在三到五岁之间学会这些技能。

研究人员测试了两个大型语言模型家族，OpenAI 的 GPT-3.5 和 GPT-4，以及 Meta 的 Llama 的三个版本。

他们挑选的任务旨在测试人类的心智理论，包括识别错误信念、识别失礼行为，以及理解隐含而非直接说出的意思（潜台词）。他们还对 1907 名人类参与者进行了测试，作为分数对照。

该小组进行了五种类型的测试。第一项是暗示任务，旨在衡量某人通过间接评论推断他人真实意图的能力。

第二项是错误信念任务，评估某人是否可以推断出他人的真实信念，而他人的信念通常与事实不符。

另一项测试衡量某人是否能识别出他人的行为是失礼（或尴尬）的。

而第四项测试包括讲述奇怪的故事，故事中主人公做了一些不寻常的事情，以评估某人是否能够解释所说的和所做的之间的反差。他们还测试了人们是否能理解讽刺。

人工智能模型在独立的聊天中对每个测试进行了 15 次尝试，这样它们就可以独立处理每个请求，并且它们的回答也以与人类相同的方式进行评分。

研究人员随后对人类志愿者进行了测试，比较了两组的分数。

在涉及间接评论、误导和错误信念的任务中，两种版本的 GPT 的表现都追平或偶尔超越了人类平均水平，而 GPT-4 在讽刺、暗示和奇怪故事测试中的表现优于人类。

Llama 2 的三个模型的表现均低于人类平均水平。

然而，Llama 2 在识别失礼行为和场景方面的表现优于人类，而 GPT 总是提供错误的反馈。

论文作者认为，这是由于 GPT 普遍不愿意对意见发表结论，因为模型经常回应说，没有足够的信息让它们以这样或那样的方式给出回答。

他说：“这些模型肯定没有展示出人类的心智理论。但我们所展示的是，它们有能力对人物或人们的思想进行心理推理。”

美国卡内基梅隆大学助理教授玛藤·萨普（Maarten Sap）没有参与这项研究，他说大型语言模型表现得这么好的一个可能原因是，这些心理测试已经构建得很好了，很可能已经包含在模型的训练数据中了。

他说：“重要的是要承认，当你对小孩子进行虚假信念测试时，他们可能从未见过类似的测试，但语言模型可能见过了。”

最后，我们仍然不了解大型语言模型是如何工作的。

美国哈佛大学的认知科学家托默·乌尔曼（Tomer Ullman）说，像这样的研究可以帮助我们加深对这类模型的理解，比如它们能做什么、不能做什么。他没有参与该项目。

但重要的是，当我们进行这样的大型语言模型测试时，要记住我们真正测试的是什么。

即使人工智能在旨在测量心智理论的测试中表现优于人类，也不意味着心智理论适用于它。

乌尔曼说：“我并不反对基准，但很多人担心我们目前使用基准的方式已经不再有意义，我是其中之一。不管这个东西是如何通过基准测试的，它并非以一种类似人类的方式实现的，至少我是这么认为的。”

支持：Ren

运营/排版：何晨龙

01/ 科学家揭示双层超构光栅新特性，为光子器件提供理论基础，可用于光计算、量子发射和新型显示

02/ 大连化物所团队提出一步法电池回收工艺，极大提高电池回收效率，实现向下一代储能电池的转变

03/ 生命科学大数据操作系统助力研究降本增效？CCF开源创新大赛暨第二届Bio-OS开源开放大赛报名开启

04/ 科学家制备黏土基二维纳流体膜，实现长达30天的盐差能发电，渗透能输出功率达8.61W每平方米

05/ MIT中国博士生提出可验证型神经网络控制器框架，将为控制复杂非线性系统提供全新解决方案

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

721分（满分800分），“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

极目新闻 2026-06-23 21:32:14
21148 跟贴 21148
双胞胎高考成绩双双650+！网友：不仅长得像，智商都“复制粘贴”

星视频 2026-06-24 10:04:42
23 跟贴 23

中方投下赞成票

政知新媒体 2026-06-24 09:57:23
1784 跟贴 1784

多地优化政策：停车61分钟，再不能按2小时收费了

阳泉日报 2026-06-24 16:57:00
36 跟贴 36
41岁C罗梅开二度创六届进球纪录：不想与他人比较我只希望球队能赢｜封面头条

封面新闻 2026-06-24 10:09:03
218 跟贴 218

网友吐槽“被WPS背刺了”，公司回应

南方都市报 2026-06-23 20:17:09
1754 跟贴 1754

武汉60岁阿姨公园采摘野生蘑菇煮汤，狗吃了没事人却险进ICU，医生凭一碗蘑菇汤锁定“元凶”

环球网资讯 2026-06-24 17:41:26
6 跟贴 6
福建高考分数线发布

央视新闻 2026-06-24 16:41:54
621 跟贴 621

山东曲阜动物园被指将狗狗染成熊猫色用以宣传引流，园方：若大家不喜欢会考虑取消

南阳日报 2026-06-24 18:34:49
2 跟贴 2
豆包专业版采用三级阶梯定价方案，最高一年6000元

第一财经 2026-06-24 09:14:12
1090 跟贴 1090
端午假期第二天北京市属公园迎客超38万人次

北青网-北京青年报 2026-06-20 14:47:09
132 跟贴 132
著名作家毕飞宇获聘为江苏省政府参事

澎湃新闻 2026-06-24 17:22:27
27 跟贴 27
中一签最高赚超20万！新股，又见“大肉签”

证券时报 2026-06-24 10:10:10
167 跟贴 167
个税飙升12%，收入只增4.2%，反差信号背后的促消费难点｜商业微史记

界面新闻 2026-06-24 14:09:58
275 跟贴 275
“开屏广告没了！”网友反馈称百度地图、高德地图、网易云音乐等APP均已取消

都市快报橙柿互动 2026-06-24 09:14:06
362 跟贴 362
深成指、创业板指双双涨1%

每日经济新闻 2026-06-24 13:32:06
59 跟贴 59
绑定本土出行巨头，小马智行Robotaxi登陆新加坡市场

南方都市报 2026-06-24 19:58:03
1 跟贴 1
2026年NBA选秀第六顺位：迈克尔-布朗

北青网-北京青年报 2026-06-24 20:59:17
1 跟贴 1
AJ-迪班萨：“后勒布朗时代”的联盟门面，再添一员！

北青网-北京青年报 2026-06-24 20:59:15
1 跟贴 1
张家界大庸古城将重新开业！曾因耗资24亿4年亏损超10亿被焦点访谈“关注”

红星新闻 2026-06-24 19:33:08
0 跟贴 0
爱心座椅的善意需我们共同守护——地铁爱心座椅争执事件追踪

红星新闻 2026-06-24 21:20:16
0 跟贴 0
上海一女子要求顺风车司机抬箱子到三楼家里，被拒后吐槽：你真的坍上海人的台

新民晚报 2026-06-24 21:11:58
0 跟贴 0

日本四大光刻胶企同时断供，冲击巨大！中方反击力度远远不够！

日本四大光刻胶企同时断供，冲击巨大！中方反击力度远远不够！

坠入二次元的海洋

2026-06-24 17:53:31

重磅加盟！你好，NBA！东部诞生顶级三巨头

重磅加盟！你好，NBA！东部诞生顶级三巨头

篮球实战宝典

2026-06-24 18:51:34

某地瑜伽馆惊现印度男人教练不堪入目，网友说：瑜伽是印度房中术

某地瑜伽馆惊现印度男人教练不堪入目，网友说：瑜伽是印度房中术

黯泉

2026-06-23 17:44:53

随着哥伦比亚 1-0，世界杯最新夺冠赔率更新：法国从第一跌至第二

随着哥伦比亚 1-0，世界杯最新夺冠赔率更新：法国从第一跌至第二

侧身凌空斩

2026-06-24 12:28:02

早上9点世界杯2场决斗！韩国生死战：打平=第2 输球可能出局

早上9点世界杯2场决斗！韩国生死战：打平=第2 输球可能出局

叶青足球世界

2026-06-24 20:17:42

丧妻不到三月，74岁“唐僧”被拍与年轻女子同行，原因很简单

丧妻不到三月，74岁“唐僧”被拍与年轻女子同行，原因很简单

潋滟晴方DAY

2026-06-24 13:19:04

敲定了！重磅三方大交易，篮网正式送走里夫斯

敲定了！重磅三方大交易，篮网正式送走里夫斯

阿讯说天下

2026-06-24 15:42:20

炒冷饭的《抓特务》，还是大院子弟伤痕那一套

炒冷饭的《抓特务》，还是大院子弟伤痕那一套

新潮沉思录

2026-06-24 00:52:49

刻意钻空子！印度游客在秦岭禁火区烧烤，外籍游客有特权？

刻意钻空子！印度游客在秦岭禁火区烧烤，外籍游客有特权？

行者聊官

2026-06-23 18:42:05

北京一位空姐嫁给了打工仔，婚后一年，她才得知丈夫真实身份

北京一位空姐嫁给了打工仔，婚后一年，她才得知丈夫真实身份

千秋文化

2026-06-21 19:49:55

721分（满分800分），“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

721分（满分800分），“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

极目新闻

2026-06-23 21:32:14

基金“女神”翻车，拒不认错！

鸣金网

2026-06-24 12:44:53

英3名囚犯联手杀死虐童重刑犯？狱警疑睁一只眼闭一只眼…

英3名囚犯联手杀死虐童重刑犯？狱警疑睁一只眼闭一只眼…

英国报姐

2026-06-24 01:10:40

离谱！成都地铁老头强拽女孩让座殴打孩子母亲，官方发声全网炸锅

离谱！成都地铁老头强拽女孩让座殴打孩子母亲，官方发声全网炸锅

天天热点见闻

2026-06-24 04:39:22

北京人又不是韭菜，凭什么给你走面儿？

北京人又不是韭菜，凭什么给你走面儿？

常识群

2026-06-24 12:56:17

看完看台上的七位大神，再看场上的巴西队员，巴西球迷心凉了半截

看完看台上的七位大神，再看场上的巴西队员，巴西球迷心凉了半截

合赞历史

2026-06-24 16:00:09

中国星链总指挥摊牌，美国1.24万颗卫星上天，超过六成好地方被占

中国星链总指挥摊牌，美国1.24万颗卫星上天，超过六成好地方被占

古史青云啊

2026-06-23 16:51:22

河南高考分数线公布

界面新闻

2026-06-24 20:07:02

“说出去杀你全家”，13岁男孩强奸14岁女孩，当庭释放杀女孩母亲

“说出去杀你全家”，13岁男孩强奸14岁女孩，当庭释放杀女孩母亲

易玄

2026-06-23 13:16:21

“10亿”还干不翻一个贾浅浅？

“10亿”还干不翻一个贾浅浅？

现实的声音

2026-06-24 13:50:39

DeepTech深科技

麻省理工科技评论独家合作

16876文章数 515048关注度

往期回顾全部

科技要闻

豆包专业版上线：定价68-500元每月

头条要闻

外媒：又一名美四星上将在美防长迫使下提前离职

头条要闻

外媒：又一名美四星上将在美防长迫使下提前离职

体育要闻

字母哥，会把凯尔特人拆了吗？

娱乐要闻

向佐向佑兄弟合体直播！母子终于和解

财经要闻

爆料人：如果我错了，赔偿坐牢都接受

汽车要闻

施鹏泽：为什么奥迪E7X强调座舱气味安全?

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

本地

教育

公开课

神经内科专家破解中风十大谣言

家居要闻

绿意盎然自然之境

本地新闻

2026世界杯全勤太难？这份保姆级攻略请收好

教育要闻

3分钟学会一个雅思7分句/段（第349期）

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版