网易首页 > 网易号 > 正文 申请入驻

研究发现Llama 2在识别失礼行为上优于人类,同样场景下GPT频繁出错

0
分享至

人类是复杂的生物。我们的沟通方式是多层次的,心理学家已经设计了多种测试来衡量我们从互动中推断彼此的意义和理解的能力。

人工智能模型在这些测试中的表现越来越好。近日,发表在 Nature Human Behavior 上的一项新研究发现,一些大型语言模型在执行被称为“心智理论”的任务时,表现与人类一样好,在某些情况下甚至超越了人类。

这并不意味着人工智能系统实际上能够读懂我们的感受,但它确实表明在评估心理学家认为的人类独有能力的实验中,这些模型表现得越来越好。

为了更好地了解大型语言模型在这些任务中如何成功和失败以及背后的原理,研究人员希望沿用他们用来测试人类心智理论的相同系统性方法。

理论上,人工智能模型越善于模仿人类,它们在与我们的互动中就越有用和富有同情心。

OpenAI 和谷歌最近都宣布了超级人工智能助手。GPT-4o 和 Astra 的设计目的是提供比其之前版本更流畅、更自然的反馈。

但我们必须避免陷入相信它们拥有与“类人”能力的陷阱,即使它们看起来是这样。

德国汉堡埃彭多夫大学医学中心的神经科学教授克里斯蒂娜·贝基奥(Cristina Becchio)参与了这项研究。

她说:“我们有一种自然的倾向,即认为没有心智的实体也具备(类似人类的)精神状态、心智和意图。将心智理论放在大型语言模型身上,这样的风险是存在的。”

(来源:STEPHANIE ARNETT/MITTR)

心智理论是情商和社会智力的标志,它使我们能够推断他人的意图,并与其互动或表达同情。大多数孩子会在三到五岁之间学会这些技能。

研究人员测试了两个大型语言模型家族,OpenAI 的 GPT-3.5 和 GPT-4,以及 Meta 的 Llama 的三个版本。

他们挑选的任务旨在测试人类的心智理论,包括识别错误信念、识别失礼行为,以及理解隐含而非直接说出的意思(潜台词)。他们还对 1907 名人类参与者进行了测试,作为分数对照。

该小组进行了五种类型的测试。第一项是暗示任务,旨在衡量某人通过间接评论推断他人真实意图的能力。

第二项是错误信念任务,评估某人是否可以推断出他人的真实信念,而他人的信念通常与事实不符。

另一项测试衡量某人是否能识别出他人的行为是失礼(或尴尬)的。

而第四项测试包括讲述奇怪的故事,故事中主人公做了一些不寻常的事情,以评估某人是否能够解释所说的和所做的之间的反差。他们还测试了人们是否能理解讽刺。

人工智能模型在独立的聊天中对每个测试进行了 15 次尝试,这样它们就可以独立处理每个请求,并且它们的回答也以与人类相同的方式进行评分。

研究人员随后对人类志愿者进行了测试,比较了两组的分数。

在涉及间接评论、误导和错误信念的任务中,两种版本的 GPT 的表现都追平或偶尔超越了人类平均水平,而 GPT-4 在讽刺、暗示和奇怪故事测试中的表现优于人类。

Llama 2 的三个模型的表现均低于人类平均水平。

然而,Llama 2 在识别失礼行为和场景方面的表现优于人类,而 GPT 总是提供错误的反馈。

论文作者认为,这是由于 GPT 普遍不愿意对意见发表结论,因为模型经常回应说,没有足够的信息让它们以这样或那样的方式给出回答。

他说:“这些模型肯定没有展示出人类的心智理论。但我们所展示的是,它们有能力对人物或人们的思想进行心理推理。”

美国卡内基梅隆大学助理教授玛藤·萨普(Maarten Sap)没有参与这项研究,他说大型语言模型表现得这么好的一个可能原因是,这些心理测试已经构建得很好了,很可能已经包含在模型的训练数据中了。

他说:“重要的是要承认,当你对小孩子进行虚假信念测试时,他们可能从未见过类似的测试,但语言模型可能见过了。”

最后,我们仍然不了解大型语言模型是如何工作的。

美国哈佛大学的认知科学家托默·乌尔曼(Tomer Ullman)说,像这样的研究可以帮助我们加深对这类模型的理解,比如它们能做什么、不能做什么。他没有参与该项目。

但重要的是,当我们进行这样的大型语言模型测试时,要记住我们真正测试的是什么。

即使人工智能在旨在测量心智理论的测试中表现优于人类,也不意味着心智理论适用于它。

乌尔曼说:“我并不反对基准,但很多人担心我们目前使用基准的方式已经不再有意义,我是其中之一。不管这个东西是如何通过基准测试的,它并非以一种类似人类的方式实现的,至少我是这么认为的。”

支持:Ren

运营/排版:何晨龙

01/ 科学家揭示双层超构光栅新特性,为光子器件提供理论基础,可用于光计算、量子发射和新型显示

02/ 大连化物所团队提出一步法电池回收工艺,极大提高电池回收效率,实现向下一代储能电池的转变

03/ 生命科学大数据操作系统助力研究降本增效?CCF开源创新大赛暨第二届Bio-OS开源开放大赛报名开启

04/ 科学家制备黏土基二维纳流体膜,实现长达30天的盐差能发电,渗透能输出功率达8.61W每平方米

05/ MIT中国博士生提出可验证型神经网络控制器框架,将为控制复杂非线性系统提供全新解决方案

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本四大光刻胶企同时断供,冲击巨大!中方反击力度远远不够!

日本四大光刻胶企同时断供,冲击巨大!中方反击力度远远不够!

坠入二次元的海洋
2026-06-24 17:53:31
重磅加盟!你好,NBA!东部诞生顶级三巨头

重磅加盟!你好,NBA!东部诞生顶级三巨头

篮球实战宝典
2026-06-24 18:51:34
某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

黯泉
2026-06-23 17:44:53
随着哥伦比亚 1-0,世界杯最新夺冠赔率更新:法国从第一跌至第二

随着哥伦比亚 1-0,世界杯最新夺冠赔率更新:法国从第一跌至第二

侧身凌空斩
2026-06-24 12:28:02
早上9点 世界杯2场决斗!韩国生死战:打平=第2 输球可能出局

早上9点 世界杯2场决斗!韩国生死战:打平=第2 输球可能出局

叶青足球世界
2026-06-24 20:17:42
丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

潋滟晴方DAY
2026-06-24 13:19:04
敲定了!重磅三方大交易,篮网正式送走里夫斯

敲定了!重磅三方大交易,篮网正式送走里夫斯

阿讯说天下
2026-06-24 15:42:20
炒冷饭的《抓特务》,还是大院子弟伤痕那一套

炒冷饭的《抓特务》,还是大院子弟伤痕那一套

新潮沉思录
2026-06-24 00:52:49
刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

行者聊官
2026-06-23 18:42:05
北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

千秋文化
2026-06-21 19:49:55
721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

极目新闻
2026-06-23 21:32:14
基金“女神”翻车,拒不认错!

基金“女神”翻车,拒不认错!

鸣金网
2026-06-24 12:44:53
英3名囚犯联手杀死虐童重刑犯?狱警疑睁一只眼闭一只眼…

英3名囚犯联手杀死虐童重刑犯?狱警疑睁一只眼闭一只眼…

英国报姐
2026-06-24 01:10:40
离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

天天热点见闻
2026-06-24 04:39:22
北京人又不是韭菜,凭什么给你走面儿?

北京人又不是韭菜,凭什么给你走面儿?

常识群
2026-06-24 12:56:17
看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

合赞历史
2026-06-24 16:00:09
中国星链总指挥摊牌,美国1.24万颗卫星上天,超过六成好地方被占

中国星链总指挥摊牌,美国1.24万颗卫星上天,超过六成好地方被占

古史青云啊
2026-06-23 16:51:22
河南高考分数线公布

河南高考分数线公布

界面新闻
2026-06-24 20:07:02
“说出去杀你全家”,13岁男孩强奸14岁女孩,当庭释放杀女孩母亲

“说出去杀你全家”,13岁男孩强奸14岁女孩,当庭释放杀女孩母亲

易玄
2026-06-23 13:16:21
“10亿”还干不翻一个贾浅浅?

“10亿”还干不翻一个贾浅浅?

现实的声音
2026-06-24 13:50:39
2026-06-24 21:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16876文章数 515048关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

健康
家居
本地
教育
公开课

神经内科专家破解中风十大谣言

家居要闻

绿意盎然 自然之境

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

教育要闻

3分钟学会一个雅思7分句/段(第349期)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版