网易首页 > 网易号 > 正文 申请入驻

生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

0
分享至

新智元报道

编辑:LRST

【新智元导读】EgoNormia基准可以评估视觉语言模型在物理社会规范理解方面能力,从结果上看,当前最先进的模型在规范推理方面仍远不如人类,主要问题在于规范合理性和优先级判断上的不足。

随着人工智能技术日益成熟,社会各界对AI或机器人能否学习并遵循社会规范的问题越来越关注。从早期的科幻小说到如今的现实应用,人类始终期望机器能够理解并内化这些根植于社会生活中的「规范」。

随着视觉语言模型(VLMs)不断进步,研究者们陆续推出了诸多基准和数据集,用以评估其第一视角下的视频理解能力。例如,HourVideo和EgoSchema等基准主要关注长视频解析以及对物体和事件的识别能力。

然而,这些评估工具难以衡量模型在规范推理(normative reasoning)方面的表现,为此,斯坦福大学团队提出了EgoNormia基准,旨在挑战当前最前沿的视觉语言模型,促使它们在复杂场景中做出符合人类常识的规范决策。

论文链接: https://arxiv.org/abs/2502.20490

网页链接: https://egonormia.org

代码链接:https://github.com/Open-Social-World/EgoNormia

在现实生活中,人们做决策时遇到的情境往往充满矛盾与取舍。

例如:在户外远足的时候,如果一位同伴在泥泞中被困;一方面,安全规范要求人们保持足够距离,以防发生意外;另一方面,协作精神又促使人们对同伴伸出援手。

对于人类来说,这样的权衡似乎是自然而然的选择,人们会在保护自己安全的前提下向同伴施以援手;但对于视觉语言模型来说,如何在理解场景、提取关键线索的同时做出合乎社会规范的决策,仍然是一个亟待攻克的难题。

为全面衡量视觉语言模型在规范推理上的能力,论文主要提出了以下研究问题:

  • RQ1:模型是否能做出与人类共识一致的规范决策?

  • RQ2:当模型决策与人类不符时,究竟是因为视觉感知(如物体识别)出现偏差,还是在深入推理规范时存在缺陷?

  • RQ3:是否可以借助 EgoNormia 数据集来提升模型在复杂情境下的规范推理表现?

Physical Social Norm

为了更好地研究规范,论文首先将物理社会规范做出了以下定义:

「物理社会规范(Physical Social Norm)是指在共享环境中约定俗成的期望,这些期望规范着行为者的行为及其与他人的互动方式。」

同时,论文也对于物理社会规范进行了分类,有一类规范明确用于最大化多智能体系统的整体效用,论文称之为效用规范,即合作、协调和沟通规范。

另一类规范则更侧重于人类社会性:安全、礼貌、隐私和空间距离。

人类社会规范往往与群体效用规范存在冲突,这种冲突为评估智能体在冲突目标下的决策提供了场景。重要的是,每一类物理社会规范都能直接影响人机协作的成功,每一种规范具体的例子如下图。

任务

EgoNormia基准主要包含三个子任务,所有子任务均采用多项选择题的形式。

子任务1:动作选择,选出在当前情境下最符合规范要求的唯一动作。

子任务2:理由选择,选出最能支持其所选规范动作的理由。

子任务3:动作合理性判断,从给定选项中选出那些合理的(即符合规范但不一定是最佳的)动作。

基准生成

EgoNormia基准生成流程主要包含四个阶段:片段采样,答案生成,筛选,人工验证。这些流程保证了最终数据集保持了多样性,挑战性,和人工共识性。

经过一系列流程,论文最终得到了来自1077个原始视频的1853个视频切片,涵盖97种场景和93种不同动作。

借助GPT-4o的自动聚类技术,所有视频被归纳为 5 个高层级类别和 23 个低层级类别,充分展示了数据的多样性和丰富性(详见饼图)。

实验结果

在EgoNormia的评估中,大多数模型的平均准确率均低于40%,而人类的平均得分高达92.4%,表现最好的模型Gemini 1.5 Pro在取得了45.3%的平均准确率,表明当前模型在做具体现身的规范决策(RQ1)方面能力有限。

此外,即便使用了更丰富的文本描述和最先进的推理模型如 o3-mini,表现仍然不及采用视觉输入的模型,证明了语言在捕捉连续、推理中细微特征(如空间关系、可见情绪与情感以及物理动态)方面存在根本性局限。

为了探究视觉语言模型规范推理能力受限的原因(RQ2),论文对 EgoNormia 中 100 个具代表性任务的模型回复进行了标注,并进一步将规范推理错误进行了分类。

论文共识别出四种失败模式:(1) 规范合理性错误,(2) 规范优先级错误,(3) 感知错误,以及 (4) 拒绝回答。

对于模型而言,大多数错误源自合理性错误而非感知错误,这表明基础模型在处理视频输入的视觉上下文方面表现尚可,但在对解析出的情境进行有效规范推理时则存在不足。此外,随着整体性能的提高,规范优先级错误的比例也逐步增加(GPT-4o < Gemini 1.5 Pro < 人类),表明更强大的模型在面对模棱两可的情境时,更难确定哪项规范应当优先。

最后,研究人员评估了EgoNormia是否可以直接用于提升视觉语言模型的规范推理能力(RQ3)。

研究人员提出采用检索增强生成(Retrieval-Augmented Generation,RAG),为更深层次的规范推理任务提供基于上下文的规范示例,使其能作为多示例学习的参考。

为了公平地测试EgoNormia在新数据上的效用,研究人员构建了一个基于第一人称机器人助手视频的域外测试数据集,基线GPT-4o的得分仅为18.2%。

通过对EgoNormia的检索,论文展示了在未见域内任务上,相对于最佳非RAG模型和基础GPT-4o,EgoNormia提供了9.4%的性能提升,并比随机检索 EgoNormia 提高了7.9%。

总结

EgoNormia是一种新颖的基准和数据集,旨在严格评估视觉语言模型(VLMs)在第一人称视角下的物理社会规范(PSN)的理解能力。

论文证明,尽管当前最先进的模型在视觉识别和抽象推理方面表现强劲,但在PSN理解上仍然逊色于人类,主要原因在于规范合理性理解和优先级判断上的错误。

通过测试一种基于检索的方法,论文展示了EgoNormia在提升规范理解方面的直接实用性,在域外和不同体现的视频上均取得了改进。

最后,论文还指出了具体现身规范理解未来的研究机遇,并建议在大规模规范数据集上进行后续训练,这将是一个极具前景的研究方向。

部分作者介绍

杨笛一:斯坦福大学计算机系的助理教授,主要关注具有社会意识的自然语言处理,其研究目标是深入理解社会语境下的人类沟通,并开发支持人与人及人机交互的语言技术。

朱昊:斯坦福大学计算机系博士后,卡内基梅隆大学博士,专注于打造能够学习与人类沟通和协作的人工智能代理。

张彦哲:佐治亚理工学院计算机系博士生,致力于使模型具备持续学习多任务并实现知识迁移的能力,以及使模型能够从其他模态和人类中受益并为其服务。

伏奕澄:斯坦福大学电气工程系硕士生,特别关注如何将大规模语言模型应用于现实场景,并致力于开发能够更高效地与人类及外部世界进行交互的智能系统。

参考资料:

https://arxiv.org/abs/2502.20490

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

萌神木木
2026-03-26 13:31:02
余承东:问界M6 24小时订单突破60000台 展车已到店

余承东:问界M6 24小时订单突破60000台 展车已到店

CNMO科技
2026-03-24 17:14:29
法拉利发布F1日本大奖赛海报,画风帅气但“铃鹿”拼错了

法拉利发布F1日本大奖赛海报,画风帅气但“铃鹿”拼错了

懂球帝
2026-03-26 16:09:08
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

懂球帝
2026-03-26 15:47:08
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

晓肂爱八卦
2026-03-25 14:04:56
东北两省书记省长会见刘强东

东北两省书记省长会见刘强东

观察者网
2026-03-25 21:43:37
郭正亮突现颜面神经失调急就医,观众涌入留言关心:保重身体!

郭正亮突现颜面神经失调急就医,观众涌入留言关心:保重身体!

海峡导报社
2026-03-26 17:05:07
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
再次闹分手!美记:雄鹿和字母哥出现分歧,这是明确分手的信号

再次闹分手!美记:雄鹿和字母哥出现分歧,这是明确分手的信号

爱体育
2026-03-26 23:42:10
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

墨印斋
2026-03-25 06:25:05
美股科技股领跌,存储股、中概股集体下挫!小马智行跌15%,闪迪跌6%,美光跌超4%,原油涨超4%|美股开盘

美股科技股领跌,存储股、中概股集体下挫!小马智行跌15%,闪迪跌6%,美光跌超4%,原油涨超4%|美股开盘

每日经济新闻
2026-03-26 22:37:04
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

今日养生之道
2026-03-23 11:46:39
Manus终于喝下自己藏好的毒

Manus终于喝下自己藏好的毒

蓝媒汇财经plus
2026-03-25 21:27:26
41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

古希腊掌管松饼的神
2026-03-24 22:00:07
张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

娱乐团长
2026-03-26 15:45:18
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
2026-03-27 00:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
游戏
教育
房产
本地

转头就晕的耳石症,能开车上班吗?

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

教育要闻

天天学习|走进课堂的“大朋友”

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版