网易首页 > 网易号 > 正文 申请入驻

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

0
分享至


新智元报道

编辑:LRST

【新智元导读】Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。

现在最强的多模态大模型,虽然能接收声音和视频输入,但无法做到真正的「同时理解」。

在第一视角视频任务中,模型经常会出现各种问题,比如完全忽略音频信息、错误判断声源位置、用视觉线索「猜声音」,也就是说,现在的多模态大模型只会看,但不会听。

而这正是当前具身智能的一大瓶颈。

Meta研究团队发现:最大瓶颈在数据,而非模型。


论文链接:https://arxiv.org/abs/2602.06139

代码:https://github.com/facebookresearch/EgoAVU

数据:https://huggingface.co/datasets/facebook/EgoAVU_data

当前主流数据集存在三个致命问题:视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注,结果就是导致模型从来没有真正学过如何理解声音与视觉之间的关系。

为解决这一难题,Meta提出了首个自动化音视频数据引擎EgoAVU,是一个全新思路,直接自动生成跨模态数据,论文已被CVPR2026接收



EgoAVU是一个完整的数据生产系统,可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频,最终形成可规模扩展的数据流水线。

一次性生成百万级训练数据


基于EgoAVU,团队构建了两个重要资源:

EgoAVU-Instruct

300万条训练样本,覆盖5大任务:

声源关联(Source–Sound Association, SSA)

问:视频里听到的某个声音(比如滋滋声)来自哪里/什么物体

音视频片段叙述(Audio–Visual Segment Narration, AVSN)

问:在某个时间段(如 240–250 秒),描述周围环境、人物动作,以及能听到的声音

音视频密集叙述(Audio–Visual Dense Narration, AVDN)

问:对整个视频进行更全面、更细节的「看到了什么/听到了什么/做了什么」的密集描述。

时序推理(Temporal Reasoning, TR)

问:某个动作之前/之后发生了什么,通常是多选或从候选项中选择

音视频幻觉检测(Audio–Visual Hallucination, AVH)

问:视频里是否真的存在某个声音/事件(例如「微波炉有没有哔哔声」),用于检测模型是否「编造」。

EgoAVU-Bench

首个专门评测音视频理解能力的基准,包含3000条人工验证问题。

性能提升有多夸张?


实验结果显示,在新数据上微调后,Benchmark性能最高提升113%、其他任务最高提升28%

研究进一步揭示:当前多模态模型普遍存在严重视觉偏置。

EgoAVU带来的最大启示是:未来AI竞争的关键,可能不是「模型结构」,而是「数据引擎能力」。

这标志着多模态AI正在从「模型驱动」迈向新的技术范式「数据驱动」。

第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。

EgoAVU为这些领域提供了关键突破,让多模态大模型第一次真正学会「听懂第一视角世界」。


论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth,指导老师蔡志鹏是Meta的高级研究员,主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题,论文曾评为ECCV18年12篇最佳论文之一,获得英特尔实验室2024年最佳学者奖。


参考资料:

https://arxiv.org/abs/2602.06139

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
寿命长不长,看脸就知道?寿命短的人,脸上一般会有这5个特征!

寿命长不长,看脸就知道?寿命短的人,脸上一般会有这5个特征!

芹姐说生活
2026-06-02 23:16:44
花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

芹姐说生活
2026-05-15 23:37:01
中国男篮险胜KK,FMP,央视解说徐昕表现突出

中国男篮险胜KK,FMP,央视解说徐昕表现突出

陈赩爱体育
2026-06-03 23:20:49
金价崩跌戳破暴富梦,投资者情绪撕裂,金店:价跌了咋没人抢了?

金价崩跌戳破暴富梦,投资者情绪撕裂,金店:价跌了咋没人抢了?

金融八卦女
2026-06-03 13:16:31
为何说年龄超过80岁的人:即便身体健康,也没有多少来日方长?

为何说年龄超过80岁的人:即便身体健康,也没有多少来日方长?

芹姐说生活
2026-05-10 14:11:36
世联赛|中国女排0:3不敌捷克,没有主心骨,年轻人还在交学费

世联赛|中国女排0:3不敌捷克,没有主心骨,年轻人还在交学费

齐鲁壹点
2026-06-03 22:50:42
狂跌40个亿,门店卖不出去,经销商“造反”,曾经的饮料巨头大势已去?

狂跌40个亿,门店卖不出去,经销商“造反”,曾经的饮料巨头大势已去?

快刀财经
2026-05-28 22:18:53
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

江山挥笔
2026-05-26 09:32:15
看看杰伦·布伦森在关键时刻的得分能力,简直堪比迈克尔·乔丹!

看看杰伦·布伦森在关键时刻的得分能力,简直堪比迈克尔·乔丹!

好火子
2026-06-04 01:27:34
中组部明确:这八类人员列入公务员范围!

中组部明确:这八类人员列入公务员范围!

微法官
2026-06-02 08:55:27
男篮补招!郭士强瞄准9人,王哲林彻底无缘,北京队3巨头再次联手

男篮补招!郭士强瞄准9人,王哲林彻底无缘,北京队3巨头再次联手

体坛大事记
2026-06-03 11:33:05
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
中日在香会激烈交锋!小泉讽刺中国,反被韩方一句话问得哑口无言

中日在香会激烈交锋!小泉讽刺中国,反被韩方一句话问得哑口无言

小祁谈历史
2026-06-02 17:08:13
《寻秦记》亏损后,古天乐不认命,官宣两部电影再救港片一把

《寻秦记》亏损后,古天乐不认命,官宣两部电影再救港片一把

笑饮孤鸿非
2026-06-02 17:03:52
太狠了!一个夏天赚10亿美金!他到底凭什么?!

太狠了!一个夏天赚10亿美金!他到底凭什么?!

柚子说球
2026-06-02 22:34:38
台外事部门肯定日菲所谓“划界谈判”后又改口,国台办回应

台外事部门肯定日菲所谓“划界谈判”后又改口,国台办回应

环球网资讯
2026-06-03 13:19:18
170公分黄金比例的筱仓珠生下海了!

170公分黄金比例的筱仓珠生下海了!

孤独的独角兽影视
2026-05-26 09:40:07
如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

心理观察局
2026-05-04 09:23:46
商天娥涉欺凌楊思琦後首現身,神色緊張狂掃除口臭用品引熱議

商天娥涉欺凌楊思琦後首現身,神色緊張狂掃除口臭用品引熱議

粤睇先生
2026-06-04 00:24:59
2026-06-04 01:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

艺术
家居
旅游
公开课
军事航空

艺术要闻

二十年前割麦的场景

家居要闻

江畔轻奢 观云大宅

旅游要闻

“一票跨两省”还游客完整壶口 | 新京报社论

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

媒体:美伊和谈以方却从中作梗 内塔尼亚胡有私人算计

无障碍浏览 进入关怀版