网易首页 > 网易号 > 正文 申请入驻

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

0
分享至


新智元报道

编辑:LRST

【新智元导读】Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。

现在最强的多模态大模型,虽然能接收声音和视频输入,但无法做到真正的「同时理解」。

在第一视角视频任务中,模型经常会出现各种问题,比如完全忽略音频信息、错误判断声源位置、用视觉线索「猜声音」,也就是说,现在的多模态大模型只会看,但不会听。

而这正是当前具身智能的一大瓶颈。

Meta研究团队发现:最大瓶颈在数据,而非模型。


论文链接:https://arxiv.org/abs/2602.06139

代码:https://github.com/facebookresearch/EgoAVU

数据:https://huggingface.co/datasets/facebook/EgoAVU_data

当前主流数据集存在三个致命问题:视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注,结果就是导致模型从来没有真正学过如何理解声音与视觉之间的关系。

为解决这一难题,Meta提出了首个自动化音视频数据引擎EgoAVU,是一个全新思路,直接自动生成跨模态数据,论文已被CVPR2026接收



EgoAVU是一个完整的数据生产系统,可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频,最终形成可规模扩展的数据流水线。

一次性生成百万级训练数据


基于EgoAVU,团队构建了两个重要资源:

EgoAVU-Instruct

300万条训练样本,覆盖5大任务:

声源关联(Source–Sound Association, SSA)

问:视频里听到的某个声音(比如滋滋声)来自哪里/什么物体

音视频片段叙述(Audio–Visual Segment Narration, AVSN)

问:在某个时间段(如 240–250 秒),描述周围环境、人物动作,以及能听到的声音

音视频密集叙述(Audio–Visual Dense Narration, AVDN)

问:对整个视频进行更全面、更细节的「看到了什么/听到了什么/做了什么」的密集描述。

时序推理(Temporal Reasoning, TR)

问:某个动作之前/之后发生了什么,通常是多选或从候选项中选择

音视频幻觉检测(Audio–Visual Hallucination, AVH)

问:视频里是否真的存在某个声音/事件(例如「微波炉有没有哔哔声」),用于检测模型是否「编造」。

EgoAVU-Bench

首个专门评测音视频理解能力的基准,包含3000条人工验证问题。

性能提升有多夸张?


实验结果显示,在新数据上微调后,Benchmark性能最高提升113%、其他任务最高提升28%

研究进一步揭示:当前多模态模型普遍存在严重视觉偏置。

EgoAVU带来的最大启示是:未来AI竞争的关键,可能不是「模型结构」,而是「数据引擎能力」。

这标志着多模态AI正在从「模型驱动」迈向新的技术范式「数据驱动」。

第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。

EgoAVU为这些领域提供了关键突破,让多模态大模型第一次真正学会「听懂第一视角世界」。


论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth,指导老师蔡志鹏是Meta的高级研究员,主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题,论文曾评为ECCV18年12篇最佳论文之一,获得英特尔实验室2024年最佳学者奖。


参考资料:

https://arxiv.org/abs/2602.06139

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

文史明鉴
2026-03-25 19:14:13
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
北京年近八旬老太每天看直播,4000元退休金全网购,家中

北京年近八旬老太每天看直播,4000元退休金全网购,家中

大象新闻
2026-03-26 11:49:02
比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

娱乐圈的笔娱君
2026-03-26 17:21:17
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
百亿龙头,直线涨停!封单超12万手

百亿龙头,直线涨停!封单超12万手

新浪财经
2026-03-26 16:32:05
商业航天巨头冲刺资本市场 A股概念股曝光

商业航天巨头冲刺资本市场 A股概念股曝光

证券时报
2026-03-26 13:02:12
出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

巢客HOME
2026-03-24 06:30:03
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
大学生的天塌了,月薪800起搞个毛线啊?

大学生的天塌了,月薪800起搞个毛线啊?

涛哥锐评
2026-03-26 17:54:00
高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

大风新闻
2026-03-26 18:19:03
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

芳芳历史烩
2026-03-23 03:53:23
张雪峰去世,日媒用了这样一句话评价他...

张雪峰去世,日媒用了这样一句话评价他...

今日日本
2026-03-25 11:10:15
贵州37岁男子离奇失踪近一年,车停在半山腰车门没锁,家属:活要见人死要见尸

贵州37岁男子离奇失踪近一年,车停在半山腰车门没锁,家属:活要见人死要见尸

极目新闻
2026-03-26 12:18:57
刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

鹤羽说个事
2026-03-25 22:25:17
轰然倒塌!自嗨锅母公司破产,从75亿估值到清零,只用了4年

轰然倒塌!自嗨锅母公司破产,从75亿估值到清零,只用了4年

流苏晚晴
2026-03-01 16:48:55
2026-03-26 20:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
艺术
家居
房产
军事航空

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版