网易首页 > 网易号 > 正文 申请入驻

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。

现在最强的多模态大模型,虽然能接收声音和视频输入,但无法做到真正的「同时理解」。

在第一视角视频任务中,模型经常会出现各种问题,比如完全忽略音频信息、错误判断声源位置、用视觉线索「猜声音」,也就是说,现在的多模态大模型只会看,但不会听。

而这正是当前具身智能的一大瓶颈。

Meta研究团队发现:最大瓶颈在数据,而非模型。


论文链接:https://arxiv.org/abs/2602.06139

代码:https://github.com/facebookresearch/EgoAVU

数据:https://huggingface.co/datasets/facebook/EgoAVU_data

当前主流数据集存在三个致命问题:视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注,结果就是导致模型从来没有真正学过如何理解声音与视觉之间的关系。

为解决这一难题,Meta提出了首个自动化音视频数据引擎EgoAVU,是一个全新思路,直接自动生成跨模态数据,论文已被CVPR2026接收



EgoAVU是一个完整的数据生产系统,可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频,最终形成可规模扩展的数据流水线。

一次性生成百万级训练数据


基于EgoAVU,团队构建了两个重要资源:

EgoAVU-Instruct

300万条训练样本,覆盖5大任务:

声源关联(Source–Sound Association, SSA)

问:视频里听到的某个声音(比如滋滋声)来自哪里/什么物体?

音视频片段叙述(Audio–Visual Segment Narration, AVSN)

问:在某个时间段(如 240–250 秒),描述周围环境、人物动作,以及能听到的声音。

音视频密集叙述(Audio–Visual Dense Narration, AVDN)

问:对整个视频进行更全面、更细节的「看到了什么/听到了什么/做了什么」的密集描述。

时序推理(Temporal Reasoning, TR)

问:某个动作之前/之后发生了什么,通常是多选或从候选项中选择。

音视频幻觉检测(Audio–Visual Hallucination, AVH)

问:视频里是否真的存在某个声音/事件(例如「微波炉有没有哔哔声」),用于检测模型是否「编造」。

EgoAVU-Bench

首个专门评测音视频理解能力的基准,包含3000条人工验证问题。

性能提升有多夸张?


实验结果显示,在新数据上微调后,Benchmark性能最高提升113%、其他任务最高提升28%

研究进一步揭示:当前多模态模型普遍存在严重视觉偏置。

EgoAVU带来的最大启示是:未来AI竞争的关键,可能不是「模型结构」,而是「数据引擎能力」。

这标志着多模态AI正在从「模型驱动」迈向新的技术范式「数据驱动」。

第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。

EgoAVU为这些领域提供了关键突破,让多模态大模型第一次真正学会「听懂第一视角世界」。


论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth,指导老师蔡志鹏是Meta的高级研究员,主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题,论文曾评为ECCV18年12篇最佳论文之一,获得英特尔实验室2024年最佳学者奖。


参考资料:

https://arxiv.org/abs/2602.06139

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今起,这些钱不用交了!国家明确:3月1日起,一批收费取消

今起,这些钱不用交了!国家明确:3月1日起,一批收费取消

陈博世财经
2026-03-01 10:46:47
你们的痛苦不会白费——据称伊朗最高领袖哈梅内伊在空袭中死亡

你们的痛苦不会白费——据称伊朗最高领袖哈梅内伊在空袭中死亡

老王说正义
2026-03-01 11:56:27
英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

快看张同学
2026-02-26 14:22:43
哈梅内伊死后,有伊朗人分析:现在还没到庆祝的时候

哈梅内伊死后,有伊朗人分析:现在还没到庆祝的时候

小萝卜丝
2026-03-01 09:56:11
艾哈迈德·瓦希迪将担任伊朗伊斯兰革命卫队总司令

艾哈迈德·瓦希迪将担任伊朗伊斯兰革命卫队总司令

财联社
2026-03-01 15:42:18
队长传射!7.2亿豪门2-1逆转 7轮6胜+11轮不败 赛季首次跻身前三

队长传射!7.2亿豪门2-1逆转 7轮6胜+11轮不败 赛季首次跻身前三

狍子歪解体坛
2026-03-01 23:58:16
伊朗外长:新任最高领袖将在“一或两天”内被选出

伊朗外长:新任最高领袖将在“一或两天”内被选出

财联社
2026-03-01 23:33:52
哈梅内伊之死和伊朗性史

哈梅内伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

爆角追踪
2026-03-01 14:57:47
中国游客到迪拜参加婚礼被困:目睹导弹从上空飞过,半夜被叫醒躲进地下室,怕被导弹碎片击中不敢乱跑

中国游客到迪拜参加婚礼被困:目睹导弹从上空飞过,半夜被叫醒躲进地下室,怕被导弹碎片击中不敢乱跑

极目新闻
2026-03-01 16:42:53
以军称绝不允许伊朗恢复军事能力

以军称绝不允许伊朗恢复军事能力

界面新闻
2026-03-01 22:26:53
伊朗宣布战果!

伊朗宣布战果!

占豪
2026-03-01 00:34:55
切断霍尔木兹海峡后会发生什么?专家:布伦特原油可能率先突破80美元

切断霍尔木兹海峡后会发生什么?专家:布伦特原油可能率先突破80美元

财联社
2026-03-01 11:29:10
哈梅内伊:旧时代的最后一个独裁者

哈梅内伊:旧时代的最后一个独裁者

黔有虎
2026-03-01 19:08:14
550万一张机票,携程在发战争财?

550万一张机票,携程在发战争财?

不正确
2026-03-01 14:53:30
A股:大家坐稳扶好了,美以伊大冲突,牛市或将再次重演历史了!

A股:大家坐稳扶好了,美以伊大冲突,牛市或将再次重演历史了!

夜深爱杂谈
2026-03-01 19:34:36
挪动一米就锁死?国产五轴破局“电子手铐”,让美日高傲变成废铁

挪动一米就锁死?国产五轴破局“电子手铐”,让美日高傲变成废铁

通鉴史智
2026-02-02 16:14:26
“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

每日经济新闻
2026-02-28 14:37:58
美国2个月内悍然对两国领导人发动袭击,继委内瑞拉、伊朗之后,下一个会是谁?专家:有可能是古巴

美国2个月内悍然对两国领导人发动袭击,继委内瑞拉、伊朗之后,下一个会是谁?专家:有可能是古巴

极目新闻
2026-03-01 15:07:54
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

天天热点见闻
2026-03-01 04:39:01
2026-03-02 00:35:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2303112文章数 5624关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

亲子
教育
数码
游戏
军事航空

亲子要闻

保护孩子宝妈必学,什么是无记忆创伤?

教育要闻

11年,学生平均增高5.52厘米!成都这所小学,登上教育部发布会

数码要闻

古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

《宝可梦》新游热销登顶!模拟建造休闲风

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版