网易首页 > 网易号 > 正文 申请入驻

字节Seed开源长线记忆多模态Agent,像人一样能听会看

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

字节Seed发布全新多模态智能体框架——M3-Agent

像人类一样能听会看、具备长期记忆,并且免费开源!?

M3-Agent的亮点在于,它不仅能够处理实时的视觉和听觉输入,以构建和更新其长期记忆,还发展了语义记忆,能够随着时间的推移积累知识。

此外,为了评估多模态智能体中的记忆有效性和基于记忆的推理,来自字节Seed、浙江大学和上海交通大学的研究团队还开发了一个新的长视频问答基准:M3-Bench,同样开源。

实验表明,通过强化学习训练的M3-Agent在多个基准测试中表现均显著优于基线模型(包括基于商业模型如Gemini-1.5-Pro和GPT-4o的智能体)。

一位热心网友总结了这篇论文的两个核心洞察:

  • 以实体为中心的多模态记忆至关重要。M3-Agent研究表明,通过在人脸、语音和文本中建立具有持久ID的长期结构化记忆,能够显著提升长视频内容的推理能力。
  • 检索推理优于单次RAG。训练一个RL策略来决定何时以及如何查询记忆会产生比盲目检索更强的结果。开发代理的开发者应该将检索视为一个迭代的推理循环,而不是一个一次性步骤。

详细内容及代码可见文末链接。

M3-Agent框架

对于多模态智能体而言,达到像人类一样的智能水平根本上依赖于三种能力:

  • (1)通过多模态传感器持续感知世界;
  • (2)将经验存储在长期记忆中,并逐步构建关于环境的知识;
  • (3)基于积累的记忆进行推理,以指导其行动。

为实现这些目标,字节Seed团队提出了M3-Agent,一个配备长期记忆的新型多模态代理框架。

它通过两个并行过程运作:记忆过程控制过程

记忆过程持续感知实时多模态输入以构建和更新长期记忆;控制过程则解释外部指令,对存储的记忆进行推理,并执行相应的任务。

在记忆过程中,M3-Agent会实时处理输入的视频流,通过生成两种记忆类型来同时捕获细粒度细节和高级抽象信息,类似于人类认知系统:

  • 事件记忆
  • 记录视频中观察到的具体事件。例如,“爱丽丝拿起咖啡说,‘早上没有这个我无法离开’”,以及“爱丽丝将空瓶子扔进绿色的垃圾桶”。
  • 语义记忆
  • 从片段中推导出一般知识。例如,“爱丽丝喜欢早上喝咖啡”和“绿色的垃圾桶用于回收”。

生成的记忆随后会被存入长期记忆库中,该库支持人脸、语音和文本知识等多模态信息存储。

此外,记忆以实体为中心的结构进行组织,例如与同一个人相关的信息(例如他们的脸、声音和相关知识)会以图的格式连接起来,随着智能体不断提取和整合语义记忆,这些关联关系会逐步建立完善。

在控制过程中,M3-Agent利用其长期记忆进行推理并完成任务。

M3-Agent并非使用单轮检索增强生成(RAG)将记忆加载到上下文中,而是采用强化学习来实现多轮推理和迭代记忆检索,能自主从不同维度(如事件或角色)的长期记忆中检索相关信息,从而提高任务成功率。

M3-Bench基准

对于多模态智能体而言,记忆形成与在线视频理解密切相关,而在线视频理解是一项需要实时处理视频流并根据过去的观察做出决策的、具有挑战性的任务。

传统的长视频理解方法(例如在多模态模型中扩展上下文窗口或压缩视觉标记以增加时间覆盖范围)对于无限长的视频流来说,并不具备有效的扩展性。

为了提高可扩展性,基于记忆的方法引入了记忆模块来存储编码的视觉特征以供未来检索。这些架构适合在线视频处理,但它们面临一个基本限制:难以保持长期一致性。

由于它们只存储视觉特征,这些方法难以在长时间内保持对人类身份或演变事件等实体的连贯跟踪。

随着大型多模态和语言模型的快速发展,苏格拉底模型框架已成为已成为在线视频理解领域的一种颇具前景的研究方向。

该方法通过利用多模态模型生成视频描述作为基于语言的记忆,有效提升了系统可扩展性;但它在保持复杂、演变视频内容的长期一致性方面仍然面临挑战。

为此,研究团队提出了M3-Bench,一个用于评估多模态智能体长期记忆推理能力的 LVQA 数据集。

M3-Bench中的每个实例包含一个模拟智能体感知输入的长视频,以及一系列开放式问答对。

该数据集分为两个子集:

  • M3-Bench-robot,包含 100 个从机器人第一人称视角录制的真实世界视频;
  • M3-Bench-web,包含920个网络来源的视频,涵盖更广泛的内容和场景。

为了全面评估智能体回忆过去观察结果和基于记忆进行推理的能力,研究团队整理了五种不同类型的问答题,如下图所示。

总体而言,M3-Bench 的特点是:

  • 长时长的真实世界视频,涵盖了与多模态智能体部署相关的多样化现实场景;
  • 具有挑战性的问题,这些问题超越了浅层感知理解,需要基于长期上下文的复杂推理。

上图为M3-Bench基准的统计概述,每个问题可能对应多种问题类型。

显著优于基线模型

如上表所示,M3-Agent在M3-Bench-robot、M3-Bench-web和VideoMME-long上均优于所有基线模型

具体而言,在M3-Bench-robot 上,M3-Agent比最强的基线模型MA-LLM提高了6.3%的准确率;在 M3-Bench-web和VideoMME-long上,它分别比最强的基线模型Gemini-GPT4o-Hybrid高出了7.7%和5.3%。

研究团队在M3-Bench中针对不同问题类型,将M3-Agent与所有基线进行了进一步评估。结果显示,M3-Agent 在人类理解和跨模态推理方面表现出色。

具体来说,与M3-Bench-robot上表现最佳的基线 MA-LMM 相比,M3-Agent 在人类理解和跨模态推理方面分别提升了4.2%和 8.5%;

在M3-Bench-web上,M3-Agent超越了顶尖基线Gemini-GPT4o-Hybrid,在相应类别中分别取得了15.5%和6.7%的提升。

这些结果表明,M3-Agent在保持角色一致性、深化人类理解以及有效整合多模态信息方面具有卓越能力。

参考链接:https://x.com/omarsar0/status/1956773240623235076
论文:https://www.arxiv.org/abs/2508.09736
代码:https://github.com/bytedance-seed/m3-agent

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么大家现在宁愿等网约车,也不坐出租车?就是想要省心

为什么大家现在宁愿等网约车,也不坐出租车?就是想要省心

随梦而飞起
2026-02-25 00:59:22
新布斯克茨!18岁巴萨中场新星获盛赞:得分能力比布教授更强

新布斯克茨!18岁巴萨中场新星获盛赞:得分能力比布教授更强

体育世界
2026-02-24 17:46:25
崔永熙将改打四号位!广东队被迫阵容大清洗,杜锋交易锋线国手?

崔永熙将改打四号位!广东队被迫阵容大清洗,杜锋交易锋线国手?

绯雨儿
2026-02-24 14:11:20
丰韵:一种关于存在的浓度美学

丰韵:一种关于存在的浓度美学

疾跑的小蜗牛
2026-02-24 22:58:28
癌细胞最爱的5大食物,很多人天天吃!医生提醒:再馋也要管住嘴

癌细胞最爱的5大食物,很多人天天吃!医生提醒:再馋也要管住嘴

孟大夫之家1
2026-02-23 18:33:03
四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

TVB的四小花
2026-01-27 11:03:50
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

青烟小先生
2026-01-31 19:10:22
可悲!已经脱离中华百年的外蒙古,正在把中国人40年的努力毁掉!

可悲!已经脱离中华百年的外蒙古,正在把中国人40年的努力毁掉!

青烟小先生
2026-02-23 19:12:33
中央纪委国家监委:53家中管企业派驻纪检监察组均已全面履职

中央纪委国家监委:53家中管企业派驻纪检监察组均已全面履职

澎湃新闻
2026-02-24 20:50:09
四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

喜欢历史的阿繁
2026-02-07 14:21:17
巴拿马赌输了?撕毁长和租约后,中国占21.4%货运量成致命一击

巴拿马赌输了?撕毁长和租约后,中国占21.4%货运量成致命一击

今日搞笑分享
2026-02-24 20:29:25
一个残忍的现象:当你接触的人越多,就会发现,越是嘴甜、会来事、情商高的人,往往背后最会算计人

一个残忍的现象:当你接触的人越多,就会发现,越是嘴甜、会来事、情商高的人,往往背后最会算计人

品读时刻
2026-01-19 09:08:21
李嘉诚旗下长和发布自愿性公告:董事会对巴拿马之裁定及相应行动表示强烈反对

李嘉诚旗下长和发布自愿性公告:董事会对巴拿马之裁定及相应行动表示强烈反对

每日经济新闻
2026-02-04 08:46:05
特朗普苦等4天,被中方“泼了冷水”,来不了北京?中国话里有话

特朗普苦等4天,被中方“泼了冷水”,来不了北京?中国话里有话

健身狂人
2026-02-24 21:33:44
苹果即将推送iOS 26.3.1系统更新,国行iPhone新增AI功能入口?

苹果即将推送iOS 26.3.1系统更新,国行iPhone新增AI功能入口?

科技兽
2026-02-23 22:00:53
公积金改革可以撬动多少消费?

公积金改革可以撬动多少消费?

金融界
2026-01-29 16:45:29
全新换代威兰达AIR版上市售13.78万起 配置拉满 TSS 4.0+LSD加持

全新换代威兰达AIR版上市售13.78万起 配置拉满 TSS 4.0+LSD加持

娱乐圈的笔娱君
2026-02-24 20:30:49
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

红星新闻
2026-02-23 13:56:15
英伟达震惊世界的芯片

英伟达震惊世界的芯片

半导体行业观察
2026-02-24 09:25:46
2026-02-25 01:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12196文章数 176392关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

数码
教育
亲子
艺术
公开课

数码要闻

AIDA 64 v8.25版来袭,这些新功能太实用!

教育要闻

马马马上上岸!!!TTS《大吉大利复试手册》+复试班:纸质笔记与1v1模拟面试堂堂上线!!

亲子要闻

我嫁中国生了3个孩子,每天带娃堪比春晚!

艺术要闻

你绝对没见过!这位艺术家的马赛克画让人惊叹不已!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版