网易首页 > 网易号 > 正文 申请入驻

豆包团队视频生成新突破:仅凭“视觉”就能学习复杂任务

0
分享至

豆包大模型团队 投稿

现有的视频生成模型,大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习,比如Sora。

然而,语言并不能捕捉真实世界中的所有知识,例如,折纸、打领结等复杂任务难以通过语言清晰表达。

那么,模型能否不依赖语言模型,从纯视觉视角学习知识、认知世界进而掌握推理和规划等能力?

现在,豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld

这是一种通用的视频生成模型,无需依赖语言模型存在,便可统一执行理解和推理任务。VideoWorld利用一种潜在动态模型(Latent Dynamics Model,LDM),高效压缩视频帧间的视觉变化信息,显著提升知识学习效率和效果。

最终,VideoWorld在不依赖任何强化学习搜索或奖励函数机制前提下,达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。

视频地址:
https://mp.weixin.qq.com/s/C1NTUQeofJgJNwnY8hX0Xw?token=1813497773&lang=zh_CN

该工作在业内已引起一定关注。

上的AI领域大V、科技评论网站ReadMultiplex创始人Brian Roemmele认为:

这是机器人学习和推理的重大进步。

论文作者则表示,尽管真实世界视频的生成和泛化仍存在很大挑战,视频生成模型可以成为一种通用的知识学习方法,并充当在现实世界中思考和行动的人工大脑。

目前该项目代码与模型已开源。

仅凭“视觉”,就能学习复杂任务

就像李飞飞教授9年前演讲中提到“幼儿可以不依靠语言理解真实世界”一样,在自然界中,大猩猩和其他灵长类动物主要通过视觉观察来学习重要技能,如觅食和社交互动。人类婴幼儿同样不需要语言便可以理解周围环境。

那么,人工智能模型能否仅通过视觉输入来学习知识?

为探索其中答案,团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。

研究者们认为,围棋可以很好地评估模型的规则学习、推理和规划能力,且围棋图像可以将外观、纹理等复杂细节与高级知识的评估相分离,非常适合对上述问题的探索。同时,机器人任务则考察了模型理解控制规则和规划任务的能力。

模型训练使用一个包含大量视频演示数据的离线数据集,以此,得到一个可以根据过往观测预测未来帧的视频生成器。

训练完成后,模型可以直接学习一个任务相关的映射函数,将生成的视频帧转换为任务执行所需动作。这使得视频生成模型可以在不依赖任何动作标签的情况下,学习和执行具体任务。

首先使用朴素的自回归模型实例化视频生成器,包含一个VQ-VAE编码器-解码器和一个自回归Transformer。编码器将视频帧转换为离散的标记,Transformer在训练期间使用这些标记进行下一标记的预测。

在推理过程中,Transformer生成下一帧的离散标记,这些标记随后由解码器转换回像素空间。

基于上述朴素的框架,他们观测到,视频生成模型可以掌握基本围棋规则、走棋策略以及机器人操纵能力。

但团队也同时发现,视频序列的知识挖掘效率显著落后于以文本形式,具体如下图所示。

团队将这归因于——视频中存在大量冗余信息,影响了模型的学习效率

例如,棋子移动可以仅通过状态序列中的少量位置标记进行编码,而在视频中,则需要视觉编码器产生多得多的标记。这种差异不利于模型对复杂知识的快速学习。

压缩视觉变化,让视频学习更加高效

根据上述观测结果,团队提出了VideoWorld。它在保留丰富视觉信息的同时,对与关键决策和动作相关的视觉变化进行压缩,以实现更有效的视频学习。

VideoWorld引入了一个潜在动态模型(Latent Dynamics Model, LDM),压缩帧间视觉变化为紧凑的潜在编码,提高模型对知识的挖掘效率。

例如,围棋中的多步棋盘变化或机器人中的连续动作表现出强时间相关性。通过将这些多步变化压缩成紧凑嵌入,不仅可增加策略信息的紧凑性,还编码了用于前向规划的指导信息。

LDM采用了MAGVITv2风格的编码器-解码器结构,但取消了时间维度下采样,以保留每帧细节。

接下来,LDM定义了一组注意力模块和对应可学习向量。通过注意力机制,每个向量捕捉第一帧至后续多帧的动态变化信息,然后通过FSQ量化。

最后,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧。

通过使用多个向量顺序编码第一帧到后续多帧的动态变化,VideoWorld实现了紧凑且信息丰富的视觉表示,可以捕捉视觉序列中的短期和长期依赖关系。

通过引入LDM,VideoWorld在仅有300M参数量下,达到专业5段的9x9围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld也展现出了对多任务、多环境的泛化能力。

研发团队对LDM提高视频学习效率的原因,得出以下结论:

  • LDM建模了训练集的数据模式

UMAP可视化表明:LDM建模了训练集中常见的走棋模式,并有效地将短期和长期数据模式压缩至潜在空间中。右图根据机械臂沿X/Y/Z轴运动方向可视化潜在编码,同样表明LDM可以建模多步动态依赖关系。

  • LDM帮助模型在测试时进行前向规划

研发者们还研究了LDM在模型推理中的作用。如下图 UMAP可视化所示,在测试阶段,模型生成的潜在编码按照时间步(Time-step)进行分组,使得模型能够从更长远视角做出围棋决策。

在机器人场景中,研究者们也观察到了类似现象。下图展示了VideoWorld在不同机器人操控任务中预测的潜在编码。不同时间步的潜在编码根据任务类型进行分组,突显了模型逐步捕捉特定任务长程变化的能力。

  • LDM可以生成因果相关的编码

为进一步研究潜在编码的影响,研发团队进行了一项干预实验:用随机标记替换不同时间步的潜在编码,并观察其对模型性能的影响。

实验结果显示,干预第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队认为:改变第一个编码,即下一时间步的最佳决策,会影响所有未来的决策。

One More Thing

尽管VideoWorld在围棋和模拟机器人操控环境中展现了优秀的性能,团队同时也意识到,其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。

未来,团队将着力解决这些难题,推动视频生成模型成为真实世界中的通用知识学习器。

关于豆包大模型团队:

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献,团队研究方向涵盖深度学习、强化学习、LLM、语音、视觉、AI Infra、AI Safety 等。

了解这篇研究的详情,可见以下链接:

论文链接:https://arxiv.org/abs/2501.09781
代码链接:https://github.com/bytedance/VideoWorld
项目主页:https://maverickren.github.io/VideoWorld.github.io

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本为什么挑衅中国,西班牙专家:中国错就错在没跟日本彻底清算

日本为什么挑衅中国,西班牙专家:中国错就错在没跟日本彻底清算

我心纵横天地间
2025-12-08 18:32:33
下周一1月19日,持有这些个股的要小心了(附个股点评)

下周一1月19日,持有这些个股的要小心了(附个股点评)

股市皆大事
2026-01-17 15:49:32
张帆被北控彻底放弃,两年合同签约罗汉琛,北控已成为CBA散养地

张帆被北控彻底放弃,两年合同签约罗汉琛,北控已成为CBA散养地

烟浔渺渺
2026-01-17 02:54:01
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

瓜汁橘长Dr
2025-12-29 11:29:56
袁和平执导吴京主演 《镖人》马来西亚定档大年初一

袁和平执导吴京主演 《镖人》马来西亚定档大年初一

3DM游戏
2026-01-17 21:23:10
23:30,CCTV5直播!中国队VS越南,赢球就进决赛,期待李昊再发威

23:30,CCTV5直播!中国队VS越南,赢球就进决赛,期待李昊再发威

绿茵舞着
2026-01-18 02:49:54
七旬老太去北京看病,发现医生竟是她在云南当知青时生下的孩子

七旬老太去北京看病,发现医生竟是她在云南当知青时生下的孩子

兰姐说故事
2025-01-16 05:05:03
带儿子独守娘家真相大白,潘阳坦白婚姻情况,难怪看不到老公出镜

带儿子独守娘家真相大白,潘阳坦白婚姻情况,难怪看不到老公出镜

徐帮阳
2025-12-25 20:52:45
单亲辣妈夫家破产了?李湘被限流了?邓为没戏拍?敖瑞鹏项目黄了?姨太问答

单亲辣妈夫家破产了?李湘被限流了?邓为没戏拍?敖瑞鹏项目黄了?姨太问答

毒舌扒姨太
2026-01-16 22:11:57
人不会无缘无故患湿疹!研究发现:得湿疹,离不开这6点

人不会无缘无故患湿疹!研究发现:得湿疹,离不开这6点

岐黄传人孙大夫
2026-01-15 07:35:03
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

细说职场
2026-01-05 16:58:04
2026新能源汽车开年不利:销量暴跌2/3 渗透率跌至35%

2026新能源汽车开年不利:销量暴跌2/3 渗透率跌至35%

快科技
2026-01-15 16:19:13
主将即将转会,主帅宣布赛季后走人,水晶宫为何分崩离析?

主将即将转会,主帅宣布赛季后走人,水晶宫为何分崩离析?

星耀国际足坛
2026-01-18 00:26:50
突发!又一家公司财务造假被ST,9万股东踩雷,这个周末过不好了

突发!又一家公司财务造假被ST,9万股东踩雷,这个周末过不好了

财经智多星
2026-01-17 12:08:59
安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

红豆讲堂
2024-11-15 11:25:33
恋情有变?正式退出,陈幸同发声,国乒官宣,或和男友分手

恋情有变?正式退出,陈幸同发声,国乒官宣,或和男友分手

有范又有料
2025-10-18 15:53:51
美军能打赢解放军吗?俄媒:两军差距巨大,除兵员其他全是劣势!

美军能打赢解放军吗?俄媒:两军差距巨大,除兵员其他全是劣势!

我心纵横天地间
2026-01-17 21:29:48
山东临沂侦破网络虚假招聘信息案

山东临沂侦破网络虚假招聘信息案

中工网
2026-01-16 15:54:02
堂哥失踪后,我将堂嫂接来家中,她看着我脸红:你们弟兄俩一个样

堂哥失踪后,我将堂嫂接来家中,她看着我脸红:你们弟兄俩一个样

温情邮局
2025-09-26 11:42:15
2026-01-18 04:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176360关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

杭师大名单造假 调查结果公布:3名校领导被处理

头条要闻

杭师大名单造假 调查结果公布:3名校领导被处理

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

游戏
家居
旅游
房产
公开课

这下好了,英伦侦探风也给老钟玩懂了"/> 主站 商城 论坛 自运营 登录 注册 这下好了,英伦侦探风也给老钟玩懂了 廉颇 2026-01-17 返回专栏...

家居要闻

岁月柔情 现代品质轻奢

旅游要闻

石上生梅,荒坡成景!酉阳叠石花谷藏着武陵山区的振兴密码

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版