网易首页 > 网易号 > 正文 申请入驻

豆包团队视频生成新突破:仅凭“视觉”就能学习复杂任务

0
分享至

豆包大模型团队 投稿

现有的视频生成模型,大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习,比如Sora。

然而,语言并不能捕捉真实世界中的所有知识,例如,折纸、打领结等复杂任务难以通过语言清晰表达。

那么,模型能否不依赖语言模型,从纯视觉视角学习知识、认知世界进而掌握推理和规划等能力?

现在,豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld

这是一种通用的视频生成模型,无需依赖语言模型存在,便可统一执行理解和推理任务。VideoWorld利用一种潜在动态模型(Latent Dynamics Model,LDM),高效压缩视频帧间的视觉变化信息,显著提升知识学习效率和效果。

最终,VideoWorld在不依赖任何强化学习搜索或奖励函数机制前提下,达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。

视频地址:
https://mp.weixin.qq.com/s/C1NTUQeofJgJNwnY8hX0Xw?token=1813497773&lang=zh_CN

该工作在业内已引起一定关注。

上的AI领域大V、科技评论网站ReadMultiplex创始人Brian Roemmele认为:

这是机器人学习和推理的重大进步。

论文作者则表示,尽管真实世界视频的生成和泛化仍存在很大挑战,视频生成模型可以成为一种通用的知识学习方法,并充当在现实世界中思考和行动的人工大脑。

目前该项目代码与模型已开源。

仅凭“视觉”,就能学习复杂任务

就像李飞飞教授9年前演讲中提到“幼儿可以不依靠语言理解真实世界”一样,在自然界中,大猩猩和其他灵长类动物主要通过视觉观察来学习重要技能,如觅食和社交互动。人类婴幼儿同样不需要语言便可以理解周围环境。

那么,人工智能模型能否仅通过视觉输入来学习知识?

为探索其中答案,团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。

研究者们认为,围棋可以很好地评估模型的规则学习、推理和规划能力,且围棋图像可以将外观、纹理等复杂细节与高级知识的评估相分离,非常适合对上述问题的探索。同时,机器人任务则考察了模型理解控制规则和规划任务的能力。

模型训练使用一个包含大量视频演示数据的离线数据集,以此,得到一个可以根据过往观测预测未来帧的视频生成器。

训练完成后,模型可以直接学习一个任务相关的映射函数,将生成的视频帧转换为任务执行所需动作。这使得视频生成模型可以在不依赖任何动作标签的情况下,学习和执行具体任务。

首先使用朴素的自回归模型实例化视频生成器,包含一个VQ-VAE编码器-解码器和一个自回归Transformer。编码器将视频帧转换为离散的标记,Transformer在训练期间使用这些标记进行下一标记的预测。

在推理过程中,Transformer生成下一帧的离散标记,这些标记随后由解码器转换回像素空间。

基于上述朴素的框架,他们观测到,视频生成模型可以掌握基本围棋规则、走棋策略以及机器人操纵能力。

但团队也同时发现,视频序列的知识挖掘效率显著落后于以文本形式,具体如下图所示。

团队将这归因于——视频中存在大量冗余信息,影响了模型的学习效率

例如,棋子移动可以仅通过状态序列中的少量位置标记进行编码,而在视频中,则需要视觉编码器产生多得多的标记。这种差异不利于模型对复杂知识的快速学习。

压缩视觉变化,让视频学习更加高效

根据上述观测结果,团队提出了VideoWorld。它在保留丰富视觉信息的同时,对与关键决策和动作相关的视觉变化进行压缩,以实现更有效的视频学习。

VideoWorld引入了一个潜在动态模型(Latent Dynamics Model, LDM),压缩帧间视觉变化为紧凑的潜在编码,提高模型对知识的挖掘效率。

例如,围棋中的多步棋盘变化或机器人中的连续动作表现出强时间相关性。通过将这些多步变化压缩成紧凑嵌入,不仅可增加策略信息的紧凑性,还编码了用于前向规划的指导信息。

LDM采用了MAGVITv2风格的编码器-解码器结构,但取消了时间维度下采样,以保留每帧细节。

接下来,LDM定义了一组注意力模块和对应可学习向量。通过注意力机制,每个向量捕捉第一帧至后续多帧的动态变化信息,然后通过FSQ量化。

最后,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧。

通过使用多个向量顺序编码第一帧到后续多帧的动态变化,VideoWorld实现了紧凑且信息丰富的视觉表示,可以捕捉视觉序列中的短期和长期依赖关系。

通过引入LDM,VideoWorld在仅有300M参数量下,达到专业5段的9x9围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld也展现出了对多任务、多环境的泛化能力。

研发团队对LDM提高视频学习效率的原因,得出以下结论:

  • LDM建模了训练集的数据模式

UMAP可视化表明:LDM建模了训练集中常见的走棋模式,并有效地将短期和长期数据模式压缩至潜在空间中。右图根据机械臂沿X/Y/Z轴运动方向可视化潜在编码,同样表明LDM可以建模多步动态依赖关系。

  • LDM帮助模型在测试时进行前向规划

研发者们还研究了LDM在模型推理中的作用。如下图 UMAP可视化所示,在测试阶段,模型生成的潜在编码按照时间步(Time-step)进行分组,使得模型能够从更长远视角做出围棋决策。

在机器人场景中,研究者们也观察到了类似现象。下图展示了VideoWorld在不同机器人操控任务中预测的潜在编码。不同时间步的潜在编码根据任务类型进行分组,突显了模型逐步捕捉特定任务长程变化的能力。

  • LDM可以生成因果相关的编码

为进一步研究潜在编码的影响,研发团队进行了一项干预实验:用随机标记替换不同时间步的潜在编码,并观察其对模型性能的影响。

实验结果显示,干预第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队认为:改变第一个编码,即下一时间步的最佳决策,会影响所有未来的决策。

One More Thing

尽管VideoWorld在围棋和模拟机器人操控环境中展现了优秀的性能,团队同时也意识到,其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。

未来,团队将着力解决这些难题,推动视频生成模型成为真实世界中的通用知识学习器。

关于豆包大模型团队:

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献,团队研究方向涵盖深度学习、强化学习、LLM、语音、视觉、AI Infra、AI Safety 等。

了解这篇研究的详情,可见以下链接:

论文链接:https://arxiv.org/abs/2501.09781
代码链接:https://github.com/bytedance/VideoWorld
项目主页:https://maverickren.github.io/VideoWorld.github.io

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特斯拉中国推出夏季专属权益:购Model 3/Y汽车享5年0息

特斯拉中国推出夏季专属权益:购Model 3/Y汽车享5年0息

IT之家
2026-06-30 20:16:38
停更5年,明天回归!曾红极一时又被1元转让,网友沸腾:青春回来了

停更5年,明天回归!曾红极一时又被1元转让,网友沸腾:青春回来了

封面新闻
2026-06-30 19:14:05
中国星链总指挥摊牌,美国1.24万颗卫星上天,超过六成好地方被占

中国星链总指挥摊牌,美国1.24万颗卫星上天,超过六成好地方被占

观史搜寻着
2026-06-30 19:19:41
炸完伊朗!美国害怕了?

炸完伊朗!美国害怕了?

陆弃
2026-06-29 08:00:03
小米粥被发现!医生研究发现:喝得越多,脑梗患者血管或越干净?

小米粥被发现!医生研究发现:喝得越多,脑梗患者血管或越干净?

健康之光
2026-06-30 12:45:10
问界回应M5车内异味质疑:系车主加装配件所致

问界回应M5车内异味质疑:系车主加装配件所致

CNMO科技
2026-06-30 13:34:03
31岁男子在浙江新昌小黄山失联超7天,当地警方已组织多方力量寻找,母亲:他没有登山爱好,失联当天说去接人不知为何上了山

31岁男子在浙江新昌小黄山失联超7天,当地警方已组织多方力量寻找,母亲:他没有登山爱好,失联当天说去接人不知为何上了山

大风新闻
2026-06-30 14:54:37
比广州外教米切尔更适合!广东队迎来新主帅最佳人选,不是李春江

比广州外教米切尔更适合!广东队迎来新主帅最佳人选,不是李春江

绯雨儿
2026-06-30 12:00:27
太沉重了!一张殡仪馆的电子显示屏8位逝者,有6人未能活到55岁

太沉重了!一张殡仪馆的电子显示屏8位逝者,有6人未能活到55岁

火山詩话
2026-06-12 08:54:20
涨价在即,苹果经销商为何大降2000元清库存?

涨价在即,苹果经销商为何大降2000元清库存?

小柱解说游戏
2026-06-30 19:00:20
1:3局面出现,中国台东执法遭围攻,英国首当其冲,中方强势反击

1:3局面出现,中国台东执法遭围攻,英国首当其冲,中方强势反击

小曙说娱
2026-06-29 18:41:06
中国正式进入“超级内卷”时代!只有一种人能赚钱(深度)

中国正式进入“超级内卷”时代!只有一种人能赚钱(深度)

新浪财经
2026-06-23 08:51:12
巴西2-1日本,有4个不争事实,安切洛蒂不愧名帅,日本未来可期

巴西2-1日本,有4个不争事实,安切洛蒂不愧名帅,日本未来可期

王大发不懂球
2026-06-30 06:43:10
密春雷9亿债务危机4年了,董卿没离婚没落魄,却悄悄布局一盘大棋

密春雷9亿债务危机4年了,董卿没离婚没落魄,却悄悄布局一盘大棋

娱小余
2026-06-27 22:42:52
6亿铂金级肉签公布中签结果,中签人数少,股民中到即赚到!

6亿铂金级肉签公布中签结果,中签人数少,股民中到即赚到!

数据挖掘分析
2026-06-30 07:45:47
“别让女儿学舞蹈了”,荷花奖得主在酒馆兼职舞女,家长看蒙了

“别让女儿学舞蹈了”,荷花奖得主在酒馆兼职舞女,家长看蒙了

泽泽先生
2026-06-30 19:47:39
陈露发12分钟含泪视频求和遭拒!霍尊方晒长文回应,五年拉锯和解无望

陈露发12分钟含泪视频求和遭拒!霍尊方晒长文回应,五年拉锯和解无望

情感大头说说
2026-06-30 17:52:31
维尔茨本届世界杯4场3助攻,和他在英超33场的助攻数持平

维尔茨本届世界杯4场3助攻,和他在英超33场的助攻数持平

懂球帝
2026-06-30 06:22:05
史上唯一被灭绝的民族,因过于凶残被各族联合剿杀,名字很耳熟!

史上唯一被灭绝的民族,因过于凶残被各族联合剿杀,名字很耳熟!

小莜读史
2026-06-24 13:27:56
他汀能不能天天吃?忠告:过了74岁以后,服他汀牢记5个关键

他汀能不能天天吃?忠告:过了74岁以后,服他汀牢记5个关键

医学科普汇
2026-06-27 09:00:36
2026-06-30 22:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12873文章数 176508关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

本地
亲子
教育
手机
公开课

本地新闻

贵州小城的新目标:举办“村超”世界杯!

亲子要闻

✨闪闪小葵花 成长正当时✨ 「寻找闪亮小主角」才艺展示活动 表演现场高光集锦,见证萌娃的舞台魅力~

教育要闻

2026成都官方中招会圆满落幕:近200所学校集结,考生家长“一站式”问清升学路

手机要闻

BIGME大我HiBreak Dual 2价格公布,699美元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版