网易首页 > 网易号 > 正文 申请入驻

江海证券:VideoWorld模型实现无需语言生成视频的创新突破

0
分享至

财中社2月13日电 事件:

2025年2月10日,豆包大模型团队与北京交通大学、中国科学技术大学联合提出视频生成实验模型VideoWorld。不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。

江海证券发表观点:

VideoWorld去掉语言模型,实现了统一执行理解和推理任务。

现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。作为一种通用视频生成实验模型,VideoWorld去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。尽管面向真实世界的视频生成和泛化仍存在很大挑战,视频生成依然可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。目前,该项目代码与模型已开源。

VideoWorld模型架构上使用朴素的自回归模型实例化视频生成器,包含一个VQ-VAE编码器-解码器和一个自回归Transformer。

在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。模型架构上,团队使用朴素的自回归模型实例化视频生成器,它包含一个VQ-VAE编码器-解码器和一个自回归Transformer。编码器负责将视频帧(画面)转换为离散标记,Transformer在训练期间使用这些标记预测下一标记。在推理过程中,Transformer生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为任务执行动作。这让视频生成实验模型可在不依赖任何动作标签情况下,学习和执行具体任务。

VideoWorld模型压缩视觉变化,实现了更有效的视频学习。

通常,视频编码需要数百或数千个离散标记来捕捉每帧内的视觉信息,这导致知识被稀疏地嵌入标记中。VideoWorld引入了一个潜在动态模型(LatentDynamics Model, LDM),可将帧间视觉变化压缩为紧凑的潜在编码,提高模型的知识挖掘效率。通过引入LDM,VideoWorld在仅有300M参数量下,达到专业5段的9x9围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld也展现出了对多任务、多环境的泛化能力。

如果您有新闻线索,请联系我们:newsroom@caizhongshe.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“消灭所有参加葬礼的人!”特朗普被百万送葬队伍震撼,撂出狠话

“消灭所有参加葬礼的人!”特朗普被百万送葬队伍震撼,撂出狠话

领略非凡
2026-07-05 19:02:54
王金平抛出“主权归一”,大陆回应划红线,对话大门并未关闭

王金平抛出“主权归一”,大陆回应划红线,对话大门并未关闭

小琴动漫
2026-07-06 00:24:18
都2026年了!日本史上最年轻民选女市长还因为休产假遭全国围攻?

都2026年了!日本史上最年轻民选女市长还因为休产假遭全国围攻?

新民周刊
2026-07-05 13:17:27
协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

青苹果sht
2026-06-30 05:50:59
戒烟的惊人发现!研究发现:戒烟5年以上,死亡率接近从未吸烟者

戒烟的惊人发现!研究发现:戒烟5年以上,死亡率接近从未吸烟者

今日养生之道
2026-07-05 21:32:06
4-3!狂救5赛点!半决赛诞生,蒯曼创造乒坛奇迹,再战张本美和

4-3!狂救5赛点!半决赛诞生,蒯曼创造乒坛奇迹,再战张本美和

南海浪花
2026-07-05 12:08:22
魏银仓设局骗走董明珠26亿跑路!蛰伏7年铁娘子逆风翻盘狂赚百亿

魏银仓设局骗走董明珠26亿跑路!蛰伏7年铁娘子逆风翻盘狂赚百亿

奇思妙想生活家
2026-07-05 09:45:31
3大猛料炸锅!杜锋下课内幕+国手全装病+朱旭航离队,谁在毁男篮

3大猛料炸锅!杜锋下课内幕+国手全装病+朱旭航离队,谁在毁男篮

天光破云来
2026-07-06 05:24:32
克林顿、小布什、奥巴马、拜登发声

克林顿、小布什、奥巴马、拜登发声

观察者网
2026-07-05 21:41:04
张本美和爆冷登顶!危机扑面而来,会成为国乒十年最大隐患吗

张本美和爆冷登顶!危机扑面而来,会成为国乒十年最大隐患吗

八卦阿弥
2026-07-05 10:34:09
这不是愚人节,这就是足球,美国按规则执行,你又能如何?

这不是愚人节,这就是足球,美国按规则执行,你又能如何?

光辉记
2026-07-06 05:53:48
哈兰德父亲:吾儿在曼城很开心,但任何球员都想为皇马效力

哈兰德父亲:吾儿在曼城很开心,但任何球员都想为皇马效力

懂球帝
2026-07-06 05:04:06
去省厅报到遇前妻,她羞辱我不懂规矩,我坐上厅长位:你再说一遍

去省厅报到遇前妻,她羞辱我不懂规矩,我坐上厅长位:你再说一遍

千秋文化
2026-07-02 19:53:21
爸把1300万拆迁款给哥,我扭头走,爸追出:那栋写字楼合同还没签

爸把1300万拆迁款给哥,我扭头走,爸追出:那栋写字楼合同还没签

热心市民小黄
2026-07-05 20:46:41
2-0!3-0!U17国足双杀澳大利亚,剑指世界杯32强,无惧西班牙!

2-0!3-0!U17国足双杀澳大利亚,剑指世界杯32强,无惧西班牙!

绿茵舞着
2026-07-05 22:00:41
给泰山安装刀片刺网,在古代要被砍头

给泰山安装刀片刺网,在古代要被砍头

黔有虎
2026-07-03 16:49:25
成本骤降90%!以色列“铁束”激光武器即将飞上F-15,无人机克星升空倒计时

成本骤降90%!以色列“铁束”激光武器即将飞上F-15,无人机克星升空倒计时

算力游侠
2026-07-05 01:29:28
安切洛蒂霸气回应外界批评:全世界只有弗格森有资格指点我的战术

安切洛蒂霸气回应外界批评:全世界只有弗格森有资格指点我的战术

夜白侃球
2026-07-04 22:26:51
1935年刘文辉故意不炸泸定桥,临终含泪说出真相:那十三根铁索是川康百姓的命根子!

1935年刘文辉故意不炸泸定桥,临终含泪说出真相:那十三根铁索是川康百姓的命根子!

白驹谈人机
2026-06-29 11:19:27
真实的豪门太太生活,跟大家想的很不一样

真实的豪门太太生活,跟大家想的很不一样

微微热评
2026-07-05 12:17:57
2026-07-06 07:36:49
财中社 incentive-icons
财中社
财中社是国内领先的金融信息服务商。
156358文章数 279关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

世界杯-挪威2-1巴西首进八强 哈兰德梅开二度

头条要闻

世界杯-挪威2-1巴西首进八强 哈兰德梅开二度

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
旅游
数码
本地
亲子

3年赚46亿,杨幂喊出一个安徽富豪

旅游要闻

守着抚仙湖过日子的古村寨,两个彝语汉字,道尽祖辈渔耕一生!

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

本地新闻

国内足球之旅?这座小城给你高分答案

亲子要闻

工程车爱游泳

无障碍浏览 进入关怀版