网易首页 > 网易号 > 正文 申请入驻

Sora2不够香了!国产AI视频模型已能边看边生成,生成快还互动佳

0
分享至

衡宇 鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

还在用Sora2做恶搞视频或表情包玩儿?快醒醒,国内AI视频玩家已实现弯道超车了——

开卷实时流式生成

就是那种模型推理到哪儿,画面就生成到哪儿;想改剧情,直接暂停、改指令、视频重新走向。

换言之,Sora2能做的,它能做;Sora2做不到的,它还能做。

而这,才是和AI视频一起“创作”的未来式答卷——来自百度蒸汽机(文心专精版)。



百度蒸汽机相信大家都已经不陌生了,5月份以黑马之姿闯入AI生视频赛道,初登场就拿下VBench-I2V全球榜一,全球首个实现中文音视频一体化的视频生成模型,首次实现多人有声视频生成……

而这一次升级的背后,是百度对AI视频生成领域的重新再定义。

当同行还卡在“生成10s稳定、连续的视频画面”时,百度已经率先实现“生成迅速、实时交互、无限续写”三件套:

  • 只需一张图+一个Prompt,生成过程更流畅自然,短时间、低成本还能保持高质量。
  • 支持实时交互,可随时打断视频生成进展,任意位置都能进行提示词改写。
  • 打破视频生成时长限制,上传任意视频,就能续写成长篇影视级大作,还能实时预览视频内容。

此外,在百度蒸汽机,还能告别以往单向输出的数字人,定制1V1专属数字人,沉浸式体验数字分身互动;任意生成、创造全场景开放世界,无论是开拓新的游戏地图,还是爽玩全球旅游景点,百度这次,全都有



正如蒸汽机曾经带来的技术革命,百度蒸汽机模型的此次更新也将标志着AI视频正式从短片段走向长篇叙事,从创意工具走向创意伙伴。

从“图生视频”到“边看边生”:行业首次流式生成体验

不过,当前主流的AI视频生成模型还处在Level 1,即使是最近风头最盛的Sora2,也普遍只能生成5~10秒。

坊间为此还出现了邪修鉴AI大法:遇事不决看时长!

而且要得到结果,短则30秒长则几分钟的生成阶段,必须老老实实等待。

期间做成啥样一概不知,生成完整视频后,无论是细节修改还是整支视频大调,都没法实时调整,只能重来一遍,更谈不上有什么“交互感”。

这个过程不仅耗时长,而且成本惊人,想要实时交互修改基本上是不可能的。

这对短视频生成而言,还算够用,但放到长视频显然不够看,即使勉强用首尾帧技术拼接拉时长,但视频质量低下、细节粗糙,缺乏连贯性。



百度蒸汽机的出现,则填补了这一领域的空白,让AI视频提前进入了边看边生、实时共创的全新阶段。

不仅生成速度快人一步,生成质量也快到飞起。

首先是生成模式上,既能I2V图生视频,又能V2V视频生视频,双线齐发力。

图生视频将操作门槛降到最低,摒弃传统的多图+多指令模式,只需最基础的一张图和一个简单指令,就能生成长视频。

比如说我们先进入百度绘想平台,选择“长视频”功能入口,上传一张爱因斯坦的形象照,输入Prompt:

  • 爱因斯坦在舞台上说物理学脱口秀,同时镜头跟随人物变化。



注意这里还要选择10-60秒的时长,一般默认20秒。



视频开始生成后,可以在旁边的任务结果区实时看到当前生成进展



一旦发现不满意,立马点击“续改”按钮中断生成,将视频帧拖至目标位置,重新下达新的指令,例如这里我们将让爱因斯坦的动作更丰富一些,让他一边说一边还会比划动作。

一个小tips:

每12秒,生成任务会自动暂停一次,此时需要用户自己手动选择继续生成or就此结束嗷~



下面请欣赏一段新鲜出炉的爱因斯坦的默剧版脱口秀。



视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

BTW,如果你不想要看无声短片,可以选择蒸汽机2.0有声版。



视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

不过相对应的,最长时长就需要打一丢丢折扣(5~10s)。

好好好,教科书里的人物都能活过来讲脱口秀了,物理学原来可以这么有趣!

要是我读书的时候有它,也不至于回回物理考零昏(doge)

百度蒸汽机的视频生视频,本次更新端上来的全新玩法

同样是在长视频入口进入,首先需要上传一个时长在2秒到60秒的视频,我们这里使用的是上次没做完的哈利波特的太极拳文艺汇演视频。(咳咳)

原视频be like:



视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

期间依旧是可以实时查看或修改视频内容,不过需要注意的是,有且仅有2个视频可以同时生成。

最终续写下来,效果也是纵享丝滑~

(这下麻麻再也不用担心以后小组作业队友做一半跑路了555)



视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

另外,蒸汽机在开放世界上也表现优异,例如我们让它来生成一段月球漫步。



视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

还可通过WASD+鼠标控制视角,在月球上自由探索。

Nice!下次旅游旺季,不用出远门人挤人,在家就能环游世界,计划通✅

不过言归正传,蒸汽机到底为啥一下就Next level了?还得是背后的技术升级立大功。

“边生成边互动”的AI视频体验,如何炼成?

当下,包括Sora 2在内的AI视频工具,都在朝更长、更稳、更真实、更清晰突破。

但有一点似乎被大多数玩家忽视了:

目前,“生成→等待→反馈”的生产流程,其实一直停留在AI单向输出的阶段

背后原因主要还是归结于行业主流方案是采用基于Transformer架构的扩散模型。

受限于Transformer架构的二次计算复杂度,主流AI视频生成模型计算开销随生成时长呈平方级增长。也就是说,需要生成的视频时长越长,对GPU显存与计算效率的要求就更高。

一方面成本直接拉爆,另一方面推理效率也难以达到较高水准,所以难以实现实时生成与交互能力。



而迭代后的百度蒸汽机,已经实现了“用户被动接收”向“AI与用户共同创造”的转变。

在蒸汽机这里,AI视频生成过程本身就是开放的——

视频不是一口气生成完毕,而是流式呈现

模型推理是什么进度,用户就能看到对应时长的画面。



生成过程可随时打断

生成中途,用户要是灵感突发想改点什么,一句新的prompt就能实时生效。



不满意前一段内容?还可以拉回修改,重新接上



视频链接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

一句话总结,百度蒸汽机生成AI视频,已经进入能配合你反悔的Next Level,一切都不必从头再来。

整个过程像是创作者在电脑前观摩AI创排导演一支视频短片,随时可以以“导演”的身份喊卡,调整细节,修改剧本。

从这个角度来看,百度蒸汽机突破的不只是长视频生成的技术瓶颈,而是AI视频的整个创作范式,是一次对AI生成流程的重新定义——

AI视频生成,终于进入“你说我做,随时可改”的时代。



为了让模型学会边输出边协作,百度蒸汽机在模型层面,从架构到底层推理流程,几乎做了一次彻底重构。

首先是模型架构层面,百度蒸汽机通过引入自回归扩散模型(Autoregressive Diffusion Models),采用基于流式滑窗的自回归扩散架构,来实现低成本无限外推和实时生成。

不仅有阶梯独立噪声构造,还进行动态缓冲区管理,让模型能同时处理模糊草图、半完成帧及高精度画面,最终实现“边生成边调整”的实时交互生成流程。

其次,为了解决训推过程中累积误差和衰减问题,百度蒸汽机引入了噪声重注入和历史帧扰动增强机制,让它不仅听得懂指令,还能应对突发调整

所谓噪声重注入,就是在训练时故意加入真实工作中可能遇到的“噪声”或偏差,让模型在模拟真实复杂环境的过程中学会更稳、更准地生成结果。

历史帧扰动增强,则是让模型学着自己生成过程中的问题并自己修正以应对变化。

第三,在生成画面的一致性方面,百度蒸汽机在引入锚点帧引导保障全局记忆的同时,还引入历史参考帧保障连续生成。

最后需要提到非常重要的一点,就是百度蒸汽机基于自回归扩散架构,突破高压缩比生成技术,大幅提升扩散模型流式推理性能,保障效果和效率的极致平衡

通过窗口attention优化和模型蒸馏,用户使用百度蒸汽机生成视频时,推理延迟被压缩到几乎实时,几乎不会有“等”的感觉。

技术落地、生态生长,推动AI内容创作进入共创时代

像百度蒸汽机这样,全流程可控、可打断、可改写的实时共创,让AI视频生成变得参与性更突出,打开了AI内容创作的新的可能空间。

于是问题也随之升维。

  • 拥有实时生成能力之后,AI视频模型能否真正走进创作现场、嵌入真实生产流程?因为对AI创作工具来说,真正的考验场在创作场景和生产链条上。

生成能力再强,实时互动感再强,如果无法走进创作现场,也只是(实验室里的模型)温室里的花朵。

回顾百度蒸汽机的迭代路径,可以清晰看到它的演进节奏,看到一条从底层技术突破,到产品形态重构,再到全链条生态落地的路径:

  • 5月,百度视频生成模型以总分89.38%的成绩,登上海外权威视频生成评测榜单VBench-I2V图生视频榜全球第一,率先证明了自家视频生成的技术力;
  • 7月,百度发布自研音视频一体化模型MuseSteamer(百度蒸汽机背后模型),首创中文音画协同生成能力,支持画面、语音、配乐一体生成,真正突破“画完再配音”的AI短片分离流程;
  • 8月,百度蒸汽机音视频一体化模型完成重大升级,在业内首次实现多人有声视频生成,并全面开放Turbo、Pro、Lite等多个版本,打通C端与B端应用通道;
  • 9月,发布“通用AI长视频生成”功能;
  • 10月,百度蒸汽机让AI视频正式进入实时交互时代,视频生成不再是一次性产物。

可以看到,短短5个月内,百度蒸汽机实现了从图生视频到音画一体生成,再到实时互动+无限流式生成的演进。



这样的底层能力重构,首先直接改变的是C端普通用户的创作方式。

无需专业视频剪辑经验,只需上传一张图片并输入一句prompt,用户就能在平台上生成一段可实时预览、随时修改、随时续写的AI视频。

最大程度告别屡次三番抽卡的烦恼,同时真正实现使用0门槛。

另一边,迭代后的新技术更能推动AI视频能力快速向导购、直播、教育、影视制作等商业和应用场景延伸的需求。

这一切,让百度蒸汽机不再只是一个模型产品,而是新型创作平台与交互接口的起点。



所以说,别再沉迷于用Sora 2做各种meme和表情包了!

真正让AI视频迈入下一阶段的技术和应用,正在中国发生

作为国产AI视频工具代表,百度蒸汽机不仅在技术架构、生成质量上持续演进,更在实时性与交互性这两个决定未来创作形态的关键点上,率先跨出一步。

这不仅是AI视频从片段式生成迈向连续叙事的标志性时刻,也是AI内容创作从独演走向共创的重要起点

看看现在吧——AI视频的下一阶段,不只是高清,不只是更长,而是实时、可交互、效果出众、人人可用。

而百度蒸汽机,已经率先抵达新阶段的竞赛场。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒:一艘悬挂美国国旗油轮遭两枚炮弹击中

外媒:一艘悬挂美国国旗油轮遭两枚炮弹击中

参考消息
2026-03-02 20:53:04
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

抽象派大师
2026-03-03 03:37:08
她是体坛冠军中的“败类”,为捞钱共侍二夫,坑了44亿逃到美国

她是体坛冠军中的“败类”,为捞钱共侍二夫,坑了44亿逃到美国

削桐作琴
2026-03-02 15:10:50
暴走团老人路上训练,交警劝不听,货车司机“不想走那就别走了”

暴走团老人路上训练,交警劝不听,货车司机“不想走那就别走了”

源远讲堂
2025-07-31 18:13:50
娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

林轻吟
2026-03-01 19:35:00
伊朗玩命打!特朗普紧急对台海做出一项安排,高市早苗脸色都变了

伊朗玩命打!特朗普紧急对台海做出一项安排,高市早苗脸色都变了

霁寒飘雪
2026-03-03 11:35:03
这是开战以来,最让人心碎的一张照片

这是开战以来,最让人心碎的一张照片

牛弹琴
2026-03-03 07:50:54
油价狂飙!中国石油创纪录,谁将为此付出代价?

油价狂飙!中国石油创纪录,谁将为此付出代价?

文曲塘财经研究
2026-03-02 18:01:18
特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

健身狂人
2026-03-01 13:53:47
网友称母亲离世后现结婚记录,其遗产继承受阻 当地通报:已成立联合调查组

网友称母亲离世后现结婚记录,其遗产继承受阻 当地通报:已成立联合调查组

红星新闻
2026-03-03 13:06:56
波斯给中国上了一课:在国际牌桌上,想当投降派的,第一个出局

波斯给中国上了一课:在国际牌桌上,想当投降派的,第一个出局

花仙历史说
2026-03-02 17:13:16
特朗普称不担心美国基地甚至美国领土遭受袭击威胁,并称“这是战争的一部分”;美国国会将就限制总统战争权力议案举行投票

特朗普称不担心美国基地甚至美国领土遭受袭击威胁,并称“这是战争的一部分”;美国国会将就限制总统战争权力议案举行投票

大风新闻
2026-03-03 13:49:03
与孔令辉分手12年,马苏坦白:那晚被黑人驮肩照,终为人生买个单

与孔令辉分手12年,马苏坦白:那晚被黑人驮肩照,终为人生买个单

喜欢历史的阿繁
2026-03-03 07:26:03
降薪潮下,很多家庭已经供不起读大学的儿子了!

降薪潮下,很多家庭已经供不起读大学的儿子了!

黯泉
2026-03-02 21:13:16
36岁副镇长开会时脑出血晕倒,除夕当天不幸离世:上任仅10余天,最后一条动态为督促社火排练,留下3个孩子

36岁副镇长开会时脑出血晕倒,除夕当天不幸离世:上任仅10余天,最后一条动态为督促社火排练,留下3个孩子

极目新闻
2026-03-02 15:45:15
日本1月失业率为2.7%

日本1月失业率为2.7%

每日经济新闻
2026-03-03 07:40:05
“看到新家,整个人都懵了!”上海小伙动迁分房“不喜反忧”,相关部门回应→

“看到新家,整个人都懵了!”上海小伙动迁分房“不喜反忧”,相关部门回应→

新民晚报
2026-03-02 18:59:35
巴基斯坦全面宣战,中亚格局或改写,印度最慌!

巴基斯坦全面宣战,中亚格局或改写,印度最慌!

达文西看世界
2026-02-27 16:30:28
成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

成龙安排好身后事才2个月,翁静晶再曝大瓜,没给他留一丝体面

星星没有你亮
2026-02-28 20:40:21
反转了?济南“绝情臭豆腐”门口排长队,顾客都撑着伞在雨中支持

反转了?济南“绝情臭豆腐”门口排长队,顾客都撑着伞在雨中支持

江山挥笔
2026-03-03 10:28:04
2026-03-03 15:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12216文章数 176401关注度
往期回顾 全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

特朗普:不担心美领土遭受袭击威胁 这是战争的一部分

头条要闻

特朗普:不担心美领土遭受袭击威胁 这是战争的一部分

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

借壳上市纳斯达克?小杨哥海外"洗白"之路

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

游戏
艺术
本地
数码
房产

《战神》新作回归动作本源?风格更接近《鬼泣》

艺术要闻

Nihad Aghazada:当代阿塞拜疆画家

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

数码要闻

古尔曼爆苹果两大新品:iPad Pro将引入均热板散热,18英寸折叠屏定价三倍于现款

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

无障碍浏览 进入关怀版