网易首页 > 网易号 > 正文 申请入驻

别只盯着Sora,中国AI视频的实时交互已悄悄领先

0
分享至



刚刚过去的十一黄金周,大家一定没少刷到Sora2生成的视频,山姆·奥特曼到处给人送祝福,看得观众忍俊不禁。不过,等普通人真想用Sora做段自己的视频才发现,AI视频还是没有想象中一样简单。

我们看到的AI长视频,一般是由多个几秒长的短视频拼接而成的。也就是说,用户要先把完整创意拆成几个分镜,每一段剧情分别准备独立的图片和Prompt提示词描述,每一次生成都得碰运气,后期拼接时还容易跳帧、风格断裂,感觉不满意想调整,只能重写Prompt、重新生成。

这种创作模式,也被称为“抽卡”,就像手游里氪重金抽 SSR,花了时间、Token、算力和钱,还不一定拿到想要的结果,再加上海外平台高昂的订阅费,到底谁在说AI视频的制作门槛被Sora打下来了?

其实,AI视频技术的大众普及这一块儿,国内视频平台早就走在了前面。最近我们就注意到,百度9月25日发布的“蒸汽机”最新版本,有两个非常重要的升级:一是长视频流式生成的产品体验,二是模型支持实时交互。



前者可以用一张图、一段视频生成长视频突破5s、10s限制,并支持边做边改,创作AI视频不用再一次次“抽卡”赌运气,可以在预览中实时调整;后者则拓展了AI视频的边界,比如直播数字人这类需要实时推理会话的长视频,类sora模型还无法做到。

可以发现,在AI大众化这件事上,deepseek、百度蒸汽机这样的国内科技企业,是真的闷声干大事。而这,也是中国AI的本色之一。或许比起sora,国内视频平台正在终结AI视频的抽卡魔咒,才是更值得大家关注的AI大事件。



手游圈有一句话,玄不救非,氪能改命。指的是想抽到一张满意的角色,要么靠玄学碰运气,要么靠氪金砸钱。现阶段的大多数AI视频工具,就是这么工作的。

常规的AI长视频生成流程,采用首尾帧续写技术,或者简单续写能力,虽然一次生成的视频时长更长了,但前后频缺乏连贯性,调整前后逻辑、对齐音画等,比传统拍摄后期还累人;画质和细节也容易不稳定,比如人物一活动,肢体和空间的关系就不符合物理规律了。想要调整,就得重新上传图片和“抽卡”,把流程再来一遍,而且花钱不讨好,反复抽卡、多次生成,需要消耗大量计算资源,最终成本都要由用户买单。

对于创作者和普通人来说,这样的AI长视频能力是无法实现创作自由的,大多尝鲜之后就弃之不用了。



为什么AI无法一次生成高质量的长视频,而被迫陷入抽卡魔咒呢?行业普遍陷入了技术瓶颈:

瓶颈一,模型记不住,也就是长时序连贯性建模难题。

传统的扩散模型,是一种固定窗口的生成模式,对长视频生成非常不友好,一方面窗口大小和生成成本是指数级关系,另外一方面通过简单反复续写,会存在较为严重的全局一致性和连续性问题。生成时长超过10秒,帧间累积误差就会指数级增长,就像一个记性不好的人,做事做到第十秒,基本把前面干过什么忘光了,所以长视频越做越乱,前后内容不一致。

有的平台为了缓解这个问题,支持用户手动上传关键帧,这就意味着,30秒视频得传6组,操作复杂度直接翻了好几倍,而且镜头切换可能不自然,并没能发挥出AIGC提质增效的效果。

瓶颈二,模型听不懂、算不快,也就是实时交互受限。

在互动视频、直播等场景中,对视频的持续时长与实时生成能力提出了更高要求。但传统视频生成,只能靠抽卡和调整提示词,来不断试错,用户无法在生成过程中就进行修改和微调,是因为Transformer架构的二次计算复杂度很高,在生成长视频时要实时互动,一是对GPU显存与计算效率提出更高要求,需要软硬件协同优化来提升推理效率。还有成本考量,计算开销随生成时长呈平方级增长,为了控制成本,模厂只能限制时长,还必须等全部算完才能输出结果。

上述技术瓶颈,导致AI长视频不连贯、改不了、成本高,因此,目前这类短视频生成技术主要应用于工具层面,如视频片段与素材制作,这显然无法满足C段和B端的复杂创作需求。

百度“蒸汽机”10.15版本的核心突破,就是把长视频变成流式生成、实时交互,整个过程中,用户可以边浏览边生成,支持在帧数间改写、续写,随时打断并修改提示词,就能实时生成想要的画面,从而打破了传统视频生成的“抽卡”魔咒。



面对行业普遍的10秒局限,以及用户反复抽卡的无力,百度蒸汽机靠四大技术突破,从根源上破解了长视频生成的效率、质量与成本难题,终结“抽卡”模式。

突破一:基础架构改造,解决长视频生成难题,一张图一段文字极简生成。

传统模型生成超10秒视频就会片段断裂,还得补关键帧。百度蒸汽机引入自回归扩散模型,搭建流式滑窗架构,通过阶梯独立噪声构造,为每一帧匹配精准噪声级别,配合动态缓冲区管理,同步处理模糊草图、半完成帧及高精度画面等多状态画面,实现“边生成边调整”的实时交互生成流程。

我们上传了一张骑在黑龙背上的视频,自动生成12秒视频,全程无需补充任何素材,而且生成过程中,还可以随时选择继续生成或修改提示词。

突破二:训推偏差消除,解决累积误差,告别 “越生越崩” 的质量衰减。

AI生成的视频前5秒正常,后面人物空间关系就扭曲变形了,这种情况经常出现,本质是传统滑窗方法的误差累积问题,导致生成的视频质量严重下降。

但我们用百度蒸汽机生成了一个长镜头的双人互动,在长达20秒的时间里,两个人物都保持了一致性,即使是在近景互动时也符合物理逻辑。

原来,百度蒸汽机通过历史帧扰动增强技术,在训练时故意加入帧误差,让模型具备自我纠错能力,变得更加鲁棒,缓解自回归模型的累积误差问题。

突破三,一致性优化,让长视频像接力赛一样丝滑。

行业普遍采用的片段拼接技术,经常出现走路跳步、音画脱节等情况,比如人物说话时唇形与声音对不上。百度蒸汽机采用全局规划与局部参考相结合的优化方法,解决长视频连续性与一致性问题。其中,引入锚点帧引导,保障全局记忆,引入了key frame建立全局注意力锚点,保证模型的长期记忆能力,引入历史参考帧,作为上下文信息,使得模型具备短期记忆能力,保障连续生成。前后过渡像传递接力棒一样流畅自然,多人对话等场景的AI视频一次生成质量更高。

突破四:实时流式计算,实现边生成边修改的创作自由。

以前生成3分钟视频得等40分钟,而且生成后无法修改,一点就得重算。百度蒸汽机基于自回归扩散架构,突破高压缩比生成技术,大幅提升扩散模型流式推理性能,保障效果和效率的极致平衡,满足实时交互的推理需求。

比如我们用V2V模式,上传一段赛车视频,百度蒸汽机能够在几分钟之内,就将视频拓展到10秒以上。如果想改写结局,可以选择续改,选中关键阶段的帧,直接输入其他结果的提示词,比如“银车加速超过黄车”或“黄车加速超过银车”,就能生成新的结局,轻松搞定不同剧情。

也就是说长视频生成过程从黑箱变成了流式体验,模型推理出多少,用户就能实时预览多少,不需要等待全部生成完成。而且百度蒸汽机升级了窗口注意力机制,将计算复杂度降为线性,结合模型蒸馏技术,大幅提升计算效率,降低推理耗时,所以整个生成过程仅用时几分钟。整个制作过程既可控,又省力。

百度蒸汽机的四大突破,用技术把AI视频的创作模式,从靠运气抽卡变成了按需创作。这会推动行业发生至少两个变化:

一是创作门槛进一步降低。由于AI长视频的生成质量和效率得到提高,不再需要用户上传多张图和prompt,不再需要费心描述和准备关键帧,一次生成高可用,长视频生成真的走向了人人可用的简单时代。

二是应用场景进一步延伸。传统长视频生成技术,难以承载复杂的创作需求,无法满足数字人这类实时交互长视频的需求。百度蒸汽机全新的技术架构实现长视频流式生成体验,支持实时互动,可以拓展出AI导购、AI老师、AI陪伴等沉浸式数字人场景。支持开放世界的生成,比如游戏地图、旅游景点体验、宇宙空间等,都可以任意创造,比如家长可以用一张长城或宇宙的图片,为孩子生成虚拟长城或虚拟宇宙,为教育、旅游、游戏打开新可能。

某个噱头或爆款玩法,或许能在短时间内带火AI视频的关注度,但一时热度终会在门槛暴露后退潮。唯有扎扎实实的底层技术突破,才能为AI视频生成的大众化普及铺平道路,真正降低使用门槛、拓展使用边界,承接住不断涌入的创作者和新用户。



Sora2的科幻短片刷爆社交平台时,不少人又开始感慨,“AI视频创作的天花板在海外”。但真实体验过的创作者恐怕都会认同,这些海外AI视频创作与普通人仍有距离。百度蒸汽机为代表的国内视频平台,更加普通人友好。

一方面,国内平台更早跳出了炫技式研发,不像sora这样“憋个大招”,以更快的技术迭代速度,贴实用户需求。

拿百度蒸汽机来说,迭代速度堪称行业标杆,可以说是“月月有突破”。今年3月首发即实现高精度图生视频,5月登顶VBench-I2V权威榜单,画质达专业影视级;7月推出全球首个中文音视频一体化模型,8月实现多人对话生成,9月发布“通用AI长视频生成”功能……

这种应用驱动研发的路径,背后是搜索、百家号等场景的真实需求直接反推模型升级,让百度蒸汽机的技术突破始终贴合用户痛点,解决普通人的使用难题。



此外,AI视频生成的大规模、产业级应用,国内视频平台也别有优势。

相比不懂中文语境的Sora、sunway等,百度蒸汽机等国内模型凭借亿级中文多模态数据训练,不仅中文唇形和语音能精准同步,还能生成方言,让创作者的内容更容易打开中文市场。

国内平台也更懂产业落地AI的成本难题,比如百度蒸汽机坚持技术普惠,依托百度智能云“百舸”平台与昆仑芯片,结合模型参数压缩、算力动态调度等技术,将推理效率提升3倍,刊例价较同类产品低至七成,并采用“按量后付+资源包”灵活计费模式,不让用户白花冤枉钱。相较海外平台的服务费与订阅费,大幅降低了产业级使用成本,也为AI视频生成的规模落地拆除了门槛。

从抽卡试错到按需创作,百度蒸汽机的技术突破不仅改变了AI视频的创作逻辑,更展示了与海外平台不同的技术产业化、技术普惠化之路。

正如大语言模型、对话式AI的普及历程一样,AI长视频的全民时代,将由国内平台开启。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马杜罗被擒!特朗普沾沾自喜,殊不知酿成大祸,美国或成最大输家

马杜罗被擒!特朗普沾沾自喜,殊不知酿成大祸,美国或成最大输家

小莜读史
2026-01-04 01:25:06
方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

孤城落日
2026-01-04 08:17:09
国家能源集团原董事长刘国跃究竟被查没?

国家能源集团原董事长刘国跃究竟被查没?

新浪财经
2026-01-04 00:40:22
中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

肖兹探秘说
2026-01-01 20:16:34
据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

忠于法纪
2025-12-04 11:25:07
斯大林葬礼时,周总理罕见不顾一切向苏联提要求:放我们一人回国

斯大林葬礼时,周总理罕见不顾一切向苏联提要求:放我们一人回国

阿胂是吃瓜群众
2025-12-29 16:54:40
300八路军被2千伪军围困芦苇荡,17岁卫生员无意间一句话迎来转机

300八路军被2千伪军围困芦苇荡,17岁卫生员无意间一句话迎来转机

卡西莫多的故事
2025-12-22 09:50:12
广东17点回到东莞大本营 杜锋满意客场战绩 明天战浙江 徐杰将复

广东17点回到东莞大本营 杜锋满意客场战绩 明天战浙江 徐杰将复

郝小小看体育
2026-01-04 12:39:28
一复出就输球,还赔上了一人,快船是怎么输的?泰伦卢要担主责

一复出就输球,还赔上了一人,快船是怎么输的?泰伦卢要担主责

体坛大辣椒
2026-01-04 13:54:52
在国外踢球挣8万,来中国直接赚3600万,现恢复秘鲁国籍不愁吃穿

在国外踢球挣8万,来中国直接赚3600万,现恢复秘鲁国籍不愁吃穿

趣文说娱
2026-01-03 16:10:35
官媒下场点名!“皇子”登基观众不买账,内娱世袭制为何惹众怒

官媒下场点名!“皇子”登基观众不买账,内娱世袭制为何惹众怒

以茶带书
2025-12-11 12:36:49
火箭被逆转背后:内线狂丢66分+多数据落后 杜兰特难阻禁区被打爆

火箭被逆转背后:内线狂丢66分+多数据落后 杜兰特难阻禁区被打爆

醉卧浮生
2026-01-04 11:53:53
赖清德直冒冷汗!马杜罗夫妇被逮捕,民进党反应亮了,台媒:小心

赖清德直冒冷汗!马杜罗夫妇被逮捕,民进党反应亮了,台媒:小心

娱乐圈的笔娱君
2026-01-04 01:28:05
“上班跟进了窑子一样”,毕业生吐槽单位要求起花名,尊严都没了

“上班跟进了窑子一样”,毕业生吐槽单位要求起花名,尊严都没了

妍妍教育日记
2025-11-28 19:06:30
冯仑推田朴珺给王石,不是慷慨,是躲劫算终局

冯仑推田朴珺给王石,不是慷慨,是躲劫算终局

初见音乐吧
2025-12-26 23:00:03
中国资产大爆发,2026年A股能否迎来“开门红”?高手看好贵金属、人形机器人等行业

中国资产大爆发,2026年A股能否迎来“开门红”?高手看好贵金属、人形机器人等行业

每日经济新闻
2026-01-04 16:00:22
我国派五名特工抓捕一名叛国贼,揭露一位隐藏的间谍大师

我国派五名特工抓捕一名叛国贼,揭露一位隐藏的间谍大师

荔枝人物记
2025-01-26 16:26:10
8国在白宫开会,讨论废掉中国王牌?关键时刻,印度作了重要决断

8国在白宫开会,讨论废掉中国王牌?关键时刻,印度作了重要决断

观星赏月
2026-01-03 20:25:20
微信 2026 首波更新,这功能终于改了

微信 2026 首波更新,这功能终于改了

全是技能
2026-01-04 12:00:37
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
2026-01-04 16:43:00
脑极体 incentive-icons
脑极体
从智能密钥到已知尽头
3561文章数 167256关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

专家:美军短时间内活捉马杜罗 伤害性很大侮辱性很强

头条要闻

专家:美军短时间内活捉马杜罗 伤害性很大侮辱性很强

体育要闻

球队陷入危难,一名44岁教练选择复出打球

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

委内瑞拉华商亲历:顾客排队买生活物资

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

时尚
教育
房产
健康
旅游

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

教育要闻

在孩子做对的时候教育,做错的时候拉近关系

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

这些新疗法,让化疗不再那么痛苦

旅游要闻

广元已建成58个口袋公园 最有代表性的要数桥头公园

无障碍浏览 进入关怀版