网易首页 > 网易号 > 正文 申请入驻

别只盯着Sora,中国AI视频的实时交互已悄悄领先

0
分享至

来源:市场资讯

(来源:脑极体)


刚刚过去的十一黄金周,大家一定没少刷到Sora2生成的视频,山姆·奥特曼到处给人送祝福,看得观众忍俊不禁。不过,等普通人真想用Sora做段自己的视频才发现,AI视频还是没有想象中一样简单。

我们看到的AI长视频,一般是由多个几秒长的短视频拼接而成的。也就是说,用户要先把完整创意拆成几个分镜,每一段剧情分别准备独立的图片和Prompt提示词描述,每一次生成都得碰运气,后期拼接时还容易跳帧、风格断裂,感觉不满意想调整,只能重写Prompt、重新生成。

这种创作模式,也被称为“抽卡”,就像手游里氪重金抽 SSR,花了时间、Token、算力和钱,还不一定拿到想要的结果,再加上海外平台高昂的订阅费,到底谁在说AI视频的制作门槛被Sora打下来了?

其实,AI视频技术的大众普及这一块儿,国内视频平台早就走在了前面。最近我们就注意到,百度9月25日发布的“蒸汽机”最新版本,有两个非常重要的升级:一是长视频流式生成的产品体验,二是模型支持实时交互。


前者可以用一张图、一段视频生成长视频突破5s、10s限制,并支持边做边改,创作AI视频不用再一次次“抽卡”赌运气,可以在预览中实时调整;后者则拓展了AI视频的边界,比如直播数字人这类需要实时推理会话的长视频,类sora模型还无法做到。

可以发现,在AI大众化这件事上,deepseek、百度蒸汽机这样的国内科技企业,是真的闷声干大事。而这,也是中国AI的本色之一。或许比起sora,国内视频平台正在终结AI视频的抽卡魔咒,才是更值得大家关注的AI大事件。


手游圈有一句话,玄不救非,氪能改命。指的是想抽到一张满意的角色,要么靠玄学碰运气,要么靠氪金砸钱。现阶段的大多数AI视频工具,就是这么工作的。

常规的AI长视频生成流程,采用首尾帧续写技术,或者简单续写能力,虽然一次生成的视频时长更长了,但前后频缺乏连贯性,调整前后逻辑、对齐音画等,比传统拍摄后期还累人;画质和细节也容易不稳定,比如人物一活动,肢体和空间的关系就不符合物理规律了。想要调整,就得重新上传图片和“抽卡”,把流程再来一遍,而且花钱不讨好,反复抽卡、多次生成,需要消耗大量计算资源,最终成本都要由用户买单。

对于创作者和普通人来说,这样的AI长视频能力是无法实现创作自由的,大多尝鲜之后就弃之不用了。


为什么AI无法一次生成高质量的长视频,而被迫陷入抽卡魔咒呢?行业普遍陷入了技术瓶颈:

瓶颈一,模型记不住,也就是长时序连贯性建模难题。

传统的扩散模型,是一种固定窗口的生成模式,对长视频生成非常不友好,一方面窗口大小和生成成本是指数级关系,另外一方面通过简单反复续写,会存在较为严重的全局一致性和连续性问题。生成时长超过10秒,帧间累积误差就会指数级增长,就像一个记性不好的人,做事做到第十秒,基本把前面干过什么忘光了,所以长视频越做越乱,前后内容不一致。

有的平台为了缓解这个问题,支持用户手动上传关键帧,这就意味着,30秒视频得传6组,操作复杂度直接翻了好几倍,而且镜头切换可能不自然,并没能发挥出AIGC提质增效的效果。

瓶颈二,模型听不懂、算不快,也就是实时交互受限。

在互动视频、直播等场景中,对视频的持续时长与实时生成能力提出了更高要求。但传统视频生成,只能靠抽卡和调整提示词,来不断试错,用户无法在生成过程中就进行修改和微调,是因为Transformer架构的二次计算复杂度很高,在生成长视频时要实时互动,一是对GPU显存与计算效率提出更高要求,需要软硬件协同优化来提升推理效率。还有成本考量,计算开销随生成时长呈平方级增长,为了控制成本,模厂只能限制时长,还必须等全部算完才能输出结果。

上述技术瓶颈,导致AI长视频不连贯、改不了、成本高,因此,目前这类短视频生成技术主要应用于工具层面,如视频片段与素材制作,这显然无法满足C段和B端的复杂创作需求。

百度“蒸汽机”10.15版本的核心突破,就是把长视频变成流式生成、实时交互,整个过程中,用户可以边浏览边生成,支持在帧数间改写、续写,随时打断并修改提示词,就能实时生成想要的画面,从而打破了传统视频生成的“抽卡”魔咒。


面对行业普遍的10秒局限,以及用户反复抽卡的无力,百度蒸汽机靠四大技术突破,从根源上破解了长视频生成的效率、质量与成本难题,终结“抽卡”模式。

突破一:基础架构改造,解决长视频生成难题,一张图一段文字极简生成。

传统模型生成超10秒视频就会片段断裂,还得补关键帧。百度蒸汽机引入自回归扩散模型,搭建流式滑窗架构,通过阶梯独立噪声构造,为每一帧匹配精准噪声级别,配合动态缓冲区管理,同步处理模糊草图、半完成帧及高精度画面等多状态画面,实现“边生成边调整”的实时交互生成流程。

我们上传了一张骑在黑龙背上的视频,自动生成12秒视频,全程无需补充任何素材,而且生成过程中,还可以随时选择继续生成或修改提示词。

突破二:训推偏差消除,解决累积误差,告别 “越生越崩” 的质量衰减。

AI生成的视频前5秒正常,后面人物空间关系就扭曲变形了,这种情况经常出现,本质是传统滑窗方法的误差累积问题,导致生成的视频质量严重下降。

但我们用百度蒸汽机生成了一个长镜头的双人互动,在长达20秒的时间里,两个人物都保持了一致性,即使是在近景互动时也符合物理逻辑。

原来,百度蒸汽机通过历史帧扰动增强技术,在训练时故意加入帧误差,让模型具备自我纠错能力,变得更加鲁棒,缓解自回归模型的累积误差问题。

突破三,一致性优化,让长视频像接力赛一样丝滑。

行业普遍采用的片段拼接技术,经常出现走路跳步、音画脱节等情况,比如人物说话时唇形与声音对不上。百度蒸汽机采用全局规划与局部参考相结合的优化方法,解决长视频连续性与一致性问题。其中,引入锚点帧引导,保障全局记忆,引入了key frame建立全局注意力锚点,保证模型的长期记忆能力,引入历史参考帧,作为上下文信息,使得模型具备短期记忆能力,保障连续生成。前后过渡像传递接力棒一样流畅自然,多人对话等场景的AI视频一次生成质量更高。

突破四:实时流式计算,实现边生成边修改的创作自由。

以前生成3分钟视频得等40分钟,而且生成后无法修改,一点就得重算。百度蒸汽机基于自回归扩散架构,突破高压缩比生成技术,大幅提升扩散模型流式推理性能,保障效果和效率的极致平衡,满足实时交互的推理需求。

比如我们用V2V模式,上传一段赛车视频,百度蒸汽机能够在几分钟之内,就将视频拓展到10秒以上。如果想改写结局,可以选择续改,选中关键阶段的帧,直接输入其他结果的提示词,比如“银车加速超过黄车”或“黄车加速超过银车”,就能生成新的结局,轻松搞定不同剧情。

也就是说长视频生成过程从黑箱变成了流式体验,模型推理出多少,用户就能实时预览多少,不需要等待全部生成完成。而且百度蒸汽机升级了窗口注意力机制,将计算复杂度降为线性,结合模型蒸馏技术,大幅提升计算效率,降低推理耗时,所以整个生成过程仅用时几分钟。整个制作过程既可控,又省力。

百度蒸汽机的四大突破,用技术把AI视频的创作模式,从靠运气抽卡变成了按需创作。这会推动行业发生至少两个变化:

一是创作门槛进一步降低。由于AI长视频的生成质量和效率得到提高,不再需要用户上传多张图和prompt,不再需要费心描述和准备关键帧,一次生成高可用,长视频生成真的走向了人人可用的简单时代。

二是应用场景进一步延伸。传统长视频生成技术,难以承载复杂的创作需求,无法满足数字人这类实时交互长视频的需求。百度蒸汽机全新的技术架构实现长视频流式生成体验,支持实时互动,可以拓展出AI导购、AI老师、AI陪伴等沉浸式数字人场景。支持开放世界的生成,比如游戏地图、旅游景点体验、宇宙空间等,都可以任意创造,比如家长可以用一张长城或宇宙的图片,为孩子生成虚拟长城或虚拟宇宙,为教育、旅游、游戏打开新可能。

某个噱头或爆款玩法,或许能在短时间内带火AI视频的关注度,但一时热度终会在门槛暴露后退潮。唯有扎扎实实的底层技术突破,才能为AI视频生成的大众化普及铺平道路,真正降低使用门槛、拓展使用边界,承接住不断涌入的创作者和新用户。


Sora2的科幻短片刷爆社交平台时,不少人又开始感慨,“AI视频创作的天花板在海外”。但真实体验过的创作者恐怕都会认同,这些海外AI视频创作与普通人仍有距离。百度蒸汽机为代表的国内视频平台,更加普通人友好。

一方面,国内平台更早跳出了炫技式研发,不像sora这样“憋个大招”,以更快的技术迭代速度,贴实用户需求。

拿百度蒸汽机来说,迭代速度堪称行业标杆,可以说是“月月有突破”。今年3月首发即实现高精度图生视频,5月登顶VBench-I2V权威榜单,画质达专业影视级;7月推出全球首个中文音视频一体化模型,8月实现多人对话生成,9月发布“通用AI长视频生成”功能……

这种应用驱动研发的路径,背后是搜索、百家号等场景的真实需求直接反推模型升级,让百度蒸汽机的技术突破始终贴合用户痛点,解决普通人的使用难题。


此外,AI视频生成的大规模、产业级应用,国内视频平台也别有优势。

相比不懂中文语境的Sora、sunway等,百度蒸汽机等国内模型凭借亿级中文多模态数据训练,不仅中文唇形和语音能精准同步,还能生成方言,让创作者的内容更容易打开中文市场。

国内平台也更懂产业落地AI的成本难题,比如百度蒸汽机坚持技术普惠,依托百度智能云“百舸”平台与昆仑芯片,结合模型参数压缩、算力动态调度等技术,将推理效率提升3倍,刊例价较同类产品低至七成,并采用“按量后付+资源包”灵活计费模式,不让用户白花冤枉钱。相较海外平台的服务费与订阅费,大幅降低了产业级使用成本,也为AI视频生成的规模落地拆除了门槛。

从抽卡试错到按需创作,百度蒸汽机的技术突破不仅改变了AI视频的创作逻辑,更展示了与海外平台不同的技术产业化、技术普惠化之路。

正如大语言模型、对话式AI的普及历程一样,AI长视频的全民时代,将由国内平台开启。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台“卫福部”称将以“Chinese Taipei”名义向世卫组织申请有关认证,国台办回应

台“卫福部”称将以“Chinese Taipei”名义向世卫组织申请有关认证,国台办回应

环球网资讯
2025-12-24 11:24:08
南博风波后续:全网追查“借画不还”的神秘老同志,揭开历史迷雾

南博风波后续:全网追查“借画不还”的神秘老同志,揭开历史迷雾

公子麦少
2025-12-21 14:54:43
1979年,杨显东参观完大寨后怒批陈永贵:他骗全国人民,骗党中央

1979年,杨显东参观完大寨后怒批陈永贵:他骗全国人民,骗党中央

帝哥说史
2025-12-19 06:25:03
电磁炮+140垂发!川普官宣"特朗普级战列舰",看图后感叹:太美了

电磁炮+140垂发!川普官宣"特朗普级战列舰",看图后感叹:太美了

离离言几许
2025-12-23 11:14:27
胡静晒豪门生活,和朱兆祥五兄妹住6000平庄园,猫山王榴莲挂满枝

胡静晒豪门生活,和朱兆祥五兄妹住6000平庄园,猫山王榴莲挂满枝

疯说时尚
2025-12-24 10:26:11
1962年雷锋因公殉职,41年后调查人员揭露真相,令人泪目!

1962年雷锋因公殉职,41年后调查人员揭露真相,令人泪目!

抽象派大师
2025-12-22 01:46:01
3-0!齐达内儿子闪耀非洲杯:率队开门红!放弃入选法国队赚大了

3-0!齐达内儿子闪耀非洲杯:率队开门红!放弃入选法国队赚大了

球场没跑道
2025-12-25 10:53:26
南博事件升级!参与定"伪"的专家徐沄秋被扒,果然有情况

南博事件升级!参与定"伪"的专家徐沄秋被扒,果然有情况

鋭娱之乐
2025-12-21 08:30:41
陈慧琳素颜逛美国超市,脸好方,腮帮子鼓起来了,牙齿不整齐!

陈慧琳素颜逛美国超市,脸好方,腮帮子鼓起来了,牙齿不整齐!

庭小娱
2025-12-21 14:51:03
梅根没招了!夏洛特公主钢琴首秀很惊艳,莉莉贝特公主太可惜了

梅根没招了!夏洛特公主钢琴首秀很惊艳,莉莉贝特公主太可惜了

人物档案局
2025-12-25 11:31:01
她是毛主席外孙女,2022年坐拥50亿财富,丈夫身价超800亿

她是毛主席外孙女,2022年坐拥50亿财富,丈夫身价超800亿

鹤羽说个事
2025-12-13 14:37:20
缅北女魔头魏榕:用“珍珠奶茶”折磨女孩,她的恶毒远超你想象

缅北女魔头魏榕:用“珍珠奶茶”折磨女孩,她的恶毒远超你想象

就一点
2025-07-27 13:38:01
今年上海发生居住场所火灾4928起,消防部门专项推进冬季火灾防控

今年上海发生居住场所火灾4928起,消防部门专项推进冬季火灾防控

澎湃新闻
2025-12-24 17:44:27
中央定调!2026年房贷1%贴息全国落地,月供降幅精准测算来了

中央定调!2026年房贷1%贴息全国落地,月供降幅精准测算来了

老特有话说
2025-12-24 21:41:08
女子因肺栓塞不幸走了!医生:天冷宁可躺一天,也别干这6事!

女子因肺栓塞不幸走了!医生:天冷宁可躺一天,也别干这6事!

坠入二次元的海洋
2025-12-21 13:02:09
强逼赖清德下台,张亚中再战江湖,岛内思考统一,国台办许下承诺

强逼赖清德下台,张亚中再战江湖,岛内思考统一,国台办许下承诺

南宗历史
2025-12-24 18:44:44
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
哈登有望重返休城!6换4交易方案助杜登重聚,伊森+海王成筹码

哈登有望重返休城!6换4交易方案助杜登重聚,伊森+海王成筹码

毒舌NBA
2025-12-25 10:04:17
明年养老金继续涨?人社部部长表态了!不按工龄调整可行吗?

明年养老金继续涨?人社部部长表态了!不按工龄调整可行吗?

李健政观察
2025-12-25 09:27:54
突发!曝郑州中原保时捷4S店人去楼空,账号私密,三朵金花已跳槽

突发!曝郑州中原保时捷4S店人去楼空,账号私密,三朵金花已跳槽

观察鉴娱
2025-12-25 08:44:12
2025-12-25 13:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1809678文章数 5049关注度
往期回顾 全部

科技要闻

屠龙少年被"招安"!英伟达平安夜豪掷200亿

头条要闻

女子入室杀害好友三名未成年子女 随后在楼内上吊自杀

头条要闻

女子入室杀害好友三名未成年子女 随后在楼内上吊自杀

体育要闻

单赛季11冠,羽坛“安洗莹时代”真的来了

娱乐要闻

金莎小19岁男友求婚成功!两人雪地拥吻

财经要闻

美国未来18个月不对中国芯片加额外关税

汽车要闻

预售31.3万元起 全新奥迪Q5L将于1月内上市

态度原创

数码
游戏
本地
家居
公开课

数码要闻

英特尔推出2025Q4版Arc Pro显卡驱动:核显可分得更多内存

89岁天际老奶奶现身《上古5》官方X 报平安庆圣诞

本地新闻

云游安徽|亳州晨暮皆成史,街巷纵横印春秋

家居要闻

经典弥新 品味浪漫居所

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版