网易首页 > 网易号 > 正文 申请入驻

AI视频大模型:重塑广播电视生产力新范式

0
分享至

来源:国家广电智库


导读

随着人工智能在多模态生成领域的持续突破,谷歌DeepMind推出Genie 3与Veo 3.1,OpenAI发布Sora 2,实现了从实时交互世界建模到声画原生同步的跨越。与此同时,国产模型即梦3.5 PRO与Kling 2.6在镜头控制与物理模拟上快速迭代,展现出强劲竞争力。这些技术合力推动广播电视及网络视听行业在生产模式、节目形态与商业范式上的深层变革。


谷歌DeepMind团队长期在强化学习、深度网络与多模态生成方面处于前沿:从GameNGen的纯神经引擎,到Genie 3实现的分辨率为720p、帧率为24fps且具备分钟级一致性的可交互世界,再到Veo系列实现的从文本或图像到视频及原生音频的生成,逐步形成了涵盖世界搭建、镜头表达以及声画一体成片的完整技术栈。OpenAI推出的Sora 2通过强化物理角色一致性与镜头可控性,将声画同步生成能力推向播出标准片段的新高度。与此同时,国产模型即梦3.5 PRO在复杂叙事理解与本土化内容创作流上深耕,快手可灵2.6则在物理运动解算与超高清画面产出上快速迭代。国内外这些顶尖视频生成技术相互交织,共同构筑了从虚拟场景仿真到高质量视听成片的智能生产矩阵。

一、Genie 3与Veo 3的技术沿革、技术原理与核心特征

(一)技术沿革

1. Genie系列:GameNGen是由谷歌DeepMind与以色列特拉维夫大学合作研发,旨在用扩散模型替代传统游戏引擎,通过历史帧+动作输入预测下一帧画面。在此基础上,DeepMind发布Genie 2,能接收图像提示自动生成可交互的三维虚拟环境。2025年8月5日,DeepMind发布Genie 3,能以24帧/秒、720p的规格生成可交互的世界环境,并可持续运行数分钟,用户在交互过程中还能够用自然语言触发“世界事件”,如改变天气、加入角色、重构环境等,标志着AI世界建模向通用化与应用化迈出了重要一步。

2. Veo系列:2024年5月,DeepMind首次公布Veo;同年12月Veo 2上线,支持4K视频生成。2025年5月,Veo 3发布,能够原生生成对白、环境声与音效。2025年10月15日Veo 3.1发布,新增多图到视频、首尾帧过渡、视频延展到1分钟、全功能模块音频支持、对象移除与更精细编辑等,为影视、广告和网络视频的专业生产提供了新的工具。

3. Sora系列:OpenAI在2025年9月30日发布Sora 2,这是该系列的重大升级:显著增强物理模拟精度、风格控制与用户可控性,并首次引入对白/音效/场景音频的同步生成,使视频与声音在时间与语义上更紧密贴合;同时推出独立应用并逐步扩大可用时长,进一步靠近“可播出级片段”的制作门槛。

(二)Genie 3与Veo 3.1和Sora 2的技术原理与核心特征

Genie 3:实时可交互的通用世界模型 Genie 3的底层是一个“动作/文本条件的世界模型”,核心架构包含时空视频编码器、自回归动态模型和潜在动作模型。其工作机理是:首先将文本或图像提示编码为条件,生成首批视频潜表示;随后采用逐帧自回归的动力学建模,每一步都把历史帧与用户的操控输入作为上下文来预测下一帧。Genie 3能记住已走过的路径,即使离开后再回来,仍能保持先前状态。其核心特征包括:一是将“可玩”推进至实时可玩,24fps、720p的连续导航与操作成为默认能力;二是时间跨度更长,能够维持数分钟的环境一致性与物体持久性;三是支持运行时文本触发事件,使其更像一台“神经实时引擎”。

Veo 3/3.1:声画同步的统一生成 Veo 3系列核心基于统一的潜在扩散模型(Latent Diffusion Model)。在同一生成链路中,视频与音频通过协同机制同步生成。Veo 3.1在编辑能力、音频支持与提示控制等方面显著增强,引入对光照/阴影的可控编辑,并允许用户在视频中进行对象移除、场景重构等操作。它支持从三张参考图生成视频与音频,支持首帧到末帧之间的过渡视频与音频,并可将已有片段延展至约1分钟。Veo 3.1的定位由“短片生成”走向更完整的“视频创作平台”。

Sora 2:物理一致性与原生音频升级 Sora 2采用“扩散+变换器(Transformer)”的混合结构。音频是Sora 2的一大升级:它整合对白、音效与环境音的同步生成能力,使音画在时间与语义层面更紧密对应。此外,Sora 2还支持用户上传自有短片/音视频素材,模型在学习人物形象与声音后可将其嵌入生成视频中。在安全性上,Sora 2设计了多重限制与防护机制,包括加入可追溯水印、限制敏感提示等。

(三)Genie 3与Veo 3.1/Sora2与我国主流同类型模型比较

在国际模型不断突破的同时,我国视频生成模型也在快速迭代。以即梦3.5 PRO和Kling 2.6为代表的国产模型,在镜头控制、语义理解及本土化工作流方面展现出强大的竞争力。

即梦3.5 PRO:字节跳动旗下的即梦AI迭代至3.5 PRO版本,在延续3.0版本镜头语言优势的基础上,重点强化了语义级编辑与长视频逻辑性。与Veo 3.1相比,即梦3.5 PRO的特色在于对复杂叙事逻辑的理解能力,支持多镜头脚本的一键生成与一致性串联,单次生成时长上限提升至15秒,并可通过拼接维持近2分钟的角色与场景高度一致。在音频方面,3.5 PRO引入了智能声场匹配技术,能根据视频画面自动生成高契合度的背景音与拟音,提供了更加符合国内运营习惯的模板化与参数化控制。

可灵2.6:快手可灵(Kling)发布的2.6版本,则在物理世界模拟与超高清画质上向Sora 2看齐。Kling 2.6采用了优化后的DiT架构,显著提升了复杂物理运动(如流体、布料解算)的真实感,并支持1080p/60fps的原生输出。该版本最大的突破是增强了首尾帧控制与运动笔刷的精准度,允许创作者对视频内的特定元素进行轨迹规划,通过与国内语音大模型的接口打通,实现了高精度的口型同步率。

二、未来影响及对我国广播电视网络视听行业的启示

Genie 3与Veo 3.1/Sora 2,以及国产即梦、可灵技术的融合应用,或将从生产范式、节目形态到商业模式三个维度重构行业。在生产上,行业正从拍摄与后期结合的传统模式转向世界构建与虚拟运镜的新范式,Genie 3实现的实时交互环境配合Veo 3.1与Sora 2的声画合一能力,极大压缩了从创意到播出的周期与成本。在形态上,技术催生了具备原生互动特征的内容新物种,节目转变为观众可介入的平行时空,实现了从观看电视到参与体验电视的跃升。在商业模式上,单一收入结构向互动资产运营模式扩展,核心虚拟资产可低成本衍生为游戏、文旅体验或教育课件,通过单一资源多场景使用以及跨屏幕变现的方式,为广电行业挖掘存量市场中的新增长点。

面对国际技术迭代,我国广电行业应在技术跟踪、生态建设与安全治理三方面同步发力。首先,保持敏锐的评估机制,密切跟踪前沿模型进展并科学评估其在新闻、综艺等品类的适配性,确立符合国情的应用优先级。其次,加速构建自主可控的智能生态,共建广电级视听素材库与提示工程标准,打通数据与工具链堵点,实现全流程深度嵌入以缩小国际代差。最后,筑牢安全治理防线,建立全生命周期监管体系,完善生成式内容标识、素材溯源与版权授权机制,确保技术红利在安全、可控、合规的轨道上释放,推动行业向智能化、高质化迈进。

好文共赏请转发 有话要说请留言

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本前官房长官窜访台湾,外交部:别向“台独”发出任何错误信号

日本前官房长官窜访台湾,外交部:别向“台独”发出任何错误信号

澎湃新闻
2026-01-16 15:24:29
40岁董方卓拒执教U23国足:除了高血压我能得到啥 我还想多活几年

40岁董方卓拒执教U23国足:除了高血压我能得到啥 我还想多活几年

风过乡
2026-01-16 12:53:25
升西部第二!文班22+10受伤惊魂 马刺最多领先39分大胜雄鹿

升西部第二!文班22+10受伤惊魂 马刺最多领先39分大胜雄鹿

醉卧浮生
2026-01-16 11:23:40
特朗普提名的驻冰岛大使笑称该岛将成美国第52个州引众怒 冰岛有什么让美国看上了?

特朗普提名的驻冰岛大使笑称该岛将成美国第52个州引众怒 冰岛有什么让美国看上了?

红星新闻
2026-01-16 13:10:25
安徽一殡仪馆处理逝者遗物时,竟在被子里发现41万存款单……

安徽一殡仪馆处理逝者遗物时,竟在被子里发现41万存款单……

环球网资讯
2026-01-15 15:33:07
德国重大转向,“俄罗斯是一个欧洲国家”

德国重大转向,“俄罗斯是一个欧洲国家”

观察者网
2026-01-16 13:31:05
真闯祸了!中方发出“讨贼檄文”后,马科斯面临弹劾,恐要逃亡了

真闯祸了!中方发出“讨贼檄文”后,马科斯面临弹劾,恐要逃亡了

青青子衿
2026-01-15 19:20:16
广州幼儿园 “关停潮” 蔓延!又有40多所扛不下去了

广州幼儿园 “关停潮” 蔓延!又有40多所扛不下去了

风向观察
2026-01-15 21:39:09
詹姆斯29+9+6湖人爆冷惨负黄蜂 东契奇39分三球30+11+9三分

詹姆斯29+9+6湖人爆冷惨负黄蜂 东契奇39分三球30+11+9三分

醉卧浮生
2026-01-16 13:52:19
内部群截图疯传,追觅员工怒怼CEO俞浩:“药磕多了?”

内部群截图疯传,追觅员工怒怼CEO俞浩:“药磕多了?”

穿透
2026-01-15 15:29:41
本该发给媳妇的信息,却发到了工作群,后续让人没想到……

本该发给媳妇的信息,却发到了工作群,后续让人没想到……

环球网资讯
2026-01-15 14:50:09
央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

晓今娱
2026-01-16 11:03:57
马斯克警告中国在AI计算和电力上大幅领先美国:中国电力产能2026年达到美国的3倍

马斯克警告中国在AI计算和电力上大幅领先美国:中国电力产能2026年达到美国的3倍

知识圈
2026-01-15 16:49:27
一个被炸成废墟的国家,靠什么在20年内重返巅峰?

一个被炸成废墟的国家,靠什么在20年内重返巅峰?

苏格拉高
2026-01-16 14:51:28
风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

深度报
2026-01-15 23:03:13
飙升到166万亿!中国人民的存款,太多了

飙升到166万亿!中国人民的存款,太多了

说财猫
2026-01-15 19:39:32
中国证监会召开2026年系统工作会议

中国证监会召开2026年系统工作会议

界面新闻
2026-01-16 15:34:22
美国与台湾当局就“投资换关税”达成协议,外交部回应

美国与台湾当局就“投资换关税”达成协议,外交部回应

澎湃新闻
2026-01-16 15:24:26
第三轮中日争端打响,日本要登岛调查,简直强词夺理,中方表态了

第三轮中日争端打响,日本要登岛调查,简直强词夺理,中方表态了

时时有聊
2026-01-15 20:34:48
检察官之子强奸幼女被判8年,家属坚称无罪

检察官之子强奸幼女被判8年,家属坚称无罪

中国新闻周刊
2026-01-16 12:22:53
2026-01-16 15:48:49
广电猎酷 incentive-icons
广电猎酷
致力于广电科技的第一订阅号
10955文章数 2627关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

亲子
时尚
本地
健康
军事航空

亲子要闻

当何美延开始亲自带孩子,世界都变得和谐了

年度最扎心电影,看得中年男女坐立难安

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

血常规3项异常,是身体警报!

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版