网易首页 > 网易号 > 正文 申请入驻

AI视频大模型:重塑广播电视生产力新范式

0
分享至

来源:国家广电智库


导读

随着人工智能在多模态生成领域的持续突破,谷歌DeepMind推出Genie 3与Veo 3.1,OpenAI发布Sora 2,实现了从实时交互世界建模到声画原生同步的跨越。与此同时,国产模型即梦3.5 PRO与Kling 2.6在镜头控制与物理模拟上快速迭代,展现出强劲竞争力。这些技术合力推动广播电视及网络视听行业在生产模式、节目形态与商业范式上的深层变革。


谷歌DeepMind团队长期在强化学习、深度网络与多模态生成方面处于前沿:从GameNGen的纯神经引擎,到Genie 3实现的分辨率为720p、帧率为24fps且具备分钟级一致性的可交互世界,再到Veo系列实现的从文本或图像到视频及原生音频的生成,逐步形成了涵盖世界搭建、镜头表达以及声画一体成片的完整技术栈。OpenAI推出的Sora 2通过强化物理角色一致性与镜头可控性,将声画同步生成能力推向播出标准片段的新高度。与此同时,国产模型即梦3.5 PRO在复杂叙事理解与本土化内容创作流上深耕,快手可灵2.6则在物理运动解算与超高清画面产出上快速迭代。国内外这些顶尖视频生成技术相互交织,共同构筑了从虚拟场景仿真到高质量视听成片的智能生产矩阵。

一、Genie 3与Veo 3的技术沿革、技术原理与核心特征

(一)技术沿革

1. Genie系列:GameNGen是由谷歌DeepMind与以色列特拉维夫大学合作研发,旨在用扩散模型替代传统游戏引擎,通过历史帧+动作输入预测下一帧画面。在此基础上,DeepMind发布Genie 2,能接收图像提示自动生成可交互的三维虚拟环境。2025年8月5日,DeepMind发布Genie 3,能以24帧/秒、720p的规格生成可交互的世界环境,并可持续运行数分钟,用户在交互过程中还能够用自然语言触发“世界事件”,如改变天气、加入角色、重构环境等,标志着AI世界建模向通用化与应用化迈出了重要一步。

2. Veo系列:2024年5月,DeepMind首次公布Veo;同年12月Veo 2上线,支持4K视频生成。2025年5月,Veo 3发布,能够原生生成对白、环境声与音效。2025年10月15日Veo 3.1发布,新增多图到视频、首尾帧过渡、视频延展到1分钟、全功能模块音频支持、对象移除与更精细编辑等,为影视、广告和网络视频的专业生产提供了新的工具。

3. Sora系列:OpenAI在2025年9月30日发布Sora 2,这是该系列的重大升级:显著增强物理模拟精度、风格控制与用户可控性,并首次引入对白/音效/场景音频的同步生成,使视频与声音在时间与语义上更紧密贴合;同时推出独立应用并逐步扩大可用时长,进一步靠近“可播出级片段”的制作门槛。

(二)Genie 3与Veo 3.1和Sora 2的技术原理与核心特征

Genie 3:实时可交互的通用世界模型 Genie 3的底层是一个“动作/文本条件的世界模型”,核心架构包含时空视频编码器、自回归动态模型和潜在动作模型。其工作机理是:首先将文本或图像提示编码为条件,生成首批视频潜表示;随后采用逐帧自回归的动力学建模,每一步都把历史帧与用户的操控输入作为上下文来预测下一帧。Genie 3能记住已走过的路径,即使离开后再回来,仍能保持先前状态。其核心特征包括:一是将“可玩”推进至实时可玩,24fps、720p的连续导航与操作成为默认能力;二是时间跨度更长,能够维持数分钟的环境一致性与物体持久性;三是支持运行时文本触发事件,使其更像一台“神经实时引擎”。

Veo 3/3.1:声画同步的统一生成 Veo 3系列核心基于统一的潜在扩散模型(Latent Diffusion Model)。在同一生成链路中,视频与音频通过协同机制同步生成。Veo 3.1在编辑能力、音频支持与提示控制等方面显著增强,引入对光照/阴影的可控编辑,并允许用户在视频中进行对象移除、场景重构等操作。它支持从三张参考图生成视频与音频,支持首帧到末帧之间的过渡视频与音频,并可将已有片段延展至约1分钟。Veo 3.1的定位由“短片生成”走向更完整的“视频创作平台”。

Sora 2:物理一致性与原生音频升级 Sora 2采用“扩散+变换器(Transformer)”的混合结构。音频是Sora 2的一大升级:它整合对白、音效与环境音的同步生成能力,使音画在时间与语义层面更紧密对应。此外,Sora 2还支持用户上传自有短片/音视频素材,模型在学习人物形象与声音后可将其嵌入生成视频中。在安全性上,Sora 2设计了多重限制与防护机制,包括加入可追溯水印、限制敏感提示等。

(三)Genie 3与Veo 3.1/Sora2与我国主流同类型模型比较

在国际模型不断突破的同时,我国视频生成模型也在快速迭代。以即梦3.5 PRO和Kling 2.6为代表的国产模型,在镜头控制、语义理解及本土化工作流方面展现出强大的竞争力。

即梦3.5 PRO:字节跳动旗下的即梦AI迭代至3.5 PRO版本,在延续3.0版本镜头语言优势的基础上,重点强化了语义级编辑与长视频逻辑性。与Veo 3.1相比,即梦3.5 PRO的特色在于对复杂叙事逻辑的理解能力,支持多镜头脚本的一键生成与一致性串联,单次生成时长上限提升至15秒,并可通过拼接维持近2分钟的角色与场景高度一致。在音频方面,3.5 PRO引入了智能声场匹配技术,能根据视频画面自动生成高契合度的背景音与拟音,提供了更加符合国内运营习惯的模板化与参数化控制。

可灵2.6:快手可灵(Kling)发布的2.6版本,则在物理世界模拟与超高清画质上向Sora 2看齐。Kling 2.6采用了优化后的DiT架构,显著提升了复杂物理运动(如流体、布料解算)的真实感,并支持1080p/60fps的原生输出。该版本最大的突破是增强了首尾帧控制与运动笔刷的精准度,允许创作者对视频内的特定元素进行轨迹规划,通过与国内语音大模型的接口打通,实现了高精度的口型同步率。

二、未来影响及对我国广播电视网络视听行业的启示

Genie 3与Veo 3.1/Sora 2,以及国产即梦、可灵技术的融合应用,或将从生产范式、节目形态到商业模式三个维度重构行业。在生产上,行业正从拍摄与后期结合的传统模式转向世界构建与虚拟运镜的新范式,Genie 3实现的实时交互环境配合Veo 3.1与Sora 2的声画合一能力,极大压缩了从创意到播出的周期与成本。在形态上,技术催生了具备原生互动特征的内容新物种,节目转变为观众可介入的平行时空,实现了从观看电视到参与体验电视的跃升。在商业模式上,单一收入结构向互动资产运营模式扩展,核心虚拟资产可低成本衍生为游戏、文旅体验或教育课件,通过单一资源多场景使用以及跨屏幕变现的方式,为广电行业挖掘存量市场中的新增长点。

面对国际技术迭代,我国广电行业应在技术跟踪、生态建设与安全治理三方面同步发力。首先,保持敏锐的评估机制,密切跟踪前沿模型进展并科学评估其在新闻、综艺等品类的适配性,确立符合国情的应用优先级。其次,加速构建自主可控的智能生态,共建广电级视听素材库与提示工程标准,打通数据与工具链堵点,实现全流程深度嵌入以缩小国际代差。最后,筑牢安全治理防线,建立全生命周期监管体系,完善生成式内容标识、素材溯源与版权授权机制,确保技术红利在安全、可控、合规的轨道上释放,推动行业向智能化、高质化迈进。

好文共赏请转发 有话要说请留言

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川“黑道女皇”叶永梅:凭美貌上位,为祸四川10多年,下场如何

四川“黑道女皇”叶永梅:凭美貌上位,为祸四川10多年,下场如何

谈史论天地
2026-03-05 13:37:50
从人满为患到接连倒闭,几乎“消失”的网吧,为何忽然复活了?

从人满为患到接连倒闭,几乎“消失”的网吧,为何忽然复活了?

墨印斋
2025-12-10 18:28:12
1.2亿农村老人,每月只领200元养老金,买两袋米就没了。

1.2亿农村老人,每月只领200元养老金,买两袋米就没了。

流苏晚晴
2026-02-26 18:18:15
美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

历史求知所
2025-12-01 11:30:06
梅根为返回英国晒女儿正脸,要求待遇对标凯特,威廉:爱回不回

梅根为返回英国晒女儿正脸,要求待遇对标凯特,威廉:爱回不回

白露文娱志
2026-02-26 10:51:42
伊朗祭出绝杀令!台湾只剩5天活路?特朗普摊手:大家咬牙忍忍

伊朗祭出绝杀令!台湾只剩5天活路?特朗普摊手:大家咬牙忍忍

南宗历史
2026-03-06 18:25:26
她一脱成名,事后亲人反目被丈夫抛弃,如今49岁功成名就无人敢娶

她一脱成名,事后亲人反目被丈夫抛弃,如今49岁功成名就无人敢娶

翰飞观事
2026-03-04 19:21:12
关晓彤和李昀锐,刚官宣就撕成这样?

关晓彤和李昀锐,刚官宣就撕成这样?

章眽八卦
2026-03-05 16:37:16
从拳打shimano,到消亡收购:一个自行车变速器帝国的前世今生

从拳打shimano,到消亡收购:一个自行车变速器帝国的前世今生

单车基械匠
2026-03-06 19:29:08
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
抱紧美日大腿,停飞中国航班、拒绝中国游客的小国,如今怎样了?

抱紧美日大腿,停飞中国航班、拒绝中国游客的小国,如今怎样了?

墨兰史书
2026-03-07 03:50:03
恩爱29年难抵"现实"?"喜新厌旧"的陈凯歌,为自己的行为买了单

恩爱29年难抵"现实"?"喜新厌旧"的陈凯歌,为自己的行为买了单

小熊侃史
2026-03-04 14:12:31
这是目前为止,我见过腰最细的女生,没有之一

这是目前为止,我见过腰最细的女生,没有之一

草莓解说体育
2026-03-03 19:15:05
对越反击战前,广州军区副司令遭免职,许世友直言:此乃兵家大忌

对越反击战前,广州军区副司令遭免职,许世友直言:此乃兵家大忌

观史搜寻着
2026-03-06 23:43:45
两会日程预告|3月7日:人代会审查计划、预算报告 政协举行第二次全体会议

两会日程预告|3月7日:人代会审查计划、预算报告 政协举行第二次全体会议

新华社
2026-03-06 21:09:03
2-1!熊皇失单刀,巴尔韦德绝杀,皇马终结连败,5天后再战曼城

2-1!熊皇失单刀,巴尔韦德绝杀,皇马终结连败,5天后再战曼城

我的护球最独特
2026-03-07 06:08:17
林诗栋之后又有2人退赛,王楚钦紧急发声,刘国梁王励勤现身北京

林诗栋之后又有2人退赛,王楚钦紧急发声,刘国梁王励勤现身北京

银河史记
2026-03-06 18:33:18
印度人怒了:美军杀害的,是我们的客人!

印度人怒了:美军杀害的,是我们的客人!

环球时报国际
2026-03-05 23:59:46
巴拉克:至今仍难接受儿子去世,这也让我和另两个孩子更亲密

巴拉克:至今仍难接受儿子去世,这也让我和另两个孩子更亲密

懂球帝
2026-03-07 03:48:02
痒是大病预警!医生提醒:2处发痒,或不是过敏,而是这4病

痒是大病预警!医生提醒:2处发痒,或不是过敏,而是这4病

医学科普汇
2026-03-05 21:20:03
2026-03-07 07:03:00
广电猎酷 incentive-icons
广电猎酷
致力于广电科技的第一订阅号
11065文章数 2629关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗称向美军“林肯”号航母发射导弹

头条要闻

伊朗称向美军“林肯”号航母发射导弹

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

艺术
教育
亲子
旅游
军事航空

艺术要闻

陈独秀写给青年毛泽东的对联,一语双关,陈氏书法“天花板”!

教育要闻

本科扩招10万人!深度解析战略布局

亲子要闻

儿童鼻出血的常见问题,儿科医生解答

旅游要闻

杭州CBD藏了片七彩油菜花海,草莓熊坐镇,成年人的治愈全在这儿

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版