网易首页 > 网易号 > 正文 申请入驻

真碾压Sora了!谷歌Veo 3首次实现音画同步,视频模型开口说话

0
分享至

还记得 2023 年 AI 视频最出圈的片段吗?威尔·史密斯吃面,动作鬼畜,画面寂静——

当时的视频大模型,只会动,不会说话。
Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷歌、阿里、字节等科技巨头,纷纷入局。

但无论画质如何进步,视频还是「哑巴」——

你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒菜时锅里的滋滋声?

对不起,还得自己导音频。

更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口气。

直到今天,谷歌正式发布 Veo 3 AI 视频,终于能「开口说话」了——

Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。
翻译成中文——


只用一个提示词,你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。

提示语:90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 「fofr」。一对夫妇说了些什么,观众大笑起来。

对白生成、唇动对齐和情绪音效(观众笑声),一气呵成
提示语:一位游戏主播(streamer)只用他的镐子(pickaxe)赢得了「Victory Royale」。

生成出的内容是完整直播风格视频,还带着夸张的欢呼与音效,画面有声有色
尽管凌晨才发布,Veo 3 已在社交网络掀起热潮,多个视频动辄数十万次播放,令人惊叹不已。

雪地步伐清晰传来咯吱声,鸭子嘎嘎叫,烹饪滋滋作响,撒胡椒声......

得益于模型对物理世界的深刻理解,所有声音非后期拼接,而是与画面实时同步生成。

Veo 3 还能精准捕捉画面情绪,渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫,逼真到让人有点毛骨悚然。

提示词:a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"
至于对口型,Veo 3 也表现突出:无论是脱口秀现场讲笑话,还是说唱音乐视频中的节奏口型,都能精准同步,真实感爆棚。

提示词:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue)

提示词:a man in a music video raps to the camera about generating videos with Veo3

生成歌剧和音乐会视频,成为检验 Veo 3 音画同步水平的高频场景。
这个视频里,鼓手的每一次击打动作都与鼓点节奏完美同步,与歌手表演同步,展现了模型在复杂多声音动态场景下出色的音画合成能力。支持多角色、多种风格的创作视频,虚拟人物演技不比《演员请就位》强多了?

长提示词理解与事件流生成方面,Veo 3 同样出色。
以前视频模型提示词一长就容易崩。
但 Veo 3 能理解长句子,完成一个完整、时间有序、逻辑清晰的小片段。
来看这个视频。

提示词:黎明时分,一位男士在美丽的夏日公园里奔跑,他上气不接下气,然后放慢速度,看着镜头,气喘吁吁地说:「用 API 运行 AI。使用 Replicate。」然后他继续跑。最后,「Replicate」的字样渐渐消失在视野中。

包含动作变化、对白插入、镜头切换、logo 渐隐……
多步骤连贯执行,事件流准确,效果不错:

音画同步生成,直接把视频模型拉到了新时代 。而其中关键能力,离不开 DeepMind 过去就悄悄铺下的一项底层技术:V2A( Video-to-Audio )
2023 年 6 月,DeepMind 就首次披露:

他们正开发一套 AI 系统,能从视频像素 + 文本提示中,自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是:将视频视觉信息编码为语义信号,与文本提示一同输入扩散模型,生成匹配的音频波形。
可以说,V2A 就是 Veo 3 的「耳朵」和「声带」。再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能,已经遥遥领先。
一个小遗憾:视频仍只有 8 秒。

另外,目前 Veo 3 仅面向美国 Ultra 订阅用户开放,定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。

虽然门槛不低、时长有限,但 Veo 3 的初次亮相,已足够震撼。
过去生成式 AI 是「语言+图像」的时代,现在,正在进入「视听一体」的新阶段。
生成视频从会动 → 能说 → 有氛围,一步步突破不同模态的边界。
如果说 Sora 是让 AI 看懂物理世界,那 Veo 3,就是让 AI 能「听懂」,「会说」。
看来,音画一体,将是下一轮视频模型竞赛的标配。

文中视频链接:https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯争议?阿根廷加时进球有效,FIFA给出了证据,越位真相大白

世界杯争议?阿根廷加时进球有效,FIFA给出了证据,越位真相大白

侃球熊弟
2026-07-04 08:27:13
CCTV直播!王曼昱与张本美和女双争冠 孙颖莎冲4强 国乒男单团灭 男双提前夺金

CCTV直播!王曼昱与张本美和女双争冠 孙颖莎冲4强 国乒男单团灭 男双提前夺金

好乒乓
2026-07-04 16:01:28
不结婚,怎么解决生理需求?58岁的歌唱家张也,给出了最佳回答

不结婚,怎么解决生理需求?58岁的歌唱家张也,给出了最佳回答

悦君兮君不知
2026-07-04 00:01:28
“对不起,深思熟虑,还是决定退圈了!”

“对不起,深思熟虑,还是决定退圈了!”

妈咪OK
2026-07-03 15:08:55
出手了,许家印的保护伞被正式起诉,索赔金额高达570亿

出手了,许家印的保护伞被正式起诉,索赔金额高达570亿

雨诺翛翛
2026-05-28 19:28:22
打破名校光环!985、211投档线出现严重倒挂:不少985不敌头部211

打破名校光环!985、211投档线出现严重倒挂:不少985不敌头部211

王姐懒人家常菜
2026-07-02 04:11:52
"一尿成名"任素汐:上半身是普通,下半身是贪婪,又丑又性感

"一尿成名"任素汐:上半身是普通,下半身是贪婪,又丑又性感

无处不风景love
2026-07-02 11:53:48
印度没想到,中国在藏南不费一枪一弹,悄无声息拿回领土主动权

印度没想到,中国在藏南不费一枪一弹,悄无声息拿回领土主动权

流史岁月
2026-07-03 14:00:05
当不成总统了?菲律宾发生暴动,杜特尔特反击的机会来了,美失声

当不成总统了?菲律宾发生暴动,杜特尔特反击的机会来了,美失声

小兰聊历史
2026-07-04 00:26:39
震惊!某银行员工工资截图流出,全年 114.49万,网友:恐怖如斯

震惊!某银行员工工资截图流出,全年 114.49万,网友:恐怖如斯

火山詩话
2026-07-04 14:51:26
中资拆除生产线,连夜回国!日本印度马上宣称要与印尼搞镍矿合作

中资拆除生产线,连夜回国!日本印度马上宣称要与印尼搞镍矿合作

阿龙聊军事
2026-07-04 09:25:21
永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

小鋭有话说
2026-07-01 13:25:56
中央5台直播世界杯时间表:明天7月5日CCTV5直播,法摩加巴冲8强

中央5台直播世界杯时间表:明天7月5日CCTV5直播,法摩加巴冲8强

薇说体育
2026-07-04 15:53:49
随着阿根廷3-2佛得角晋级,梅西卫冕世界杯冠军,只剩下2个对手

随着阿根廷3-2佛得角晋级,梅西卫冕世界杯冠军,只剩下2个对手

何老师呀
2026-07-04 09:05:20
中国走则万物落!面对印尼的镍矿收割,中企用21天拆除生产线回国

中国走则万物落!面对印尼的镍矿收割,中企用21天拆除生产线回国

老谢谈史
2026-07-04 12:49:39
太狡猾了!日本放任日元疯狂贬值,实际上是在给中国做的一个局?

太狡猾了!日本放任日元疯狂贬值,实际上是在给中国做的一个局?

亿通电子游戏
2026-07-04 15:58:43
中国男篮vs中国台北时间已定!CCTV5直播,若想晋级需做三点调整

中国男篮vs中国台北时间已定!CCTV5直播,若想晋级需做三点调整

顺静自然
2026-07-04 16:13:39
“高考估分715查分299 女孩称试卷不是自己的”?四川绵阳市教体局核查:纯属谣言 查无此人

“高考估分715查分299 女孩称试卷不是自己的”?四川绵阳市教体局核查:纯属谣言 查无此人

闪电新闻
2026-07-02 12:26:25
四登世界杯的夏奇拉,把兰博基尼随手送,身价3亿竟没有超跑?

四登世界杯的夏奇拉,把兰博基尼随手送,身价3亿竟没有超跑?

HerCar
2026-07-04 11:21:54
阿根廷3-2佛得角:90分钟装死加时收割,这剧本骗了全世界

阿根廷3-2佛得角:90分钟装死加时收割,这剧本骗了全世界

观星娱记
2026-07-04 17:08:11
2026-07-04 20:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

数百人在开放水域体验桨板 专家:再不治理迟早出大事

头条要闻

数百人在开放水域体验桨板 专家:再不治理迟早出大事

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
亲子
房产
公开课
军事航空

数码要闻

曜越推出Dr. Power III Pro电源检测仪可检测显卡供电接口

亲子要闻

孩子3岁后就是个“小大人”,再当着外人喊孩子小名,他会自卑

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版