哈喽,大家好,我是小方,今天,我们主要来看看,如今网络上那些足以乱真的AI视频,到底是怎么“变”出来的,以及这项技术的最新动态究竟到了哪一步。
![]()
![]()
如果你在2024年看过早期AI生成的视频,多半会觉得动作别扭、画面闪烁,而且全是“哑剧,但到了2025年,局面彻底变了,OpenAI的Sora、谷歌的Veo 3这些模型生成的十几秒片段,在清晰度和连贯性上已经让人难辨真假。
![]()
更关键的突破在于声音,此前,AI生成视频和生成音频是两个分离的步骤,合成后常常口型对不上,而谷歌Veo 3的核心创新,在于它能像理解画面一样理解声音,将音频和视频数据压缩成一个整体来处理,实现真正的“声画同生”,用DeepMind CEO哈萨比斯的话说,这标志着“我们正在走出视频生成的无声时代”。
![]()
这一切的背后,都绕不开一个核心——扩散模型。你可以把它想象成一个拥有超凡学习能力的“去噪大师”。
![]()
![]()
![]()
![]()
研究人员把视频在时间和空间上切成一个个小方块,就像把一部电影拆成一串“视觉词汇”,Transformer则负责理解这些“词汇”之间的前后关系,确保生成的视频在时间流上是逻辑自洽的,正是扩散模型和Transformer的结合,才造就了Sora等模型能生成时间、空间都稳定的视频。
![]()
![]()
![]()
AI视频生成的技术跃迁,本质上是将创造力工具前所未有地民主化,它正在重塑从好莱坞大片到个人短片的整个内容创作图谱。
![]()
尽管伴随噪音与能耗的挑战,但这项技术本身如同当年的摄像机或电脑特效,核心仍取决于使用它的人。未来,属于那些能用AI表达独特创意、传递真实情感的故事讲述者。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.