网易首页 > 网易号 > 正文 申请入驻

半年过去,AI视频卷到哪儿了?

0
分享至

定焦(dingjiaoone)原创

作者 | 王璐

编辑 | 魏佳

自从今年年初Sora露面后,国内国外都想用AI颠覆好莱坞,近期的AI视频圈更是十分热闹,产品一个接一个发布,都喊着要赶超Sora。

国外两家AI视频初创公司率先开打,旧金山人工智能科技公司Luma推出Dream Machine视频生成模型,并扔出堪称电影级别的宣传片,产品也给用户免费试用;另一家在AI视频领域小有名气的初创公司Runway,也宣布将Gen-3 Alpha模型向部分用户开启测试,称能将光影这样的细节生产出来。

国内也不甘示弱,快手推出的可灵Web端,用户能生成长达10秒的视频内容,还具备首尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》也在快手播出,画面均由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出,为字节旗下的AI视频产品即梦制作。

AI视频如此快的更新速度让不少网友直呼,“好莱坞可能又要来一次大罢工了。”

如今在AI视频赛道上,有谷歌、微软、Meta,阿里、字节、美图等国内外科技、互联网巨头,也有Runway、爱诗科技等新秀公司,据「定焦」不完全统计,仅国内,便有约20家公司推出了自研AI视频产品/模型。

头豹研究院数据显示,2021年中国AI视频生成行业的市场规模为800万元,预计2026年,这一市场规模将达到92.79亿元。不少业内人士相信,2024年生成视频赛道会迎来Midjourney时刻。

全球的Sora们发展到什么阶段了?谁最强?AI能干掉好莱坞吗?

围攻Sora:产品虽多,能用的少

AI视频赛道推出的产品/模型不少,但真正能让大众使用的十分有限,国外的突出代表便是Sora,半年过去了还在内测,仅对安全团队和一些视觉艺术家、设计师和电影制作人等开放。国内情况也差不多,阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG都在内测阶段,至于目前正火的快手可灵,用户想使用也需要排队申请,这已经刨去了一大半产品。

剩下可使用的AI视频产品中,一部分设置了使用门槛,用户需要付费或懂一定技术。比如潞晨科技的Open-Sora,如果不懂一点代码知识,使用者便无从下手。

「定焦」整理国内外公布的AI视频产品发现,各家的操作方式和功能差不多,用户先用文字生成指令,同时选择画幅大小、图像清晰度、生成风格、生成秒数等功能,最终点击一键生成。

这些功能背后的技术难度不同。其中最难的是,生成视频的清晰度和秒数,这也是AI视频赛道各家在宣传时比拼的重点,背后与训练过程中使用的素材质量和算力大小密切相关。

AI研究者Cyrus告诉「定焦」,目前国内外大多数AI视频支持生成480p/720p,也有少部分支持1080p的高清视频。

他介绍,高质量素材越多,算力越高,训练出来的模型能生成更高质量的视频,但不代表有高质量的素材算力,就能生成高质量素材。而用低分辨率素材训练的模型,若要强行生成高分辨视频,会出现崩坏或者重复,比如多手多脚。这类问题可以通过放大、修复和重绘之类的方式解决,不过效果和细节一般。

很多公司也把生成长秒数当卖点。

国内大部分AI视频支持2-3秒,能达到5-10秒算是比较强的产品,也有个别产品很卷,比如即梦最高长达12秒,不过大家都不及Sora,它曾表示最长能生成一段60秒的视频,但由于还没有开放使用,具体表现如何无法验证。

光卷时长还不够,生成的视频内容也得合理。石榴AI首席研究员张恒对「定焦」表示:从技术上,可以要求AI一直输出,毫不夸张地说,哪怕生成一个小时的视频,也不是问题,但我们多数时候要的并不是一段监控视频,也不是一个循环播放的风景画动图,而是画面精美有故事的短片。

「定焦」测试了5款国内比较热的免费文生视频AI产品,分别为字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI,给了它们一段相同的文字指令:“一个穿着红裙子的小女孩,在公园里,喂一只白色的小兔子吃胡萝卜。”

几款产品的生成速度上差不多,仅需2-3分钟,但清晰度、时长差得不少,准确度上更是“群魔乱舞” ,得到结果如下:

各家的优缺点很明显。即梦赢在时长,但生成质量不高,主角小女孩在后期直接变形,Vega AI也是相同的问题。PixVerse的画质比较差。

相比之下,Morph生成的内容很准确,但只有短短2秒。艺映画质也不错,但对文字理解不到位,直接把兔子这一关键元素弄丢了,且生成视频不够写实,偏漫画风。

总之,还没有一家产品能给到一段符合要求的视频。

AI视频难题:准确性、一致性、丰富性

「定焦」的体验效果和各家释放的宣传片相差很大,AI视频如果想要真正商用,还有相当长的一段路要走。

张恒告诉「定焦」,从技术角度看,他们主要从三个维度考量不同AI视频模型的水平:准确性、一致性、丰富性。

如何理解这三个维度,张恒举了个例子。

比如生成一段“两个女孩在操场看篮球比赛”的视频。

准确性体现在,一是对内容结构理解的准确,比如视频中出现的要是女孩,而且还是两个;二是流程控制的准确,比如投篮投进后,篮球要从篮网中逐渐下降;最后是静态数据建模准确,比如镜头出现遮挡物时,篮球不能变成橄榄球。

一致性是指,AI在时空上的建模能力,其中又包含主体注意力和长期注意力。

主体注意力可以理解为,在看篮球比赛的过程中,两个小女孩要一直留在画面里,不能随便乱跑;长期注意力为,在运动过程中,视频中的各个元素既不能丢,也不能出现变形等异常情况。

丰富性则是指,AI也有自己的逻辑,即便在没有文字提示下,能生成一些合理的细节内容。

以上维度,市面上出现的AI视频工具基本都没能完全做到,各家也在不断提出解决办法。

比如在视频很重要的人物一致性上,即梦、可灵想到了用图生视频取代文生视频。即用户先用文字生成图片,再用图片生成视频,或者直接给定一两张图片,AI将其连接变成动起来的视频。

“但这不属于新的技术突破,且图生视频难度要低于文生视频,”张恒告诉「定焦」,文生视频的原理是,AI先对用户输入的文字进行解析,拆解为一组分镜描述,将描述转文本再转图片,就得到了视频的中间关键帧,将这些图片连接起来,就能获得连续有动作的视频。而图生视频相当于给了AI一张可模仿的具体图片,生成的视频就会延续图片中的人脸特征,实现主角一致性。

他还表示,在实际场景中,图生视频的效果更符合用户预期,因为文字表达画面细节的能力有限,有图片作为参考,会对生成视频有所帮助,但当下也达不到商用的程度。直观上说,5秒是图生视频的上限,大于10秒可能意义就不大了,要么内容出现重复,要么结构扭曲质量下降。

目前很多宣称用AI进行全流程制作的影视短片,大部分采用的是图生视频或者视频到视频。

即梦的使用尾帧功能用的也是图生视频,「定焦」特意进行了尝试,结果如下:

在结合的过程中,人物出现了变形、失真。

Cyrus也表示,视频讲究连贯,很多AI视频工具支持图转视频也是通过单帧图片推测后续动作,至于推测得对不对,目前还是看运气。

据了解,文生视频在实现主角一致性上,各家也并非纯靠数据生成。张恒表示,大多数模型都是在原有底层DIT大模型的基础上,叠加各种技术,比如ControlVideo(哈工大和华为云提出的一种可控的文本-视频生成方法),从而加深AI对主角面部特征的记忆,使得人脸在运动过程中不会发生太大变化。

不过,目前都还在尝试阶段,即便做了技术叠加,也还没有完全解决人物一致性问题。

AI视频,为什么进化慢?

在AI圈,目前最卷的是美国和中国。

从《2023年全球最具影响力人工智能学者》(简称“AI 2000学者”榜单)的相关报告可以看出,2020年-2023年全球“AI 2000机构”4年累计的1071家机构中,美国拥有443家,其次是中国,有137家,从2023年“AI 2000学者”的国别分布看,美国入选人数最多,共有1079人,占全球总数的54.0%,其次是中国,共有280人入选。

这两年,AI除了在文生图、文生音乐的方面取得较大进步之外,最难突破的AI视频也有了一些突破。

在近期举办的世界人工智能大会上,倚天资本合伙人乐元公开表示,视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬认为,视频生成技术目前处于GPT-3 时代,距离成熟还有半年左右的时间。

不过,乐元也强调,其技术水平还是不足以支撑大范围商业化,基于语言模型开发应用所使用的方法论和遇到的挑战,在视频相关的应用领域也同样适用。

年初Sora的出现震惊全球,它基于transformer架构的新型扩散模型DiT再做扩散、生成的技术突破,提高了图像生成质量和写实,使得AI视频取得了重大突破。Cyrus表示,目前国内外的文生视频,大多数都沿用的是类似技术。

此刻,大家在底层技术上基本一致,虽然各家也以此为基础寻求技术突破,但更多卷的是训练数据,从而丰富产品功能。

用户在使用字节的即梦和Morph AI的Morph Studio时,可选择视频的运镜方式,背后原理便是数据集不同。

“以往各家在训练时使用的图片都比较简单,更多是对图片存在哪些元素进行标注,但没有交代这一元素用什么镜头拍摄,这也让很多公司发现了这一缺口,于是用3D渲染视频数据集补全镜头特征。”张恒表示,目前这些数据来自影视行业、游戏公司的效果图。

「定焦」也尝试了这一功能,但镜头变化不是很明显。

Sora们之所以比GPT、Midjourney们发展得慢,是因为又搭了一个时间轴,且训练视频模型比文字、图片更难。“现在能用的视频训练数据,都已经挖掘殆尽,我们也在想一些新办法制造一系列可以拿来训练的数据。”张恒说。

且每个AI视频模型都有自己擅长的风格,就像快手可灵做的吃播视频更好,因为其背后有大量这类数据支撑。

石榴AI创始人沈仁奎认为,AI视频的技术有Text to video(文本转视频),Image to video(图片转视频),Video to video(视频转视频),以及Avatar to video(数字人),能定制形象和声音的数字人,已经运用到了营销领域,达到了商用程度,而文生视频还需要解决精准度和可控度问题。

此刻,无论是由抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》,更多是大模型公司主动找影视制作团队进行合作,有推广自家技术产品的需求,且作品也没有出圈。

在短视频领域,AI还有很长的路要走,干掉好莱坞了的说法更为时尚早。

*题图来源于Pexels。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一天卖出百万单!“台州制造”为何纷纷涌入天猫

一天卖出百万单!“台州制造”为何纷纷涌入天猫

浙江之声
2026-04-05 22:38:33
主持人沈南自曝:与老婆在一起21年,老婆把他V信设成“免打扰”

主持人沈南自曝:与老婆在一起21年,老婆把他V信设成“免打扰”

小娱乐悠悠
2026-04-04 17:15:35
别再白跑冤枉路!身份证到期换证,只需要改这一处,很多人做错

别再白跑冤枉路!身份证到期换证,只需要改这一处,很多人做错

复转这些年
2026-04-04 07:47:46
王京花想不明白,为何砸再多资源儿子都不火,孙怡却走上了上坡路

王京花想不明白,为何砸再多资源儿子都不火,孙怡却走上了上坡路

揽星河的笔记
2026-04-04 17:12:47
祁东女教师的瓜

祁东女教师的瓜

皮蛋儿电影
2026-03-23 15:30:40
京圈“顶级富二代”落马:该对有钱人祛魅了……

京圈“顶级富二代”落马:该对有钱人祛魅了……

不二表姐
2026-03-26 23:45:09
山东旋转门事件:巨婴家长太离谱,员工提醒遭报警,含泪鞠躬道歉

山东旋转门事件:巨婴家长太离谱,员工提醒遭报警,含泪鞠躬道歉

眼光很亮
2026-04-05 10:45:57
1979年,越南老百姓发现一怪象:中国军队撤军时,专炸水泥电线杆

1979年,越南老百姓发现一怪象:中国军队撤军时,专炸水泥电线杆

百年历史老号
2026-03-29 01:40:42
前英超裁判:马丁内利推裁判该被红牌罚下,他完全不尊重裁判

前英超裁判:马丁内利推裁判该被红牌罚下,他完全不尊重裁判

懂球帝
2026-04-06 00:31:54
杨幂的身材好肥美

杨幂的身材好肥美

东方不败然多多
2026-04-05 14:40:23
詹姆斯已经是常规赛和季后赛得分王了,那他能成总决赛得分王吗?

詹姆斯已经是常规赛和季后赛得分王了,那他能成总决赛得分王吗?

大西体育
2026-04-05 22:12:33
3连鞭到手,5-2!赵心童仅差2分单杆破百,小特决赛第一阶段必败

3连鞭到手,5-2!赵心童仅差2分单杆破百,小特决赛第一阶段必败

刘姚尧的文字城堡
2026-04-05 22:32:52
敌后无声求救!美军这款隐身救援神器拯救了F-15的飞行员

敌后无声求救!美军这款隐身救援神器拯救了F-15的飞行员

斯德哥尔摩的帕金森
2026-04-06 00:01:20
董洁,又一次赢了!

董洁,又一次赢了!

宛沐
2026-04-01 16:00:09
人生建议:不要在任何关系里对抗

人生建议:不要在任何关系里对抗

洞见
2026-04-04 21:52:39
为王思聪生娃也没用!黄一鸣被限高,申请分期每月还十几万陷死局

为王思聪生娃也没用!黄一鸣被限高,申请分期每月还十几万陷死局

橙星文娱
2026-04-05 11:07:53
老板娘吴迪:50岁风情万种,纹身很个性,曾为易建联砸2亿留队魂

老板娘吴迪:50岁风情万种,纹身很个性,曾为易建联砸2亿留队魂

做一个合格的吃瓜群众
2026-03-27 10:48:37
吉林男篮总结比赛:球队手感冰冷,而上海男篮多点开花

吉林男篮总结比赛:球队手感冰冷,而上海男篮多点开花

烟浔渺渺
2026-04-06 07:08:12
大量GPS定位器流入闲鱼!自带无限流量,全新才九块九

大量GPS定位器流入闲鱼!自带无限流量,全新才九块九

闲搞机
2026-04-04 11:00:09
好撩的中年女人,大多会有这几个表现,一看便知

好撩的中年女人,大多会有这几个表现,一看便知

叶飞飞情感屋
2026-03-14 16:20:02
2026-04-06 08:31:00
定焦One incentive-icons
定焦One
深度影响创新。
967文章数 1109关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗媒体:多名美士兵在营救行动中身亡 美军试图摧毁遗体

头条要闻

伊朗媒体:多名美士兵在营救行动中身亡 美军试图摧毁遗体

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

本地
旅游
时尚
亲子
公开课

本地新闻

跟着歌声游安徽,听古村回响

旅游要闻

大理花事 | 春日来大理赏茶花

伊姐清明热推:电视剧《暴锋雨》;电影《我,许可》......

亲子要闻

小英自曝给女儿剪短发原因!怕头发抢营养长不高,想剃光头太真实

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版