网易首页 > 网易号 > 正文 申请入驻

半年过去,AI视频卷到哪儿了?

0
分享至

定焦(dingjiaoone)原创

作者 | 王璐

编辑 | 魏佳

自从今年年初Sora露面后,国内国外都想用AI颠覆好莱坞,近期的AI视频圈更是十分热闹,产品一个接一个发布,都喊着要赶超Sora。

国外两家AI视频初创公司率先开打,旧金山人工智能科技公司Luma推出Dream Machine视频生成模型,并扔出堪称电影级别的宣传片,产品也给用户免费试用;另一家在AI视频领域小有名气的初创公司Runway,也宣布将Gen-3 Alpha模型向部分用户开启测试,称能将光影这样的细节生产出来。

国内也不甘示弱,快手推出的可灵Web端,用户能生成长达10秒的视频内容,还具备首尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》也在快手播出,画面均由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出,为字节旗下的AI视频产品即梦制作。

AI视频如此快的更新速度让不少网友直呼,“好莱坞可能又要来一次大罢工了。”

如今在AI视频赛道上,有谷歌、微软、Meta,阿里、字节、美图等国内外科技、互联网巨头,也有Runway、爱诗科技等新秀公司,据「定焦」不完全统计,仅国内,便有约20家公司推出了自研AI视频产品/模型。

头豹研究院数据显示,2021年中国AI视频生成行业的市场规模为800万元,预计2026年,这一市场规模将达到92.79亿元。不少业内人士相信,2024年生成视频赛道会迎来Midjourney时刻。

全球的Sora们发展到什么阶段了?谁最强?AI能干掉好莱坞吗?

围攻Sora:产品虽多,能用的少

AI视频赛道推出的产品/模型不少,但真正能让大众使用的十分有限,国外的突出代表便是Sora,半年过去了还在内测,仅对安全团队和一些视觉艺术家、设计师和电影制作人等开放。国内情况也差不多,阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG都在内测阶段,至于目前正火的快手可灵,用户想使用也需要排队申请,这已经刨去了一大半产品。

剩下可使用的AI视频产品中,一部分设置了使用门槛,用户需要付费或懂一定技术。比如潞晨科技的Open-Sora,如果不懂一点代码知识,使用者便无从下手。

「定焦」整理国内外公布的AI视频产品发现,各家的操作方式和功能差不多,用户先用文字生成指令,同时选择画幅大小、图像清晰度、生成风格、生成秒数等功能,最终点击一键生成。

这些功能背后的技术难度不同。其中最难的是,生成视频的清晰度和秒数,这也是AI视频赛道各家在宣传时比拼的重点,背后与训练过程中使用的素材质量和算力大小密切相关。

AI研究者Cyrus告诉「定焦」,目前国内外大多数AI视频支持生成480p/720p,也有少部分支持1080p的高清视频。

他介绍,高质量素材越多,算力越高,训练出来的模型能生成更高质量的视频,但不代表有高质量的素材算力,就能生成高质量素材。而用低分辨率素材训练的模型,若要强行生成高分辨视频,会出现崩坏或者重复,比如多手多脚。这类问题可以通过放大、修复和重绘之类的方式解决,不过效果和细节一般。

很多公司也把生成长秒数当卖点。

国内大部分AI视频支持2-3秒,能达到5-10秒算是比较强的产品,也有个别产品很卷,比如即梦最高长达12秒,不过大家都不及Sora,它曾表示最长能生成一段60秒的视频,但由于还没有开放使用,具体表现如何无法验证。

光卷时长还不够,生成的视频内容也得合理。石榴AI首席研究员张恒对「定焦」表示:从技术上,可以要求AI一直输出,毫不夸张地说,哪怕生成一个小时的视频,也不是问题,但我们多数时候要的并不是一段监控视频,也不是一个循环播放的风景画动图,而是画面精美有故事的短片。

「定焦」测试了5款国内比较热的免费文生视频AI产品,分别为字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI,给了它们一段相同的文字指令:“一个穿着红裙子的小女孩,在公园里,喂一只白色的小兔子吃胡萝卜。”

几款产品的生成速度上差不多,仅需2-3分钟,但清晰度、时长差得不少,准确度上更是“群魔乱舞” ,得到结果如下:

各家的优缺点很明显。即梦赢在时长,但生成质量不高,主角小女孩在后期直接变形,Vega AI也是相同的问题。PixVerse的画质比较差。

相比之下,Morph生成的内容很准确,但只有短短2秒。艺映画质也不错,但对文字理解不到位,直接把兔子这一关键元素弄丢了,且生成视频不够写实,偏漫画风。

总之,还没有一家产品能给到一段符合要求的视频。

AI视频难题:准确性、一致性、丰富性

「定焦」的体验效果和各家释放的宣传片相差很大,AI视频如果想要真正商用,还有相当长的一段路要走。

张恒告诉「定焦」,从技术角度看,他们主要从三个维度考量不同AI视频模型的水平:准确性、一致性、丰富性。

如何理解这三个维度,张恒举了个例子。

比如生成一段“两个女孩在操场看篮球比赛”的视频。

准确性体现在,一是对内容结构理解的准确,比如视频中出现的要是女孩,而且还是两个;二是流程控制的准确,比如投篮投进后,篮球要从篮网中逐渐下降;最后是静态数据建模准确,比如镜头出现遮挡物时,篮球不能变成橄榄球。

一致性是指,AI在时空上的建模能力,其中又包含主体注意力和长期注意力。

主体注意力可以理解为,在看篮球比赛的过程中,两个小女孩要一直留在画面里,不能随便乱跑;长期注意力为,在运动过程中,视频中的各个元素既不能丢,也不能出现变形等异常情况。

丰富性则是指,AI也有自己的逻辑,即便在没有文字提示下,能生成一些合理的细节内容。

以上维度,市面上出现的AI视频工具基本都没能完全做到,各家也在不断提出解决办法。

比如在视频很重要的人物一致性上,即梦、可灵想到了用图生视频取代文生视频。即用户先用文字生成图片,再用图片生成视频,或者直接给定一两张图片,AI将其连接变成动起来的视频。

“但这不属于新的技术突破,且图生视频难度要低于文生视频,”张恒告诉「定焦」,文生视频的原理是,AI先对用户输入的文字进行解析,拆解为一组分镜描述,将描述转文本再转图片,就得到了视频的中间关键帧,将这些图片连接起来,就能获得连续有动作的视频。而图生视频相当于给了AI一张可模仿的具体图片,生成的视频就会延续图片中的人脸特征,实现主角一致性。

他还表示,在实际场景中,图生视频的效果更符合用户预期,因为文字表达画面细节的能力有限,有图片作为参考,会对生成视频有所帮助,但当下也达不到商用的程度。直观上说,5秒是图生视频的上限,大于10秒可能意义就不大了,要么内容出现重复,要么结构扭曲质量下降。

目前很多宣称用AI进行全流程制作的影视短片,大部分采用的是图生视频或者视频到视频。

即梦的使用尾帧功能用的也是图生视频,「定焦」特意进行了尝试,结果如下:

在结合的过程中,人物出现了变形、失真。

Cyrus也表示,视频讲究连贯,很多AI视频工具支持图转视频也是通过单帧图片推测后续动作,至于推测得对不对,目前还是看运气。

据了解,文生视频在实现主角一致性上,各家也并非纯靠数据生成。张恒表示,大多数模型都是在原有底层DIT大模型的基础上,叠加各种技术,比如ControlVideo(哈工大和华为云提出的一种可控的文本-视频生成方法),从而加深AI对主角面部特征的记忆,使得人脸在运动过程中不会发生太大变化。

不过,目前都还在尝试阶段,即便做了技术叠加,也还没有完全解决人物一致性问题。

AI视频,为什么进化慢?

在AI圈,目前最卷的是美国和中国。

从《2023年全球最具影响力人工智能学者》(简称“AI 2000学者”榜单)的相关报告可以看出,2020年-2023年全球“AI 2000机构”4年累计的1071家机构中,美国拥有443家,其次是中国,有137家,从2023年“AI 2000学者”的国别分布看,美国入选人数最多,共有1079人,占全球总数的54.0%,其次是中国,共有280人入选。

这两年,AI除了在文生图、文生音乐的方面取得较大进步之外,最难突破的AI视频也有了一些突破。

在近期举办的世界人工智能大会上,倚天资本合伙人乐元公开表示,视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬认为,视频生成技术目前处于GPT-3 时代,距离成熟还有半年左右的时间。

不过,乐元也强调,其技术水平还是不足以支撑大范围商业化,基于语言模型开发应用所使用的方法论和遇到的挑战,在视频相关的应用领域也同样适用。

年初Sora的出现震惊全球,它基于transformer架构的新型扩散模型DiT再做扩散、生成的技术突破,提高了图像生成质量和写实,使得AI视频取得了重大突破。Cyrus表示,目前国内外的文生视频,大多数都沿用的是类似技术。

此刻,大家在底层技术上基本一致,虽然各家也以此为基础寻求技术突破,但更多卷的是训练数据,从而丰富产品功能。

用户在使用字节的即梦和Morph AI的Morph Studio时,可选择视频的运镜方式,背后原理便是数据集不同。

“以往各家在训练时使用的图片都比较简单,更多是对图片存在哪些元素进行标注,但没有交代这一元素用什么镜头拍摄,这也让很多公司发现了这一缺口,于是用3D渲染视频数据集补全镜头特征。”张恒表示,目前这些数据来自影视行业、游戏公司的效果图。

「定焦」也尝试了这一功能,但镜头变化不是很明显。

Sora们之所以比GPT、Midjourney们发展得慢,是因为又搭了一个时间轴,且训练视频模型比文字、图片更难。“现在能用的视频训练数据,都已经挖掘殆尽,我们也在想一些新办法制造一系列可以拿来训练的数据。”张恒说。

且每个AI视频模型都有自己擅长的风格,就像快手可灵做的吃播视频更好,因为其背后有大量这类数据支撑。

石榴AI创始人沈仁奎认为,AI视频的技术有Text to video(文本转视频),Image to video(图片转视频),Video to video(视频转视频),以及Avatar to video(数字人),能定制形象和声音的数字人,已经运用到了营销领域,达到了商用程度,而文生视频还需要解决精准度和可控度问题。

此刻,无论是由抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》,更多是大模型公司主动找影视制作团队进行合作,有推广自家技术产品的需求,且作品也没有出圈。

在短视频领域,AI还有很长的路要走,干掉好莱坞了的说法更为时尚早。

*题图来源于Pexels。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝央视要价太高!抖音放弃世界杯分销版权 小红书赌博拿下2项权益

曝央视要价太高!抖音放弃世界杯分销版权 小红书赌博拿下2项权益

风过乡
2026-05-26 06:38:15
一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

网球之家
2026-05-26 23:12:55
Here we go确认,罗马诺:马雷斯卡已与曼城签约三年

Here we go确认,罗马诺:马雷斯卡已与曼城签约三年

懂球帝
2026-05-26 15:22:40
“若两岸爆发冲突,我会誓死守护台湾”,他是富士康创始人郭台铭

“若两岸爆发冲突,我会誓死守护台湾”,他是富士康创始人郭台铭

阿七说史
2026-05-26 05:00:03
夏天,三个豆子一起煮,湿气跑了、脾胃棒了,睡得香了,正当时

夏天,三个豆子一起煮,湿气跑了、脾胃棒了,睡得香了,正当时

阿龙美食记
2026-05-26 14:15:09
台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

念洲
2026-05-26 18:15:02
底越掀越深!体育生当医生、院长儿子吃空饷,不敢再挖了

底越掀越深!体育生当医生、院长儿子吃空饷,不敢再挖了

奇思妙想草叶君
2026-05-03 22:56:14
63岁黄仁勋回台探亲,和父母一起吃饭,96岁父亲神采奕奕状态超好

63岁黄仁勋回台探亲,和父母一起吃饭,96岁父亲神采奕奕状态超好

丫头舫
2026-05-26 17:55:54
失独母亲实名举报律师虚假宣传:拿我丧子之痛当营销噱头?

失独母亲实名举报律师虚假宣传:拿我丧子之痛当营销噱头?

大象新闻
2026-05-26 17:25:23
重演阿萨德悲剧?武契奇访华归国后,可能主动提交辞呈!

重演阿萨德悲剧?武契奇访华归国后,可能主动提交辞呈!

阿龙聊军事
2026-05-26 11:49:19
教育部任命:985党委常务副书记(正局级),进京履新

教育部任命:985党委常务副书记(正局级),进京履新

双一流高校
2026-05-27 00:27:11
“榛树”导弹打出去,俄罗斯更加没牌了

“榛树”导弹打出去,俄罗斯更加没牌了

山河路口
2026-05-24 19:54:50
为队友发声!米切尔:很多人都是唯冠军论,却忽略了哈登的伟大

为队友发声!米切尔:很多人都是唯冠军论,却忽略了哈登的伟大

懂球帝
2026-05-26 15:01:09
普京不想再拖了,榛树落地,乌克兰只剩三条路,特朗普来了也没用

普京不想再拖了,榛树落地,乌克兰只剩三条路,特朗普来了也没用

浪子阿邴聊体育
2026-05-26 04:28:55
住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

李博世财经
2026-05-26 10:01:57
尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

仰卧撑FTUer
2026-05-26 14:34:08
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

另子维爱读史
2026-05-25 07:55:09
橄榄球巨星吐槽:和霉霉恋爱,最受不了的是这个

橄榄球巨星吐槽:和霉霉恋爱,最受不了的是这个

浅遇时光
2026-05-27 00:15:24
尴尬了!女选手泳装移位露胸照片被直播推送,10000人围观超1小时

尴尬了!女选手泳装移位露胸照片被直播推送,10000人围观超1小时

火山詩话
2026-05-26 08:13:11
2026-05-27 06:32:49
定焦One incentive-icons
定焦One
深度影响创新。
1056文章数 1111关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

以色列:初步评估显示哈马斯新任军事领导人被打死

头条要闻

以色列:初步评估显示哈马斯新任军事领导人被打死

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

手机
教育
亲子
数码
房产

手机要闻

荣耀600系列线下上手:体验之后,说说真实感受

教育要闻

小学LED屏火了!两千多学生放学只需十几分钟,网友喊话全国推广

亲子要闻

儿子和妈妈的关系好,往往将来更有出息。

数码要闻

CPU缺货涨价持续!国产芯片借势突破高端壁垒

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

无障碍浏览 进入关怀版