网易首页 > 网易号 > 正文 申请入驻

爱诗科技王长虎:全球用户量最大的国产AI视频生成产品,是怎么炼成的?丨GenAICon 2024

0
分享至


智东西
作者 GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行,在大会首日的主会场开幕式上,爱诗科技创始人兼CEO王长虎博士以《AI视频生成——用像素构建星辰大海》为题发表演讲。

王长虎深耕计算机视觉与AI领域20年,曾任微软亚洲研究院主管研究员,2017年初加入字节跳动,而后担任字节跳动AI Lab总监,从0到1支撑了抖音、TikTok等国民级视频产品的建设与发展。2023年4月,他创办AI视频大模型创企爱诗科技。

爱诗科技在今年1月上线的海外版产品PixVerse,是当前全球用户量最大的国产AI视频生成产品,国内版(爱诗视频大模型)也在今年3月上线内测。上线88天,PixVerse达成了一千万次视频生成量的里程碑。

今年2月,Sora横空出世,点燃了大众对视频生成的热情,也为深耕该领域的从业者带来了前所未有的机遇和挑战。在技术层面上,Sora验证了DiT架构在视频生成中的Scaling Law(规模定律),并证实了这个方向的可行性。在王长虎看来,追赶Sora的窗口期在一年前,也就是爱诗科技成立的2023年。

过去一年,视频大模型经历着量变到质变。王长虎认为,中国在短视频领域领先全球,同时短视频也是最贴近用户的内容形态。目前视频生成技术还没有到ChatGPT时刻,他称自己有一支在全球AI视频领域最能打硬仗、打胜仗的团队,希望最大程度降低视频创作门槛,实现技术普惠。

以下为王长虎的演讲实录:

过去这一年,视频生成领域进展迅速,从无人问津到众所周知。今天借这个机会,希望能跟大家聊一聊过去一年我的一些体会和浅见。


大家应该非常熟悉这个视频了。今年大年初七凌晨,Sora横空出世,进一步激发了大众对AI视频生成的热情。很多评论、解读铺天盖地而来,很多大V、大佬们也纷纷发言,包括马斯克、周鸿祎以及各种媒体。

大年初七一大早,我被微信吵醒了,很多投资人、朋友、家人、同事纷纷发来问候,好像又碰到那句话:“元芳你怎么看?”

当时最令我开心的是这条,我们公司一位优秀的候选人第一时间给我发信息,说“我要加入你们”,因为视频生成这件事“太大了、太重要了,时不我待”。


这是一张当时在国外互联网上广为流传图片——一众视频生成模型膜拜“新王”Sora。看到这张图后,我的心情很复杂。


我们的产品叫PixVerse,很荣幸“跪”在了第一排,跟Runway、Pika、SVD等当时最好的视频生成产品放到一起,也是这张图里面唯一一家中国公司。

但另一方面,我们前面有一个巨人,还需要进一步超越它。

有人问我,Sora出现之后你会不会焦虑?中美之间的视频大模型差距会不会越来越大?爱诗作为创业公司,接下来路怎么走?

在我看来,Sora的出现是2024年春节期间我收到的最好的礼物

一、Sora验证了DiT架构,追赶Sora的窗口期在一年前

我们是在去年整个视频生成行业还非常冷的时候,加入这个赛道的,并且在Sora出来之前,产品实测效果已经走到全球视频生成第一梯队

这就像一个人在戈壁徒步,已经走在最前面,需要继续探索的时候,突然看到前面有一些脚印,那时候的感觉一定是非常开心。

一方面,这验证了这个方向大概率是对的;另一方面,前面还有一个人能让你继续超越。因此,强大的对手是沙漠中的水源。

对于Sora的解读非常多,我就不详细展开了。在我看来,Sora最大的贡献就是验证了DiT(Diffusion Transformer)在视频生成中的Scaling Law(规模定律)

在基础计算量的时候,AI生成的视频惨不忍睹,随着计算量加倍至32倍,生成视频几乎可以以假乱真,这更坚定了我们做视频生成的信心。


毋庸置疑,Sora的出现推动了整个行业的进步和发展。但是很遗憾,至今为止我也没有机会试一下Sora,我们想在座的绝大多数人都没有试过。

当前,Sora只是一场“卖家秀”,也特别期待有一天我们可以看到更多的“买家秀”。Sora出来之后,我们可以看到很多大厂、初创公司都去做视频生成了,要超越Sora。

有人问我,超越、追赶Sora的最佳窗口期是多长时间?

在我看来,追赶Sora的窗口期是在过去这一年,是在视频生成行业很冷的那一年,是在Sora出来之前,整个业界对这个方向还不那么认可的一年

二、视频生成去年不被看好,仍带领抖音AI视频团队All in

回到一年前,我们可以看一下这个行业有多冷。

一年前的今天,OpenAI、Anthropic分别获得了100亿美金、10亿美金的融资,国内的很多大语言模型创企也纷纷拿到第一桶金数亿美金,更大的一笔钱还在融资计划中。

再看视频大模型。一年前,做视频大模型的公司,一只手都可以数得出来。国外Runway已经成立五年,拿到2亿美元融资;Pika刚刚出现,拿到2000万美金;爱诗拿到数百万美元融资。

视频大模型和大语言模型相比,就像蚂蚁和大象一样。


去年上半年,我们聊了一些投资人。一位行业大佬第一时间打钱,成为了我们的天使领投,但更多投资人对这个方向可能看的还不是很清楚,也不是很认可。我们得到一些非常现实的建议,有人说大模型在中国没前途,还不如回家上班,或者建议尽快变现。

当时确实有非常多的选择,是继续创业还是回家?如果创业选择哪个赛道?是先做文生图,还是先做文生视频?

那时候,视频生成没有什么开源模型,需要从头去建设,且生成质量惨不忍睹。而AI图片生成产品Midjourney已经走出来了,每个月有数千万美元MRR(月度经常性收入),有开源模型,所以很多创业公司都去做文生图。

如果选择视频生成,是做大模型还是做应用层?当时很多朋友找到我,说可以一起做游戏、电商、广告,能够很快变现。

但是在我看来,视频是最重要、也是离用户最近的一类内容。过去若干年,我们可以看到抖音、TikTok这样的短视频产品,已经成为全球最重要、用户量最大的国民级产品,无论是下载量还是使用时长。


我们都知道抖音、TikTok是中国团队做出来的,服务于全球。很有幸我和我的核心伙伴们从2017年开始,从0到1支撑了抖音、TikTok这些产品背后的视频AI。所以在AI视频生成领域,我们是全球最能打硬仗、打胜仗的团队,于是决定是All in AI视频生成

三、给初创公司取个浪漫的名字,想用AI做最高级的内容

去年这个时候,在Sora出来之前,引用张一鸣的说法,这是一种“务实的浪漫”。我们没有选择最容易的事情,而是选择当时可能非主流、非共识,但我们认为是正确的事情。做视频大模型是有生命力的,是面向未来的。

我们公司也取了一个有点浪漫的名字——爱诗,“爱”是AI的意思,“诗”是可以流芳千古的、最高级的内容,“爱诗”的意思是用AI做最高级的内容。

去年4月份我们公司成立,7月份开始训练大模型,经过大约几个月的时间,技术上已经成为全球第一梯队。今年1月份我们的产品PixVerse在海外上线,发展很快速。Sora出来之前,我们在年前已经拿到了数亿元的第二轮融资。

这是去年8月,我们第一次训练好的一个完整模型生成的视频,时间很短,动作也很小,但是对我们来说是一大步。


有人问我,大语言模型跟视频大模型区别在什么地方?

在我看来,语言和视觉是两类完全不同的内容,语言是在人类出现之后才出现的,是人类文明的结晶,它已经对信息做了高度抽象和概括;而视觉在人类出现之前,山在那里、水在那里,它是更原始的东西。

当大模型出现之后,人们对大模型的期待是模拟人脑,是新的硅基生命,是人内部的东西。而视频生成大模型出现之后,人们的期待是什么?是对世界进行模拟、建模。

视频生成本质上是理解这个世界,然后做影像呈现,这种呈现经历了从记录到生成的演进过程,这里我们列举了三个影像记录历史中很重要的时刻。


在三万多年前,人类已经在岩壁上去呈现自己看过的一些群狮奔跑的画面;1826年,法国的摄影先驱制作了第一张可以长期展现的照片;1872年,人类历史上第一个视频出现了,它源于两个美国人关于马飞奔过程中蹄子是否同时腾空的探讨。从视觉的呈现到视频的生成看起来很远,事实上离我们很近。

小时候过年,我的父亲总会给我做各种各样的灯,其中有一种灯叫“走马灯”。我们要点燃蜡烛,蜡烛推动热气上升,带动轴轮的转动,轴轮上面会绑上一些剪纸,烛光通过剪纸映射到最外边一层的屏上,走马灯就呈现了这样动态的效果。右边的连环画是我很快乐的童年记忆,也是一种原始的“视频生成”。

当抖音、快手这样的短视频产品逐渐成为主流,越来越频繁影响我们的生活的时候,我们可以看到视频生成技术也逐渐出现了。


最早期阶段是检索生成,即视频里的每一个片段都是从海量数据中检索而来,不是纯粹生成的,通过自动或者人工方式拼接在一起,现在在短视频平台里面也可以看到这样的视频。

第二阶段是部分生成,我们在玩抖音、TikTok的时候会看到里面有很多特效,其中有一个特效“控雨”,用户录制视频的时候用手掌可以控制雨让它停掉,并且有一些微动。这类视频总是有一个原始的视频,在这个基础上做一些局部生成,包括特效里面的美颜、动漫风、换个狗头、加个猫耳朵都是这样。

最后是我们现在提到的真正意义上的视频生成,是凭空生成的。

视频生成技术可以追溯到十年前,GAN(生成对抗网络)的出现开始。之后的若干年,局部生成领域大放异彩,虽然有很多通用生成、文生视频的技术出现,但是效果也很差。

直到Diffusion扩散模型的成功,2023年出现了非常多的文生视频的技术、产品,有谷歌的VideoPoet、英伟达的Video LDM、Runway的GEN-2,还有Pika以及我们的PixVerse。

但是2024年Sora出现,表明过去这一年无论是数据量、计算量还是参数量都有非常大的提升。


这里我选了几个模型,2023年7月份发布的AnimateDiff、2023年12月发布的VideoPoet以及2024年2月发布的Sora,其中关于Sora参数都是道听途说,有可能不准,也有可能比较保守。我们看到一年之内,这些参数都有巨大的提升,这也带来了视频生成产品的提升。

四、上线88天生成1000万次,PixVerse已解决多镜头一致性问题

我们在去年11月份初发布了PixVerse测试版,今年1月份正式发布了Web UI的版本,提供了文生视频、图生视频以及我们首创的Character to Video,用户只要上传一张照片就可以成为视频的主角,可以解决多镜头的一致性问题

最后一张视频大家能看出是谁吗?这是我们开发出这个模型之后生成的第一个视频,我自拍一下输进去,让它生成一个我在跑步的视频,“他”的身材比我好多了。生成后我第一时间发到我们健身群里面,告诉大家我的“健身效果显著”。


现在已经有很多的创作者用PixVerse替代摄像机、演员、布景来创作大片。中间一张图是一个俄罗斯用户在今年1月份创作的一个AI科幻片Last Mission,每个镜头都是PixVerse做的,这也是在海内外有广泛影响的影片。

很多国内用户也在用我们的产品。前段时间我们受邀到一个省级电视台去交流,惊讶地发现有很多编导已经在用PixVerse做AI视频。他们也很惊讶这个产品团队居然就在在国内。

下面这个视频是国内一个导演“闲人一坤”,利用PixVerse创作出来的中式奇幻片《山海奇镜之劈波斩浪》,也是国内播放量最大、影响力最大的AI视频之一。《山海奇镜之劈波斩浪》已经被快手平台采购,据悉将在5月上线。


PixVerse发布之后,我们跟创作者交流过程中,也遇到很多感人的瞬间。

这是国内一个54岁的老大哥给我们发的一封邮件,他想申请加入我们的创作者计划,说他前些天戴着老花镜花了一整天时间,用PixVerse和剪映做成第一条AI片子。他说,使用PixVerse的过程中让他享受了创作的愉悦,并且跟我们分享了一些他的故事。这是意料之外的感动。我们看到自己的产品不仅有导演、专业创作者用起来,普通用户也能受益。


还有一位乌克兰导演,因为宏观经济原因失业了。他用了PixVerse觉得非常棒,想为我们社区发展助力。他当时创作了第一个关于香水的广告大片,在海外很火,很多商家看到了,付费让他帮忙创作广告,之后他又创作了一系列啤酒、钻石等广告,获得了收入。这里面每个镜头都是通过PixVerse做出来的。


前几天我发了一个朋友圈,纪念我们一千万次视频生成。我想每一个视频背后都可能有一个故事,但这也只是我们的一小步,希望未来能够服务于更多的用户。


现在视频生成技术还没有到ChatGPT时刻,还在快速发展过程中。但是我们已经欣喜地看到专业创作者们,在应用我们产品来替代镜头、演员、场景来生成大片,逐渐地去改变原有的视频生产创作工作流,我们也期待未来有更多的行业,游戏、动漫、教育、影视等受益于视频生成技术的发展。

当然,我们也希望能够在最大程度上降低使用的门槛,不仅创作者们能够用起来,每天玩抖音、玩TikTok的普通消费者们也能够用我们的产品,轻松地使用AI视频生成产品将创意转变为现实。我们希望能够做到技术普惠。

我们的产品名字叫PixVerse,Pix(Pixel)代表像素,Verse(Universe)代表宇宙。AI视频生成,就是“用像素构建星辰大海”。

以上是王长虎演讲内容的完整整理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泽连斯基:只有25%

泽连斯基:只有25%

环球时报国际
2024-05-18 12:37:27
孰是孰非?华侨大学老师再发声:承担太多杂事,三年考核内容曝光

孰是孰非?华侨大学老师再发声:承担太多杂事,三年考核内容曝光

飞鱼的说说
2024-05-20 10:22:07
新华社消息|伊朗媒体报道,伊朗总统莱希在直升机事故中遇难

新华社消息|伊朗媒体报道,伊朗总统莱希在直升机事故中遇难

新华社
2024-05-20 12:37:25
贵州省委书记,多了一个新身份

贵州省委书记,多了一个新身份

政知新媒体
2024-05-21 07:04:38
直升机事故中遇难的伊朗外长:曾称美国所谓民主人权都是假的

直升机事故中遇难的伊朗外长:曾称美国所谓民主人权都是假的

南方都市报
2024-05-20 20:04:19
看苹果CEO是怎么耍流氓的!新iPad Pro搭载12G内存,故意屏蔽4G逼用户买高配

看苹果CEO是怎么耍流氓的!新iPad Pro搭载12G内存,故意屏蔽4G逼用户买高配

爆角追踪
2024-05-20 12:53:56
牵着女儿的手很幸福!49岁贝克汉姆高调亮相,网友:父女像情侣

牵着女儿的手很幸福!49岁贝克汉姆高调亮相,网友:父女像情侣

体坛知识分子
2024-05-20 06:05:02
胖猫事件真相大白,重庆警方发布最新通告,我们都被胖猫姐戏耍了

胖猫事件真相大白,重庆警方发布最新通告,我们都被胖猫姐戏耍了

辣条小剧场
2024-05-19 23:36:58
史诗级利好点燃深圳楼市:宝安千万豪宅开盘只剩3套,开发商周末通宵卖房

史诗级利好点燃深圳楼市:宝安千万豪宅开盘只剩3套,开发商周末通宵卖房

时代周报
2024-05-20 21:25:16
什么水平?CBA总决赛前两场场均上座人数9241,上座率达94.3%

什么水平?CBA总决赛前两场场均上座人数9241,上座率达94.3%

懂球帝
2024-05-20 18:10:20
周鸿祎探访京东总部感叹:刘强东是农村出来的苦孩子 吃过苦

周鸿祎探访京东总部感叹:刘强东是农村出来的苦孩子 吃过苦

快科技
2024-05-20 18:31:31
郭有才爆火为何那么多人打赏?看了两天直播间终于明白背后的门道

郭有才爆火为何那么多人打赏?看了两天直播间终于明白背后的门道

漂零的舟
2024-05-20 14:23:39
中国女排更新大名单,蔡斌裁掉天津队主力,朱婷出征澳门站世联赛

中国女排更新大名单,蔡斌裁掉天津队主力,朱婷出征澳门站世联赛

极度说球
2024-05-20 19:13:07
资本套路深,美国大鳄布局3年,连阻张康阳3次自救,终得国际米兰

资本套路深,美国大鳄布局3年,连阻张康阳3次自救,终得国际米兰

体育全天候
2024-05-20 22:11:42
帮助乌克兰人的代价

帮助乌克兰人的代价

非虚构故事
2024-05-17 22:34:41
噩耗!武汉因冻雨被砸伤大学生花费百万后离世,父亲发极端朋友圈

噩耗!武汉因冻雨被砸伤大学生花费百万后离世,父亲发极端朋友圈

六毛朵朵
2024-05-16 11:02:26
从出道百日就引退到现在!庆祝5周年的她打算这么做!

从出道百日就引退到现在!庆祝5周年的她打算这么做!

日本这些事儿
2024-05-20 19:05:30
晚上19:35女王牌面!CCTV5直播朱婷首秀前哨战,朱婷从替补打起

晚上19:35女王牌面!CCTV5直播朱婷首秀前哨战,朱婷从替补打起

邮轮摄影师阿嗵
2024-05-20 20:46:20
这个世界好像一下子都不怕美国了!

这个世界好像一下子都不怕美国了!

谈芯说科技
2024-05-20 17:28:53
江南“最美”丈母娘火了,身穿旗袍温柔婉约,网友:美得很高级

江南“最美”丈母娘火了,身穿旗袍温柔婉约,网友:美得很高级

梅子的小情绪
2024-05-19 21:11:33
2024-05-21 09:38:44
智东西
智东西
聚焦智能变革,服务产业升级。
8540文章数 116473关注度
往期回顾 全部

科技要闻

AI PC全面“亮剑”,国内起售8688元!

头条要闻

牛弹琴:以总理被申请逮捕令 以色列和美国暴跳如雷

头条要闻

牛弹琴:以总理被申请逮捕令 以色列和美国暴跳如雷

体育要闻

8年半,讲不出再见

娱乐要闻

王俊凯现身蔡依林演唱会,牵手唱歌!

财经要闻

重营销轻研发 “扫地茅”股价已跌去78%

汽车要闻

智驾升级/月底上市 问界新M7 MAX焕新版

态度原创

教育
房产
本地
公开课
军事航空

教育要闻

高考完以后,选学校成了一大难题,那么多城市,你想去哪儿看看呢

房产要闻

突然爆发!大量重磅宅地挂出,海南土地市场开始狂飙!

本地新闻

强制措施展铁腕 “交叉执行”勇亮剑

公开课

父亲年龄越大孩子越不聪明?

军事要闻

国际刑事法院就以色列总理涉嫌战争罪申请逮捕令

无障碍浏览 进入关怀版