网易首页 > 网易号 > 正文 申请入驻

字节等待一鸣惊人

0
分享至


出品|虎嗅商业消费组

作者|黄青春

题图|视觉中国

一场事先张扬的发布会让Sora 成为 2024 开年顶流,字节跳动却在悄咪咪推进 AI 产品迭代。

近日,字节正式发布文生图模型 SDXL-Lightning。其官方信息称该模型采用了新的渐进式对抗蒸馏(Progressive Adversarial Distillation)技术,能将计算时间和成本降至此前的十分之一——通常情况下,文生图模型使用扩散式生成(diffusion)模型,单张图像处理时间大约需要 5 秒,还需多次(20~40 次)调用庞大的神经网络;但 SDXL-Lightning 能提速 10 倍在 2~4 步内生成高质量及分辨率的图像。

事实上,早于 2023 年 11 月,字节跳动已发表视频生成研究成果 PixelDance,提出基于文本指导 + 首尾帧图片指导的技术方法,能生成具有高度一致性和丰富动态性的视频;今年1月,字节又发布了视频生成模型 MagicVideo-V2,通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,打造了一条视频生成流水线,效果超越 SVD-XT、Pika1.0、Runway的Gen-2 等同类模型。

尽管,字节在研发多模态模型方面已处于国内领先状态,但其与 OpenAI 仍有较大差距,好在字节愿意接入 OpenAI 的模型(字节海外有两款 AI 产品,Cici 和 Coze 都接入了 GPT 3.5/GPT 4 模型,两者 DAU 迅速攀升至百万级别),在一定程度上克服了模型能力的短板。

然而,横空出世的 Sora 加速了字节的焦虑:

  • 一方面,Sora 已经能生成 60 秒视频,这将直接改变抖音与 TikTok 的内容供给逻辑——巨量数据显示,以 60 秒视频为临界点,文生视频已经在颠覆短视频行业;

  • 另一方面,Sora 可以用于视频编辑、视频风格混合等多个领域,是一个集视频生成、图片生成、视频编辑等功能于一体的强大模型。


有鉴于此,Sora 这样的“新物种”从创作门槛、内容质感、创作持续性等方面都会降维打击大部分创作者,或将改变内容生产和编辑方式,从业者可能面临技能需求和工作流程的变化——此前 Runway 在《瞬息全宇宙》里已有所应用,但 4 秒到 15 秒发展了半年,15 秒到 1 分钟三个月,技术的发展速度如此惊人,随着文生视频效果越发精进,抖音及 TikTok 也将面临新技术带来的洗牌,这在一定程度上刺激字节更加积极推进 AI 技术投入。

深层次原因还在于:中国移动互联网业到了用户、流量趋于见顶的成熟期,监管会更侧重产业互联网的推进与建设,这意味着技术走到平台重构生态的关键时期。

尤其,在快速迭代的 AI 浪潮裹挟下,心有猛虎的公司都在寻找向上攀爬的入口——当通用人工智能时代呼啸而来,字节手握应用层及数据层的独特优势,抖音拥有丰富的数据素材和充足的算力资源,必须在快速发展时期进行果断投入(包括技术生态迭代、研发投入等),从而博一张未来的船票。

剪映成字节刺破AI的“针”

那些颠覆行业产品的诞生契机就是如此传奇:Sora 创始团队成立不足 1 年,由两名刚毕业的博士生带队,核心成员 15 人,其中甚至有 00 后(成员Will DePu 于 2003 年出生);而抖音前身 A.me 于 2016 年秋上线时,创始团队也只有 7 个年轻人。

虎嗅了解到,字节跳动的 AI 战略是各个市场做各自的产品;其中,剪映或将成为中国 AI 应用最先爆发的产品:截至 2021 年,剪映月活用户数已经突破 1 亿,是国内最大的移动视频编辑产品。

具体而言,字节跳动通过拆解明确每个部门的 OKR(例如抖音主要负责拉新,而字节专门负责 AI 产品的 Flow 部门负责开发及产品增长)实现了部门间互不干涉,解决了互联网公司迅速扩张所面临的组织协同问题,是国内逐梦 AI 浪潮互联网公司中战略最清晰的一个。


张楠在 2020 年抖音创作者大会发言

要知道,抖音 CEO 张楠卸任前一年(2023 年)绝大多数精力都倾斜在剪映相关业务上。据张楠自述,刺激她义无反顾投身AI的原因之一便是希望帮助创作者更好表达自己的想法,因为过去“几乎无法用一个产品完成所有的创作,要横跨几个产品之间,用复杂的编辑和交互流程,才能完成表达。”

但据字节内部人士透露,张楠亲自带队投身AI 研究,很大程度上源于字节管理层预判文生图、文生视频将是下一个引领时代的赛点。

于张楠而言,就像她在朋友圈说的那样:“专注地从‘心’出发,用始终创业的状态,在未来的十年再折腾一些我热爱的事情。字节跳动是最好的平台,既有梦想,又务实的浪漫,我很期待和剪映的小伙伴们一起造梦,与这个 AI 的时代一起成长,共同绘制出脑海中的奇幻世界。”

而且,张楠在内部信中坦言,最近跟团队里的很多人聊天,有很多人还是满腔热血的,有很想做的事,这更让她觉得机不可失、时不再来。“我知道这会是一条很长的路,而且会有很多激烈的竞争,也会碰到技术不确定性带来的很多挑战和试错。但梦想还是应该有的,如果不极致地试一次,未来该多遗憾。”

于公司而言,字节在模型技术和数据两个方面同时具备优势,可以利用自身的数据资产为模型训练提供足够的数据源,进而在市场中获得更大的竞争力。

此前,《晚点 LatePost》曾在报道中指出,字节广告客户投放总成本里有 10%~20% 为视频制作成本;去年开始,字节已在开发一些相关产品帮广告客户压缩这部分投入。

接近字节人士向虎嗅表示,字节的核心 AI 业务中,剪映占据重要位置,集团希望它成为一个独立的工具产品。“从战略角度看,字节希望剪映变成一个类似于过去支付宝和淘宝关系的产品,它本身是一个工具,现在得慢慢地独立出来。”

不过,传统视频编辑工具,如剪映的技术路线是基于一些预测性和可复现的底层操作,包括传统图像学和视频编辑算法,以非常精确的方式编辑视频内容——这样的优势在于其操作粒度细且可控性强;缺点在于需要大量的人力投入,例如剪辑一段视频考验制作者能力和人力成本。

顺着这个逻辑所进化的工具,只能通过建立一套标准操作流程(SOP),将一些工具进行组合以形成多套模板,再通过这些模板来进行视频剪辑和生成;然而,这些模板基本上很同质化,导致产生的变化很相似,形成了固定范式,导致这类工具适用场景有限,创新性较低——而 Sora 在图像控制表达能力上结合了 DALL·E 和 GPT-4 的能力,其他厂商缺乏相应的图像和语言模型能力,人才、数据和算力才是技术复现的三大核心壁垒。

一位华人工程师向虎嗅表示,OpenAI 在技术层面领先的原因之一是选择了 Transformer 架构并创新推出 GPT 系列。“最早的 Transformer 论文是由谷歌的科学家编写,但在当时并未被视为主流架构;然而,OpenAI 首席科学家伊利将 Transformer 架构应用于 GPT-1 模型后,其展现出优于以往模型的能力。”

他进一步指出,相比谷歌这样的科技巨头,在新技术面前往往更重视社会影响及对现有业务的影响——字节何尝不是如此;而 OpenAI 作为一家创业公司,反而可以放开手脚,更注重创新与自我突破。

Sora只是亮个相,为何把你吓坏了?

“Sora 能够将真实世界映射到虚拟世界,无论内容真实性、视频质量(包括分辨率、码率、像素等)还是输出内容与用户需求的一致性都有显著提升,夸张点说是直接完成了 1 到 100 的跃迁。”一位 AI 创业者如此评价道。

上述论断并非危言耸听——与其他文生视频模型 (Runway、 Pika 等) 不同,当摄像机移动和旋转时 Sora 能输出保持人物和场景 3D 空间一致性、基本符合物理世界规律(不能完全保持,也会出错)的视频。

对此,OpenAI 透漏,Sora 的技术架构与传统视频技术路径有所不同:其先将不同视频和图片数据压缩在一个低维空间中,再分解成统一 Patch 作为训练大模型的基本单位,这一改进使得文生视频更加逼真、高质量。

Sora 输出能力有多出色呢?即使在人物、动物或物体被遮挡或离开画面时,仍然可以进行追踪,确保物体持续呈现;而且,相较于其他大模型在文本数据上理解和涌现,Sora 在 GPT(不少人猜测训练的或许是 GPT-4.5)的语义理解支撑下,能理解用户需求以及在预训练学习过程中理解学习的视频内容。


疑似周亚辉在朋友圈透露 GPT4.5 发布时间

虽说,尚未对外开放测试的 Sora 仍处于世界模型研究应用的初期阶段;可 Sora 一旦上线,用户贡献的素材内容能丰富数据资源增加训练样本。

一位 AI 创业者乐观地表示,“相对现在某些类 GPT 产品插件,进化的大模型可能支持各种插件应用,解决生成内容中的各种问题,并对视频、游戏等内容产业产生商业层面的变革。”

所以,短期内 Sora 更多会应用于物理世界内容的延展,包括使用物理世界内容拼接创建新的创新内容,例如常规内容短片、电影等;中期,Sora 可作为视频编辑工具,应用在特效添加、背景更改、人物替换方面;后期,Sora 应用范围会涉及虚拟现实、增强现实、游戏开发等,潜在应用方向包括虚拟试衣、虚拟旅游等。


来源:Sora生成视频截取

当然,要实现真正的 AGI,需要具备强大的理解能力、记忆能力和决策能力,眼下的人工智能只是人类认知能力的一个延伸,其逻辑性仍不够强,还需要人类来表达内容的逻辑性和意义。

不过话说回来,即便 Sora 让整个互联网都为之躁动,但资本市场投资主线有两条:


  • 一是关注内容资产重估,文字是内容资产的最基础层,具有最大的上升空间,因此内容资产将在多模态技术演进中迎来重估;

  • 二是关注 AI 内容生成工具,AI 多模态技术将降低不同内容形式间转化的门槛,并提高 AI 工具在内容生成中的作用,这一进程可能会加速实现。


此外,Sora 也面临着新的困境。

Sora 第一个棘手问题是废弃问题,即可能产生大量的误导性信息,特别是对于虚假信息的识别比较困难,因为它们是设计来欺骗的,需要人工细致地进行审查;若处理不当,会对商业化产生较大影响。

目前,Sora 测试的重要一环便是红队测试(一种通过模拟攻击者的行为来评估系统安全性和弱点的测试方法),主要为了解决废弃和虚假信息等问题,以提升其可靠性和可用性。

Sora 第二个棘手问题是数据和版权问题,原生 AI 公司很难积累大量数据,即使 OpenAI 背靠微软也缺乏相应的原生数据,所以在学习过程中会面临数据安全、隐私侵犯等风险。

不过,关于 AI 生成内容是否具备版权,以及内容生成者、模型和运营平台之间的责权划分,首例 AIGC 版权案已经宣判,未来是否会向着这个方向发展,值得关注。

#我是虎嗅商业、消费与机动组副组长黄青春,关注文娱社交、游戏影音等多个领域,行业人士交流加微信:724051399,新闻线索亦可邮件至 huangqingchun@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库里意见遭拒绝!勇士最新计划曝光,科尔承认招募3大超巨

库里意见遭拒绝!勇士最新计划曝光,科尔承认招募3大超巨

开心体育站
2024-04-20 17:11:29
你的阴历生日尾数,决定你一生有多少存款,谁是天生有福之人?

你的阴历生日尾数,决定你一生有多少存款,谁是天生有福之人?

书山有路勤为径
2024-04-20 19:25:47
特斯拉裁员10%,马斯克被喷后回怼:白痴,比亚迪销量也下滑了42%

特斯拉裁员10%,马斯克被喷后回怼:白痴,比亚迪销量也下滑了42%

户外小阿隋
2024-04-19 13:11:36
女人趁送女儿上学之际,连续跟两个男人发生关系,谎称在外面洗头

女人趁送女儿上学之际,连续跟两个男人发生关系,谎称在外面洗头

晚星说说吖
2024-04-17 09:36:17
今天是4月20号夜晚,突然曝出1个重要消息,对下周或产生重大影响

今天是4月20号夜晚,突然曝出1个重要消息,对下周或产生重大影响

股市皆大事
2024-04-20 14:21:26
曝李铁已被剃光头,刘海也没了,媒体人:他出庭时戴的应该是假发

曝李铁已被剃光头,刘海也没了,媒体人:他出庭时戴的应该是假发

体坛扒客
2024-03-29 00:24:07
27亿!首台High NA EUV光刻机完成组装

27亿!首台High NA EUV光刻机完成组装

半导体圈
2024-04-20 23:52:23
央企纪委常委撤职 7年后落马!

央企纪委常委撤职 7年后落马!

汽车工程师
2024-04-20 21:36:21
35岁Angelababy投靠古天乐!与黄晓明划清界线,港媒:表演跳舞?

35岁Angelababy投靠古天乐!与黄晓明划清界线,港媒:表演跳舞?

小路杂谈
2024-04-18 17:03:43
俄罗斯将举办金砖国家运动会,国际奥委会威胁:将制裁所有参与国

俄罗斯将举办金砖国家运动会,国际奥委会威胁:将制裁所有参与国

祝晓塬
2024-04-20 23:56:57
熊孩子全网公开王者荣耀新作保密视频,爸妈要面临巨额赔款吗?

熊孩子全网公开王者荣耀新作保密视频,爸妈要面临巨额赔款吗?

叶子猪游戏网
2024-04-18 13:04:21
又一省会城市全面取消限购!曾是反炒房“优等生”

又一省会城市全面取消限购!曾是反炒房“优等生”

南方都市报
2024-04-19 10:20:39
追梦:所有事情都已被摆上台面 科尔&邓利维正在和每个球员谈话

追梦:所有事情都已被摆上台面 科尔&邓利维正在和每个球员谈话

直播吧
2024-04-20 21:18:29
IPhone网速太慢,是苹果默认设了限制,打开之后,网速相差巨大!

IPhone网速太慢,是苹果默认设了限制,打开之后,网速相差巨大!

天边的孤雁
2024-04-18 16:20:03
合资品牌10万内两厢通勤车选择多吗?大众POLO或许是绕不开的选择

合资品牌10万内两厢通勤车选择多吗?大众POLO或许是绕不开的选择

汽车大师哥
2024-04-18 21:49:05
励志!23岁“新疆阿兹蒙”中超再破门:一度想放弃职业足球!

励志!23岁“新疆阿兹蒙”中超再破门:一度想放弃职业足球!

中超球评
2024-04-20 17:54:56
大S得知汪小菲与新欢孕育了新生命,情绪瞬间失控,愤怒难抑。张

大S得知汪小菲与新欢孕育了新生命,情绪瞬间失控,愤怒难抑。张

娱乐圈酸柠檬
2024-04-21 01:21:59
专家:建议买到下铺的年轻人给老人让位!网友:建议专家闭嘴!

专家:建议买到下铺的年轻人给老人让位!网友:建议专家闭嘴!

搞笑云离歌
2024-04-20 03:08:53
伊朗报复以色列后遭遇3架无人机袭击,伊朗官员嘲讽:怎么才来3只“小鸟”?

伊朗报复以色列后遭遇3架无人机袭击,伊朗官员嘲讽:怎么才来3只“小鸟”?

红星新闻
2024-04-19 18:33:28
费南多赛后:非常高兴取胜并参与三球 现在需要休息并备战成都

费南多赛后:非常高兴取胜并参与三球 现在需要休息并备战成都

直播吧
2024-04-20 19:52:31
2024-04-21 03:58:44
虎嗅APP
虎嗅APP
个性化商业资讯与观点交流平台
21495文章数 684279关注度
往期回顾 全部

科技要闻

华为今年最关键的事曝光!Pura 70有新消息

头条要闻

媒体:面对反报复伊朗没接招 以色列下步将更孤注一掷

头条要闻

媒体:面对反报复伊朗没接招 以色列下步将更孤注一掷

体育要闻

连续9场不胜,切尔西上次击败曼城还是2021年欧冠决赛

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

汽车要闻

78.9万的极氪009光辉 让加价MPV无话可说

态度原创

房产
亲子
数码
时尚
公开课

房产要闻

官方喊话,广州公寓或将走向终结?

亲子要闻

马儿与小女孩亲近,画面实在太有爱了

数码要闻

机械革命耀世16 Pro游戏本上架 i7-14650HX+RTX 4060版本,7799元

“人间真实”的厦门爷爷街拍:无美颜、无滤镜,穿搭简约才最高级

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版