网易首页 > 网易号 > 正文 申请入驻

字节等待一鸣惊人

0
分享至


出品|虎嗅商业消费组

作者|黄青春

题图|视觉中国

一场事先张扬的发布会让Sora 成为 2024 开年顶流,字节跳动却在悄咪咪推进 AI 产品迭代。

近日,字节正式发布文生图模型 SDXL-Lightning。其官方信息称该模型采用了新的渐进式对抗蒸馏(Progressive Adversarial Distillation)技术,能将计算时间和成本降至此前的十分之一——通常情况下,文生图模型使用扩散式生成(diffusion)模型,单张图像处理时间大约需要 5 秒,还需多次(20~40 次)调用庞大的神经网络;但 SDXL-Lightning 能提速 10 倍在 2~4 步内生成高质量及分辨率的图像。

事实上,早于 2023 年 11 月,字节跳动已发表视频生成研究成果 PixelDance,提出基于文本指导 + 首尾帧图片指导的技术方法,能生成具有高度一致性和丰富动态性的视频;今年1月,字节又发布了视频生成模型 MagicVideo-V2,通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,打造了一条视频生成流水线,效果超越 SVD-XT、Pika1.0、Runway的Gen-2 等同类模型。

尽管,字节在研发多模态模型方面已处于国内领先状态,但其与 OpenAI 仍有较大差距,好在字节愿意接入 OpenAI 的模型(字节海外有两款 AI 产品,Cici 和 Coze 都接入了 GPT 3.5/GPT 4 模型,两者 DAU 迅速攀升至百万级别),在一定程度上克服了模型能力的短板。

然而,横空出世的 Sora 加速了字节的焦虑:

  • 一方面,Sora 已经能生成 60 秒视频,这将直接改变抖音与 TikTok 的内容供给逻辑——巨量数据显示,以 60 秒视频为临界点,文生视频已经在颠覆短视频行业;

  • 另一方面,Sora 可以用于视频编辑、视频风格混合等多个领域,是一个集视频生成、图片生成、视频编辑等功能于一体的强大模型。


有鉴于此,Sora 这样的“新物种”从创作门槛、内容质感、创作持续性等方面都会降维打击大部分创作者,或将改变内容生产和编辑方式,从业者可能面临技能需求和工作流程的变化——此前 Runway 在《瞬息全宇宙》里已有所应用,但 4 秒到 15 秒发展了半年,15 秒到 1 分钟三个月,技术的发展速度如此惊人,随着文生视频效果越发精进,抖音及 TikTok 也将面临新技术带来的洗牌,这在一定程度上刺激字节更加积极推进 AI 技术投入。

深层次原因还在于:中国移动互联网业到了用户、流量趋于见顶的成熟期,监管会更侧重产业互联网的推进与建设,这意味着技术走到平台重构生态的关键时期。

尤其,在快速迭代的 AI 浪潮裹挟下,心有猛虎的公司都在寻找向上攀爬的入口——当通用人工智能时代呼啸而来,字节手握应用层及数据层的独特优势,抖音拥有丰富的数据素材和充足的算力资源,必须在快速发展时期进行果断投入(包括技术生态迭代、研发投入等),从而博一张未来的船票。

剪映成字节刺破AI的“针”

那些颠覆行业产品的诞生契机就是如此传奇:Sora 创始团队成立不足 1 年,由两名刚毕业的博士生带队,核心成员 15 人,其中甚至有 00 后(成员Will DePu 于 2003 年出生);而抖音前身 A.me 于 2016 年秋上线时,创始团队也只有 7 个年轻人。

虎嗅了解到,字节跳动的 AI 战略是各个市场做各自的产品;其中,剪映或将成为中国 AI 应用最先爆发的产品:截至 2021 年,剪映月活用户数已经突破 1 亿,是国内最大的移动视频编辑产品。

具体而言,字节跳动通过拆解明确每个部门的 OKR(例如抖音主要负责拉新,而字节专门负责 AI 产品的 Flow 部门负责开发及产品增长)实现了部门间互不干涉,解决了互联网公司迅速扩张所面临的组织协同问题,是国内逐梦 AI 浪潮互联网公司中战略最清晰的一个。


张楠在 2020 年抖音创作者大会发言

要知道,抖音 CEO 张楠卸任前一年(2023 年)绝大多数精力都倾斜在剪映相关业务上。据张楠自述,刺激她义无反顾投身AI的原因之一便是希望帮助创作者更好表达自己的想法,因为过去“几乎无法用一个产品完成所有的创作,要横跨几个产品之间,用复杂的编辑和交互流程,才能完成表达。”

但据字节内部人士透露,张楠亲自带队投身AI 研究,很大程度上源于字节管理层预判文生图、文生视频将是下一个引领时代的赛点。

于张楠而言,就像她在朋友圈说的那样:“专注地从‘心’出发,用始终创业的状态,在未来的十年再折腾一些我热爱的事情。字节跳动是最好的平台,既有梦想,又务实的浪漫,我很期待和剪映的小伙伴们一起造梦,与这个 AI 的时代一起成长,共同绘制出脑海中的奇幻世界。”

而且,张楠在内部信中坦言,最近跟团队里的很多人聊天,有很多人还是满腔热血的,有很想做的事,这更让她觉得机不可失、时不再来。“我知道这会是一条很长的路,而且会有很多激烈的竞争,也会碰到技术不确定性带来的很多挑战和试错。但梦想还是应该有的,如果不极致地试一次,未来该多遗憾。”

于公司而言,字节在模型技术和数据两个方面同时具备优势,可以利用自身的数据资产为模型训练提供足够的数据源,进而在市场中获得更大的竞争力。

此前,《晚点 LatePost》曾在报道中指出,字节广告客户投放总成本里有 10%~20% 为视频制作成本;去年开始,字节已在开发一些相关产品帮广告客户压缩这部分投入。

接近字节人士向虎嗅表示,字节的核心 AI 业务中,剪映占据重要位置,集团希望它成为一个独立的工具产品。“从战略角度看,字节希望剪映变成一个类似于过去支付宝和淘宝关系的产品,它本身是一个工具,现在得慢慢地独立出来。”

不过,传统视频编辑工具,如剪映的技术路线是基于一些预测性和可复现的底层操作,包括传统图像学和视频编辑算法,以非常精确的方式编辑视频内容——这样的优势在于其操作粒度细且可控性强;缺点在于需要大量的人力投入,例如剪辑一段视频考验制作者能力和人力成本。

顺着这个逻辑所进化的工具,只能通过建立一套标准操作流程(SOP),将一些工具进行组合以形成多套模板,再通过这些模板来进行视频剪辑和生成;然而,这些模板基本上很同质化,导致产生的变化很相似,形成了固定范式,导致这类工具适用场景有限,创新性较低——而 Sora 在图像控制表达能力上结合了 DALL·E 和 GPT-4 的能力,其他厂商缺乏相应的图像和语言模型能力,人才、数据和算力才是技术复现的三大核心壁垒。

一位华人工程师向虎嗅表示,OpenAI 在技术层面领先的原因之一是选择了 Transformer 架构并创新推出 GPT 系列。“最早的 Transformer 论文是由谷歌的科学家编写,但在当时并未被视为主流架构;然而,OpenAI 首席科学家伊利将 Transformer 架构应用于 GPT-1 模型后,其展现出优于以往模型的能力。”

他进一步指出,相比谷歌这样的科技巨头,在新技术面前往往更重视社会影响及对现有业务的影响——字节何尝不是如此;而 OpenAI 作为一家创业公司,反而可以放开手脚,更注重创新与自我突破。

Sora只是亮个相,为何把你吓坏了?

“Sora 能够将真实世界映射到虚拟世界,无论内容真实性、视频质量(包括分辨率、码率、像素等)还是输出内容与用户需求的一致性都有显著提升,夸张点说是直接完成了 1 到 100 的跃迁。”一位 AI 创业者如此评价道。

上述论断并非危言耸听——与其他文生视频模型 (Runway、 Pika 等) 不同,当摄像机移动和旋转时 Sora 能输出保持人物和场景 3D 空间一致性、基本符合物理世界规律(不能完全保持,也会出错)的视频。

对此,OpenAI 透漏,Sora 的技术架构与传统视频技术路径有所不同:其先将不同视频和图片数据压缩在一个低维空间中,再分解成统一 Patch 作为训练大模型的基本单位,这一改进使得文生视频更加逼真、高质量。

Sora 输出能力有多出色呢?即使在人物、动物或物体被遮挡或离开画面时,仍然可以进行追踪,确保物体持续呈现;而且,相较于其他大模型在文本数据上理解和涌现,Sora 在 GPT(不少人猜测训练的或许是 GPT-4.5)的语义理解支撑下,能理解用户需求以及在预训练学习过程中理解学习的视频内容。


疑似周亚辉在朋友圈透露 GPT4.5 发布时间

虽说,尚未对外开放测试的 Sora 仍处于世界模型研究应用的初期阶段;可 Sora 一旦上线,用户贡献的素材内容能丰富数据资源增加训练样本。

一位 AI 创业者乐观地表示,“相对现在某些类 GPT 产品插件,进化的大模型可能支持各种插件应用,解决生成内容中的各种问题,并对视频、游戏等内容产业产生商业层面的变革。”

所以,短期内 Sora 更多会应用于物理世界内容的延展,包括使用物理世界内容拼接创建新的创新内容,例如常规内容短片、电影等;中期,Sora 可作为视频编辑工具,应用在特效添加、背景更改、人物替换方面;后期,Sora 应用范围会涉及虚拟现实、增强现实、游戏开发等,潜在应用方向包括虚拟试衣、虚拟旅游等。


来源:Sora生成视频截取

当然,要实现真正的 AGI,需要具备强大的理解能力、记忆能力和决策能力,眼下的人工智能只是人类认知能力的一个延伸,其逻辑性仍不够强,还需要人类来表达内容的逻辑性和意义。

不过话说回来,即便 Sora 让整个互联网都为之躁动,但资本市场投资主线有两条:


  • 一是关注内容资产重估,文字是内容资产的最基础层,具有最大的上升空间,因此内容资产将在多模态技术演进中迎来重估;

  • 二是关注 AI 内容生成工具,AI 多模态技术将降低不同内容形式间转化的门槛,并提高 AI 工具在内容生成中的作用,这一进程可能会加速实现。


此外,Sora 也面临着新的困境。

Sora 第一个棘手问题是废弃问题,即可能产生大量的误导性信息,特别是对于虚假信息的识别比较困难,因为它们是设计来欺骗的,需要人工细致地进行审查;若处理不当,会对商业化产生较大影响。

目前,Sora 测试的重要一环便是红队测试(一种通过模拟攻击者的行为来评估系统安全性和弱点的测试方法),主要为了解决废弃和虚假信息等问题,以提升其可靠性和可用性。

Sora 第二个棘手问题是数据和版权问题,原生 AI 公司很难积累大量数据,即使 OpenAI 背靠微软也缺乏相应的原生数据,所以在学习过程中会面临数据安全、隐私侵犯等风险。

不过,关于 AI 生成内容是否具备版权,以及内容生成者、模型和运营平台之间的责权划分,首例 AIGC 版权案已经宣判,未来是否会向着这个方向发展,值得关注。

#我是虎嗅商业、消费与机动组副组长黄青春,关注文娱社交、游戏影音等多个领域,行业人士交流加微信:724051399,新闻线索亦可邮件至 huangqingchun@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄乌战场局势再变,泽连斯基痛下决心,可击毙临阵脱逃的美国人

俄乌战场局势再变,泽连斯基痛下决心,可击毙临阵脱逃的美国人

谷火平
2024-04-16 15:53:03
女子躺座椅上不起致航班延误2小时,桂林航空:不符合起飞条件

女子躺座椅上不起致航班延误2小时,桂林航空:不符合起飞条件

极目新闻
2024-04-17 12:33:23
为什么不能领养小孩 网友给出了超现实的答案 毕竟基因太可怕了

为什么不能领养小孩 网友给出了超现实的答案 毕竟基因太可怕了

侃神评故事
2024-04-17 10:50:03
云南一“色虎”落马:敛财千万,戏玩女星并包养情人,获死缓

云南一“色虎”落马:敛财千万,戏玩女星并包养情人,获死缓

天闻地知
2024-04-17 09:59:34
动真格!抖音15条新规出台:多家关店,酒商离场,直播带货生变?

动真格!抖音15条新规出台:多家关店,酒商离场,直播带货生变?

云酒视界
2024-04-17 17:10:50
四川27岁小伙不上班,却每天进账900万,家中奢侈品多到无处下脚

四川27岁小伙不上班,却每天进账900万,家中奢侈品多到无处下脚

影视解说阿相
2024-04-16 21:25:36
董明珠建议强制报废旧家电!专家:消费者对家电产品存误区,认为没坏就能用【附家电行业市场竞争分析】

董明珠建议强制报废旧家电!专家:消费者对家电产品存误区,认为没坏就能用【附家电行业市场竞争分析】

前瞻网
2024-04-16 11:31:42
勇士的楼塌了,真正的罪魁祸首、其实就是斯蒂芬·库里

勇士的楼塌了,真正的罪魁祸首、其实就是斯蒂芬·库里

元爸体育
2024-04-17 21:43:43
贝嫂又发48岁小贝的健身照,全身大花花,其实很恶心

贝嫂又发48岁小贝的健身照,全身大花花,其实很恶心

风趣环球笔记
2024-04-15 22:42:34
《酱园弄》官宣阵容,江湖地位在赵丽颖身上体现得淋漓尽致

《酱园弄》官宣阵容,江湖地位在赵丽颖身上体现得淋漓尽致

娱乐圈笔娱君
2024-04-17 16:22:29
回顾百万女网红不雅视频流出!达80分钟,男方全程遮脸外网已热传

回顾百万女网红不雅视频流出!达80分钟,男方全程遮脸外网已热传

北城谈人物
2024-04-09 14:56:28
水均益:你八抬大轿抬我去美国,我都不愿意去!就是这么拽!

水均益:你八抬大轿抬我去美国,我都不愿意去!就是这么拽!

伤心鱼头
2024-04-16 12:05:50
再见曼城!标价5000万欧!性格嚣张不要欧冠,儿萨梦,瓜帅不挽留

再见曼城!标价5000万欧!性格嚣张不要欧冠,儿萨梦,瓜帅不挽留

阿泰希特
2024-04-17 14:32:11
女性绝经后,夫妻生活可以坚持到多少岁?看看你的极限年龄

女性绝经后,夫妻生活可以坚持到多少岁?看看你的极限年龄

实在聊情感
2024-03-13 09:06:17
美国震呆!美国穆斯林欢呼“美国去死”,美国白人惊怒:全部驱逐

美国震呆!美国穆斯林欢呼“美国去死”,美国白人惊怒:全部驱逐

真实星球
2024-04-16 20:22:29
51岁大姐过“夫妻生活”时,极力配合后,事后发现竟不是自己老公

51岁大姐过“夫妻生活”时,极力配合后,事后发现竟不是自己老公

半只桃说说吖
2024-04-17 03:27:34
美国最害怕的一幕发生!普京只剩一条路了?中国成为破局关键

美国最害怕的一幕发生!普京只剩一条路了?中国成为破局关键

诉说人世间
2024-04-18 00:05:15
九华山坐缸尼姑是药王菩萨转世,曾参加抗美援朝,开缸后震惊世人

九华山坐缸尼姑是药王菩萨转世,曾参加抗美援朝,开缸后震惊世人

真实故事汇
2024-04-09 10:10:40
金晨怎么露都不擦除了平胸更重要的是身上的力量感

金晨怎么露都不擦除了平胸更重要的是身上的力量感

白宸侃片
2024-04-16 12:46:03
戚薇《乘风破浪》这条裙子把她身材优点全显示出来,全场最美。

戚薇《乘风破浪》这条裙子把她身材优点全显示出来,全场最美。

娱乐圈酸柠檬
2024-04-15 14:39:25
2024-04-18 01:48:49
虎嗅APP
虎嗅APP
个性化商业资讯与观点交流平台
21475文章数 684250关注度
往期回顾 全部

科技要闻

特斯拉大裁员涉中国市场 销售部门是重灾区

头条要闻

广西南宁一男子疑因土地纠纷持刀行凶 致4死1伤

头条要闻

广西南宁一男子疑因土地纠纷持刀行凶 致4死1伤

体育要闻

5年,他们从欧冠淘汰赛,沦落到德乙降级区

娱乐要闻

霍建华老了?总比糊了强

财经要闻

割完股民负债上百亿 他坐着飞机颠儿不见了

汽车要闻

一口气发三款新车 方程豹汽车全集结

态度原创

时尚
旅游
手机
数码
公开课

财务危机时,如何用100元吃饱一个月?

旅游要闻

四月的阿勒泰,是全国人的白月光

手机要闻

OPPO Reno12再次被确认:实况照片+潜望镜头,有望搅局线下市场

数码要闻

海信发布《黑神话:悟空》定制电视E8N系列新品

公开课

反抗痛苦,最好的方式就是读书

无障碍浏览 进入关怀版