网易首页 > 网易号 > 正文 申请入驻

效果追上Sora,字节跳动一口气发布两款视频生成模型

0
分享至

界面新闻记者 | 肖芳
界面新闻编辑 | 文姝琪

9月24日,字节跳动一口气发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。

目前,新款豆包视频生成模型正在即梦AI内测版小范围测试,未来将逐步开放给所有用户。但从发布会现场展示的视频生成效果来看,无论是语义理解能力,多个主体运动的复杂交互画面,还是多镜头切换的内容一致性,豆包视频生成大模型都表现出不错的效果。

比如,其中一个视频输入是,“特写⼀个⼥⼈的面部,有些⽣⽓,戴上了⼀副墨镜,这时⼀个男⼈从画⾯右侧⾛进来抱住了她。”视频画面显示,其不仅遵循了这个复杂指令,还能够按指令的时序去完成连续的动作,两个主体之间也能比较顺畅的进行交互,而且人物表情也比较准确传达了指令所描述的情绪。

而一位提前拿到内测资格的创作者体验生成的视频也显示,其生成的视频不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。

一位多模态大模型科学家看完上述创作者使用豆包视频生成的视频后告诉界面新闻,如果demo效果保真的话,豆包视频生成大模型确实是相当不错了。从学术角度或者模型能力角度来说,其肯定达到了Sora的水平,尤其在在人物动作上非常棒。

字节跳动旗下火山引擎总裁谭待在发布会接受界面新闻等媒体采访时透露,豆包系列大模型并不是按照某个固定的时间计划发布的,有好东西就尽快推出。“我们的逻辑是推出的产品要质量可靠,有充分用户反馈,不能是半成品。就像视频和语言模型发布一样,不一定要抢第一,要推出成熟的产品。”

但在一位行业观察人士看来,这个节点一口气发布两款视频生成模型,对字节跳动更大的意义在于“拥有”。Sora发布之后,国内从业者都期待字节跳动能够第一个做出来中国版Sora,最后却是快手第一个做出来了“可灵”,而且效果还不错,字节跳动必然承受了一些压力。

并未过多公布模型技术细节

据界面新闻了解,豆包视频模型支持黑白、3D动画、2D动画、国画、水彩、水粉等多种⻛格,同时支持1:1、4:3、16:9等多个比例,能够适配电影、电视、电脑、手机等多场景。

相较于可灵等国内其他视频生成模型,豆包视频模型技术细节上略显神秘,并未对外公布太多信息。

此前,快手方面对外公布的信息显示,可灵背后的技术原理和Sora类似,都是把常用于视频生成人工智能的扩散模型与Transformer架构相结合,这有助于其理解更大的视频数据文件并更有效地生成结果。和Sora相比,可灵的一个关键优势是依托于快手短视频平台,数亿用户上传了大量可用于训练可灵的视频数据。

据谭待介绍,豆包视频模型经过剪映、即梦AI等业务场景的持续打磨和迭代,深度优化的Transformer结构,则大幅提升了豆包视频生成的泛化能力。同时,豆包视频生成模型基于DiT架构,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

他强调,在镜头切换时可同时保持主体、风格、氛围的一致性是豆包视频生成模型的技术创新所在。

界面新闻从多位大模型从业者处了解到,人物动作是当下视频生成模型共同面临的挑战,Sora做得也不够好。目前,Sora看起来主要还是以运镜和基础动作为主,复杂动作比较差,豆包视频模型生成的demo已经有了明显提升。

但这仅限于豆包视频模型生成demo展现出的水准,几位从业者均表示,实际的水准比较难判断。

谭待在采访中明确表示,这两款视频生成模型并不是期货,字节跳动已经在内测API和应用,预计国庆节后会公开更多API。

已规划视频生成模型商用方向

界面新闻在发布会现场发现,此次前来参加发布会的人多到严控进场的程度,绝大多数参会者都是火山引擎的合作伙伴和对大模型有潜在需求的企业客户。

谭待在发布会现场也向这些合作伙伴和潜在客户介绍了豆包视频生成模型的商用方向,包括电商营销、动画教育、城市文旅、微剧本等企业场景,同时也能为专业创作者和艺术家们提供创作辅助。

这和此前可灵探索的商用方向基本一致,但字节跳动更务实一些。可灵推出后,快手高调推出了由可灵深度参与制作的奇幻微短剧《山海奇镜之劈波斩浪》,并于近日联合李少红、贾樟柯等9位知名导演启动了完全依托视频生成大模型制作电影短片“可灵AI”导演共创计划,试图以此来证明视频生成大模型在影视制作领域的可用性。

从《山海奇镜之劈波斩浪》的探索来看,可灵真正深入参与影视剧制作仍然有较大难度。和外界想象差异较大的是,这部微短剧虽然画面均由AI生成,但整部影片并不是又AI一气呵成,而是使用可灵大模型的文生图和图生视频功能生成了很多时长5秒的分镜头,再由后期剪辑团队人工剪辑而成。从成本降幅来看,其带来的价值也不如外界预期的那么大,整体的降幅不超过四分之一。

豆包视频生成模型的侧重点在于电商营销等对视频内容质量要求相对较低的场景中。在上述多模态大模型科学家看来,从目前各个视频生成模型的能力来看,它们距离商用影视创作有多远还有点难说,但应用在电商营销等场景中已经完全够用。

字节跳动并未在发布会上公布豆包视频生成模型在商用场景的定价。谭待表示,视频模型和语言模型应用场景不同,定价逻辑也不同。要考虑新、老体验和迁移成本,而最终能否广泛应用取决于是否比以前生产力ROI提升很多。

但他强调大模型价格已不再是阻碍创新的门槛。今年5月,豆包大模型公布低于行业99%的定价,引领国内大模型开启降价潮。火山引擎披露的数据显示,截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

在谭待看来,大模型的应用成本已经得到很好解决,行业要从卷价格走向卷性能,支持更大的并发流量正在成为大模型行业发展的关键因素。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丁嘉丽:我这辈子最后悔的决定,就是捧红孙红雷这个“白眼狼”

丁嘉丽:我这辈子最后悔的决定,就是捧红孙红雷这个“白眼狼”

小熊侃史
2025-12-17 09:46:44
连奕名为老婆过46岁生日,杨若兮素颜照曝光惹争议,脸肿到不敢信

连奕名为老婆过46岁生日,杨若兮素颜照曝光惹争议,脸肿到不敢信

小徐讲八卦
2025-12-29 07:51:28
武汉大学中南医院原党委常委、院长王行环接受审查调查

武汉大学中南医院原党委常委、院长王行环接受审查调查

界面新闻
2025-12-29 11:31:29
字越少,事越大!

字越少,事越大!

互联网思维
2025-12-19 23:32:33
营业收入2300亿创历史新高,年利润74亿,股价却从49元跌到11元

营业收入2300亿创历史新高,年利润74亿,股价却从49元跌到11元

投资观
2025-12-29 07:20:03
金一南:林彪是一潭深不可测的静水

金一南:林彪是一潭深不可测的静水

尚曦读史
2025-12-06 09:19:06
1980年陈云决心复查潘汉年案,发现李克农25年前报告

1980年陈云决心复查潘汉年案,发现李克农25年前报告

冷峻视角下的世界
2025-12-02 18:23:26
法国传奇女星碧姬·芭铎去世!被誉为“一代性感女神”, 马克龙发文悼念;网友:曾是我的审美启蒙

法国传奇女星碧姬·芭铎去世!被誉为“一代性感女神”, 马克龙发文悼念;网友:曾是我的审美启蒙

大风新闻
2025-12-29 09:06:17
畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

瓜汁橘长Dr
2025-12-28 16:39:19
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
酸菜再次被关注!医生发现:糖尿病患者常吃酸菜,或出现5种变化

酸菜再次被关注!医生发现:糖尿病患者常吃酸菜,或出现5种变化

橘子约定
2025-11-28 09:39:09
乘客强行登车致设备损坏列车临时停车,济南地铁发布安全倡议

乘客强行登车致设备损坏列车临时停车,济南地铁发布安全倡议

新京报
2025-12-29 14:11:06
甘肃女博士张明玉刚生完孩子,被丈夫提刀割喉,丈夫:你真脏

甘肃女博士张明玉刚生完孩子,被丈夫提刀割喉,丈夫:你真脏

天字号野史
2024-11-18 23:49:45
《亚洲周刊》闭嘴,庞叔令还要不要发声?

《亚洲周刊》闭嘴,庞叔令还要不要发声?

达文西看世界
2025-12-29 19:02:20
最低8℃!元旦假期,广州还有冷空气

最低8℃!元旦假期,广州还有冷空气

广州交通电台
2025-12-29 16:54:58
为什么庞家敢硬刚南京博物馆,庞家的底蕴你想不到

为什么庞家敢硬刚南京博物馆,庞家的底蕴你想不到

鹤羽说个事
2025-12-25 11:39:22
梅西是神!亚马尔:C罗能有今天的成就在于他不跟任何人比较

梅西是神!亚马尔:C罗能有今天的成就在于他不跟任何人比较

茜子足球
2025-12-29 12:02:45
火药味十足!6位著名媒体人评价晋粤大战,付政浩: 比UFC精彩多了

火药味十足!6位著名媒体人评价晋粤大战,付政浩: 比UFC精彩多了

金山话体育
2025-12-29 09:09:29
曾被吹捧上天,如今却沦为笑柄的6个坑人物品,大家别再买了!

曾被吹捧上天,如今却沦为笑柄的6个坑人物品,大家别再买了!

室内设计师有料儿
2025-12-27 17:07:20
CBA焦点战今夜打响!29日19点30分,CCTV5直播表,辽篮拒3连败

CBA焦点战今夜打响!29日19点30分,CCTV5直播表,辽篮拒3连败

老吴说体育
2025-12-29 11:59:05
2025-12-29 19:56:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
990725文章数 1328336关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

美报告承认:检查了92台中国起重机 安全得很

头条要闻

美报告承认:检查了92台中国起重机 安全得很

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

张杰谢娜跨年风波升级!张杰被吐槽赘婿

财经要闻

翁杰明:宏观数据与居民微观感受存在差距

汽车要闻

“路”要越走越深,猛士的智能越野时代来了

态度原创

本地
房产
游戏
公开课
军事航空

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

房产要闻

中旅・三亚蓝湾展示中心璀璨绽放,共鉴湾心孤品传奇

国产大作逃不过这一遭?Steam惊现《影之刃零正版》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

东部战区发布的AI视频 一个细节意味深长

无障碍浏览 进入关怀版