网易首页 > 网易号 > 正文 申请入驻

突破主体互动难关!豆包发布视频生成模型,有多镜头语言能力

0
分享至

字节跳动正式宣告进军AI视频生成。9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。 火山引擎总裁谭待表示,“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展AI视频的创作空间和应用落地。”

火山引擎总裁谭待。

视频生成大模型破解多主体互动和一致性难题

在大会上,谭待宣布豆包正式推出视频生成模型,包括豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。

此前,视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。有创作者在体验豆包视频生成模型时发现,其生成的视频不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。

大会上展示了很多视频生成的案例,比如输入“一个侧对镜头的白人女人,摘掉墨镜,转身看向靠近她的杀手们”。这个描述包括了人的动作变化、镜头的变化,以及新人物的出现,模型则是根据这个指令生成一段完整的视频。

豆包视频生成模型根据指令完成的视频。

据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法更是攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

据介绍,经过剪映、即梦AI等业务场景打磨和持续迭代,豆包视频生成模型具备专业级光影布局和色彩调和,画面视觉极具美感和真实感。深度优化的Transformer结构,则大幅提升了豆包视频生成的泛化能力,支持3D动画、2D动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。

目前,新款豆包视频生成模型正在即梦AI内测版小范围测试,未来将逐步开放给所有用户。即梦AI及剪映市场和运营负责人陈欣然认为,AI能够和创作者深度互动,共同创作,带来很多惊喜和启发,即梦AI希望成为用户最亲密和有智慧的创作伙伴。

同传模型采用端到端的模型架构

此次活动中,豆包大模型不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

对于豆包音乐模型,谭待介绍称,音乐是一个复杂的综合体,涉及到词、曲、音调唱法,“豆包的音乐模型我们采用了全新的方案,实现了音乐生成的框架,从词、曲、唱三个方面来生成高质量的音乐。我们只需要输入一个prompt就可以得到一个情感表达准确的歌词。有了歌词,我们可以通过11种不同风格和情绪表达的选择进一步创作出歌曲。同时,得益于强大的豆包语音能力,我们在整个唱的方面其实会变得非常真实,包括对气口,还有真假音转化这些技巧的模拟,去媲美真人的演唱效果。”

南都记者在实测中发现,定制音乐分为灵感创作和自定义创作,在自定义创作下,用户可以输入歌词或者一键生词;而在灵感创作下,用户只要输入灵感,就可以生成几首不同风格的人声音乐。

而豆包的同声传译模型则是采用了全新的端到端的模型架构。谭待表示,传统的AI同声传译模型常用的是级联的模型方式,首先进行语音识别,然后再进行机器翻译,“这个准确率低有一个很大的问题,它有可能在语音识别那一块就没有听清楚,它没听有清楚,翻译的时候就开始瞎翻了。”

而端到端的方式可以让翻译更加精准、质量更高、时延更低,“我们迭代豆包语音克隆的能力,让它模拟一个真人的发音,这样去媲美一个真人的同传效果,而且在很多专业的场景里面可能会更好,因为它不会疲惫,它不会听漏。”

从效果展示来看,无论是语速超快、发音复杂的绕口令,还是文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅地给出翻译结果。

豆包的同声传译模型展示。

豆包大模型日均Tokens调用量超过1.3万亿

在今年7月的巡展上,火山引擎曾披露,豆包大模型的日均Tokens调用量已经有5000亿。而在9月24日,谭待透露,截至9月,这个数据还在持续增长,现在已经超过1.3万亿,“我们在4个月的时间里,Tokens整体增长超过了10倍。”

除了在语言模型上,豆包大模型在多模态方面也披露了其进展。据大会披露,目前豆包文生图模型日均生成图片5000万张,此外,豆包目前还日均处理语音85 万小时,这个数字相当于7万天的广播节目播出总时长的总和。

此前,豆包大模型公布低于行业99%的定价,引领国内大模型开启降价潮。谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素。

据谭待介绍,业内多家大模型目前最高仅支持300K甚至100K的TPM(每分钟token数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教育公司的TPM峰值更是达到630K。为此,豆包大模型默认支持800K的初始TPM,远超行业平均水平,客户还可根据需求灵活扩容。

“在我们努力下,大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”谭待表示。

此次豆包 pro 还宣布上下文窗口也进行了升级。原来的豆包 pro 4K版本将直接升级到 32K,同时对长文本的128K窗口也进行了升级,现在豆包最长支持 256K的窗口。“给予最新升级的窗口,能同时处理约40万汉字,相当于一口气把《三体》第一部和第二部全部读一遍,而且我们所有的升级都是加量不加价,和原来128K完全同样的价格。” 谭待表示。

采写:南都记者 汪陈晨

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
【社论】列车“长者票”上线,撬开适老消费新空间

【社论】列车“长者票”上线,撬开适老消费新空间

澎湃新闻
2026-05-14 17:28:37
颠覆千年认知!山东考古实锤:4000年前,麻竟是中国人的核心主食

颠覆千年认知!山东考古实锤:4000年前,麻竟是中国人的核心主食

户外钓鱼哥阿旱
2026-05-16 08:35:58
皮尔斯:詹姆斯不该遭受如今的批评,他在湖人身心俱疲可考虑退役

皮尔斯:詹姆斯不该遭受如今的批评,他在湖人身心俱疲可考虑退役

懂球帝
2026-05-16 11:45:06
广州暴雨救人的第3名外卖小哥找到了,是一名退役军人!多部门慰问表彰3名骑手,目前广州市见义勇为基金会正紧急寻找剩下2人

广州暴雨救人的第3名外卖小哥找到了,是一名退役军人!多部门慰问表彰3名骑手,目前广州市见义勇为基金会正紧急寻找剩下2人

台州交通广播
2026-05-16 02:35:40
朱珠与老公上海南京西路街边喝咖啡被偶遇,美的像拍偶像剧!

朱珠与老公上海南京西路街边喝咖啡被偶遇,美的像拍偶像剧!

动物奇奇怪怪
2026-05-16 12:41:37
家里有这种枕头赶紧扔!致癌物超标、比甲醛还“毒”,很多人还天天用

家里有这种枕头赶紧扔!致癌物超标、比甲醛还“毒”,很多人还天天用

蓬勃新闻
2026-05-14 23:43:33
特朗普访华:镜头定格10个精彩瞬间!

特朗普访华:镜头定格10个精彩瞬间!

人间无味啊
2026-05-16 06:38:31
5月15日俄乌:ISW对俄罗斯没信心了

5月15日俄乌:ISW对俄罗斯没信心了

山河路口
2026-05-15 18:32:13
虎狼饥渴?为何一些女性会“欲望”特别强烈?可能存在这几点原因

虎狼饥渴?为何一些女性会“欲望”特别强烈?可能存在这几点原因

医者荣耀
2026-03-13 12:10:12
3-2领先又要被逆转?每次离队想抱大腿,结果自己成了大腿!太惨

3-2领先又要被逆转?每次离队想抱大腿,结果自己成了大腿!太惨

你的篮球频道
2026-05-16 10:42:05
卸磨杀驴的结果!文胖:詹皇愿去别队拿中产,也不愿降薪3000万

卸磨杀驴的结果!文胖:詹皇愿去别队拿中产,也不愿降薪3000万

钱说体育
2026-05-15 09:05:10
砍14分5助还被指责!顶级后卫在场上出工不出力,张云松看走眼了

砍14分5助还被指责!顶级后卫在场上出工不出力,张云松看走眼了

老叶评球
2026-05-16 10:50:18
俄专家预言:中国军力追俄需10年,超美需25年

俄专家预言:中国军力追俄需10年,超美需25年

夏末moent
2026-05-02 16:43:36
保时捷中国高管喊话被抄袭无奈,罗永浩怒怼:论流氓谁能跟保时捷比,新能源抄了保时捷的,不是只有那个谁和那个谁吗

保时捷中国高管喊话被抄袭无奈,罗永浩怒怼:论流氓谁能跟保时捷比,新能源抄了保时捷的,不是只有那个谁和那个谁吗

大风新闻
2026-05-15 12:21:07
不是楚阿梅尼!皇马巨星铁心离队,曼联 5000 万捡漏卡胖接班人

不是楚阿梅尼!皇马巨星铁心离队,曼联 5000 万捡漏卡胖接班人

奶盖熊本熊
2026-05-16 04:48:22
2025款雷克萨斯ES,上市指导价29.99万,目前新车优惠10.3万

2025款雷克萨斯ES,上市指导价29.99万,目前新车优惠10.3万

隔壁说车老王
2026-05-16 07:49:48
中超首尾大战!成都蓉城成功“擒虎”,基莱斯赛后理论领黄牌

中超首尾大战!成都蓉城成功“擒虎”,基莱斯赛后理论领黄牌

丹妮观
2026-05-16 12:50:08
“好豪迈的洛丽塔”,165cm未成年女儿穿搭火了,家长尴尬不敢认

“好豪迈的洛丽塔”,165cm未成年女儿穿搭火了,家长尴尬不敢认

妍妍教育日记
2026-05-12 18:46:53
被“孤篇盖全唐”骗了多年!语文课本没说:张若虚的“初见月”

被“孤篇盖全唐”骗了多年!语文课本没说:张若虚的“初见月”

抽象派大师
2026-05-14 15:44:30
有意思的细节!

有意思的细节!

环球策论
2026-05-15 22:22:02
2026-05-16 14:52:49
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
611480文章数 3588615关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

马尔代夫5人潜水身亡可能原因:氧气变毒 一人拖垮全组

头条要闻

马尔代夫5人潜水身亡可能原因:氧气变毒 一人拖垮全组

体育要闻

35岁坎特,干了一件这辈子最吵的事

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

艺术
旅游
游戏
本地
公开课

艺术要闻

19位当代画家油画作品欣赏

旅游要闻

星河入梦!延时记录云南抚仙湖璀璨星空

卖爆了!《地平线6》在线人数超17万 498元抢着买

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版