网易首页 > 网易号 > 正文 申请入驻

字节视频大模型杀死比赛!无缝镜头切换,运镜技巧拉满,音乐创作和翻译自由也实现了

0
分享至

智东西9月24日报道,今天,字节的视频生成大模型首次亮相,分分钟化身超级导演,镜头切换、电影质感、多主体交互都能轻松拿捏;其通用模型Pro综合能力提升25%,初始TPM(每分钟处理Tokens数量)支持800k,高于业界其他模型。

这些都是今天字节跳动豆包大模型家族的重磅更新,连添了视频、音乐、同声传译三大新成员;还有文生图模型优化了六类复杂生成,语音合成模型可混合数百种音色……


其中的重磅发布莫过于视频生成模型,这意味着继快手后,另一大短视频巨头字节(抖音集团)也正式进军AI视频生成赛道

豆包的视频生成模型可以实现对复杂指令的理解和遵循,平滑实现镜头的变焦、环绕、缩放,保持多镜头切换的一致性以及多尺寸、多风格生成。据火山引擎总裁谭待透露,该模型会在国庆节之后上线到火山方舟平台

它可以根据提示词生成电影质感的画面:


超现实的提示词也能轻松应对,如有翅膀的青蛙、浮空小岛中生长的树等:


在真实使用场景中,人们往往需要不同比例或者尺寸大小的视频,该模型可以满足多比例、多尺寸的视频生成:


即使视频画面切换,豆包生成的视频镜头仍能保持一致性:


还有各种或逼真、或科幻的视觉效果:


今年5月,豆包大模型产品家族首次亮相,目前已经涵盖大语言模型、视觉大模型、语音大模型三大品类发布了13个大模型。此外,豆包通用模型Pro的升级还包括上下文窗口达到256k。


同时,豆包模型技术已经应用到了剪映、即梦AI和醒图工具中,打造了数字分身生成、内容营销工具等。

一、豆包Pro综合能力提升25%,视频、音乐、同声传译模型亮相

今年5月,豆包大模型产品家族正式发布,火山引擎总裁谭待透露道,截至今年9月,豆包大模型Tokens调用量提升超过10倍,其日均Tokens使用量超过1.3万亿。多模态方面,日均生成图片5000万张,日均处理语音85万小时,这相当于7万天广播节目的总时长。

除此以外,豆包大模型产品家族还迎来三个新成员:视频生成模型、音乐生成模型、同声传译模型。

1、豆包通用模型Pro:初始TPM业界最高,上下文窗口达256k

截至8月底,豆包通用模型Pro综合能力累计提升25%,其中数学能力、专业知识实现超过35%的提升。


在企业应用场景中,不仅要考虑模型能力,还要考虑成本。谭待谈道,今年5月,火山引擎成为国内第一个将大模型成本降到每1000 token低于一厘钱(0.001元)的公司。这样的大幅降价背后大量创新应用涌现,过去几个月内模型调用量增长突飞猛进。

他补充说,当Tokens的价格不再是阻碍应用创新的阻力,模型的性能又成为应用上量的关键。

豆包Pro模型再次升级。豆包Pro默认的初始TPM支持800k,高于业界其他模型,还可以根据企业具体需求进一步扩容。豆包Pro上下文窗口达到256k,可一次性处理约40万汉字,这相当于一口气读完《三体》的第一部和第二部,同时,谭待还宣布,豆包Pro加量不加价。


2、视频生成模型:多主体、动作可丝滑交互,镜头平滑切换

豆包大模型家族的第一位重磅新成员就是视频生成模型。

豆包视频生成模型有PixelDance和Seaweed两个版本,PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型,同时支持文生视频和图生视频,能够一次性生成长达10秒的视频片段。

Seaweed版本支持两种文生视频和图生视频两种方式。该技术基于Transformer结构,利用时空压缩的潜空间进行训练,模型原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。

基于豆包视频生成模型,用户可以通过输入文字和图片获得一段视频。这一模型采用了高效的DiT融合计算单元、全新设计的扩散模型训练方法、深度优化的Transformer结构。

其优势在于首先能实现对复杂指令的理解和遵循,解锁时序性多拍动作指令与多个主体间的交互能力。

其次是镜头语言,根据Prompt豆包视频生成模型可以让视频在主体的大动态和镜头中进行平滑切换,实现镜头的变焦、环绕、缩放等。

第三是一致性多镜头生成,该模型能实现多镜头切换的一致性,通过一个Prompt实现多个镜头切换,同时保持主体、风格、氛围的一致性。


最后是支持丰富题材,豆包视频生成模型的风格不限于黑白、3D 动画、2D 动画、国画等,同时还能根据企业的发布平台生成1:1、3:4、4:3、16:9、9:16、21:9六种比例的视频,适配于不同终端,以及电影、手机竖屏等不同画幅。

具体到电商营销、动画教育、城市文旅、微剧本等商业场景应用中,如电商营销场景需要根据商品生成大量配合营销节点的视频素材,以及不同尺寸,豆包视频模型可以做到快速把商品3D化,并配合不同节日替换风格和背景,生成不同尺寸的内容进行发布。


3、音乐生成模型:词曲唱全流程覆盖,还能模拟真假音转换技巧

豆包音乐模型实现了音乐生成通用框架,从词曲唱三个方面生成高质量音乐。

用户首先输入Prompt就可以得到一段歌词,然后在10余种不同风格的音乐和情绪表达中选择进一步创作出歌曲,再基于豆包语音能力,生成可以媲美真人演唱效果的声音,可以实现气口、真假音转换技巧的模拟。

目前,开发者可以通过火山方舟使用豆包音乐模型API,用户也可以直接通过豆包App和海绵音乐App创作音乐。

4、同声传译模型:端到端模型架构,模拟真人发音

豆包同声传译模型采用端到端模型架构,再叠加豆包的语音克隆能力,去模拟真人发音。


在实时翻译方面,豆包同声传译模型可以做到边说边译,且在办公、法律、教育等场景接近甚至超越人类同传水平,还能支持跨语言同音色翻译。

二、豆包模型技术接入剪映、即梦AI和醒图,分分钟定制数字分身

即梦AI和剪映市场负责人陈欣然谈道,不同于传统的画笔工具,用AI进行创作是动态的过程,可以和创作者深度互动,共同创作,生成式AI带来的一些不可控性,反而能激发创作者的灵感。

她举了两个例子,在输入虚拟人实现360度旋转的提示词后,AI生成了头部不动,身子旋转的视频,这更符合她需要的赛博朋克风格效果。


第二个例子是高适唱歌,她只输入了音乐和歌词,就得到了表现力很强的视频生成效果。


剪映和CapCut上线了定制数字人、音色克隆、视频翻译的功能。

这一数字人的形象是基于Transformer音频驱动和全脸生成模型的技术,声音基于音色克隆大模型技术,可以帮助用户不需要本人出镜和录音,在自媒体口播、营销带货、企业培训等场景通过数字人切换不同语言完成表达。


数字人的制作需要用户录制或者上传一段高清3分钟正面视频,就可以创建数字分身,如果只需要音色克隆只需要大概5秒钟的声音输入。

还有一大工具是剪映上线的内容营销创作工具,用户直接填写商品名、上传素材,或者直接上传商品页链接,就能一键生成不同风格的带货视频。


陈欣然透露说,即梦AI已经接入豆包两款视频生成模型,正在进行内测的场景和效果打磨。

三、火山方舟2.0,破解大模型效果不好、成本太贵、落地太难关键挑战

火山引擎智能算法负责人、火山方舟负责人吴迪重点提及了大模型在业务场景落地的关键挑战,是效果不好、成本太贵、落地太难。豆包大模型在做的就是基于更强模型、更低价格、更易落地的宗旨,助力企业AI落地。

吴迪谈道,更强模型需要具备两个必要条件,就是用量非常大、基座模型处理的场景足够丰富和广泛

目前,豆包大模型已经在公司内部50多条业务线和外部30多个行业实现非常大的用量,日均Tokens使用量超过1.3万亿。


AI角色内容社区和AI创作平台想法流基于豆包大模型能力,实现了人均对话轮次提升达到150%~350%之间,综合线上成功请求率达到99.95%。

还有一家AI客服训练平台的全渠道智能知识库晓多科技,实现初始支持RPM提升了2000多倍,支持高并发任务。

字节跳动的自有业务豆包爱学,基于豆包新版大模型核心指标显著提升10%,题目解析可用率提升。

豆包文生图模型2.0采用了更高效的DiT架构,优化了物理世界关于多主体、多数量、大小、高矮胖瘦等六类复杂的生成,能更好呈现小说、超现实设计等画面。

语音合成模型打破了音色数量限制,可以混合数百种音色,供企业DIY不同情绪、性别、年龄、风格的声音效果。

在解决大模型落地困难方面,火山方舟2.0的基本理念是模型效果好、性价比高、流量大,围绕这一核心,算法工程师、信息安全、更强性能、安全可信是其四大支撑。

在更强的系统性能方面,豆包模型支持最大的初始并发,这得益于其有充沛的算力、推理层优化、系统调度能力的乘积,可以在50-120秒内完成数千卡GPU部署。


上下文缓存方面,据吴迪透露,今年10月,他们将开放Context上下文缓存,企业可以减少多轮对话延迟,改善用户体验。同时,其会进一步降低企业使用成本。


火山方舟还打造了全周期安全可信方案,通过身份认证、环境隔离、数据保密、信息无痕、操作可审计构建大模型安全“堡垒”。


为了扩展大模型应用的能力边界,火山引擎3+X插件升级,其中知识库插件可支持更大规模、更低延迟、更高召回率和准确率等。

结语:视频生成模型爆发机遇已来

近一年来,AI视频生成领域的热度持续攀升,多家AI公司推出了新的视频生成模型,引发了行业内的激烈竞争,从图像生成、图像编辑到更为复杂的长视频、三维信息生成等模型问世,彻底引爆了这条赛道。

坐拥抖音短视频丰富视频素材的字节跳动,此次重磅发布了视频生成模型,为视频生成赛道注入新的动力。从其已经发布的诸多Demo来看,在语义理解、视频生成的顺滑度方面可用性更强,并且字节跳动还将豆包模型技术应用到了已有的剪映、即梦AI等工具中,进一步加速视频生成的落地与规模化应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为啥全球都在打仗,亚太却安然无恙,如果中国军力不强,后果是啥

为啥全球都在打仗,亚太却安然无恙,如果中国军力不强,后果是啥

比利
2026-03-19 22:54:16
癌症“源头”已发现?油炸食品没上榜,第1名大家或天天都在吃!

癌症“源头”已发现?油炸食品没上榜,第1名大家或天天都在吃!

垚垚分享健康
2026-03-03 13:22:06
湖北多地公布春假安排

湖北多地公布春假安排

极目新闻
2026-03-20 21:01:02
库克回应OpenClaw带动Mac Mini大卖

库克回应OpenClaw带动Mac Mini大卖

界面新闻
2026-03-21 13:02:22
山姆被曝冷鲜猪肉是数月前屠宰,顾客质疑后“溯源信息”消失

山姆被曝冷鲜猪肉是数月前屠宰,顾客质疑后“溯源信息”消失

大象新闻
2026-03-21 09:57:04
违规走私AI服务器,超微电脑联合创始人被捕

违规走私AI服务器,超微电脑联合创始人被捕

芯智讯
2026-03-20 12:37:54
内塔尼亚胡:推翻伊朗政权需要“地面”战争

内塔尼亚胡:推翻伊朗政权需要“地面”战争

参考消息
2026-03-21 21:46:09
石英石台面正退出中国家庭?醒醒!岩板、不锈钢,用了也上当!

石英石台面正退出中国家庭?醒醒!岩板、不锈钢,用了也上当!

装修秀
2026-03-20 10:20:03
苹果折叠屏 iPhone Ultra 将延迟发售!

苹果折叠屏 iPhone Ultra 将延迟发售!

XCiOS俱乐部
2026-03-21 17:00:19
以军空袭伊朗德黑兰导弹设施 美以拟加大打击力度

以军空袭伊朗德黑兰导弹设施 美以拟加大打击力度

煮茶煮酒煮时光Ii
2026-03-22 01:47:40
轰36分9助,砍27分6助,被迫又当球队老大!你的运气可真不太好

轰36分9助,砍27分6助,被迫又当球队老大!你的运气可真不太好

老梁体育漫谈
2026-03-21 22:53:31
注意!这些病也能申请“残疾证”,别白白错过国家福利!

注意!这些病也能申请“残疾证”,别白白错过国家福利!

另子维爱读史
2026-03-17 22:12:15
20万彩礼娶回个“祖宗”!班不上、活不干,一网友哭诉只会买买买

20万彩礼娶回个“祖宗”!班不上、活不干,一网友哭诉只会买买买

火山詩话
2026-03-21 09:38:42
美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

夜深爱杂谈
2026-03-08 21:28:24
反差感拉满!比安卡洛杉矶街头大变样,优雅知性美到认不出

反差感拉满!比安卡洛杉矶街头大变样,优雅知性美到认不出

述家娱记
2026-03-06 20:06:01
1979年,越军躲进山洞负隅顽抗,解放军灌入12吨炸药加2吨汽油,唯一幸存者说出那个数字,现场鸦雀无声

1979年,越军躲进山洞负隅顽抗,解放军灌入12吨炸药加2吨汽油,唯一幸存者说出那个数字,现场鸦雀无声

起飞做故事
2026-03-19 18:13:11
何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

扒点半吃瓜
2026-03-10 07:00:13
去泰国“性 旅游”?这场被误读的狂欢,其实挺畸形的

去泰国“性 旅游”?这场被误读的狂欢,其实挺畸形的

番外行
2026-03-21 13:07:02
青岛跨海高铁引热议,网友建议改造十几分钟到西站真能实现?

青岛跨海高铁引热议,网友建议改造十几分钟到西站真能实现?

天气观察站
2026-03-21 19:20:32
沦为共享单车的女色虎

沦为共享单车的女色虎

深度报
2026-03-05 22:39:27
2026-03-22 03:55:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11405文章数 117003关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

亲子
家居
本地
时尚
公开课

亲子要闻

什么牌子驼奶粉好?2026中国驼奶品牌评测,原生营养无可挑剔

家居要闻

时空交织 空间绮梦

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

这个趋势好适合亚洲人!不用花大钱也能跟

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版