网易首页 > 网易号 > 正文 申请入驻

豆包多模态跻身全球第一梯队,以“理解与创造”推开AI规模化应用大门

0
分享至



AI浪潮席卷全球。大模型的发展,已从单点突破进入全面竞速与深度融合的新阶段。

2025年年末,国内外互联网大厂纷纷迭代了多模态大模型。在FORCE原动力大会上,火山引擎一口气更新了多个版本,豆包1.8在多模态深度理解与智能体(Agent)能力上树立标杆,Seedance 1.5 pro则在音视频生成领域实现飞跃。同一天,谷歌发布了Gemini3的FLASH版本,OpenAI则刚刚收到一笔来自迪士尼的10亿美元投资……大模型的竞争,变成以日为计数单位。

与年初相比,竞争又变得完全不同,无论是国内的豆包、千问,还是国外的Gemini3、OpenAI,都聚焦于多模态能力——即模型对文本、图像、音频、视频等多元信息的统一理解与生成能力,它被视为解锁下一代AI应用、实现通用人工智能(AGI)愿景的关键阶梯。在这条“多模态”综合竞赛的关键赛道上,中国力量正强势崛起。权威评测显示,豆包大模型家族在多模态理解、生成能力及Agent(智能体)能力上,已稳居全球第一梯队。这些技术突破以前所未有的规模和速度融入千行百业,驱动从技术能力到产业生态的深刻变革。

“理解世界”能力跃迁

衡量AI发展速度的核心指标是什么?在火山引擎总裁谭待看来,答案很简单——Tokens调用量。“模型只有被调用才能发挥价值;而越有价值的模型,调用量就会越多。”他说,截至今年12月,豆包大模型日均调用量已突破50万亿Tokens,自发布至今实现了417倍的爆炸式增长,相比去年同期也增长了超过10倍。


“这不仅是火山引擎的速度,更代表了AI行业的加速发展。”谭待说。

飞速增长的调用量背后,是模型能力质的飞跃,尤其是多模态理解能力的突破。谭待介绍,本次发布的豆包大模型1.8,在设计伊始就面向复杂的多模态Agent场景进行了定向优化。得益于这一目标,其在视觉理解上有显著升级,单次视频理解帧数从640帧倍增至1280帧,并创新性地支持“低帧率扫视全局+高帧率聚焦关键”的协同理解模式。

这意味着什么?现场一个生动的案例足以说明问题。面对一段长达1小时4分钟的监控录像,用户可以直接将其抛给豆包1.8。模型会先以低帧率快速“浏览”完整个视频,初步锁定可疑时段,随后自动调用“Video Cut”工具,对关键片段进行高帧率的“仔细审视”,最终精准定位到肇事车辆及事故发生的准确时间。

这代表大模型“理解世界”的能力有了显著跃升。谭待介绍,豆包1.8在视觉判断准确性、空间理解、文档解析、视频运动识别能力上已超越 Gemini 3,展现出全球领先的竞争力。

“多模态其实代表着模型的应用进入更深的领域。”他表示,与去年相比,模型已经能解决非常多问题了,模型的进化速度非常快的,正在不断解锁新领域、催生新爆发。以这种“理解世界”的能力为例,它可以直接应用于安防巡检、在线教育内容分析、工业生产线实时质检等复杂场景。

“创造世界”生产加速

如果说“理解”是AI感知世界的基础,那么“创造”则是AI赋能价值的升华。在视频内容需求呈指数级增长的当下,火山引擎推出的Seedance 1.5 Pro音视频创作模型,试图重塑AI视频的生产范式。

记者注意到,与上一代相比,Seedance 1.5 Pro最大的突破在于采用了原生音视频联合生成架构,实现了“音画同出”的毫秒级“神同步”。在对白上,模型可实现多人多语言对话,更覆盖了中文方言、英文及多种而且小语种,为全球化、本地化的内容创作打开了想象空间。分析人士认为,这一技术攻克了长期困扰AI视频生成的“声画两张皮”难题,极大地提升了内容的真实感与沉浸感。

Seedance 1.5 Pro对叙事与情感张力的驾驭能力也显著提升。据悉,模型具备了电影级的自发运镜能力,可自动实现长镜头跟随、希区柯克式变焦等高级技巧,并精准捕捉人物微妙的情绪变化。

另一方面,强大的生成能力带来了新的挑战。此前不少用户反馈,AI生成视频的过程犹如“抽盲盒”,创作者需要反复尝试才能获得满意结果。为此,Seedance团队创新性地提出了“Draft样片”功能。模型可首先生成低分辨率但关键要素与成片高度一致的视频草稿,供创作者快速验证创意。数据显示,这一功能能将整体创作效率提升65%,减少60%的无效创作成本,将AI从“炫技工具”转变为实用的“生产力伙伴”。

随着豆包1.8的深度理解、Seedance 1.5 Pro的影视级生成的发布,至此,火山引擎的“豆包大模型家族”全景图正缓缓铺开,涵盖了图像、视频、语音、语义及多模态深度思考模型,构成了一个从感知、理解到决策、创造的完整能力闭环。

“赋能世界”产业落地

技术的领先,最终要体现在推动产业进步的深度与广度上。火山引擎智能算法负责人吴迪判断认为,随着大模型智能水平的不断提升,智能体正逐渐进入企业的核心业务:“可以预见在未来的两三年内,智能体会带来巨大的生产力提升。”

“我们正处于从PC、移动到AI这三个时代的变化之中。技术主体发生了重大变化,PC时代的主体是web,移动时代是APP,而AI时代则是Agent。”谭待观察认为,与前两者不同,Agent能够自主地感知、规划和执行复杂任务,“软件第一次从被动的工具,变成主动的执行者。”

能看到的是,豆包大模型的多模态能力,正成为构建这些“主动执行者”的核心引擎。在智能终端这一前沿阵地,全球Top10手机厂商中,有9家与火山引擎开展了深度合作,将大模型应用于更智能的语音助手、更强大的创作工具和更极致的效率提升中。

代表高端制造与消费的汽车行业,或是更有标杆意义的产业落地。“我们与火山引擎合作,将豆包大模型深度融合DiLink系统,实现了语音交互、内容推荐与出行服务的无缝连接。从联合开发到上车落地,仅用了4个多月。”比亚迪集团高级副总裁杨冬生介绍,高效落地的背后,是豆包大模型强大且易用的多模态能力在支撑。

根据IDC报告,火山引擎在中国公有云大模型服务调用量上稳居第一,市场份额从2024年的46.4%进一步提升至2025年的49.2%。这意味着,中国公有云上每两个Tokens中就有一个由火山引擎生产。在Gartner的全球AI应用开发平台魔力象限中,火山引擎更位列挑战者首位,位居中国第一。

可以说,豆包大模型的发展轨迹清晰地勾勒出中国AI产业从追赶到并跑、在部分领域实现领先的奋进之路。

面向未来,AI大模型的价值在哪里?谭待也给出了自己的观点:“我觉得模型最大的价值肯定不是去写点打油诗,生产一些合成的照片,而是更好地帮人成长,教育、医疗,做新的科研,我觉得这个是大家对AI最大的期许。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为提高成绩,高台跳雪运动员向阴茎注入玻尿酸,这是对体育精神的巨大讽刺

为提高成绩,高台跳雪运动员向阴茎注入玻尿酸,这是对体育精神的巨大讽刺

爆角追踪
2026-02-08 19:23:36
刺激!华为突然官宣:2月7日,全系降价

刺激!华为突然官宣:2月7日,全系降价

科技堡垒
2026-02-07 11:02:06
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
中国拦截成功!外媒:颠覆了美国的军事霸权

中国拦截成功!外媒:颠覆了美国的军事霸权

趣生活
2026-02-08 22:14:17
特朗普给乌克兰列出投降时间表,欧洲炸锅了

特朗普给乌克兰列出投降时间表,欧洲炸锅了

史政先锋
2026-02-08 13:21:09
网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

极目新闻
2026-02-08 19:38:45
女单颁奖!中国包揽前3,3人笑嘻嘻,蒯曼主导合影,孙颖莎太可爱

女单颁奖!中国包揽前3,3人笑嘻嘻,蒯曼主导合影,孙颖莎太可爱

篮球资讯达人
2026-02-08 21:39:53
天涯社区宣布重启:2026年6月1日恢复访问!1999元招募创世成员

天涯社区宣布重启:2026年6月1日恢复访问!1999元招募创世成员

快科技
2026-02-07 09:54:13
重磅发声!美联储,降息大消息!

重磅发声!美联储,降息大消息!

证券时报
2026-02-08 17:01:03
极速追捕48小时!刺杀俄中将凶手从迪拜押回莫斯科受审

极速追捕48小时!刺杀俄中将凶手从迪拜押回莫斯科受审

简观
2026-02-08 17:47:42
大理民宿老板实名举报携程垄断:不合作没客源,合作了有钱收没钱赚

大理民宿老板实名举报携程垄断:不合作没客源,合作了有钱收没钱赚

星视频
2026-02-08 21:00:53
他们的勾当——警惕日本军国主义在文体领域的渗透

他们的勾当——警惕日本军国主义在文体领域的渗透

环球网资讯
2026-02-08 16:09:33
河北黄灯笼续:当地硬气回应惹争议,涿州官号遭波及,现灯笼已拆

河北黄灯笼续:当地硬气回应惹争议,涿州官号遭波及,现灯笼已拆

奇思妙想草叶君
2026-02-08 23:12:14
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
英超焦点战2-1神剧情!被轰世界波 12.9亿豪门93分钟绝杀+大逆转

英超焦点战2-1神剧情!被轰世界波 12.9亿豪门93分钟绝杀+大逆转

狍子歪解体坛
2026-02-09 02:37:19
国乒双冠!王楚钦4-2张本智和卫冕成功 王皓场边为世界第一鼓掌

国乒双冠!王楚钦4-2张本智和卫冕成功 王皓场边为世界第一鼓掌

颜小白的篮球梦
2026-02-08 22:44:15
女子吐槽飞机餐仅一根青菜配米饭?评论区网友吵起来了

女子吐槽飞机餐仅一根青菜配米饭?评论区网友吵起来了

极目新闻
2026-02-08 17:42:21
网友怒喷红十字会:按约定捐赠父亲遗体,你们就派来一个醉鬼?

网友怒喷红十字会:按约定捐赠父亲遗体,你们就派来一个醉鬼?

可达鸭面面观
2026-02-08 17:20:42
92分42秒,哈兰德打入有统计以来英超客战利物浦最晚的制胜球

92分42秒,哈兰德打入有统计以来英超客战利物浦最晚的制胜球

懂球帝
2026-02-09 04:40:08
赵心童夺得2026斯诺克世界大奖赛冠军

赵心童夺得2026斯诺克世界大奖赛冠军

界面新闻
2026-02-08 21:43:51
2026-02-09 05:12:49
文汇报 incentive-icons
文汇报
华语世界高品质人文阅读平台
270254文章数 309873关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

日本选举结果 可能让国家进入相当危险阶段

头条要闻

日本选举结果 可能让国家进入相当危险阶段

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

房产
亲子
手机
数码
公开课

房产要闻

实景超预期呈现!三亚豪宅,再迎封面之作!

亲子要闻

人类婴儿为什么这么能哭?在原始社会难道不怕引来野兽吗?

手机要闻

古尔曼:苹果iOS 26.4首个测试版最快2月23日当周发布

数码要闻

平民本地AI神器!苹果M4 Mac mini面临缺货

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版