网易首页 > 网易号 > 正文 申请入驻

2.4万亿参数原生全模态,文心5.0一手实测来了

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,文心5.0正式发布了!

全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。

所以,最终模型能够做到支持全模态输入(文字/图片/音频/视频)+全模态输出(文字/图片/音频/视频),创意写作、指令遵循、智能体规划方面也更强了。



在官方展示中,上传一个电影片段,它立马就能分析出最紧张的情节,具体到第几秒到第几秒的那种。



同时上传一段视频和一段音频,就能让它指出视频里是否有用到音频里的音乐,还能说出节点:



做音视频融合生成也行,简单操作即可爆改甄嬛传滴血认亲(佟掌柜版):



视频链接:https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

拿来生成3D交互式地球与卫星演示模型,用户可以通过鼠标拖拽旋转视角,直观地观察地球与卫星的空间运动关系:



官方基准测试结果显示,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出



就在几天前,文心5.0 Preview(ERNIE-5.0-Preview-1022)还闪现大模型竞技场LMArena,在文本排行榜(Text Arena)上得分1432,与gpt-4.5-preview、claude-opus-4-1、claude-sonnet-4-5等并列全球第二,位居国内第一



当时,不少在LMArena体验过的网友给出好评。



更有网友追问啥时候正式上线。



这不,现在它来了。

目前,文心5.0 Preview已上线文心一言网页版、文心App;同时上线百度千帆大模型平台,提供API服务。



不过,Preview版暂且先支持全模态输入(文/图/音/视频)+多模态输出(文/图)。量子位了解到,能实现全模态输出的满血版现在正在进行产品体验优化,之后会陆续推出。

那就先让文心5.0 Preview带我们一探,文心5.0体验感究竟如何。

文心5.0 Preview实测,原生全模态强在哪?

先来看输入方面,文心5.0 Preview支持全模态输入。

在单次交互中,不论是文档、图片,还是音频、视频,都能一口气发给它,可跨文件类别混合上传

具体规则如下:



值得一提的是,经用户授权,它还能与百度网盘关联,无需下载就能访问处理网盘文件:



接下来,整活儿~

多模态理解推理全面强化

在多模态理解能力上,我们上来就给它看了一段跳水比赛史上的名场面:



视频链接:https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

给出简单的prompt:这个视频中发生了什么?有什么好笑的?

只见文心5.0 Preview和之前的深度思考模型一样,先进行了一轮自我思考,包括回顾视频内容、描述视频、找出好笑的地方以及确认了更多细节,紧接着快速给出了结果。



这波回答什么水平?



细看文心5.0 Preview的理解分析,咱只能说,理解的精细度有点离谱了。

从起跳、空中翻转到入水,各动作阶段拆得门清;一闪而过的选手信息、动作名称、难度系数,也都被它精准捕捉到了。

同时,它甚至还带有视频情感理解能力,注意到了选手的表情——起跳时皱着眉、咬着牙,像是在硬着头皮往下跳。

“入水瞬间水花越小越厉害”“压水花”,这些行规它也懂。

真正的神来之笔,是它连视频中的慢放片段都能识别,还点明慢动作回放补刀。



好好好,下一题。

搬出“你怎么穿着品如的衣服啊?”这一电视剧名场面,问:品如穿的什么颜色的衣服?

这时,文心5.0 Preview又当如何作答?



结合视频中的台词,文心5.0 Preview轻松答对:



上难度。

那么,“视频中的女人是品如吗?”

这次文心5.0 Preview依靠智能体能力自主调用了搜索工具,通过角色名等线索,将这一幕准确定位为出自电视剧《回家的诱惑》。

值得一提的是,它最后是根据角色的性格特征,分析出视频中的不是品如的

并且也是通过性格特征推测,穿着品如粉色衣服的这个人,大概率是艾莉。



不得不说,这理解能力确实让人眼前一亮。

那再来一张难倒不少大模型的带有文字的谐音梗图,看它能否理解透彻:



通过思考,图片理解对它来说更是不在话下了:



最后,咱下班路上路过卖炒货的摊儿,顺手拍了几秒的视频上传给文心5.0 Preview。

尽管视频分辨率不是很高,它也能抓到细节,算出两斤糖炒栗子、一斤炒内蒙瓜子、一斤现炒四粒红花生一共多少钱。

要说瑕疵的话,就是没区分会员价和非会员价,默认按会员价计算。不过视频确实有点糊,也难怪看不清。



测试下来不难发现文心5.0 Preview的特点——

它不仅能识别画面中的内容,而且还能精准捕捉到各种细节,同时擅长结合视频情节、台词等多模态内容,理解其中的情感氛围和叙事意图

另外,在综合推理、跨模态信息整合、复杂场景判别方面,文心5.0 Preview也更强,不容易被单一模态误导,能从多个角度判断画面的合理性。

更多用法,随你发挥

除了上面这些用法,基于全模态输入+多模态输出,还能玩出更多花样。

比如文图混合输入生成新图



秒秒钟把家里的猫猫打扮成“高雅人士”:



日常学习工作中,我们常需高效获取视频、音频的核心内容。只需上传,文心5.0 Preview就能快速完成总结。

而且别忘了文心5.0 Preview一次性最多能上传10个视频,多任务内容整理轻松搞定。



以李飞飞团队最新成果Marble的宣传片为例,它不仅能精准提炼核心主题,还能条理清晰地梳理完整情节,就算台词很少,它也能根据画面讲清楚细节。



更多功能,大家伙可以自己亲自上手多测一测。

原生全模态技术背后

从技术上来看,文心5.0这次的设计以“原生统一”为目标,走的是非后期拼接的原生全模态路线。

过去的多模态模型通常是各模态独立训练、后期再进行特征拼接或融合,这种方式虽然工程上更易落地,但在语义对齐、信息互证和效率上存在天然瓶颈。

文心5.0的方法是从训练伊始,就将语言、图像、视频、音频等多模态数据放入同一套架构中联合学习,使模型在底层就能形成跨模态的内在关联与理解逻辑。就像人看到闪电会联想到雷声,文心5.0也在试图建立这种跨模态的直觉。

为了实现这种统一的理解,它采用了自回归统一结构

通过对不同模态的训练目标进行离散化建模,使多模态特征得以在统一的架构中充分融合与协同优化。这意味着,无论输入是文字、图像还是音频,都会被映射到统一的表征空间中,用同一套逻辑结构进行处理与解码,从而打通模态间的边界。

为同时兼顾知识容量与运行效率,文心5.0引入了当前大模型主流架构——超大规模混合专家架构

该架构在保持模型性能的同时,通过稀疏激活机制显著降低了计算负载。每次推理只会激活与任务最相关的专家模块,实现能力全面与成本可控的平衡。



官方透露,在底层实现上,百度飞桨深度学习框架提供了关键支撑

训练端,通过多模态编码器分离异步训练架构、动态自适应显存卸载、细粒度通信计算重叠编排及FP8混合精度训练,文心5.0实现了万亿级参数模型的高效分布式训练。

推理端,基于多模编码器-预填充-解码-多模生成器的多级分离推理部署框架,结合超稀疏混合专家、数据负载和注意力计算的均衡算法,以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术,大幅降低了推理成本。

整体而言,文心5.0的模型总参数规模超过2.4万亿;其超稀疏激活参数设计,激活比例低于3%,在保持模型性能的同时显著优化了计算与推理效率。

另外,文心5.0的能力还延伸到智能体与工具调用的执行层。

通过在真实和模拟环境中合成长程任务轨迹数据,并结合思维链、行动链与多轮强化学习训练,模型在任务规划、工具使用和决策执行方面实现了系统性提升。

今年完成的又双叒一轮迭代

近一年,大模型领域的竞争逻辑发生转变。

行业正越来越注重底层架构创新、训练与推理效率、落地成本等多维度的综合考量,各厂商也在技术路径上寻找差异化突破口。

从百度今年基础模型的迭代节奏来看,更新步伐持续加快:

4月,发布文心4.5 Turbo和文心X1 Turbo,增强多模态能力和推理能力。

6月底,文心4.5系列,包括47B、3B激活参数的混合专家(MoE)模型及0.3B参数的稠密型模型等10款模型,宣布开源,预训练权重和推理代码上均做到完全开放。

9月,文心X1.1深度思考模型发布,在事实性、指令遵循、智能体能力上持续提升。其开源模型ERNIE-4.5-21B-A3B-Thinking在抱抱脸全球模型总趋势榜和文本模型趋势榜均排名第一。

伴随底层模型的迭代,如百度电商数字人、百度搜索等上层应用也在持续演进,逐步承接模型能力。

这一次,文心5.0原生全模态模型的推出,也是百度从最底层实现的又一次差异化突破。背后撑起这一跃的,是百度在底层架构、算法训练、推理优化及生态协同等全链路环节上的系统性积累。

在多模态“强推理”和“深理解”方向,百度正在探索下一阶段模型能力的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
泽连斯基宣布:已对卢卡申科实施制裁

泽连斯基宣布:已对卢卡申科实施制裁

看看新闻Knews
2026-02-18 18:28:04
公公花19万买金丝楠木衣柜,我擦拭发现暗门,打开后全家懵了

公公花19万买金丝楠木衣柜,我擦拭发现暗门,打开后全家懵了

小秋情感说
2025-12-05 14:25:36
大爆冷!世乒赛冠军0:3不敌日本选手,单局15:17,遗憾无缘胜利

大爆冷!世乒赛冠军0:3不敌日本选手,单局15:17,遗憾无缘胜利

国乒二三事
2026-02-18 07:52:52
六台:西甲第24轮巴萨、皇马比赛的VAR均被裁判技术委员会停哨

六台:西甲第24轮巴萨、皇马比赛的VAR均被裁判技术委员会停哨

懂球帝
2026-02-18 14:36:09
斯诺克战报!塞尔比5-3夺赛点,肖国栋连输4局,中国军团2连败?

斯诺克战报!塞尔比5-3夺赛点,肖国栋连输4局,中国军团2连败?

刘姚尧的文字城堡
2026-02-18 05:57:57
让春晚导演给全国道歉,入美国籍回中国捞金,她到底有什么来头?

让春晚导演给全国道歉,入美国籍回中国捞金,她到底有什么来头?

顾史
2026-01-20 15:03:39
58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

锋哥与八卦哥
2026-01-25 13:26:51
美伊第二轮谈判结束 双方各划“红线”博弈持续

美伊第二轮谈判结束 双方各划“红线”博弈持续

新华社
2026-02-18 16:44:06
俄乌迎来大结局,泽连斯基没想到,为了停战,乌人民会这么积极

俄乌迎来大结局,泽连斯基没想到,为了停战,乌人民会这么积极

黑鹰观军事
2026-02-16 23:04:55
蒋万安首度公开表态!建议归还祖辈遗骨,背后政治深意引发猜测

蒋万安首度公开表态!建议归还祖辈遗骨,背后政治深意引发猜测

观星赏月
2026-02-17 12:29:20
孙颖莎好闺蜜,国乒第一美女王添艺登上春晚唱歌,被无数网友赞叹

孙颖莎好闺蜜,国乒第一美女王添艺登上春晚唱歌,被无数网友赞叹

凤幻洋
2026-02-18 14:01:56
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

来科点谱
2026-01-13 08:54:22
除夕团圆夜急诊爆满!广东省人民医院卒中急救生死时速

除夕团圆夜急诊爆满!广东省人民医院卒中急救生死时速

今日养生之道
2026-02-18 15:15:08
龙洋翻看提词器引争议!北京网友现场证实并无提词器存在

龙洋翻看提词器引争议!北京网友现场证实并无提词器存在

小椰的奶奶
2026-02-17 22:14:00
张艺兴除夕素颜发年夜饭照,没修图没摆拍,网友说这饭吃得真踏实

张艺兴除夕素颜发年夜饭照,没修图没摆拍,网友说这饭吃得真踏实

老吴教育课堂
2026-02-18 01:09:21
婆婆打牌把5岁孙女关进狗笼,儿媳没哭闹,半月后婆婆遭了报应

婆婆打牌把5岁孙女关进狗笼,儿媳没哭闹,半月后婆婆遭了报应

小秋情感说
2026-01-02 13:25:03
美国对华战略全错了?恰恰相反:美国每步都对,却牌桌都下不去了

美国对华战略全错了?恰恰相反:美国每步都对,却牌桌都下不去了

远方风林
2026-01-07 13:40:02
陈伟霆一家北京过春节,何穗晒照别墅摆满各色蝴蝶兰,年味十足

陈伟霆一家北京过春节,何穗晒照别墅摆满各色蝴蝶兰,年味十足

柒佰娱
2026-02-17 10:30:30
祝好运,刘少昂将微博头像挂件换成了四叶草

祝好运,刘少昂将微博头像挂件换成了四叶草

懂球帝
2026-02-17 22:55:58
2026-02-18 19:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12178文章数 176386关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

专家:关键矿产"去中国化" 特朗普是看不到了

头条要闻

专家:关键矿产"去中国化" 特朗普是看不到了

体育要闻

夺银被问丢金,谷爱凌回击外媒:很荒谬

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

手机
房产
教育
时尚
亲子

手机要闻

表现惨淡!2025年2000-4000元价位段品牌份额出炉:苹果仅1.3%

房产要闻

三亚新机场,又传出新消息!

教育要闻

“第一次见亲妈霸凌女儿的”,家长嫌12岁女儿太胖,对话令人窒息

50+女性秋冬穿搭指南,4个让年龄法则成为加分项,越穿越优雅

亲子要闻

预算 500 + 儿童生日礼,体面又有成长意义

无障碍浏览 进入关怀版