网易首页 > 网易号 > 正文 申请入驻

2.4万亿参数原生全模态,文心5.0一手实测来了

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,文心5.0正式发布了!

全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。

所以,最终模型能够做到支持全模态输入(文字/图片/音频/视频)+全模态输出(文字/图片/音频/视频),创意写作、指令遵循、智能体规划方面也更强了。



在官方展示中,上传一个电影片段,它立马就能分析出最紧张的情节,具体到第几秒到第几秒的那种。



同时上传一段视频和一段音频,就能让它指出视频里是否有用到音频里的音乐,还能说出节点:



做音视频融合生成也行,简单操作即可爆改甄嬛传滴血认亲(佟掌柜版):



视频链接:https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

拿来生成3D交互式地球与卫星演示模型,用户可以通过鼠标拖拽旋转视角,直观地观察地球与卫星的空间运动关系:



官方基准测试结果显示,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出



就在几天前,文心5.0 Preview(ERNIE-5.0-Preview-1022)还闪现大模型竞技场LMArena,在文本排行榜(Text Arena)上得分1432,与gpt-4.5-preview、claude-opus-4-1、claude-sonnet-4-5等并列全球第二,位居国内第一



当时,不少在LMArena体验过的网友给出好评。



更有网友追问啥时候正式上线。



这不,现在它来了。

目前,文心5.0 Preview已上线文心一言网页版、文心App;同时上线百度千帆大模型平台,提供API服务。



不过,Preview版暂且先支持全模态输入(文/图/音/视频)+多模态输出(文/图)。量子位了解到,能实现全模态输出的满血版现在正在进行产品体验优化,之后会陆续推出。

那就先让文心5.0 Preview带我们一探,文心5.0体验感究竟如何。

文心5.0 Preview实测,原生全模态强在哪?

先来看输入方面,文心5.0 Preview支持全模态输入。

在单次交互中,不论是文档、图片,还是音频、视频,都能一口气发给它,可跨文件类别混合上传

具体规则如下:



值得一提的是,经用户授权,它还能与百度网盘关联,无需下载就能访问处理网盘文件:



接下来,整活儿~

多模态理解推理全面强化

在多模态理解能力上,我们上来就给它看了一段跳水比赛史上的名场面:



视频链接:https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

给出简单的prompt:这个视频中发生了什么?有什么好笑的?

只见文心5.0 Preview和之前的深度思考模型一样,先进行了一轮自我思考,包括回顾视频内容、描述视频、找出好笑的地方以及确认了更多细节,紧接着快速给出了结果。



这波回答什么水平?



细看文心5.0 Preview的理解分析,咱只能说,理解的精细度有点离谱了。

从起跳、空中翻转到入水,各动作阶段拆得门清;一闪而过的选手信息、动作名称、难度系数,也都被它精准捕捉到了。

同时,它甚至还带有视频情感理解能力,注意到了选手的表情——起跳时皱着眉、咬着牙,像是在硬着头皮往下跳。

“入水瞬间水花越小越厉害”“压水花”,这些行规它也懂。

真正的神来之笔,是它连视频中的慢放片段都能识别,还点明慢动作回放补刀。



好好好,下一题。

搬出“你怎么穿着品如的衣服啊?”这一电视剧名场面,问:品如穿的什么颜色的衣服?

这时,文心5.0 Preview又当如何作答?



结合视频中的台词,文心5.0 Preview轻松答对:



上难度。

那么,“视频中的女人是品如吗?”

这次文心5.0 Preview依靠智能体能力自主调用了搜索工具,通过角色名等线索,将这一幕准确定位为出自电视剧《回家的诱惑》。

值得一提的是,它最后是根据角色的性格特征,分析出视频中的不是品如的

并且也是通过性格特征推测,穿着品如粉色衣服的这个人,大概率是艾莉。



不得不说,这理解能力确实让人眼前一亮。

那再来一张难倒不少大模型的带有文字的谐音梗图,看它能否理解透彻:



通过思考,图片理解对它来说更是不在话下了:



最后,咱下班路上路过卖炒货的摊儿,顺手拍了几秒的视频上传给文心5.0 Preview。

尽管视频分辨率不是很高,它也能抓到细节,算出两斤糖炒栗子、一斤炒内蒙瓜子、一斤现炒四粒红花生一共多少钱。

要说瑕疵的话,就是没区分会员价和非会员价,默认按会员价计算。不过视频确实有点糊,也难怪看不清。



测试下来不难发现文心5.0 Preview的特点——

它不仅能识别画面中的内容,而且还能精准捕捉到各种细节,同时擅长结合视频情节、台词等多模态内容,理解其中的情感氛围和叙事意图

另外,在综合推理、跨模态信息整合、复杂场景判别方面,文心5.0 Preview也更强,不容易被单一模态误导,能从多个角度判断画面的合理性。

更多用法,随你发挥

除了上面这些用法,基于全模态输入+多模态输出,还能玩出更多花样。

比如文图混合输入生成新图



秒秒钟把家里的猫猫打扮成“高雅人士”:



日常学习工作中,我们常需高效获取视频、音频的核心内容。只需上传,文心5.0 Preview就能快速完成总结。

而且别忘了文心5.0 Preview一次性最多能上传10个视频,多任务内容整理轻松搞定。



以李飞飞团队最新成果Marble的宣传片为例,它不仅能精准提炼核心主题,还能条理清晰地梳理完整情节,就算台词很少,它也能根据画面讲清楚细节。



更多功能,大家伙可以自己亲自上手多测一测。

原生全模态技术背后

从技术上来看,文心5.0这次的设计以“原生统一”为目标,走的是非后期拼接的原生全模态路线。

过去的多模态模型通常是各模态独立训练、后期再进行特征拼接或融合,这种方式虽然工程上更易落地,但在语义对齐、信息互证和效率上存在天然瓶颈。

文心5.0的方法是从训练伊始,就将语言、图像、视频、音频等多模态数据放入同一套架构中联合学习,使模型在底层就能形成跨模态的内在关联与理解逻辑。就像人看到闪电会联想到雷声,文心5.0也在试图建立这种跨模态的直觉。

为了实现这种统一的理解,它采用了自回归统一结构

通过对不同模态的训练目标进行离散化建模,使多模态特征得以在统一的架构中充分融合与协同优化。这意味着,无论输入是文字、图像还是音频,都会被映射到统一的表征空间中,用同一套逻辑结构进行处理与解码,从而打通模态间的边界。

为同时兼顾知识容量与运行效率,文心5.0引入了当前大模型主流架构——超大规模混合专家架构

该架构在保持模型性能的同时,通过稀疏激活机制显著降低了计算负载。每次推理只会激活与任务最相关的专家模块,实现能力全面与成本可控的平衡。



官方透露,在底层实现上,百度飞桨深度学习框架提供了关键支撑

训练端,通过多模态编码器分离异步训练架构、动态自适应显存卸载、细粒度通信计算重叠编排及FP8混合精度训练,文心5.0实现了万亿级参数模型的高效分布式训练。

推理端,基于多模编码器-预填充-解码-多模生成器的多级分离推理部署框架,结合超稀疏混合专家、数据负载和注意力计算的均衡算法,以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术,大幅降低了推理成本。

整体而言,文心5.0的模型总参数规模超过2.4万亿;其超稀疏激活参数设计,激活比例低于3%,在保持模型性能的同时显著优化了计算与推理效率。

另外,文心5.0的能力还延伸到智能体与工具调用的执行层。

通过在真实和模拟环境中合成长程任务轨迹数据,并结合思维链、行动链与多轮强化学习训练,模型在任务规划、工具使用和决策执行方面实现了系统性提升。

今年完成的又双叒一轮迭代

近一年,大模型领域的竞争逻辑发生转变。

行业正越来越注重底层架构创新、训练与推理效率、落地成本等多维度的综合考量,各厂商也在技术路径上寻找差异化突破口。

从百度今年基础模型的迭代节奏来看,更新步伐持续加快:

4月,发布文心4.5 Turbo和文心X1 Turbo,增强多模态能力和推理能力。

6月底,文心4.5系列,包括47B、3B激活参数的混合专家(MoE)模型及0.3B参数的稠密型模型等10款模型,宣布开源,预训练权重和推理代码上均做到完全开放。

9月,文心X1.1深度思考模型发布,在事实性、指令遵循、智能体能力上持续提升。其开源模型ERNIE-4.5-21B-A3B-Thinking在抱抱脸全球模型总趋势榜和文本模型趋势榜均排名第一。

伴随底层模型的迭代,如百度电商数字人、百度搜索等上层应用也在持续演进,逐步承接模型能力。

这一次,文心5.0原生全模态模型的推出,也是百度从最底层实现的又一次差异化突破。背后撑起这一跃的,是百度在底层架构、算法训练、推理优化及生态协同等全链路环节上的系统性积累。

在多模态“强推理”和“深理解”方向,百度正在探索下一阶段模型能力的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4周实现100%清除肿瘤!国研GC101疗法重击脑瘤、肺癌、黑色素瘤等

4周实现100%清除肿瘤!国研GC101疗法重击脑瘤、肺癌、黑色素瘤等

无癌家园i
2025-11-14 16:52:29
朝媒狠批日本:“千年宿敌”

朝媒狠批日本:“千年宿敌”

中国日报网
2025-11-15 10:51:02
男子花3000买显卡,全程录视频,却只收到两本书,店家回应亮了

男子花3000买显卡,全程录视频,却只收到两本书,店家回应亮了

揽星河的笔记
2025-11-14 17:06:16
凶手另有其人?山西狗咬人案律师甩出关键证据,死者妹妹惨遭打脸

凶手另有其人?山西狗咬人案律师甩出关键证据,死者妹妹惨遭打脸

刚哥说法365
2025-11-15 01:09:15
多家银行在拍卖平台挂牌卖房,有房产低于市场均价54%,分析人士:建议不要散售

多家银行在拍卖平台挂牌卖房,有房产低于市场均价54%,分析人士:建议不要散售

红星新闻
2025-11-15 00:22:09
神舟二十号被撞出裂纹,改乘二十一号返航;外国网友惊掉下巴

神舟二十号被撞出裂纹,改乘二十一号返航;外国网友惊掉下巴

头条爆料007
2025-11-15 07:34:25
赵心童晋级决赛,特鲁姆普落败,国手表现不佳,成绩有所下滑

赵心童晋级决赛,特鲁姆普落败,国手表现不佳,成绩有所下滑

铿锵格斗
2025-11-15 07:46:38
社评:日方切莫误判中方发出的严正警告

社评:日方切莫误判中方发出的严正警告

环球网资讯
2025-11-14 23:41:19
荒野求生大局已定,2人名利双收,2人显露冠军相,只有她被骂惨

荒野求生大局已定,2人名利双收,2人显露冠军相,只有她被骂惨

以茶带书
2025-11-14 21:03:27
贵州盘州亿元建“世界最大人造月亮”运行不到百天,停运5年成闲置项目:希望有注资盘活项目

贵州盘州亿元建“世界最大人造月亮”运行不到百天,停运5年成闲置项目:希望有注资盘活项目

红星新闻
2025-11-14 22:16:21
重磅!川普政府酝酿移民禁令,禁止12个国家的公民移民美国

重磅!川普政府酝酿移民禁令,禁止12个国家的公民移民美国

大洛杉矶LA
2025-11-15 07:09:01
泰国王后在北京开心出席国宴!拎着标志性香炉包挽着泰王,惊艳了

泰国王后在北京开心出席国宴!拎着标志性香炉包挽着泰王,惊艳了

爱史纪
2025-11-15 09:59:38
中国持续加码施压,解放军也站出来警告,一张日语海报配了21个字

中国持续加码施压,解放军也站出来警告,一张日语海报配了21个字

时时有聊
2025-11-14 21:37:35
今年以来,中国已经垮塌了3座特大桥

今年以来,中国已经垮塌了3座特大桥

基本常识
2025-11-14 23:37:04
日本通告全球,中国不认栽,就驱逐外交官,话音刚落空军王炸来了

日本通告全球,中国不认栽,就驱逐外交官,话音刚落空军王炸来了

兰妮搞笑分享
2025-11-14 15:45:42
射门时致弗朗西斯重伤,田中碧被换下后立即找到加纳主帅道歉

射门时致弗朗西斯重伤,田中碧被换下后立即找到加纳主帅道歉

懂球帝
2025-11-14 20:41:16
七旬爷叔自称“等爱情”每晚伫立南浦大桥下,却拖欠房租、屋中堆满垃圾清运出100多箱,房东:老鼠、蟑螂到处都是

七旬爷叔自称“等爱情”每晚伫立南浦大桥下,却拖欠房租、屋中堆满垃圾清运出100多箱,房东:老鼠、蟑螂到处都是

大象新闻
2025-11-15 00:14:09
“还手=互殴”?从狗咬人案看:正当防卫认定,正在“逼良为怂”

“还手=互殴”?从狗咬人案看:正当防卫认定,正在“逼良为怂”

占理儿
2025-11-14 10:04:37
2岁男童独自跑出门,奶奶不追反锁门回屋!妈妈:系继奶奶,孩子找回来了,非常寒心

2岁男童独自跑出门,奶奶不追反锁门回屋!妈妈:系继奶奶,孩子找回来了,非常寒心

极目新闻
2025-11-15 10:09:22
玛莎拉蒂纯电车骨折式降价,裸车35万起,有门店月销30多台;降价后对标小米、理想等新势力品牌

玛莎拉蒂纯电车骨折式降价,裸车35万起,有门店月销30多台;降价后对标小米、理想等新势力品牌

极目新闻
2025-11-15 11:01:53
2025-11-15 12:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
11676文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

上海网红爷叔为爱情拒不腾房 房东没租金也拿不回房子

头条要闻

上海网红爷叔为爱情拒不腾房 房东没租金也拿不回房子

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

家居
本地
房产
公开课
军事航空

家居要闻

现代简逸 寻找生活的光

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版