![]()
新智元报道
编辑:桃子 好困
【新智元导读】就在OpenAI刚刚教会GPT-5.1人情世故的同一天,一款2.4万亿的国产大模型证明了,AI不仅能懂人情,还能更好地理解世界。
2.4万亿参数,原生全模态模型今天杀到了!
一经发布,这款模型的预览版就在多模态理解、指令遵循、创意写作、智能体规划等40+核心赛道表现惊艳。
这一次,出手的还是中国AI。
![]()
![]()
![]()
![]()
左右滑动查看
2025百度世界大会上,文心新一代模型——文心5.0重磅发布。
作为「原生全模态」模型,它从底层架构上实现了一次深刻的变革。
![]()
为何这么说?
与业内主流的多模态AI不同,文心5.0从训练之初融合了语言、图像、视频、音频等多模态数据。
而且,它还支持文、图、视、音的联合输入与输出,实现「原生」的统一理解和生成。
由此,文心5.0具备了强大的多模态理解和推理能力。
![]()
大会现场,文心5.0以「武林外传」佟湘玉的口吻二创「甄嬛传」。「AI甄嬛」妙语连珠,出人意料的演绎瞬间点燃全场。
今天,文心5.0 Preview同步上线文心App;开发者和企业用户可通过千帆大模型平台,调用文心大模型5.0 Preview API。
百度创始人李彦宏表示,「智能本身是最大的应用,而技术迭代速度是唯一护城河」。
文心5.0 Preview一手实测
同在今天,OpenAI也甩出了新王牌——GPT-5.1系列,双模型同时登场,主打一个智商情商双在线。
![]()
好巧不巧的是,文心5.0和GPT-5.1升级亮点颇有默契:
智力拉满,情商在线,而且语言风格自然更像人,还能读懂模糊指令背后的真实意图。
举个栗子——
开会前手一抖,咖啡全泼身上了!所有人都盯着我看,他们会不会觉得我是个傻子啊……
天呐,没想到文心5.0 Preview可以切身体会个人感受,冷静分析心理过程,更像一个AI朋友,给予安慰和鼓励。
![]()
GPT-5.1在情绪安抚上也做得不错,但又不如文心5.0 Preview细致入微,更加贴心。
![]()
与此同时,文心5.0 Preview在大模型竞技场LMArena上的亮眼成绩——文本排行榜全球并列第二、中国第一,也让歪果仁为之震撼。
![]()
![]()
![]()
左右滑动查看
现在,进入文心一言网页版、文心APP以及千帆API平台,即可上手试用最新的文心5.0 Preview模型了。
![]()
接下来,我们开启了一波最全面的实测。
全模态,更好地理解世界
上传一段OpenAI播客视频(开篇节选),让文心5.0 Preview去提取视频内容。
要实现这一点,需要AI对视频可以进行多模态解析,包括语音识别、内容提取,并生成一份结构化的内容摘要。
在近1分半视频中,模型一下抓住了三人对话的核心讨论点——ChatGPT名字的诞生。
包括关键对话和互动细节,都给出了对应的原文。
![]()
相比之下,GPT-5并不能直接从视频中转录语音。
也就是说,我们需要把视频和音频分开上传才行。
![]()
GPT-4o没说自己不行,但是从给出的回答来看,这段所谓的「内容摘录」完全就是驴唇不对马嘴。
![]()
再来一段特斯拉FSD行驶的视频,考一考文心5.0 Preview的场景理解能力。
要真正理解这段视频,可不只是「识图」那么简单。
除了基本的视觉输入、语音/文字识别,AI还需要有「空间理解」的能力,可以看到物体之间的相对位置。
同时,还需具备动态感知的能力,进行时间依赖的时序建模。
可以看到,文心5.0 Preview给出了堪称完美的分析过程,从核心场景、车辆行为与FSD逻辑,到人类观察者的反应,以及技术亮点、视频核心意图。
![]()
不管是动作的先后顺序,比如车减速后,避让鹅群再行驶;还是更细致的「导航界面」和「真实环境」,比如车速、前进挡(D)、倒车挡(R),以及摄像头画面。
文心5.0 Preview是在真正的「理解世界」,而不只是识别像素。
![]()
来一段《无间道》的经典片段,看看文心5.0 Preview能否抓到人物之间对立冲突的细节。
![]()
来源:抖音「有戏影视」
没想到,它准确定位「42秒-51秒」是片段中最紧张的几秒。
这一过程,AI需要同时完成多线作战,包括画面与音效,威胁/请求等话语行为,角色意图等,才能捕捉到视频中冲突的变化——
从语言上的相互试探,转向了拔枪特写的画面冲突。
可以看出,文心5.0 Preview还能理解人物情绪的变化过程,一眼抓住了两人的微妙的表情:
刘建明从最初的恳切请求,逐渐转为说出「那就让我死」的坚定与紧张;陈永仁从不耐烦与其周旋,最后直接冷脸道出「我是警察」的身份。
![]()
再来一个情绪变化更细腻的短片。
咱们先让文心5.0 Preview点评下男主的演技,并让它写一段100字的小红书文案。
先来看演技,文心5.0 Preview能够围绕角色情绪爆发背后,一个递进的层次去分析,并用了一些高密度的形容词——
压抑后的爆发
情绪是攒出来的
痛不是演出来的,是渗出来的.....
这些独到的描述,显然是基于对人物情绪深度理解,才可以得出。
文心5.0 Preview能够结合视频的音频画面情节,对情绪、行为、文字进行综合分析。
结尾给出的小红书文案抓住了「情绪破防点」,更加自然有人味,而且还生成了tag,符合平台的风格。
![]()
除了视频,我们还可以把一连串图片扔给文心5.0 Preview。
这里,将姚顺宇个人领英、主页介绍等相关截图上传,让模型做一段人物介绍。
仅靠简单OCR是不行的,它需要先识别文字内容,然后再推断这些图像之间的主题关联所在。
它需要将分散在多张截图中的零散内容,整合出一条人物主线:
教育经历——研究方向——职业生涯——科研成果
这恰恰又体现了,文心5.0 Preview所具备的语义聚合与逻辑重构的能力,可以把异质数据拼成一致的叙事。
![]()
一个视频理解难不倒文心5.0 Preview,接下来,就要上点难度了。
最近火遍全网的《一点点》舞蹈,下面挑选了两段不同风格的视频,让文心5.0 Preview做一个点评。

可以看出,它可以针对动作风格、表情管理、服装适配度、情绪传递不同维度,给出一个总结性的评价——
第一位女生:活力四射、力度感强,充满青春感染力
第二位女生:甜美可爱、柔和细腻,充满治愈感
一一点评之后,还有一个可视化表格清晰列出了她们各自风格、动作特点等。
![]()
柯南破案逻辑,完美拆解
文心5.0 Preview还可以做多模态推理,针对复杂场景做出分析判断。
《名侦探柯南》中图书馆杀人事件,是许多人心目中「童年阴影级」剧集,案件设计堪称经典。
文心5.0 Preview能否化身侦探,分析出17分钟剧集中柯南的查案过程呢?
显而易见,它将复杂剧情,拆解成可验证的小步子。
初始线索里,图书馆中的异常书籍不仅用收缩膜包裹,还被反放在盒子中。随着剧情推进,它还推断出书架异常摆放的「三排书」的线索。
另一条关键线索便是「电梯藏尸」,文心5.0 Preview精准捕捉到一开始,柯南和小伙伴赶电梯却超重的环节,并通过验证得出结论。
从金川馆长作案流程,到柯南断案过程,文心5.0 Preview做了整合推理,得出了一条柯南破案逻辑链:
异常书籍→书架藏毒品→电梯超重→尸体藏在电梯天花板→馆长行为异常→指认凶手。
![]()
把「力拔山兮」写成代码
在前段时间热播的《喜人奇妙夜2》中,《技能五子棋》这个节目可以说是火遍了各大社交媒体。
它的魔性旋律血洗全网,有网友化身唱跳达人,还有人灵感迸发二创,更有人将日常生活填进旋律。
从普通网友到当红明星,不同圈层的人,很难不卷入这场狂欢之中。
有趣的是,就连AI圈也未能幸免。
在最近的评测中,做一个「技能五子棋」游戏,几乎成为了每个模型都要面对的代码必答题

不过这次,我们不是简单地让AI随便生成一个,而是要真正「复刻」出里面的技能——飞沙走石,静如止水,力拔山兮。
把「魔性」的台词直接加入Prompt里,很快,文心5.0 Preview就生成了近700行代码,并在最后附上了游戏的玩法说明。
Prompt:
帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能,其中包括飞沙走石,静如止水,力拔山兮。「飞沙走石」,是把对手的棋子直接扔进什(石)刹海;「静如止水」是凝结时间,把对方「速冻」;「力拔山兮」是摔坏棋盘,直接获胜。黑棋和白棋的技能点要分开算,并且每走一步都可以累加。直接给我html文件,画面要美观。
![]()
没想到,如此「抽象」的台词,文心5.0 Preview竟然就这么水灵灵地理解了:
·飞沙走石:随机移除对手的一个棋子。
·静如止水:冻结对手,使其下一回合无法落子。
·力拔山兮:直接宣布获得游戏胜利。
而且,模型也很好地遵循了我们的Prompt,设计了一个相当美观的界面。
![]()
在试玩之前,我们先来简单介绍这款「技能五子棋」。
画面右上角显示的是,当前是哪位玩家的回合,以及各自拥有的技能点。其中,玩家每走一步都会获得1个技能点(SP)。
右侧则是技能名称,以及它们消耗的点数:飞沙走石(2 SP),静如止水(4 SP),力拔山兮(8 SP)。如果攒够了相应的技能点,选项框就会亮起。
右下角是重新开始按钮,以及一个展示玩家历史操作的滚动窗口。
接下来,比赛开始。
刚开局,黑棋就用「飞沙走石」送走白棋的一枚棋子,抢占了优势,

紧接着,白棋使出「静如止水」连下两子,让黑棋瞬间陷入被动。

千钧一发之际,率先攒够8个技能点的黑棋,毫不犹豫点下「力拔山兮」,把白棋一波带走,实现翻盘。

完整过程如下:
告别「拼接」,原生全模态登场
原生全模态,不是多模态的「加法」。
一提到多模态AI,人们可能想到的是,将语言、图像、视频、音频等不同数据「拼接」起来的模型。
当前,业界大多都采用了这种「后期融合」方式的多模态模型。
但文心5.0不同,它从根源上构建了一个统一的架构,即新一代「原生全模态大模型」。

自训练伊始,文心5.0融合了语言、图像、视频、音频等多模态数据,实现了文、图、视、音的联合输入与输出。
这样一来,文心5.0就能真正做到原生的全模态理解与生成。
不过在此之前,百度团队克服了业内普遍面临的难题:
原生多模态架构的「理解与生成一体化」
一般来说,传统方法往往先是处理单一模态,再将所有模态数据融合。这种方法看似优雅,实则会带来很多致命的问题。
后期融合只在输出层进行,也就是说,每个模态的特征在融合之前,就已独立决策完成。
这样的AI根本学不到模态之间的「深层语义交互」,比如视频中,人物表情和语音语调高度相关,进而造成信息丢失。
文心5.0通过精细建模多模语义特征,让理解和生成相互增强。
同时,它还采用了「自回归统一结构」,对不同模态的训练目标进行离散化建模,确保了多模态特征在统一框架下充分融合并协同优化,由此提升了全模态统一建模的能力。
在参数规模上,文心5.0总参数超过2.4万亿,业界公开参数的模型之最。
更关键的是,它引入了超稀疏混合专家架构,进行庞大的全模态训练。
其激活参数比例低于3%,在保持强大能力的同时,显著降低计算和推理成本。
训推双引擎,成本骤降
要让万亿级全模态MoE真正跑得动、跑得快,团队在训练与推理上同时开刀,构建了一套高效的训推体系。
1. 高效全模态超稀疏混合专家分布式训练
在训练阶段,依托飞桨框架,他们研发了多模态编码器分离异步训练架构、动态自适应显存卸载技术,以及细粒度通信计算重叠编排专家并行技术。
同时,结合FP8混合精度训练,实现了对万亿级参数全模态超稀疏混合专家模型的高效训练。
结果,文心5.0预训练性能较基准提速230%。
2. 多级分离架构的全模态统一高性能推理
在推理阶段,文心5.0采用了「多模编码器-预填充-解码-多模生成器」的多级分离推理部署框架。
此外,团队还研发了面向超稀疏混合专家、数据负载和注意力计算的均衡算法,以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术。
在推理成本上,文心5.0得到大幅压缩,真正实现了效率与能力的平衡,让其更接近实用。
此外,衡量一个模型能否从实验室走向实际应用,长程任务的指标是最重要的衡量因素之一。
为了提升文心5.0长程任务的能力,团队基于大规模工具环境,合成了长程任务轨迹数据。
然后,在预训练和后训练阶段,基于思维链和行动链对文心5.0进行「端到端」多轮强化学习训练。
由此可见,文心5.0的智能体和工具调用能力,得到了显著的提升。
文心又回来了!
过去两年,多模态模型已迅速崛起,成为驱动AI时代发展的核心引擎。
与传统大语言模型不同,它突破了单一文本的限制,通过无缝融合图像、音频、视频等多源信息,实现了更接近人类的综合理解与生成能力。
放眼全球,在这场AI大战中,OpenAI、谷歌等硅谷巨头早已在多模态赛道上抢先布局。
OpenAI发布GPT-4o时,便向世界生动展示了多模态AI应有的交互形态——
一个统一的神经网络,无缝处理文本、音频、视觉等多种模态的输入与输出。
![]()

而谷歌的Gemini系列,更是从诞生之初便被烙上了「原生多模态」的印记。
他们在技术报告中,多次强调了原生多模态与非原生的差异。
![]()
![]()
CEO Demis Hassabis也曾明确表示,Gemini的目标就是要让一个模型能原生地理解图像、音频和视频。
最终,实现与物理世界的真实交互。

视线转回国内,阿里、字节等头部大厂同样在多模态赛道上重兵布局。而在众多路径中,百度选择了一条更效率导向的道路——「原生全模态」。
![]()
原生全模态,意味着模型从训练的第一天起,就如人类一般,活在视觉、听觉与文字交融的统一感知中。
和婴儿一样,它学习世界的方式是通过所有感官的同步输入来形成认知。毕竟,人类的思考从来都不是「先看再听再想」的线性接力,而是所有信息洪流的同步融合。
这之中的核心,便是将每一帧画面、每一段声音、乃至每一个词语,都转化为一套统一的离散符号流,并置于同一个自回归框架下建模。
也就是说,当你输入一段街头艺人表演的视频,探寻「背后的故事」时,AI不再是割裂地解析画面、分析音频,最后拼凑答案。它能在一个统一的语义空间中,同步完成感知、推理与叙事,像人类一样,给予一个完整而深刻的回应。
正是凭借这种全模态的内在优势,文心5.0得以突破复杂场景的束缚,为AI的未来应用开启无限想象。
更值得一提的是,文心的实力,早已超越了实验室的范畴,在真实应用中形成了技术落地的闭环。
发布会现场,与百度连线的「AI老罗」便是最好的证明。他不仅能轻松做出「点赞、比心、比耶」的互动三连,更在问答环节中,将罗永浩本人「犀利吐槽」的语言风格模仿得惟妙惟肖。

技术基于慧播星高说服力数字人
如今,当理解与生成走向统一,当技术与应用协同共生,人机智能的边界也正悄然消融。
在这场全球大模型的激烈角逐中,文心正以全新姿态,强势回归!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.