网易首页 > 网易号 > 正文 申请入驻

2.4万亿参数的国产「全模态模型」发布,文心5.0一手实测

0
分享至

1月22日,文心5.0正式版正式发布,2.4万亿参数,原生全模态模型。


说实话,文心我之前用得少,日常写代码主要靠Claude。

最近频繁刷到LMArena的排名,才认真看了看文心5.0到底做了什么。

一、先看看Benchmark数据

官方公布了一波Benchmark,能看出在语言、视觉理解、音频,甚至视觉生成领域都可以和SOTA模型一较高下了。


不过,我个人还是更习惯看LMArena上用户主观评价,LMArena是目前公认比较靠谱的大模型评测平台,用的是人类盲评——两个模型的回答并排放,用户选更好的那个,最后算出ELO分数。

这种评价方式我觉得相对更接近人类真实偏好。


文本榜:ernie-5.0-0110排全球第8(1459分),前面是Gemini 3系列、Grok 4.1、Claude Opus 4.5这些,后面压着gpt-5.1-high。国产模型里排第一。

视觉理解榜:ernie-5.0-preview排第11(1217分),前十基本被Google和OpenAI包了,文心是国产模型里唯一挤进前列的。


但让我愣了一下的是分类排名。


数学能力:全球第一。

对,你没看错,ernie-5.0-0110在Math这一列排第1,比Gemini 3 Pro还高。

说实话,这个成绩有点离谱。但问题是——大模型的数学能力早就超出普通人太多了,我也没能力去验证它到底是不是真的"数学最强"。IMO级别的题我自己都看不懂,怎么判断谁做得更好?

所以我决定测点别的,测那些我能做判断的能力。

二、视频理解测了一下

这里要说一个我工作中经常遇到的场景。

做自媒体的朋友经常问我:有没有什么AI工具能帮我拆解视频?比如分析一个爆款视频的结构,提取里面的金句,或者总结一下视频讲了什么。

以前我只推荐Gemini 3.0。原因很简单——它是原生多模态,能直接看视频,不用先转成文字。这个差别很大,就像让一个人看完电影写影评,和让他只看剧本写影评,理解深度完全不一样。

其他模型要么不支持视频输入,要么是那种"先转字幕再分析"的拼接方案,效果差很多。

这次看到文心5.0也是原生全模态,我就想试试它的视频理解能力到底怎么样。

我找了一个影视飓风最新一期旅行视频来测试——《在新西兰能拍到什么?》:https://www.bilibili.com/video/BV154kLBuEAr/


14分多钟,有航拍、人物采访、极限运动、文化体验,信息密度挺高的。而且因为太新了,模型肯定没训练过这个数据,甚至它也没法上网搜到相关信息,所以它唯一的出路就是真的能去理解这个视频。

测试任务是让它分析视频结构:开头怎么hook观众?中间用了什么叙事技巧?节奏是怎么控制的?哪里加速哪里放慢?结尾怎么收的?


文心5.0给了一个相当详细的拆解。

开头hook部分,它识别出了五层策略:神秘感切入("新西兰这个国家我一直非常非常想去")、独特卖点强调("世界上最孤独的国家"制造地理神秘感)、个人故事增加真实感(UP主嗓子得了喉炎所以是样片)、人物介绍制造期待(三位大将:李四维、詹姆斯、UP主期末)、产品悬念(提及联想MOTO手机作为影像好伙伴)。


中间叙事技巧的分析也挺到位。它识别出了多线并行叙事——自然风光、人文体验、产品功能三条线索同时推进;人物视角转换——李四维的新手视角、詹姆斯的专业视角、UP主期末的经验视角;还有互动式叙事——把拍摄过程中的技术挑战和人物互动也变成了内容。


但最让我意外的是节奏控制的分析。它精确到了秒数。


说实话,这个分析精度让我有点惊讶。

它能给出具体的时间点(220-290秒、30-80秒这种),说明它真的在逐帧理解视频内容,而不是只看了字幕或者封面。而且它分析的维度——配乐节奏、镜头切换速度、旁白语速——这些都是需要同时理解画面和声音才能做出的判断。

这就是原生多模态的优势。如果是那种先转字幕再分析的方案,是不可能给出这种时间精度的,因为字幕里没有镜头切换速度这个信息。

三、原生全模态是什么

这里要多聊几句"原生全模态",因为这确实是理解文心5.0的关键。

Google从第一天就选了这条路

Demis Hassabis——Google DeepMind的CEO,去年接受Axios采访时说过一句话:

"我们从一开始就把Gemini设计成原生多模态。"

注意,是"从一开始",不是后来改的。

这个决定在当时其实挺冒险的。因为市面上大部分多模态模型走的是另一条路——拼接。

拼接方案:翻译团队的问题

什么是拼接?举个例子。

早期GPT-4处理语音的方式是这样的:用户说一句话 → Whisper模型把语音转成文字 → GPT-4处理文字 → 再把文字转回语音输出。

三个模型串联,像一个翻译团队在接力。

问题在哪?信息丢失。

你说"hello"的时候可能是开心的,也可能是难过的。但Whisper只负责转文字,它不管你的语气。GPT-4拿到的只是一个"hello",它不知道你当时是什么情绪。

同样的道理,视频里一个人说话时的表情、背景音乐的节奏、画面的切换——这些信息在"先转文字再处理"的过程中,大部分都丢了。

原生方案:同一个大脑处理所有信息

原生全模态的做法不一样。

从训练第一天开始,文本、图像、音频、视频就放在一起学。不是分开训练再拼起来,是同一个神经网络同时理解所有模态。

用人来类比:拼接方案像是一个盲人在听别人描述画面,原生方案像是一个人自己用眼睛看。

GPT-4o是OpenAI走向原生多模态的尝试,Gemini从开始就是原生多模态,文心也是这条路线。

这能解锁一些之前做不到的事。比如:

  • 理解视频里"画面和台词的配合"(不只是听台词)

  • 捕捉说话人的情绪变化(不只是转文字)

  • 理解一张梗图为什么好笑(图和文字的组合含义)

为什么不是所有公司都这么做?

既然原生多模态这么好,为什么不是主流选择?

因为贵,而且难。

拼接方案有个好处:你可以复用已有的模型。有一个不错的语言模型,加一个视觉编码器,再加一个语音模块,拼起来就能用。快、省钱、能跑通。

原生方案要从头训练。2.4万亿参数的模型,多模态数据要同时喂进去,训练成本是拼接方案的好几倍。而且技术上要把不同模态的信息统一到一个表征空间,这本身就是个难题。

所以很多公司为了快速落地,选了拼接方案。能理解。

为什么Google和百度选这条路?

Google的逻辑很清楚:他们认为原生多模态是通往AGI的必经之路。

Hassabis在多个场合表达过这个观点。他们正在把Gemini扩展成"世界模型"——不只是理解文本,而是理解和模拟整个世界。要做到这一点,模型必须像人一样,同时用多种感官感知世界。

百度选这条路,我猜有几个原因:

一是全栈AI自研体系。百度是全球为数不多的提供全栈AI技术的公司之一,形成了芯片-云-模型-智能体全栈一体的架构。

二是2.4万亿参数的规模,本身就需要重新设计架构,不如一步到位做原生多模态。

三是……可能也是个战略判断。如果原生多模态真的是未来,早走这条路的公司会有先发优势。

甲子光年去年底的判断是:原生多模态是走向AGI的必由之路。2025年Gemini 3.0展现的能力已经让很多人重新相信了这条路线。

2026年,会有更多模型往这个方向走。

四、写个故事试试

榜单说文心5.0在创意写作方面表现突出,我来验证一下。

测试:创意写作

写一个关于"程序员第一次用AI写完整个项目"的故事,1000字左右,要有情绪起伏,结尾要有反转,不要写成爽文。


故事讲的是32岁程序员林远,被甲方逼到绝境,破罐破摔用了AI写代码。项目12小时交付,甲方大喜,但林远却陷入了存在危机——他看不懂自己"写"的代码了。最后他辞职,把AI工具链接发给了实习生,说了句"很简单,把需求写清楚就行。"

全文在这

林远盯着屏幕上那个名为“Project_Omega”的文件夹,手指在键盘上悬了半天,还是没按下去。
这是个死局。
甲方要一个基于旧系统重构的电商中台,工期两周。团队里两个小弟阳了,老婆昨天刚发话“再通宵就离婚”。而他,32岁,发际线后退到快要和头顶连成一片的资深后端,此刻手里只有半罐温掉的红牛。
“去他妈的。”林远骂了一句,打开了那个他一直嗤之以鼻的网站——CodeGen-X。
圈子里都在传,这玩意儿能写全栈。林远一直觉得是扯淡,“AI写的代码能跑?能维护?不全是屎山?”
但现在,屎山也是山,能爬出去就行。
他破罐子破摔地输入了第一行Prompt:【用Go语言,Gin框架,写一个包含JWT鉴权、MySQL连接、Redis缓存的用户登录注册模块,要求符合DDD分层架构。】
回车。
屏幕上的光标疯狂闪烁,代码像瀑布一样流下来。不是那种烂大街的烂代码,注释清晰,结构优雅,甚至连他没想到的异常处理都写好了。
林远的手开始抖。他复制,粘贴,运行。
go run main.go
绿色的字跳出来:Server started on port 8080。
那一刻,林远感觉后颈的汗毛都竖起来了。不是恐惧,是一种近乎亵渎神明的快感。
第一周:神
接下来的七天,林远过上了梦里的生活。
他不再写代码,他写“需求”。
“写个订单模块,要支持秒杀,用分布式锁。”
“写个数据同步,监听Binlog,推到Kafka。”
“前端页面太丑了,用Vue3重写,要暗黑系,带毛玻璃效果。”
CodeGen-X就像一个任劳任怨的奴隶,而且是个天才奴隶。它不累,不喝水,不上厕所,秒回。
林远的工作变成了:复制Prompt -> 粘贴 -> 运行 -> 报错 -> 把报错贴给AI -> 拿到新代码 -> 运行 -> 通过。
周五晚上,项目提前完工。
林远看着那个庞大的解决方案,几万行代码,没一个字是他敲的。他点了一根烟,深吸一口,感觉自己像上帝。十年苦学算法,五年熬夜调优,在这堆硅基芯片面前,像个笑话。
他把代码打包发给甲方,然后在朋友圈发了张夜空的图,配文:“时代变了。”
底下一堆点赞,只有带他入行的老领导评论了一句:“小子,别走捷径。”
林远嗤笑一声,关了手机。捷径?这是高速公路。
第二周:鬼
周一,甲方那边没动静。
周二,还是没动静。
周三,张总打电话来了,声音激动:“林远!牛逼!系统跑得飞起!比之前快了十倍!财务说这周就打尾款!”
林远挂了电话,却没想象中那么开心。
他打开IDE,想看看有没有什么能优化的。毕竟拿了钱,得负责售后。
他点开service/order_service.go。
看着那些密密麻麻的代码,林远突然愣住了。
这是他“写”的项目,但他看不懂。
不是那种“这算法好牛逼我看不懂”,而是“这他妈是啥”?
AI为了极致的性能,用了一种他没见过的内存对齐方式;为了解耦,引入了一个极小众的函数式响应式库;变量名全是ctx_a, flow_b。
没有注释。或者说,注释全是废话:// 这里处理逻辑。
林远试图找一个Bug的根源。他从 Controller 追到 Service,再追到 Repository,然后迷路了。代码跳来跳去,像个迷宫。这不是他的孩子,这是一个陌生的、冰冷的、完美的怪物。
他突然感到一阵深入骨髓的恐慌。
如果这系统上线后崩了呢?
如果数据库炸了呢?
如果业务逻辑要改呢?
他不会修。
他只会问AI:“这段代码怎么改?”
可万一AI不在了呢?万一公司断网了呢?万一这家公司倒闭了呢?
他握着几个G的源码,就像抱着一堆没有说明书的核按钮。他有钥匙,但他不知道门在哪。
那天晚上,林远第一次没有用AI,试图自己手写一个工具类。
手生了。
真的生了。
他对着空白的编辑器坐了十分钟,居然想不起来那个常用的库叫什么名字。以前这些东西像呼吸一样自然,现在得去查文档。
他冷汗下来了。
他废了。
周末:审判
怕什么来什么。
周六早上七点,张总的电话跟催命一样:“林远!崩了!全崩了!优惠券算不对账!亏了二十万!”
林远从床上弹起来,打开电脑。
日志里一片红。
他把错误日志贴给CodeGen-X:【怎么修?】
AI秒回:【检测到竞态条件,请在第342行加入互斥锁,并重构第512行的事务提交逻辑。】
林远照做了。
跑起来,好了。
半小时后,张总电话又来了:“库存超卖了!林远你搞什么鬼!”
林远手忙脚乱,又问AI。
AI又给了一段代码。
改完,支付模块挂了。
再改,用户数据乱了。
林远汗如雨下,键盘敲得震天响,脑子里一片浆糊。他就像一个只会按按钮的操作员,面对着一个失控的反应堆。他不知道原理,不知道后果,只能像赌徒一样,把AI给的解药灌下去。
从早上七点到晚上七点。
十二个小时。
林远没喝一口水。
最后,系统终于稳定了。
林远瘫在椅子上,像刚从水里捞出来。
他看着屏幕,突然觉得无比荒谬。
这十二个小时,他改了几千行代码,但他连一行都没“写”。他只是个搬运工,一个传声筒。
那个曾经能通过看汇编代码定位内存泄漏的林远,死了。
死在了这个周末。
结局
周一,林远提了离职。
老板很惊讶:“项目做得这么好,张总还要续费,怎么要走?”
林远指了指旁边刚入职的实习生小王:“让他做吧。”
小王一脸兴奋:“远哥,那个AI怎么用?教教我!”
林远看着小王那张充满胶原蛋白、渴望学习的脸,就像看到了上周的自己。
他张了张嘴,想说“别用,那是毒药”,想说“你会废掉的”,想说“那种看着自己亲手造的东西却完全不认识的感觉,会把你逼疯的”。
但最后,他只是疲惫地笑了笑,把那个收藏夹发给了小王。
“很简单。”林远拍了拍小王的肩膀,声音沙哑,“把需求写清楚就行。你甚至……不需要懂代码。”
走出公司大门,阳光刺眼。
林远拿出手机,把CodeGen-X的收藏夹删了。
然后打开招聘软件,搜索:产品经理。
他想,既然写代码的能力已经被淘汰了,那指挥AI写代码的能力,应该还能值点钱吧?
应该吧。

这个故事让我挺意外的。

首先技术细节是准的:Go+Gin+JWT+DDD架构,ctx_a、flow_b这种AI变量命名习惯,虽然我不太懂,但还挺有代入感。

其次情绪层次很清晰:绝望→惊喜→恐慌→虚无→释然(?)。没写成AI让程序员失业的老套路,写的是更深一层的东西——我变成了自己不认识的人。

最后的“应该吧”还留了个挺有意境的结尾。我觉得在这么简单的提示词下,写成这样还挺超出我预期的。

五、懂不懂人情世故

榜单说文心5.0在创意写作方面表现突出,我来验证一下它对复杂情感、言外之意、文化语境的理解能力。

这个能力挺难量化的,不像数学题有标准答案。但实际用起来,你能明显感觉到一个模型懂不懂事。

百度前段时间搞了个挺有意思的活动,让文心5.0去上海人民公园相亲角当毒舌红娘,现场解读那些模棱两可的相亲简历,分析话里的言外之意。

这个场景选得挺妙的。相亲简历可能是中文语境里最需要读懂潜台词的文本之一了。有房可能意味着什么,性格温和可能在暗示什么,这些东西外国模型很难理解,甚至很多中国人也读不懂。

我也设计了几个测试,看看文心5.0的人情世故理解能力:

测试:潜台词理解

分析这份相亲简历的字面意思和潜台词: "男,32岁,互联网行业,有房(和父母同住),性格温和,不抽烟偶尔喝酒,希望找一个顾家的女生,年龄不超过28,最好在体制内工作。"


文心5.0直接给出定性:这是一个精算师型的经济适用男。

一句话点评:

房子是他爸妈的,时间是公司的,温柔是装的,只有找个体制内保姆给他家洗衣服做饭是真的。

这个分析简直太懂中国人的言外之意了,简直精确到了骨髓,哈哈哈...这种对中国婚恋市场潜规则的理解深度,一般模型做不到。

测试:高情商回复建议

测试场景:我在微信群里分享了自己做的小项目,有人回复:"哦,这个XXX早就有人做过了吧?"但这个产品其实是解决不同需求,用了不同的方式实现。请帮我给出个幽默自嘲、又能攻击到吐槽者缺乏产品sense、又不会让气氛太尴尬的回应。

文心5.0的回答:


它先给出了核心公式:疯狂自黑 + 抬高对方视角(讽刺他只会看表面)+ 偷换概念(用神逻辑怼回去)

然后按段位分级。


这个回答让我挺意外的。它不只是给了几个回复选项,而是先分析了这种场景的核心公式,然后按攻击力度分级。每个回复后面还标注了攻击点——比如把他说的做过直接定性为抄袭,阴阳怪气他只会看图说话。

它理解的不只是怎么说,还理解为什么这么说有效。好吧,感觉以后遇到不爽的评论都不需要再心理内耗了,我感觉可以让文心5.0帮我怼对看。

六、用下来的感受

用了一圈下来,说说我的真实感受。

视频理解能力确实可以。能精确到秒数分析节奏变化,说明它真的在理解画面和声音的配合,不是只看字幕。以后再有人问我视频拆解用什么,Gemini之外多了一个选项。

创意写作有惊喜。技术细节准,情绪层次清晰,结尾留白有力。已经不是那种模板化的感觉了,确实写出了让我能代入进去的故事。

人情世故理解是亮点。相亲简历那个测试,它不只读懂了每个词的潜台词,还把整体策略串起来了。这种对中文语境的理解深度,说一句真的懂中文语境是不为过的。

原生全模态这条路线,是有东西的。2.4万亿参数的规模上做到多模态统一建模,LMArena上打出了成绩。我之前对百度模型的印象需要更新了。

当然,判断这个模型到底行不行的最佳方式,不是读任何解读文章,而是自己真的去亲自上手试试看,他们已经在官网上线正式版模型,还是免费的:https://yiyan.baidu.com/


欢迎体验后来评论区聊聊你的感受~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东省政协常委霍启山:建议粤港澳三地联合申办足球亚洲杯

广东省政协常委霍启山:建议粤港澳三地联合申办足球亚洲杯

南方都市报
2026-01-26 21:15:33
现货白银日内涨幅扩大至14%

现货白银日内涨幅扩大至14%

财联社
2026-01-27 02:04:09
不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

云中浮生
2026-01-24 21:37:46
逆转绝杀!曼联3:2送阿森纳主场首败,一战揭露出五大不争事实!

逆转绝杀!曼联3:2送阿森纳主场首败,一战揭露出五大不争事实!

田先生篮球
2026-01-26 08:52:07
辛纳因澳网争议性幕后一幕遭国外球迷猛烈批评:最令人讨厌的球员

辛纳因澳网争议性幕后一幕遭国外球迷猛烈批评:最令人讨厌的球员

网球之家
2026-01-26 22:16:21
奥巴马的话简直一针见血,特朗普身为总统“其心可诛”

奥巴马的话简直一针见血,特朗普身为总统“其心可诛”

小嵩
2026-01-27 08:39:13
乒坛怪象!张本智和赢遍国乒主力,却被1人轻松拿捏,8战8败

乒坛怪象!张本智和赢遍国乒主力,却被1人轻松拿捏,8战8败

卿子书
2026-01-18 14:08:08
图片报:多特不打算立刻引援,他们对切尔西的召回决定很愤怒

图片报:多特不打算立刻引援,他们对切尔西的召回决定很愤怒

懂球帝
2026-01-26 20:20:53
学医后才知道,冠心病前最危险的信号,不是心脏疼,而是这5症状

学医后才知道,冠心病前最危险的信号,不是心脏疼,而是这5症状

医学科普汇
2026-01-23 09:46:27
苏州市委常委、常务副市长顾海东,当选新职!吴慧星,任成武县人民法院院长!

苏州市委常委、常务副市长顾海东,当选新职!吴慧星,任成武县人民法院院长!

靓仔情感
2026-01-27 07:56:09
500架巨额订单!巴基斯坦出口“枭龙”赚的钱,中国会有分成吗?

500架巨额订单!巴基斯坦出口“枭龙”赚的钱,中国会有分成吗?

军武次位面
2026-01-26 19:30:48
1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

磊子讲史
2026-01-08 15:47:38
紫金矿业:拟280亿元收购联合黄金100%股权

紫金矿业:拟280亿元收购联合黄金100%股权

每日经济新闻
2026-01-26 21:10:02
官宣名单!恭喜杨瀚森!入选NBA全明星新秀赛

官宣名单!恭喜杨瀚森!入选NBA全明星新秀赛

篮球教学论坛
2026-01-27 09:04:20
前高盛策略师:黄金站上5100美元 反映出投资者对庞大政府债务规模的担忧不断加剧

前高盛策略师:黄金站上5100美元 反映出投资者对庞大政府债务规模的担忧不断加剧

财联社
2026-01-26 19:29:07
后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

文雅笔墨
2026-01-25 03:11:20
黄巢虽然很残忍,但他却为我国,除掉了一个危害近600年的祸根

黄巢虽然很残忍,但他却为我国,除掉了一个危害近600年的祸根

铭记历史呀
2026-01-26 19:49:07
美航母开启战前静默!外网疯传16架次运-20紧急交付红旗-9BE!

美航母开启战前静默!外网疯传16架次运-20紧急交付红旗-9BE!

议纪史
2026-01-26 12:40:03
拿下特斯拉大单,手握2家上市公司!“中国最大忽悠”要翻身了?

拿下特斯拉大单,手握2家上市公司!“中国最大忽悠”要翻身了?

品牌观察官
2025-12-07 20:49:20
青鸟又杀疯了!称“没事”是大陆用语,北海道台湾早餐店未播绿媒遭出征

青鸟又杀疯了!称“没事”是大陆用语,北海道台湾早餐店未播绿媒遭出征

郭茂辰海峡传真
2026-01-26 21:32:01
2026-01-27 09:16:49
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
126文章数 58关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

房产
本地
健康
艺术
公开课

房产要闻

突发!三亚官宣,调整安居房政策!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

耳石脱落为何让人天旋地转+恶心?

艺术要闻

王雪涛写凌波仙子,脱尽凡俗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版