LMArena 最新一轮文本排行榜又更新!
这一次,国产模型有新惊喜。
12月23日,也就是今天,LMArena 公布最新文本榜单,ERNIE-5.0-Preview-1203(文心 5.0 Preview)以 1451 分登榜,位列国内第一。
而且它不仅是在“国产榜”里领先,还直接和一众美国模型同场对打,超过了 Claude Opus 4.1、GPT-5.2、GPT-5.1、Qwen3-Max-Preview 等多款主流模型。
而且在前 20 名中,它是唯一的非美国模型。
LMArena 和其他榜单还不一样:它不是自报参数,会基于真实用户对话、匿名盲测的偏好投票,更接近真实使用体验。
谁更好用、谁更像“能长期对话的模型”,是用户说了算。
从能力分布来看,这次文心拉开差距的,是创意写作、高难度指令这些最容易翻车、但最贴近真实场景的能力。
可以看出,文心的确是那个真实用户场景完成度更高的大模型。
如果把时间线拉长,想想也很合理,文心5.0 Preview这次国内排第一也挺有迹可循的。
过去一个多月,文心在 LMArena 的出现频率明显变高:
11 月拿下文本榜全球并列第二、中国第一;
然后在视觉理解榜再次进入国内第一;
到这次文本榜再度刷新分数,上探 23 分。
迭代节奏真够快,像是在持续公开验证能力边界,也不是为了一次性的榜单排名。
业内也有消息称,文心大模型 5.0 正式版将于 1 月上线。
从这个角度看,Preview 阶段频繁上榜,可能是在为正式发布提前“跑一轮国际压力测试”。
过去聊 AI,很容易形成一种默认叙事:前沿在美国,国内更多是追赶。
但现在,至少在部分核心能力上,国产模型已经开始被直接放进全球第一梯队里对照,而且不是陪跑角色。
至少可以说:中美 AI 的对比,正在从发布会和参数表,转向真实使用体验的正面竞争。
而 LMArena上排第一的文心,只是这个变化最早被看见的地方之一。
#百度 #文心一言 #文心 #文心大模型 #AI #AI大模型 #科技 #AI技术 #干货分享 #AI异类弗兰克
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.