网易首页 > 网易号 > 正文 申请入驻

百度最强模型来了!五大场景深度实测,搜索能力突出

0
分享至


智东西
编译 刘煜
编辑 陈骏达

智东西5月9日报道,今日,百度推出新一代基础模型文心5.1。百度称,文心5.1将总参数压缩至约1/3、激活参数压缩至约1/2,使用业界同规模模型约6%的预训练成本,实现同级别模型基础效果领先。不过,百度并未明确说明这一“6%成本”的具体对标模型范围与口径。

在LMArena 5月7日更新的文本生成大模型排行榜中,文心5.1全球总排名第14。与前面OpenAI、xAI的模型相比,得分存在微小差距。


▲图源:LMArena官网

文心5.1在Agentic、知识、推理、指令遵循能力测试中,与DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro展开了横向性能对比。

Agentic能力测试中,文心5.1工具调用数学推理能力表现不错,得分略低于Gemini-3.1 Pro排名第二。多轮工具协作交互能力弱于Claude-Opus-4.6居于第二位,与另外两个模型能力差距较小。

在深度搜索Agent任务中,文心5.1较其他三款模型仍有差距,电子表格工具操作仅领先DeepSeek-V4-Pro,大幅落后Claude-Opus-4.6与Gemini-3.1 Pro。


▲图源:百度文心公众号

知识、推理、指令遵循能力测试中,文心5.1整体处于中等水平。高阶学科知识推理(GPQA)和复杂指令遵循(AdvanceIF)表现较好,仅次于Gemini-3.1 Pro,领先另外两款模型。

纯数学推理(AIME26)和通用知识问答(MMLU-Pro)在四款模型中均排名末位,与头部模型差距相对明显。


▲图源:百度文心公众号

此次文心5.1推出距离文心5.0正式版上线已时隔三个多月。文心5.1模型发布时,登顶LMArena榜单里国内大模型搜索能力榜首位。


▲图源:百度文心公众号

实际评测中,我们从创意写作、数学推理、信息整合、电子表格操作、编程能力五个维度对文心5.1模型进行了综合体验。

其中,创意写作与电子表格数据分析我们均采用文心5.1思考模型进行二次实测。相比文心5.1快速模型,思考模型产出的内容叙事风格更有质感、情感调性更细腻自然,也未出现基础性逻辑与文字错误;在表格数据分析任务上,思考模型的整体表现同样更出色。

文心5.1对概率题的解答步骤严谨、答案准确;面对开放式模糊需求,能自主拆解任务、输出表格对比和场景匹配,信息整合能力不错;但在编程场景中短板突出,生成的代码无法正常运行,实用编程能力仍有欠缺。

文心5.1模型的体验链接为:

https://yiyan.baidu.com

以下是我们的完整体验过程:

一、五大场景实测:文心5.1创作、数理、办公、科普能力全面验证

案例一:创意写作能力测试,考察文心5.1故事架构与文学创作能力

针对文心5.1的创意写作能力,我们首先用文心5.1快速模型进行了测评。

指令一:请为一个悬疑故事写出前三章大纲,每章150字左右。


总体来看这个悬疑故事的大纲挺完整,叙事结构比较规整,逻辑层次也清晰。人物行动动机比较合理,线索设置具象可落地,最后的身份反转颠覆感比较强,伏笔呼应也相对完整。不过,与现在市面上的流行的悬疑推理小说还有一定差距,对于模型本身来讲,这个水准还不错。

而后我们用相同的指令,对文心5.1思考模型进行评测。


可以看到,第二篇在切入点、恐怖感上更有新意。对于短篇惊悚故事,这篇的“循环替身”更适合直接收尾,有《恐怖游轮》的循环压迫感。不过普通租客为何能查物业记录这一点可能是个bug。

我们接着让文心5.1快速模型写了一篇科幻类型的微小说。

指令二:写一篇500-600字的科幻微小说。


这篇科幻小说篇幅把控精准,叙事结构完整闭环,人物情感刻画比较细腻,整体文字流畅、故事完成度也挺高。但这个叙事框架比较常规,同时出现了人物身份混乱,比如文章主角之一是“爸爸”,可在中间的对话中却说成了“妈妈”。

对于常读同类科幻故事的读者来说,剧情走向和结局伏笔可能略显套路化,缺少出人意料的设定创新。

相同的科幻微小说指令也给了文心5.1思考模型


可以看到,这一篇也是围绕“意识上传”这一经典科幻母题展开的。不过两篇文章在叙事重心、情感落点、科幻设定和审美取向上存在明显差异。比第一篇更好一点的是,这一篇没有出现明显的人设混乱问题。

从情感共鸣和叙事感染力看,第一篇相对更好。从科幻构思的新颖度和哲学深度看,第二篇略胜一筹。

案例二:给高考数学题,看它能不能按步骤算明白

用户在使用AI解决数学问题时,痛点比较明确:怕AI没有逻辑硬算,也担心AI编造解题步骤和错误答案。

于是,我给了文心5.1一道2025新高考一卷的上数学题,看它是否能真正解决用户遇到的数学问题。

题目为:一个箱子里有5个球,分别以1~5标号,若有放回取三次,记至少取出一次的球的个数为X,则E(X)为?


文心5.1给出了完全正确的解答,无论是使用指示变量法,还是用分布法进行交叉验证,都步骤完整,并且结果准确。

案例三:问两款大模型怎么选,看它能不能替普通人做信息整合

普通用户可能不会区分主流大模型强弱,也不知道按自身场景该怎么选用。对标文心5.1官方Agent能力里T³-bench多轮工具协作、深度信息检索整合的核心维度,我们抛出模糊需求,看看文心怎么解答。

问题为:我想了解DeepSeek-V4-Pro、Claude-Opus-4.6到底各有什么强项和短板,普通人该怎么选、各自适合拿来干什么。


可以看到,文心5.1的整体回答表现优秀。首先能够自主拆解任务逻辑,无需人工指引,自发多维度逐层解释对比,信息维度全面且细分精准,体现出不错的信息检索与归纳能力。

同时贴合了普通人使用习惯,做成表格对比、场景匹配、分人群推荐,最后还点明两款模型的隐藏短板和使用误区,给到务实的组合使用建议。

案例四:电子表格与职场数据分析能力测试

职场运营、门店管理、电商运营日常高频刚需就是员工绩效统计、数据筛选、业绩排名、均值分析,常用到的是Excel表格来进行办公。于是我们测试了文心5.1快速版本的电子表格工具操作能力。

需求为:我是门店运营,统计了本店10名销售人员的当月个人成交业绩:12.3万、18.6万、9.2万、25.8万、16.5万、11.8万、20.4万、8.7万、22.1万、14.6万。

你按照Excel分析数据帮我处理:整理成规范员工业绩数据表,计算全员业绩平均值、中位数,筛选出业绩高于平均值的优秀员工,最后结合整体数据做简单的团队绩效分析。

结果是,文心5.1在这个电子表格操作以及数据分析任务中,完成度挺高。不过没有将所有数据放在一张表格里。

于是我们继续给出指令:帮我做成一份直观的Excel表格,包含所有数据,同时可复制。文心5.1给的反馈比最初更精简了,但指令“一份”可能给该模型带来了理解误差。

于是我们再调整指令为:把这些数据仅用同一张表格来显示。


最后,文心5.1给出的结果还不错,虽然官方测试中表格操作能力排名靠后,但在文本形态的职场数据分析场景里,实际体验并没有特别差劲,能完成基础需求。

该模型结果输出比较磕绊,于是我们用相同的指令测试文心5.1思考模型。结果显示,这次模型输出的第一份结果更为简洁规范,并且更为清晰直观。与文心5.1快速模型第三次输出的结果几乎一样。

案例五:

我们使用文心5.1思考模型,让它制作了一个大型沙盒游戏与小型跑酷游戏。

指令一:制作一个单文件HTML的3D横版格斗游戏,场景为被霸天虎入侵的破败城市地图,敌人为类人型赛博坦机器人,包含武器后坐力效果,采用低多边形风格并带有卡通美学。游戏开始时,玩家位于街道上,周围有建筑废墟;游戏中应包含可被击倒的细节物品,如汽车、树木、石块/瓦砾和自动售货机。玩家可以选择5种擎天柱阵营角色进行游戏,并与5种霸天虎变种敌人战斗,这些敌人会不断生成,游戏为无限时间的沙盒模式。


文心5.1思考模型针对该指令生成了700余行代码,但实际运行时,该游戏能够正常打开,但界面出现两个遮挡bug,也没法对游戏里的敌人进行攻击,无法操作。

指令二:制作一个单文件HTML的横版跑酷游戏,不依赖外部资源。主角是一名未来都市快递员,在霓虹城市屋顶之间不断前进。游戏采用低多边形风格,整体偏明亮卡通美术。
要求:
-玩家可进行跳跃、二段跳和下滑
-地图自动向前滚动,包含屋顶缺口、广告牌、电箱、无人机等障碍
-路上有可收集的能量电池和金币
-玩家可以拾取临时道具,例如护盾、加速和磁铁吸附
-敌人为巡逻无人机和机械警卫,碰撞后会扣血-分数根据生存时间、移动距离和收集物计算-淑戏失败后可重新开始
-需要有开始界面、暂停功能和简单UI(血量、分数、速度)
-所有内容写在一个HTML文件中,代码可直接运行


针对第二个指令,该模型耗时3分钟生成600余行代码,但无法打开,界面一片漆黑。可见,该模型在复杂游戏编程与代码可运行性上仍存在明显短板。

二、弹性训练实现降本,架构与后训练流程同步革新

文心5.1是在文心5.0基础上进一步优化得到的版本。它没有从头重新训练,而是从文心5.0训练好的子模型矩阵中,挑出一个效果最好的子结构直接使用,因此降低了预训练成本。

其背后的主要技术更新,是一套叫Once-for-All的弹性训练方法

传统做法想适配不同规模的模型,得分别预训练好几次;而文心5.0只在一次预训练里,通过动态采样同时优化大量不同尺寸的子模型,最终形成一个覆盖多种参数规模、不同计算成本的子模型矩阵。

也就是说,这套方法让文心5.1在训练阶段就把不同模型一次性准备好,上线时直接挑一个最合适的来用,不用每次重新练。

基于上面的弹性训练方法,文心5.1在参数和成本上的实际变化如下:

1、总参数量压缩到文心5.0的1/3左右;2、激活参数量压缩到约1/2;3、预训练算力成本仅为同规模业界模型的6%。

相比文心5.0,文心5.1推理成本明显下降,同时在同参数规模下,预训练模型效果在同规模模型中表现更佳。


▲文心5.0弹性训练示意图(图源:百度文心公众号)

此次更新,文心5.1在其训练方式上做了三方面改动:

首先是分离式架构。以前训练、推理、奖励计算、智能体循环四个环节耦合在一起,一个环节慢了会拖累整个系统。

现在百度将它们完全拆开,各自独立部署、独立扩缩容。比如推理算力不够就只扩推理,不用动其他模块。各模块之间通过高性能网络传数据,控制流和数据流分开,流水线可以重叠执行,训练整体耗时更短。

其次是FP8训推方面。由于模型训练时和推理时用的精度不一致,会导致效果下降,尤其在MoE结构里路由偏差更明显。

于是文心5.1用了统一FP8低精度算子库,并对Rollout Router Replay技术做了优化。结果是在开启该技术后,训练推理耗时几乎没有增加,但关键指标KL散度下降50%,训练更稳定。

最后是异构弹性调度方面。集群里会存在很多CPU算力闲置,文心5.1把这些CPU统一池化,用来跑代码沙箱、验证器这类逻辑计算密集但不需要GPU的任务。提升了资源利用率,也缩短了训练迭代时间。

传统大语言模型的后训练是串行流程:先做监督微调(SFT),再做多阶段混合强化学习。

这种方式存在两个问题:一是慢,一个阶段等一个阶段拖慢整体迭代;二是能力会“打架”,想在一次训练里同时提升代码、推理、对话等多个能力,往往提升一个另一个就下降。

文心5.1的做法是把专家训练和能力融合拆开,分四步走:

第一阶段统一SFT。先用高质量的多领域指令数据做一次基础微调,让模型具备基本的指令遵循和工具调用能力,作为后续能力扩展的起点。

第二个阶段,并行训练多个领域的专家模型,比如对代码、推理、智能体等方向分别独立训练。每个方向用自己专属的奖励信号和算法,互相不干扰。

第三个阶段是在线策略蒸馏(OPD)。把上一步训练好的多个专家模型当老师,统一SFT模型当学生。学生按照自己的策略采样,通过token级KL方法同时学习多个老师的能力,把不同专家的能力融合进同一个模型里。

最后是通用在线强化学习。并不是所有任务都适合用蒸馏来融合,比如开放式聊天、创意写作这类高熵分布的任务,蒸馏反而效率低,输出会变得过于平滑。所以这类任务不做蒸馏,而是在蒸馏后的模型上单独做在线强化学习,保证对话多样性、指令遵循能力和人类偏好对齐。

可以简单总结为,代码、推理这类确定性强的能力,通过蒸馏从专家模型融进主模型;聊天、写作这类需要多样性的能力不适合蒸馏,单独做强化学习。两套方式配合,既缩短了训练周期,又避免了能力互相拖累。


▲文心5.1后训练Pipeline示意图(图源:百度文心公众号)

在百度文心内部评测中,文心5.1的创意写作能力接近Gemini-3.1 Pro。此前文心5.0系列模型已多次登上LMArena文本榜和视觉理解榜,稳居国产模型第一梯队。

结语:低成本实现性能追赶,能力尚有提升空间

文心5.1最引人注目的不是某一项能力的跃升,而是它试图回答的问题,能否用更低的训练成本,换来接近头部模型的综合水准。

从百度文心披露的数据看,在知识推理、指令遵循和创意写作上,它确实站到了同量级模型的第一梯队;但在工具调用深度、电子表格操作和纯数学推理上,与Claude-Opus-4.6、Gemini-3.1 Pro等模型之间仍存在可量化的差距。

从实际体验来看,文心5.1在数学题解答、生活化知识科普等面向普通用户的场景中表现比较稳定,信息整合和逻辑拆解能力也可圈可点。创意内容存在套路化问题,高阶表格办公能力相对偏弱,部分场景需要反复调整指令才能达到理想效果。

纵观行业,主流模型逐渐呈现能力差异化、使用场景分层化的发展趋势。对普通用户而言,成熟的基础模型能够降低内容创作、问题解答、数据整理的门槛,提升日常使用效率;对技术厂商而言,低成本、高性能的迭代方案,也将为国产大模型轻量化落地、规模化应用提供了可行路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国的老朋友叶利钦:归还大片领土,却被俄罗斯人视为罪人!

我国的老朋友叶利钦:归还大片领土,却被俄罗斯人视为罪人!

抽象派大师
2026-06-30 01:16:43
小孩出生几斤,比属相更重要!这3个体重,天生是来报恩的

小孩出生几斤,比属相更重要!这3个体重,天生是来报恩的

一口娱乐
2026-06-30 13:52:35
法国紧急下单3万台空调!40℃热浪扒开西方老牌发达国家体面?

法国紧急下单3万台空调!40℃热浪扒开西方老牌发达国家体面?

大稻网络科技
2026-06-29 15:55:58
6月30日,人社部财政部关于2026年调整基本养老金的通知公布了吗

6月30日,人社部财政部关于2026年调整基本养老金的通知公布了吗

青梅侃史啊
2026-06-30 19:33:52
钱学森的儿子钱永刚,初中数学考30分,高中没念完就辍学,钱学森却摆摆手“没事!谁料,后来钱永刚却考上了国防科大!

钱学森的儿子钱永刚,初中数学考30分,高中没念完就辍学,钱学森却摆摆手“没事!谁料,后来钱永刚却考上了国防科大!

背包旅行
2026-06-30 15:11:04
凄惨!阿根廷球星全家殒命!妻儿全部遇难,一夜间沦为孤家寡人

凄惨!阿根廷球星全家殒命!妻儿全部遇难,一夜间沦为孤家寡人

林轻吟
2026-06-30 19:45:49
俄军三线都要收尾了!

俄军三线都要收尾了!

星火聊天下
2026-06-30 07:16:16
本田圭佑:巴西最可怕的是让你觉得自己能行,结果他们进球了

本田圭佑:巴西最可怕的是让你觉得自己能行,结果他们进球了

懂球帝
2026-06-29 23:16:13
新中国第一个被罢免的省长,出狱后下海经商,晚年过得如何?

新中国第一个被罢免的省长,出狱后下海经商,晚年过得如何?

历史图鉴
2026-06-25 22:32:54
达美乐比萨礼品卡写着“激活后三年内有效”,顾客首次使用即过期 客服:给你那天就激活了

达美乐比萨礼品卡写着“激活后三年内有效”,顾客首次使用即过期 客服:给你那天就激活了

信网
2026-06-29 15:39:36
小米正式官宣:6月30日,新机发布

小米正式官宣:6月30日,新机发布

科技堡垒
2026-06-28 12:59:18
“热穹顶”发力!新疆报出50℃高温 成都也将迎来今年首个高温日

“热穹顶”发力!新疆报出50℃高温 成都也将迎来今年首个高温日

封面新闻
2026-06-30 17:52:04
一个人生规律:人活到最后,只要你不欠债、不生病、不指望儿女,你的晚年,其实就是真正的神仙日子

一个人生规律:人活到最后,只要你不欠债、不生病、不指望儿女,你的晚年,其实就是真正的神仙日子

心理观察局
2026-06-30 06:43:06
孙靓靓跨市履新常州市副市长

孙靓靓跨市履新常州市副市长

扬子晚报
2026-06-30 18:22:00
台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了?

台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了?

铭记历史呀
2026-06-29 16:49:31
郑钦文打的到底是谁的脸?

郑钦文打的到底是谁的脸?

网球之家
2026-06-30 09:31:03
A股:刚刚,大消息传来,释放一信号,明天将迎来更大级别的变盘

A股:刚刚,大消息传来,释放一信号,明天将迎来更大级别的变盘

云鹏叙事
2026-06-30 00:00:08
总分 702、语文 146!考生满分卷面走红,阅卷老师看后爱不释手!

总分 702、语文 146!考生满分卷面走红,阅卷老师看后爱不释手!

凯旋学长
2026-06-30 19:07:43
韩国足球逃不开的天道轮回,洪明甫24年从国家英雄到民族罪人

韩国足球逃不开的天道轮回,洪明甫24年从国家英雄到民族罪人

老垯科普
2026-06-29 15:59:10
网友用X Money给马斯克转25美元:获本人回应后全网跟风打钱

网友用X Money给马斯克转25美元:获本人回应后全网跟风打钱

快科技
2026-06-29 11:37:24
2026-06-30 20:47:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12152文章数 117113关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

日本队世界杯出局后 韩媒来劲了

头条要闻

日本队世界杯出局后 韩媒来劲了

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

时尚
教育
家居
本地
亲子

“复古波点”又流行回来了!夏天简单穿就很时髦

教育要闻

快讯!2026黄石中考分数线公布!

家居要闻

传奇筑 日常诗

本地新闻

贵州小城的新目标:举办“村超”世界杯!

亲子要闻

✨闪闪小葵花 成长正当时✨ 「寻找闪亮小主角」才艺展示活动 表演现场高光集锦,见证萌娃的舞台魅力~

无障碍浏览 进入关怀版