网易首页 > 网易号 > 正文 申请入驻

百度文心5.1来了!成本大降,性能却悄悄追平国际巨头?

0
分享至



图源:LMArena官网



纯数学推理(AIME26)和通用知识问答(MMLU-Pro)在四款模型中均排名末位,与头部模型差距相对明显。





以下是我们的完整体验过程:

指令一:请为一个悬疑故事写出前三章大纲,每章150字左右。



总体来看这个悬疑故事的大纲挺完整,叙事结构比较规整,逻辑层次也清晰。人物行动动机比较合理,线索设置具象可落地,最后的身份反转颠覆感比较强,伏笔呼应也相对完整。不过,与现在市面上的流行的悬疑推理小说还有一定差距,对于模型本身来讲,这个水准还不错。



可以看到,第二篇在切入点、恐怖感上更有新意。对于短篇惊悚故事,这篇的“循环替身”更适合直接收尾,有《恐怖游轮》的循环压迫感。不过普通租客为何能查物业记录这一点可能是个bug。

指令二:写一篇500-600字的科幻微小说。



对于常读同类科幻故事的读者来说,剧情走向和结局伏笔可能略显套路化,缺少出人意料的设定创新。



从情感共鸣和叙事感染力看,第一篇相对更好。从科幻构思的新颖度和哲学深度看,第二篇略胜一筹。

案例二:给高考数学题,看它能不能按步骤算明白

用户在使用AI解决数学问题时,痛点比较明确:怕AI没有逻辑硬算,也担心AI编造解题步骤和错误答案。

题目为:一个箱子里有5个球,分别以1~5标号,若有放回取三次,记至少取出一次的球的个数为X,则E(X)为?



案例三:问两款大模型怎么选,看它能不能替普通人做信息整合

问题为:我想了解DeepSeek-V4-Pro、Claude-Opus-4.6到底各有什么强项和短板,普通人该怎么选、各自适合拿来干什么。



同时贴合了普通人使用习惯,做成表格对比、场景匹配、分人群推荐,最后还点明两款模型的隐藏短板和使用误区,给到务实的组合使用建议。

案例四:电子表格与职场数据分析能力测试

需求为:我是门店运营,统计了本店10名销售人员的当月个人成交业绩:12.3万、18.6万、9.2万、25.8万、16.5万、11.8万、20.4万、8.7万、22.1万、14.6万。

你按照Excel分析数据帮我处理:整理成规范员工业绩数据表,计算全员业绩平均值、中位数,筛选出业绩高于平均值的优秀员工,最后结合整体数据做简单的团队绩效分析。

于是我们再调整指令为:把这些数据仅用同一张表格来显示。



案例五:



要求:

-玩家可进行跳跃、二段跳和下滑

-地图自动向前滚动,包含屋顶缺口、广告牌、电箱、无人机等障碍

-路上有可收集的能量电池和金币

-玩家可以拾取临时道具,例如护盾、加速和磁铁吸附

-敌人为巡逻无人机和机械警卫,碰撞后会扣血-分数根据生存时间、移动距离和收集物计算-淑戏失败后可重新开始

-需要有开始界面、暂停功能和简单UI(血量、分数、速度)



针对第二个指令,该模型耗时3分钟生成600余行代码,但无法打开,界面一片漆黑。可见,该模型在复杂游戏编程与代码可运行性上仍存在明显短板。

其背后的主要技术更新,是一套叫Once-for-All的弹性训练方法。



首先是分离式架构。以前训练、推理、奖励计算、智能体循环四个环节耦合在一起,一个环节慢了会拖累整个系统。

现在百度将它们完全拆开,各自独立部署、独立扩缩容。比如推理算力不够就只扩推理,不用动其他模块。各模块之间通过高性能网络传数据,控制流和数据流分开,流水线可以重叠执行,训练整体耗时更短。

其次是FP8训推方面。由于模型训练时和推理时用的精度不一致,会导致效果下降,尤其在MoE结构里路由偏差更明显。

传统大语言模型的后训练是串行流程:先做监督微调(SFT),再做多阶段混合强化学习。

这种方式存在两个问题:一是慢,一个阶段等一个阶段拖慢整体迭代;二是能力会“打架”,想在一次训练里同时提升代码、推理、对话等多个能力,往往提升一个另一个就下降。

第一阶段统一SFT。先用高质量的多领域指令数据做一次基础微调,让模型具备基本的指令遵循和工具调用能力,作为后续能力扩展的起点。

第二个阶段,并行训练多个领域的专家模型,比如对代码、推理、智能体等方向分别独立训练。每个方向用自己专属的奖励信号和算法,互相不干扰。

第三个阶段是在线策略蒸馏(OPD)。把上一步训练好的多个专家模型当老师,统一SFT模型当学生。学生按照自己的策略采样,通过token级KL方法同时学习多个老师的能力,把不同专家的能力融合进同一个模型里。

最后是通用在线强化学习。并不是所有任务都适合用蒸馏来融合,比如开放式聊天、创意写作这类高熵分布的任务,蒸馏反而效率低,输出会变得过于平滑。所以这类任务不做蒸馏,而是在蒸馏后的模型上单独做在线强化学习,保证对话多样性、指令遵循能力和人类偏好对齐。

可以简单总结为,代码、推理这类确定性强的能力,通过蒸馏从专家模型融进主模型;聊天、写作这类需要多样性的能力不适合蒸馏,单独做强化学习。两套方式配合,既缩短了训练周期,又避免了能力互相拖累。



纵观行业,主流模型逐渐呈现能力差异化、使用场景分层化的发展趋势。对普通用户而言,成熟的基础模型能够降低内容创作、问题解答、数据整理的门槛,提升日常使用效率;对技术厂商而言,低成本、高性能的迭代方案,也将为国产大模型轻量化落地、规模化应用提供了可行路径。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普登上专机前,郑丽文划下红线:不许支持台独

特朗普登上专机前,郑丽文划下红线:不许支持台独

健身狂人
2026-05-12 03:03:24
杨受成“霸占”容祖儿半生:不娶也不放,她到底图什么?

杨受成“霸占”容祖儿半生:不娶也不放,她到底图什么?

橙星文娱
2026-05-12 15:17:44
“可偏转弹丸!中国研发出鳄鱼结构装甲”

“可偏转弹丸!中国研发出鳄鱼结构装甲”

观察者网
2026-05-12 14:04:05
当着高市早苗的面,贝森特谈到美中关系,要求日本别给美国添乱

当着高市早苗的面,贝森特谈到美中关系,要求日本别给美国添乱

强军路
2026-05-13 09:16:29
佩顿:若詹姆斯离开湖人他会去勇士,但珍妮-巴斯不太可能放人

佩顿:若詹姆斯离开湖人他会去勇士,但珍妮-巴斯不太可能放人

懂球帝
2026-05-12 21:20:44
A·史密斯认为尼克斯队,是勒布朗·詹姆斯5亿美元合同的最佳选择

A·史密斯认为尼克斯队,是勒布朗·詹姆斯5亿美元合同的最佳选择

好火子
2026-05-13 00:41:17
随着日本3-1,卡塔尔0-2,亚洲杯8强已经诞生6席:中国男足压哨晋级

随着日本3-1,卡塔尔0-2,亚洲杯8强已经诞生6席:中国男足压哨晋级

侧身凌空斩
2026-05-13 02:02:59
河南一地党委主要领导调整!近日,多名市长任市委书记

河南一地党委主要领导调整!近日,多名市长任市委书记

上观新闻
2026-05-12 20:08:04
伊媒披露伊美新一轮谈判5个先决条件

伊媒披露伊美新一轮谈判5个先决条件

财联社
2026-05-13 02:22:12
记者:穆里尼奥即将出任皇马新帅,预计下周官宣

记者:穆里尼奥即将出任皇马新帅,预计下周官宣

懂球帝
2026-05-12 18:41:07
《主角》直到花彩香生娃,才知她为何不跟张光荣离婚,放弃胡三元

《主角》直到花彩香生娃,才知她为何不跟张光荣离婚,放弃胡三元

八斗小先生
2026-05-12 11:34:38
中软国际:离职补偿 1.77 亿

中软国际:离职补偿 1.77 亿

云头条
2026-05-12 23:18:36
就是他了!BBC确认,穆里尼奥与皇马进行最终谈判,头号目标也是唯一目标

就是他了!BBC确认,穆里尼奥与皇马进行最终谈判,头号目标也是唯一目标

懂个球
2026-05-12 23:15:58
我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

千秋文化
2026-03-25 21:42:08
北京淘汰广东后上海却急了?复仇11冠王没戏:半决赛还可能被爆冷

北京淘汰广东后上海却急了?复仇11冠王没戏:半决赛还可能被爆冷

篮球快餐车
2026-05-13 02:55:10
女子硕士入学清华后参与智力测验,仅得25分,回应:无论是学习、工作、创业,我都没有遇到困难,但我居然智力中下

女子硕士入学清华后参与智力测验,仅得25分,回应:无论是学习、工作、创业,我都没有遇到困难,但我居然智力中下

扬子晚报
2026-05-11 07:48:21
德国这座“盐山”高达250多米,含有2亿吨盐,它是当地的生态灾难

德国这座“盐山”高达250多米,含有2亿吨盐,它是当地的生态灾难

怪罗
2026-05-11 10:01:52
15死33伤! 以方悍然突袭,伊朗最高领袖下令,普京直言美国已反悔

15死33伤! 以方悍然突袭,伊朗最高领袖下令,普京直言美国已反悔

小涛叨叨
2026-05-12 19:10:16
浙江衢州一酒吧护士节活动海报被指低俗,酒吧回应:系AI生成;市场监管局工作人员:正向相关科室进行反馈

浙江衢州一酒吧护士节活动海报被指低俗,酒吧回应:系AI生成;市场监管局工作人员:正向相关科室进行反馈

潇湘晨报
2026-05-12 16:21:14
山东25岁女子征婚被网友群嘲,奇葩要求让人无语至极

山东25岁女子征婚被网友群嘲,奇葩要求让人无语至极

映射生活的身影
2026-05-12 10:44:30
2026-05-13 10:43:00
装满幸福
装满幸福
感谢关注
673文章数 105关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

中国驻美大使:“成为中国人”刷屏 大势不可阻挡

头条要闻

中国驻美大使:“成为中国人”刷屏 大势不可阻挡

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

巩俐用中文宣布戛纳开幕,彰显国际地位

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
游戏
房产
艺术
军事航空

家居要闻

极简主义下的居住场域与空间

曝索尼最新第一方独占大作难以回本!又叫好不叫座?

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

艺术要闻

这位女摄影师的航拍风景照片,简直太美了!

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版