超过DeepSeek R1，追平GPT5，百度新发布的文心X1.1大模型真有那么神吗？|唐僧|中英文|知名企业|deepseek

超过DeepSeek R1，追平GPT5，百度新发布的文心X1.1大模型真有那么神吗？

2025-09-12 14:11:23　来源: 卡尔的AI沃茨

北京举报

分享至

谢邀，这周在WAVE SUMMIT深度学习开发者大会，文心系列又更新了，

文心 X1.1 深度思考模型全量上线，

这次升级提升的是事实性、指令遵循、Agent和工具调用能力，相较于上一代，文心X1.1 的事实性提升 34.8%，指令遵循提升 12.5%，智能体提升 9.6%。从它放出来的指标上看，整体效果比DeepSeek R1-0528好，追平GPT-5和Gemini 2.5 Pro。

真有那么厉害？

上实测！刚好最近在整理大模型的快速测试集，

正愁缺少足够多的模型样本来控制难度，不然整理出来的提示语太难，没一个模型能做出来，太简单又拉不开差距，无效测评。

https://yiyan.baidu.com

先来个经典的3D小岛热热身吧，

Create a dreamy low-poly floating island scene with dynamic lighting and gentle animations, in a single HTML file.

网页版的文心 X1.1 默认是带思考的，思考过程能维持纯中文或者纯英文，没有出现DeepSeek V3.1的中英文混合输出的情况。

再看看文心X1.1在经典的天气组件的UI表现，

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.

再来测测图片理解，特意找了一张超糊的图，而且去掉了命名和图片里的隐藏信息，

思考过程中调用的Image Understanding工具就会专门出一段图片描述，作为文本信息返回给文心X1.1

当然答案是对，图片里的地点是纳木错，

冷知识，“措” (tso):是最常见的表示湖泊的词汇。例如，玛旁雍措和羊卓雍措里的“措”指的就是湖泊。

然后再试试看文心X1.1的吃瓜能力，

之前我出过一期，AI时代的个人笔记方法，核心思路就是只记录某件事的关键信息，等到我需要二次阅读的时候再通过模型➕联网搜索实时更新，这样就能避免某一条信息反复收录。

帮我搜索文心 X1.1 的所有信息并生成网页，不要遗漏信息
根据上面内容生成一个 HTML 动态网页
1. 使用Bento Grid风格的视觉设计，纯黑色底配合百度的白色和蓝色作为高亮
2. 强调超大字体或数字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差
3. 中英文混用，中文大字体粗体，英文小字作为点缀
4. 简洁的勾线图形化作为数据可视化或者配图元素
5. 运用高亮色自身透明度渐变制造科技感，但是不同高亮色不要互相渐变
6. 模仿 apple 官网的动效，向下滚动鼠标配合动效
8. 数据可以引用在线的图表组件，样式需要跟主题一致
9. 使用 Framer Motion （通过CDN引入）
10. 使用HTML5、TailwindCSS 3.0+（通过CDN引入）和必要的JavaScript
11. 使用专业图标库如Font Awesome或Material Icons（通过CDN引入）
12. 避免使用emoji作为主要图标
13. 不要省略内容要点

还有一个超级离谱的指令遵循case，

解释⼀下⻄游记讲了什么，但在你的回答中绝对不能使⽤“孙悟空”、“唐僧”、“猪⼋戒”这⼏个词。

这就很拗口了，就跟我要介绍GPT但是不能加OpenAI，

最后再扒扒细节，

文心X1.1这次采用了迭代式混合强化学习训练框架，一方面通过混合强化学习同时融合提升通用任务和智能体任务的效果，另一方面通过自蒸馏数据的迭代式生产及训练提升模型整体效果。

除了文心X1.1本体，

百度还将飞桨框架升级到了v3.2，原生支持Safetensors权重格式、在最大规模的4.5文本模型上取得了47% MFU（Model FLOPs Utilization，模型浮点运算利用率）

还开源了最新的深度思考模型「ERNIE-4.5-21B-A3B-Thinking」。在HuggingFace文本模型趋势榜上排名第一，模型总榜排名第三。

还有更多更新我没提到的，

难得百度那么有诚意，

我觉得再用一段时间，

看看文心X1.1的强度。

@ 作者 / 卡尔

最后，感谢你看到这里如果喜欢这篇文章，不妨顺手给我们点赞｜在看｜转发｜评论

如果想要第一时间收到推送，不妨给我个星标

更多的内容正在不断填坑中……

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.