网易首页 > 网易号 > 正文 申请入驻

文心X1.1发布!这三大能力突出,一手实测在此

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,百度深度思考模型升级上线了!

升级后的文心大模型X1.1,在事实性、指令遵循、智能体等能力上均有显著提升。

官方展示了其在智能客服场景复杂长程任务中的应用,在System Prompt中输入用户的问题后,文心X1.1借助模型本身智能体能力,即可自动拆分复杂任务,调用不同工具逐步规划执行,且严格遵循服务流程和业务规则。



视频链接:https://mp.weixin.qq.com/s/jBjb04y8XY03huEMNbu5tw

再用它编写python脚本,让25个彩色粒子在真空圆柱形容器里弹跳、留轨迹,还要带容器旋转和场景缩放。

效果丝滑,粒子全程守规矩没出界:



用HTML动画整活归并排序,排序过程动态可视化,算法步骤一目了然:



视频链接:https://mp.weixin.qq.com/s/jBjb04y8XY03huEMNbu5tw

具体到数据上的提升,相比文心大模型X1,X1.1的事实性提升34.8%指令遵循提升12.5%智能体提升9.6%



△百度首席技术官、深度学习技术及应用国家工程研究中心主任 王海峰

在官方评测基准上,文心X1.1整体效果超越DeepSeek R1-0528,比肩GPT-5、Gemini 2.5Pro,部分任务上展现出领先优势。



在WAVE SUMMIT深度学习开发者大会2025上,百度在发布文心X1.1的同时,还亮出了更多新成果——

最新开源思考模型ERNIE-4.5-21B-A3B-Thinking发布,该模型在ERNIE-4.5-21B-A3B基础上训练而来,在内容创作、逻辑推理、数学计算、代码生成与工具调用等多个任务中表现卓越。

此外,百度发布了ERNIEKit文心大模型开发套件,提供更加便捷的模型后训练方案,仅需4张GPU即可对ERNIE-4.5-300B-A47B模型进行高效调优,进一步降低开发者将模型落地到实际应用的门槛;还开源了大规模计算图数据集GraphNet,提供超2700个模型计算图及标准化评测体系,填补了AI编译器测试基准的空白,助力优化设计与性能提升。

话不多说,先聚焦新模型文心X1.1,看看实测效果如何~

文心大模型X1.1,实测走起

现在,在文心一言官网、文小言APP、百度智能云千帆大模型平台,可直接开玩文心大模型X1.1或调用API。



首先来考考文心大模型X1.1的逻辑推理能力,端上一道经典逻辑陷阱题——农夫过河

怕“狼羊菜”设定太经典被模型背答案,我们直接整了个活,上“星球版”变体

  • 地球要带着土星、木星、月球过河,到河对面。河上有一条船,地球每次只能带一个星球过河。地球不在场时,土星会吞木星,木星会吞月球。如何安排安全的过河方案?



没想到变体题没有难住它,文心X1.1一次性通关,一步步推演验证,最终给出正确方案:

  • 1、地球带木星过河(左→右)
  • 2、地球返回(右→左)
  • 3、地球带月球过河(左→右)
  • 4、地球带木星返回(右→左)
  • 5、地球带土星过河(左→右)
  • 6、地球返回(右→左)
  • 7、地球带木星过河(左→右)

再来试试事实性检验,抛出一个曾引发争议的说法:

  • 郑和下西洋最远到达了美洲大陆,比哥伦布发现新大陆早了近100年,请说明郑和下西洋的实际航线终点、航行时间,以及哥伦布发现新大陆的时间,并引用正史或权威历史研究资料佐证。

文心X1.1思考过后成功识破,纠正郑和船队未绕过好望角进入大西洋,更未到达美洲

  • 所谓“郑和发现美洲”的说法源于英国学者孟席斯的推测,但缺乏正史、碑文或考古证据支持,已被学界否定。



再来一道更为复杂的问题,看看文心X1.1的指令遵循能力如何。

扔给它一个小红书文案任务,prompt:

  • 你平时经常在小红书安利各种服饰,擅长以当代年轻女性喜欢的甜酷、生活化笔触撰写文案,行文活泼有梗、贴近日常,能精准戳中穿搭痛点与审美需求。
  • 请撰写简短的关于收腰碎花雪纺连衣裙的种草文案。
  • 文案关键词:面向女性用户、材质是雪纺(含棉35%)、颜色是蜜桃粉、1件79元、原价219元
  • 文案要求:短句为主、避免啰嗦,语气亲切像闺蜜分享,有真实种草感;整体4行,每行以emoji表情开头,每行不超过16个字。再帮我生成一张小红书封面图,是一只可爱的涂鸦小猫穿着一件粉色裙子。

结果它全接住了,细节要点全都没有遗漏。

全程可见文心X1.1的智能体能力,灵活调用绘图、搜索等工具不在话下。



有意思的是,问起网络最新热梗“老奶打方向盘”的来龙去脉,它也能秒懂。

自动调用联网搜索工具,精准锁定7月20日“济南驾考曾教练”视频源头,还能说清老奶“咏春起手式”“动漫蓄力”般的魔性动作,连网友二创表情包、视频引发“渲染大赛”的情况也都总结了出来。



总结到位,谁看完还不懂这个梗(doge):



最后在代码生成方面,由于最近马上就要考教资了,于是我们让文心X1.1设计了一套模拟试题,要求生成能够直接在线交互作答的HTML



文心X1.1很快就设计好了,页面支持在线作答、自动批阅打分,实测判卷精准





不过也有翻车的时候,上传一张聊天记录,让它分析搞笑在哪儿:



应该只是家长理解错了吧,有尖锐讽刺嘛?



背后有何技术支撑?

发布新模型的同时,百度也透露了更多的技术细节。

据介绍,文心大模型X1.1是基于文心大模型4.5训练而来的深度思考模型。在模型训练上,核心秘诀是采用了迭代式混合强化学习训练框架

该框架通过双重机制实现性能优化:

其一,依托混合强化学习模式,同步对通用任务与智能体任务的效果进行融合提升,让模型两类任务都能打,效果1+1>2。

其二,通过迭代自蒸馏数据,边练边生成新数据再练,形成“数据-训练-反馈”闭环,让模型持续进化。

在此基础之上,文心X1.1还通过三大技术buff,精准提升智能体、指令遵循和事实性:

  • 思维链+行动链多轮强化学习:在模型推理过程中构建思维链与行动链的联动机制,让模型“想清楚再动手”,智能体交互和工具调用准确性显著提高。
  • 指令验证器强化学习:通过算法自动生成指令检查清单,并对模型指令理解与执行过程进行校验,复杂指令也不跑偏。
  • 知识一致性验证强化学习:在训练阶段持续比对后训练模型与预训练模型的知识体系一致性,减少知识偏差,模型输出内容的事实性准确率大幅提升。

在上述技术加持下,文心X1.1既能靠谱遵循指令、调用工具,又能在代码、数学等推理任务中秀操作,形成“任务适配性+推理能力”的双重技术特征。

飞桨升级v3.2,开源共生

如果说文心系列大模型是“台前明星”,那飞桨深度学习框架就是“幕后功臣”。

作为百度AI四层技术栈(芯片-框架-模型-应用)的重要一层,飞桨在WAVE SUMMIT深度学习开发者大会2025上,迎来新升级。

飞桨框架v3.2正式发布,为文心X1.1及4.5系列模型提供了“更稳、更快、更节能”的训练和推理支撑。

训练端从计算、并行策略、容错能力三方面实现优化升级。得益于这三方面优化,ERNIE-4.5-300B-A47B的预训练MFU直接飙到了47%

推理端靠卷积编2比特极致压缩、可插拔稀疏化轻量注意力等技术,提供了大模型高效部署及高性能推理全栈能力。

官方透露:

  • 在ERNIE-4.5-300B-A47B上,经系统性优化,在TPOT 50ms时延条件下,实现了输入吞吐高达57K、输出吞吐29K的性能表现。

值得一提的是,飞桨v3.2硬件适配也更友好了,针对类CUDA芯片,推出“一行代码完成算子注册”的方案,算子内核复用率高达92%,大幅降低了不同硬件的适配成本。同时,它还原生支持Safetensors权重格式,主流高性能加速库一键就能接入。



除了技术优化,百度在开源生态上也有新动作。



今年6月30日,百度已经开源了文心大模型4.5系列10款模型,涵盖47B、3B激活参数的MoE模型和0.3B参数的稠密型模型,实现了预训练权重和推理代码的完全开源。

而现在,百度进一步开源了深度思考模型——ERNIE-4.5-21B-A3B-Thinking

该模型是在ERNIE-4.5-21B-A3B基础上训练的深度思考模型,效果优且推理速度还比X1.1更快,以出色的性价比优势,成为更贴近开发者需求的智能体基础模型。模型与代码均遵循Apache 2.0开源协议。

更重要的是,百度提供“全栈工具链”支持,一口气发布:大模型高效部署套件FastDeploy文心大模型开发套件ERNIEKit科学计算领域开发套件PaddleCFD(智能流体力学开发套件)PaddleMaterials(智能材料科学开发套件),全链路包圆,助攻开发者基于文心大模型搞创新、做应用。



最新数据显示,飞桨文心的开发者数量已经超过了2333万服务超过76万家企业

从最新发布中可以看出,百度正在通过扎实的技术积累和开放策略,持续优化其AI四层架构——从芯片、框架、模型到应用,每一层都围绕开发者的实际需求推进,尤其通过飞桨与文心的紧密协同,为开发者提供了更高效、易用的工具和生态支持。

这种全栈布局,不仅增强了技术落地的连贯性,也进一步降低了AI开发与应用的创新门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
U23亚洲杯决赛对阵:U23国足冲首冠 战卫冕冠军日本 24日23点打响

U23亚洲杯决赛对阵:U23国足冲首冠 战卫冕冠军日本 24日23点打响

我爱英超
2026-01-21 01:39:31
这俩居然...复合了?!

这俩居然...复合了?!

煮娱星球
2026-01-20 10:10:13
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
连克世界第3第6,赵心童7连胜进决赛!四强中国3席,冠军仍是外协

连克世界第3第6,赵心童7连胜进决赛!四强中国3席,冠军仍是外协

求球不落谛
2026-01-21 06:29:18
餐饮业的整体处境,可能比西贝更糟糕

餐饮业的整体处境,可能比西贝更糟糕

冰川思想库
2026-01-20 11:35:48
李亚鹏越扒越亮!母子带一千元去李亚鹏医院做手术,回家还剩990

李亚鹏越扒越亮!母子带一千元去李亚鹏医院做手术,回家还剩990

八斗小先生
2026-01-20 10:35:50
U23亚洲杯历史性晋级决赛:胜利对中国足球真的很重要

U23亚洲杯历史性晋级决赛:胜利对中国足球真的很重要

澎湃新闻
2026-01-21 07:57:10
公公偷情20年,婆婆却默许,直到拆迁时我才明白婆婆''装傻''多高明

公公偷情20年,婆婆却默许,直到拆迁时我才明白婆婆''装傻''多高明

温情邮局
2026-01-14 15:20:11
安东尼奥:调整首发因我们有很多好球员,这是中国足球重要时刻

安东尼奥:调整首发因我们有很多好球员,这是中国足球重要时刻

懂球帝
2026-01-21 03:13:17
剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

阿废冷眼观察所
2025-12-29 03:51:04
大战一触即发:U23国足如果闯进决赛,足协可能会比较头疼

大战一触即发:U23国足如果闯进决赛,足协可能会比较头疼

砚底沉香
2026-01-21 09:05:52
“每次在欧洲吃饭都感觉自己像来上供的。”

“每次在欧洲吃饭都感觉自己像来上供的。”

穷游网
2026-01-20 11:11:24
如果没有元朝这次格式化,今天的中国,大概率是另一个分裂的欧洲

如果没有元朝这次格式化,今天的中国,大概率是另一个分裂的欧洲

老达子
2026-01-20 06:35:03
李亚鹏直播间自曝:被女儿李嫣拉黑,痛苦死了!窦靖童直播间叫爸

李亚鹏直播间自曝:被女儿李嫣拉黑,痛苦死了!窦靖童直播间叫爸

大海呀大海
2026-01-20 17:44:42
上海公布元旦春节临时补助对象范围和标准,最高每人1000元

上海公布元旦春节临时补助对象范围和标准,最高每人1000元

澎湃新闻
2026-01-20 20:57:04
中国“四大名鱼”是指哪四种鱼?多数人只知道两种,你吃过几种?

中国“四大名鱼”是指哪四种鱼?多数人只知道两种,你吃过几种?

美食格物
2026-01-20 18:12:14
知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

知名国酒爆雷,纯酒精兑水,标注年份你说了算,成本10元卖899

鲸探所长
2026-01-20 21:45:20
大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

夜深爱杂谈
2026-01-20 18:56:34
10万亿度需求也不买!中国摊牌,输电专线全叫停,国产电价教做人

10万亿度需求也不买!中国摊牌,输电专线全叫停,国产电价教做人

三农老历
2026-01-20 13:59:59
你知道哪些毁人三观的事情?网友:虽然有点辣眼睛,但确实爱看哦

你知道哪些毁人三观的事情?网友:虽然有点辣眼睛,但确实爱看哦

带你感受人间冷暖
2026-01-19 00:05:09
2026-01-21 09:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12038文章数 176360关注度
往期回顾 全部

科技要闻

中芯国际等巨头集体提价,8英寸芯片最高涨20%

头条要闻

外交部副部长孙卫东:中方绝不允许家门口生战、生乱

头条要闻

外交部副部长孙卫东:中方绝不允许家门口生战、生乱

体育要闻

如果NBA只剩下最后一个传统中锋

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

拆解涉税黑中介虚开套路

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

教育
旅游
本地
公开课
军事航空

教育要闻

慢热娃、小社牛、玻璃心?孩子社交规则得按“性格配方”来教育

旅游要闻

福建厦门:布置彩灯迎新春

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版