网易首页 > 网易号 > 正文 申请入驻

文心X1.1发布!这三大能力突出,一手实测在此

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,百度深度思考模型升级上线了!

升级后的文心大模型X1.1,在事实性、指令遵循、智能体等能力上均有显著提升。

官方展示了其在智能客服场景复杂长程任务中的应用,在System Prompt中输入用户的问题后,文心X1.1借助模型本身智能体能力,即可自动拆分复杂任务,调用不同工具逐步规划执行,且严格遵循服务流程和业务规则。



视频链接:https://mp.weixin.qq.com/s/jBjb04y8XY03huEMNbu5tw

再用它编写python脚本,让25个彩色粒子在真空圆柱形容器里弹跳、留轨迹,还要带容器旋转和场景缩放。

效果丝滑,粒子全程守规矩没出界:



用HTML动画整活归并排序,排序过程动态可视化,算法步骤一目了然:



视频链接:https://mp.weixin.qq.com/s/jBjb04y8XY03huEMNbu5tw

具体到数据上的提升,相比文心大模型X1,X1.1的事实性提升34.8%指令遵循提升12.5%智能体提升9.6%



△百度首席技术官、深度学习技术及应用国家工程研究中心主任 王海峰

在官方评测基准上,文心X1.1整体效果超越DeepSeek R1-0528,比肩GPT-5、Gemini 2.5Pro,部分任务上展现出领先优势。



在WAVE SUMMIT深度学习开发者大会2025上,百度在发布文心X1.1的同时,还亮出了更多新成果——

最新开源思考模型ERNIE-4.5-21B-A3B-Thinking发布,该模型在ERNIE-4.5-21B-A3B基础上训练而来,在内容创作、逻辑推理、数学计算、代码生成与工具调用等多个任务中表现卓越。

此外,百度发布了ERNIEKit文心大模型开发套件,提供更加便捷的模型后训练方案,仅需4张GPU即可对ERNIE-4.5-300B-A47B模型进行高效调优,进一步降低开发者将模型落地到实际应用的门槛;还开源了大规模计算图数据集GraphNet,提供超2700个模型计算图及标准化评测体系,填补了AI编译器测试基准的空白,助力优化设计与性能提升。

话不多说,先聚焦新模型文心X1.1,看看实测效果如何~

文心大模型X1.1,实测走起

现在,在文心一言官网、文小言APP、百度智能云千帆大模型平台,可直接开玩文心大模型X1.1或调用API。



首先来考考文心大模型X1.1的逻辑推理能力,端上一道经典逻辑陷阱题——农夫过河

怕“狼羊菜”设定太经典被模型背答案,我们直接整了个活,上“星球版”变体

  • 地球要带着土星、木星、月球过河,到河对面。河上有一条船,地球每次只能带一个星球过河。地球不在场时,土星会吞木星,木星会吞月球。如何安排安全的过河方案?



没想到变体题没有难住它,文心X1.1一次性通关,一步步推演验证,最终给出正确方案:

  • 1、地球带木星过河(左→右)
  • 2、地球返回(右→左)
  • 3、地球带月球过河(左→右)
  • 4、地球带木星返回(右→左)
  • 5、地球带土星过河(左→右)
  • 6、地球返回(右→左)
  • 7、地球带木星过河(左→右)

再来试试事实性检验,抛出一个曾引发争议的说法:

  • 郑和下西洋最远到达了美洲大陆,比哥伦布发现新大陆早了近100年,请说明郑和下西洋的实际航线终点、航行时间,以及哥伦布发现新大陆的时间,并引用正史或权威历史研究资料佐证。

文心X1.1思考过后成功识破,纠正郑和船队未绕过好望角进入大西洋,更未到达美洲

  • 所谓“郑和发现美洲”的说法源于英国学者孟席斯的推测,但缺乏正史、碑文或考古证据支持,已被学界否定。



再来一道更为复杂的问题,看看文心X1.1的指令遵循能力如何。

扔给它一个小红书文案任务,prompt:

  • 你平时经常在小红书安利各种服饰,擅长以当代年轻女性喜欢的甜酷、生活化笔触撰写文案,行文活泼有梗、贴近日常,能精准戳中穿搭痛点与审美需求。
  • 请撰写简短的关于收腰碎花雪纺连衣裙的种草文案。
  • 文案关键词:面向女性用户、材质是雪纺(含棉35%)、颜色是蜜桃粉、1件79元、原价219元
  • 文案要求:短句为主、避免啰嗦,语气亲切像闺蜜分享,有真实种草感;整体4行,每行以emoji表情开头,每行不超过16个字。再帮我生成一张小红书封面图,是一只可爱的涂鸦小猫穿着一件粉色裙子。

结果它全接住了,细节要点全都没有遗漏。

全程可见文心X1.1的智能体能力,灵活调用绘图、搜索等工具不在话下。



有意思的是,问起网络最新热梗“老奶打方向盘”的来龙去脉,它也能秒懂。

自动调用联网搜索工具,精准锁定7月20日“济南驾考曾教练”视频源头,还能说清老奶“咏春起手式”“动漫蓄力”般的魔性动作,连网友二创表情包、视频引发“渲染大赛”的情况也都总结了出来。



总结到位,谁看完还不懂这个梗(doge):



最后在代码生成方面,由于最近马上就要考教资了,于是我们让文心X1.1设计了一套模拟试题,要求生成能够直接在线交互作答的HTML



文心X1.1很快就设计好了,页面支持在线作答、自动批阅打分,实测判卷精准





不过也有翻车的时候,上传一张聊天记录,让它分析搞笑在哪儿:



应该只是家长理解错了吧,有尖锐讽刺嘛?



背后有何技术支撑?

发布新模型的同时,百度也透露了更多的技术细节。

据介绍,文心大模型X1.1是基于文心大模型4.5训练而来的深度思考模型。在模型训练上,核心秘诀是采用了迭代式混合强化学习训练框架

该框架通过双重机制实现性能优化:

其一,依托混合强化学习模式,同步对通用任务与智能体任务的效果进行融合提升,让模型两类任务都能打,效果1+1>2。

其二,通过迭代自蒸馏数据,边练边生成新数据再练,形成“数据-训练-反馈”闭环,让模型持续进化。

在此基础之上,文心X1.1还通过三大技术buff,精准提升智能体、指令遵循和事实性:

  • 思维链+行动链多轮强化学习:在模型推理过程中构建思维链与行动链的联动机制,让模型“想清楚再动手”,智能体交互和工具调用准确性显著提高。
  • 指令验证器强化学习:通过算法自动生成指令检查清单,并对模型指令理解与执行过程进行校验,复杂指令也不跑偏。
  • 知识一致性验证强化学习:在训练阶段持续比对后训练模型与预训练模型的知识体系一致性,减少知识偏差,模型输出内容的事实性准确率大幅提升。

在上述技术加持下,文心X1.1既能靠谱遵循指令、调用工具,又能在代码、数学等推理任务中秀操作,形成“任务适配性+推理能力”的双重技术特征。

飞桨升级v3.2,开源共生

如果说文心系列大模型是“台前明星”,那飞桨深度学习框架就是“幕后功臣”。

作为百度AI四层技术栈(芯片-框架-模型-应用)的重要一层,飞桨在WAVE SUMMIT深度学习开发者大会2025上,迎来新升级。

飞桨框架v3.2正式发布,为文心X1.1及4.5系列模型提供了“更稳、更快、更节能”的训练和推理支撑。

训练端从计算、并行策略、容错能力三方面实现优化升级。得益于这三方面优化,ERNIE-4.5-300B-A47B的预训练MFU直接飙到了47%

推理端靠卷积编2比特极致压缩、可插拔稀疏化轻量注意力等技术,提供了大模型高效部署及高性能推理全栈能力。

官方透露:

  • 在ERNIE-4.5-300B-A47B上,经系统性优化,在TPOT 50ms时延条件下,实现了输入吞吐高达57K、输出吞吐29K的性能表现。

值得一提的是,飞桨v3.2硬件适配也更友好了,针对类CUDA芯片,推出“一行代码完成算子注册”的方案,算子内核复用率高达92%,大幅降低了不同硬件的适配成本。同时,它还原生支持Safetensors权重格式,主流高性能加速库一键就能接入。



除了技术优化,百度在开源生态上也有新动作。



今年6月30日,百度已经开源了文心大模型4.5系列10款模型,涵盖47B、3B激活参数的MoE模型和0.3B参数的稠密型模型,实现了预训练权重和推理代码的完全开源。

而现在,百度进一步开源了深度思考模型——ERNIE-4.5-21B-A3B-Thinking

该模型是在ERNIE-4.5-21B-A3B基础上训练的深度思考模型,效果优且推理速度还比X1.1更快,以出色的性价比优势,成为更贴近开发者需求的智能体基础模型。模型与代码均遵循Apache 2.0开源协议。

更重要的是,百度提供“全栈工具链”支持,一口气发布:大模型高效部署套件FastDeploy文心大模型开发套件ERNIEKit科学计算领域开发套件PaddleCFD(智能流体力学开发套件)PaddleMaterials(智能材料科学开发套件),全链路包圆,助攻开发者基于文心大模型搞创新、做应用。



最新数据显示,飞桨文心的开发者数量已经超过了2333万服务超过76万家企业

从最新发布中可以看出,百度正在通过扎实的技术积累和开放策略,持续优化其AI四层架构——从芯片、框架、模型到应用,每一层都围绕开发者的实际需求推进,尤其通过飞桨与文心的紧密协同,为开发者提供了更高效、易用的工具和生态支持。

这种全栈布局,不仅增强了技术落地的连贯性,也进一步降低了AI开发与应用的创新门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着火箭三连胜,快船惨败,湖人逆转,西部排名乱了,火箭回前4

随着火箭三连胜,快船惨败,湖人逆转,西部排名乱了,火箭回前4

体育一点就通
2026-01-21 16:18:34
李亚鹏确认,靠卖北京房子和直播卖茶具,5000万债务已还清!

李亚鹏确认,靠卖北京房子和直播卖茶具,5000万债务已还清!

荆楚寰宇文枢
2025-12-31 21:55:47
考古王菲李亚鹏的微博,竟然诡异的磕到了

考古王菲李亚鹏的微博,竟然诡异的磕到了

金牌舆情官
2026-01-20 21:19:04
卡扎菲死前惨状:被扇耳光吐口水,对暴打他的士兵留下遗言

卡扎菲死前惨状:被扇耳光吐口水,对暴打他的士兵留下遗言

旧时楼台月
2026-01-21 12:35:15
大瓜!闫学晶“大校军衔”被实锤造假,十年假大校现形记!

大瓜!闫学晶“大校军衔”被实锤造假,十年假大校现形记!

老特有话说
2026-01-20 15:48:09
马斯克目前财富达7800亿美元 领先第二近5100亿美元

马斯克目前财富达7800亿美元 领先第二近5100亿美元

手机中国
2026-01-20 17:09:17
亲弟弟强奸追杀妻子,丈夫发声

亲弟弟强奸追杀妻子,丈夫发声

中国新闻周刊
2026-01-20 18:42:33
83年,乔冠华与章含之在家中拍了最后一张合影,乔的笑容有些勉强

83年,乔冠华与章含之在家中拍了最后一张合影,乔的笑容有些勉强

历史甄有趣
2026-01-04 09:30:24
取代杜锋?CBA最强主教练示好广东队,朱芳雨敲定“换帅”人选

取代杜锋?CBA最强主教练示好广东队,朱芳雨敲定“换帅”人选

绯雨儿
2026-01-21 14:20:29
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

素衣读史
2026-01-21 13:57:53
戚薇一家四口澳门游,女儿Lucky打耳洞爱美,儿子脸肉嘟嘟

戚薇一家四口澳门游,女儿Lucky打耳洞爱美,儿子脸肉嘟嘟

一窥究竟
2026-01-21 14:28:35
郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

无心小姐姐
2026-01-09 17:46:24
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
亚洲第一赌场新东泰覆灭记:性交易泛滥,富商疯狂砸钱,挥金如土

亚洲第一赌场新东泰覆灭记:性交易泛滥,富商疯狂砸钱,挥金如土

谈史论天地
2026-01-21 06:10:03
历史性突破!U23国足首进亚洲杯决赛

历史性突破!U23国足首进亚洲杯决赛

财联社
2026-01-21 01:28:20
特朗普:不去G7峰会 因为马克龙干不长了

特朗普:不去G7峰会 因为马克龙干不长了

财联社
2026-01-21 11:40:17
第一个拒绝加入特朗普“和平委员会”的总统来了!中国也收到邀请

第一个拒绝加入特朗普“和平委员会”的总统来了!中国也收到邀请

现代小青青慕慕
2026-01-21 11:36:45
交易巴特勒!你好,小波特

交易巴特勒!你好,小波特

老垯科普
2026-01-21 14:56:32
“长安”这个名字不好吗,为什么要改为“西安”,谁改的?

“长安”这个名字不好吗,为什么要改为“西安”,谁改的?

长风文史
2026-01-20 20:02:02
利润136亿的绩优股,一年两次分红股息率3%,股价从70元跌到24元

利润136亿的绩优股,一年两次分红股息率3%,股价从70元跌到24元

投资观
2026-01-21 07:45:03
2026-01-21 16:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12042文章数 176360关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

中国是否加入"和平委员会" 外交部回应

头条要闻

中国是否加入"和平委员会" 外交部回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

房产
数码
亲子
旅游
公开课

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

数码要闻

联力确认隐流二代方屏版水冷USB故障最大诱因,已升级优化产品

亲子要闻

新华读报|儿童近视越来越早?专家给家长的“近视防控三件套”

旅游要闻

冬季到云南元江哀牢山看云海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版