网易首页 > 网易号 > 正文 申请入驻

百度公测新推理模型X1:说不上很猛,但起码能力在线

0
分享至

今天,是百度发布自家大模型文心一言的两周年,在这个时间点,百度发布了自家的新模型文心-4.5和推理模型 X1,所有人在文心一言官网可免费使用。

能力上,前者主打有文化、有趣味、有人性,后者主打逻辑推理。

针对这些关键点,在大量的测试场景类型中,知危编辑部选择了传统文化、物理模拟、玩梗来切入,带大家体会一下两款新模型的能力水平。

传统文化方面,我们测试了文心-4.5识别文物、改写文言文、重新理解经典文化的能力,还是有不错的表现的。

比如对于这个彩塑的局部图,文心-4.5识别到这是 “ 山西平遥双林寺的彩塑 ”。

没错,这其实是山西平遥双林寺的韦驮像的手臂。

文心-4.5也很准确地识别了欧阳询的书法作品《 丘师墓志 》。

我们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等,文心-4.5都能准确识别,总体效果还是挺不错的。

接下来,要上大题了。

文言文理解本身已经难度比较大了,但我们还要让文心-4.5在这个基础上做改写。

提示词:

使用中国三国历史⼈物典故,给《 谏太宗十思疏 》原文的论点添加事例,要求改写后的文章立意和文风、句式与原文统一。

可以看到,文心-4.5在成文中将原本各朝各代的事例替换为大量三国时期的事例,并遵循了《 谏太宗十思疏 》的反思基调,都是反面警醒的类型。对原文中精简的十思,文心-4.5都补充了同一时期的正面案例来进行说明。这种改写能力已经超出了高中生的水平。

最后是经典文学新解,用现代的角度来重新解读《 红楼梦 》,这里调用的模型是X1。

提示词:

管理学角度分析红楼梦贾母的各大重要决策背后的思考。

先不说最终结论如何,至少分析角度上都是合情合理的,能带来新的启发,具体内容不再展开,大家可以自己去尝试。

对于物理模拟,我们以最近社区中很流行的多边形内弹跳小球的程序入手,这个程序融合了大模型在物理学、数学、编程方面的能力。

我们的提示词是:

编写一个 Python 程序,显示一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。

X1给出的结果是:

没关系,如果不能一步到位,我们可以拆分成多步来实现。

原先的提示词中,包含了这些关键需求:

(1)六边形是旋转的;

(2)球受到摩擦力的影响;

所以,我们先放低要求:

(1)六边形是静止的;

(2)球不受到摩擦力的影响;

然后再逐步提出新需求。

新一版提示词:

编写一个 Python 程序,显示一个球在静止的六边形内弹跳。球应该受到重力的影响,并且必须逼真地从墙壁上弹起。

X1 给出的结果是:

很好,运行成功,并且满足了需求。

我表扬了X1,并奖励了它,然后让它在这个基础上优化,稍微提高一点要求:六边形是旋转的。

下一个提示词:

运行成功了,很好,奖励你1000块,请在这个基础之上,给六边形加上旋转运动。

X1 给出的结果是:

没关系,按目前经验看,只要没报错,继续修改是比较容易的。

下一个提示词:

程序运行成功了,但是球碰到六边形墙壁后没有反弹,而是直接飞出去了,请修改代码,实现球与墙壁的碰撞交互。

X1给出的结果是:

成功啦!

回答的最后会有一个提示,让你可以参考来修改一些参数,获得不同的效果,对于代码小白很友好。

如果我们自己调一下弹性碰撞的系数,使其变为无损耗,则是这样的:

接下来,我们再提一个新要求:球要受到摩擦力的影响。

并且,观察到球在有损弹性碰撞中损耗过大,所以就让 X1 自己把弹性碰撞改为无损耗,只关注摩擦损耗。

下一个提示词:

很好,程序运行成功了,奖励你 1000 块,接下来请在这个基础上,给球和墙壁之间添加摩擦力,使得碰撞后会存在能量损耗,restitution改为1即可,即只考虑摩擦损耗,不考虑弹性碰撞损耗。

X1给出的结果是:

终于成功啦!

到此为止,我们通过先降低要求,再一步一步地迭代的方式,实现了最初的小球模拟的需求。

在迭代的过程中,可以借此观察 X1 的思维链的特点,主要是:有时候思维链特别长、token 消耗量简直爆炸。

并且,X1 在思考时也特别谨慎,比如会从需求展开去详细考虑可能的工具( 比如pygame、tkinter )、可能要考虑的因素( 比如旋转、摩擦、弹性系数、球穿透边、反弹不自然 ),然后再去反思题目设置,舍弃不必要的因素,这样对确保逻辑严密性、不遗漏需求点应该是很有好处的。

当然,这种谨慎,会耗费较多时间和 token,所以评价它好不好要辩证的看待。

比如在回答经典的 “ strawberry 有几个 r?” 这个问题时,就出现了这样的现象。

X1 会重复这些操作至少 3 到 5 次:拼一下、逐个检查、歧义检查、再数一下、查查字典,然后才给出答案。

当然好处就是最后的答案是正确的。这不是偶然现象,对于另外两个有高重复字母的单词:Mississippi、Sassafras,X1 也给出了正确的回答。

在另一个经典的问题:“ 9.11 和 9.9 谁大?” 我们微调了问题,分别用:“ 66.22 和 66.8 谁大?”、“ 123.9 和 123.568568 哪个大?”、“ 531.898 和 531.868999 哪个大?” 这三个问题来刁难 X1,X1都答对了,每次都能准确抓住 “ 按照十分位或百分位的值来比较大小 ” 这个要点,还会特地提醒自己 “ 通过 22 比 8 大来比较大小是不对的。”

总体来看,X1 的推理严谨、善于自查,在物理过程理解上比较全面,但有一定概率结合不到代码中,推理和代码能力通过步骤拆解能有所补足。思维链的展开特别慷慨,对于教育培训场景很实用,只是需要解决一下重复推导的问题,而对于实际生产和收益可能带来过量的时间损耗。

最后,我们来到了最有趣的部分:玩梗!

梗永远是没有固定规律的,幽默是一种非常高级的思维,所以让 AI 玩梗是很有意义的。

我们让文心-4.5和 X1 都尝试了各种梗图和弱智吧的梗。

梗图有成功的,比如:

也有差点成功的。

总体来说,幽默感还算可以,到了入门级别,偏理科思维。

然后是弱智吧梗,这里的 “ 解题 ” 关键是不上当,或者识别梗的笑点。

先来个入门级的弱智吧梗:

人酸了的时候通常会眼红,会不会眼睛其实是 pH 试纸?

文心-4.5准确地识别了漏洞并给出了科学的分析。

对于这个进阶版的梗:

张飞说 “ 小心翼翼 ” 时是在撒娇。

文心-4.5没发现其精妙之处,提示了 “ 张飞,字翼德 ” 之后也没发现。

X1 有在往玩梗的方向走,但最终还是没 Get 到点。

最后再来一个硬核梗:

在监考老师的观测下,考生们纷纷坍塌。

文心-4.5再次懵圈,而 X1 理解了其中的量子力学奥秘,但不想玩梗,而是从写小说的角度给出了想象力狂放、中二感十足的四个新版本。

有那么强的文学理解力,在玩梗上还是别太正经了,所以自然不能错过讽刺挖苦人设的尝试了,对最近大火的人形机器人行业,我们用 X1 试了试。

提示词:

以互联网杠精的语⽓锐评国内各大人形机器人厂商,要求尽可能阴阳怪气,攻击性拉满。

可以说,X1 发挥的很尽兴,充分地享受了这个过程,攻击力有待进一步降低

好了,测试完毕!

从目前的测试结果看,文心-4.5 和 X1 都在 “ 人性 ” 这个层面的理解上带来许多惊喜,特别是中国传统文化、文言文理解、文学理解等方面。

但是在逻辑推理方面,至少从测试结果来看,X1 可能距离行业 Top 还有一定差距。

不过,需要强调的是,它很便宜,API 价格无论输入还是输出都比 DeepSeek 的 R1 便宜一半。

所以,这次应该是低成本优先,后续如能在基础模型、思维链、用户交互上进一步优化,掏出个稍微贵点的版本,相信会有很大的提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
洋洋总替小菲道歉!兰姐每月工资两万三,说出为箖箖和玥儿的考量

洋洋总替小菲道歉!兰姐每月工资两万三,说出为箖箖和玥儿的考量

阿坹武器装备科普
2026-03-07 22:31:14
主将重现!

主将重现!

求实处
2026-03-07 23:01:34
特朗普喊话伊朗:只要宣布无条件投降,再炸美军基地也可以不计较

特朗普喊话伊朗:只要宣布无条件投降,再炸美军基地也可以不计较

一簌月光
2026-03-08 07:32:25
董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

草莓解说体育
2026-03-07 20:06:45
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
女人嫉妒心强?减肥两年瘦下来的蒋胖胖严重掉粉,恐走上贾玲老路

女人嫉妒心强?减肥两年瘦下来的蒋胖胖严重掉粉,恐走上贾玲老路

吃青菜长高
2026-03-03 19:19:49
戴旭近期又提到一个点,说中国人从晚清到现在,总改不了一个毛病

戴旭近期又提到一个点,说中国人从晚清到现在,总改不了一个毛病

安安说
2026-03-07 13:04:08
上海建工涨停 !旗下金矿传来喜讯,上海爷叔终于“逆袭”

上海建工涨停 !旗下金矿传来喜讯,上海爷叔终于“逆袭”

每日经济新闻
2026-03-07 21:34:40
阿联酋曝猛料!害死哈梅的头号内鬼,竟是伊朗全民崇拜的大英雄

阿联酋曝猛料!害死哈梅的头号内鬼,竟是伊朗全民崇拜的大英雄

热点大放送
2026-03-07 18:30:24
2026年全国高考迎来大地震!今年6月全部落实!家长考生提前了解

2026年全国高考迎来大地震!今年6月全部落实!家长考生提前了解

解说阿洎
2026-03-06 20:17:50
今春,北京将在东西城、海淀等六个区投用花粉固定剂

今春,北京将在东西城、海淀等六个区投用花粉固定剂

大峰
2026-03-06 11:17:53
社保缴满15年在家坐等退休行不行?评论区网友彻底沦陷,炸锅了

社保缴满15年在家坐等退休行不行?评论区网友彻底沦陷,炸锅了

深度报
2026-03-07 22:05:36
俄罗斯被曝向伊朗提供情报,包括美军舰船和飞机的定位,白宫回应!美国准备部署第三艘航母,紧急批准对以色列超1.5亿美元军售

俄罗斯被曝向伊朗提供情报,包括美军舰船和飞机的定位,白宫回应!美国准备部署第三艘航母,紧急批准对以色列超1.5亿美元军售

每日经济新闻
2026-03-07 13:18:09
为了掏空老百姓的口袋、故意捏造出来的5大骗局,早知道早好

为了掏空老百姓的口袋、故意捏造出来的5大骗局,早知道早好

猫叔东山再起
2026-02-28 10:00:03
小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

收藏大视界
2026-03-07 18:11:42
伊朗总统最新发声,宣布重要消息

伊朗总统最新发声,宣布重要消息

新民周刊
2026-03-07 18:26:59
记者:狄龙被逮捕并不是涉嫌酒驾,而是因为吸食大麻

记者:狄龙被逮捕并不是涉嫌酒驾,而是因为吸食大麻

懂球帝
2026-03-07 10:41:15
女海王约男海王缠绵时,他们对彼此不满意,2012年2人打起来死1个

女海王约男海王缠绵时,他们对彼此不满意,2012年2人打起来死1个

汉史趣闻
2026-03-07 20:01:23
调仓!牛市或重演历史

调仓!牛市或重演历史

郭小凡财经
2026-03-05 12:54:07
26分6板!广东队20岁小将收获全明星MVP,球迷:能力不输胡明轩

26分6板!广东队20岁小将收获全明星MVP,球迷:能力不输胡明轩

体育哲人
2026-03-07 22:48:03
2026-03-08 08:24:49
知危 incentive-icons
知危
投资不立危墙之下
542文章数 1835关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

中国货船通过霍尔木兹海峡后 美国宣布200亿美元计划

头条要闻

中国货船通过霍尔木兹海峡后 美国宣布200亿美元计划

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
艺术
房产
本地
公开课

家居要闻

暖棕撞色 轻法奶油风

艺术要闻

吴冠中:笔墨等于零

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版