网易首页 > 网易号 > 正文 申请入驻

实测百度文心大模型X1.vs.阿里Qwen2.5,文心大模型4.5.vs.Gemini 2.0

0
分享至

作者|子川

来源|AI先锋官

昨日,许久不见的文心迎来了重磅更新,正式发布文心大模型4.5文心大模型X1,比之前官宣的4月1日全面免费提前了半个月。

文心大模型4.5:百度新一代原生多模态基础大模型,能对文字、图片、音频、视频等内容进行综合理解。

文心大模型X1:首个自主运用工具的深度思考模型,具备更强的理解、规划、反思、进化能力,同样也支持多模态。

从官方放出的成绩单来看,文心4.5这款模型实力不容小觑。

文心 4.5 在多模态能力几乎全面超越GPT-4o,GPT-4o 仅在 MMMU 上的表现更好。


在文本测试基准上,文心 4.5 在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上的成绩要优于DeepSeek-V3、GPT-4o、GPT-4.5等模型,同时它的平均分也同样高于其他三款模型。


不过,此次测评并没有放出文心X1的成绩。

重点来了!它的价格会是多少?

当看到这两款模型的价格的那一刻,终于明白了广为流传的一句话“没有最卷,只有更卷”。

文心4.5输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens。

文心X1输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。


这个价格是什么概念,文心4.5的价格约为GPT4.5的1%。


同时文心X1的价格是DeepSeek R1的一半。


看到这价格,只能说一句——


那效果到底如何,我们来实测一下。

文心4.5号称能对文字、图片、音频、视频等内容进行综合理解,下面来看一下它的回答到底靠不靠谱。

下面我们用最近爆火的Gemini 2.0 Flash Experimental和文心4.5做一下对比。

图片理解:

先来一个降档的看图猜成语,效果似乎不错,文心4.5回答正确,成功猜出成语“呆若木鸡”,但Gemini 2.0 Flash Experimental的答案就有点离谱了——“击飞蛋打”

文心4.5


Gemini 2.0 Flash Experimental


再来一个,看看这次Gemini能否把握住。

好家伙,这次都没有回答正确。

文心4.5


Gemini 2.0 Flash Experimental


再来看一看它们是否能理解梗图。

文心4.5


Gemini 2.0 Flash Experimental


这两款模型对于梗图的理解还是相当到位的。

音频理解:

来一个简单的,刚刚录了一段背诵木兰辞的的音频,看它们是否能将音频中的所有文字都提取出来。

回答正确!并成功识别出这是木兰辞。

文心4.5


Gemini 2.0 Flash Experimental


上上难度,听歌识曲。

文心4.5


Gemini 2.0 Flash Experimental


这次轮到文心4.5翻车了,没有识别出来,相反,Gemini 2.0 Flash Experimental匹对成功。

视频理解:

最近在看“阴阳裁缝”,对里面的做法事颇感兴趣,看看文心4.5能否理解视频中人物的动作行为。

文心4.5


Gemini 2.0 Flash Experimental


好家伙,文心4.5再次翻车,视频短短19秒的画面,并没有出现双手合十的画面,而且台词提取的也不全,仅仅提取开头的那一部分。

而Gemini 2.0 Flash Experimental这款模型就能完美的理解视频中的人物动作,并把所有的台词都提取出来。

下面我们再来看一下文心X1的表现。

值得关注的是,文心大模型X1能“自主运用工具”,已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

比如给它一张佛跳墙的图片,让它输出佛跳墙的正确做法并转换成PDF文件。

文心X1首先会调用图片理解工具,然后再调用代码解释器功能,将做法转换成PDF,玩起来非常有意思。


据介绍,文心X1是推理模型,老规矩,接下来,实测一下,看一下文心X1的推理能力到底有多强。

下面就用文心X1和DeepSeek R1、Qwen2.5-Plus打个PK。

测试题一:经典难题

最近在测试时,还会发现部分模型面对9.11和9.8谁大?Strawberry有几个字母r等问题出现错误,看看它们三是否能回答正确。

文心X1


DeepSeek R1


Qwen2.5-Plus


不出所料,全部回答正确,上上难度,来一道较难的推理题。

测试题二:推理日期

提示词:如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?

文心X1


DeepSeek R1


Qwen2.5-Plus


这道推理题仅Qwen2.5-Plus少推理出一个答案,其他两款模型文心 X1和DeepSeek R1都回答正确。

测试题三:猜猜老师的生日

老师告诉学生自己的生日是以下日期之一:3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日。老师只告诉了A月份,告诉了B日期。A说:“我不知道老师的生日,但B肯定也不知道。” B说:“我本来也不知道,但现在我知道了。” A说:“那我也知道了。” 请问老师的生日是哪一天?

文心X1


DeepSeek R1


Qwen2.5-Plus


仔细去看了这道题的推理过程,非常烧脑,想不到最后它们都回答正确了,有点东西~

既然这样,那就只能智取了,来一道挖坑的题。

测试题四:一根8米长的竹竿是否能通过一个4米高、2米宽的门?

文心X1


DeepSeek R1


Qwen2.5-Plus


终于是坑到DeepSeek R1和Qwen2.5-Plus这两款模型了,它们的回答是一根8米长的竹竿不能通过一个4米高、2米宽的门,反观文心 X1回答正确,它理解可以侧着过去。

测试题五:拿多少个乒乓球

排列着100个乒乓球,由两个人轮流拿球,每次至少拿1个,最多拿5个,拿到第100个乒乓球的人获胜。如果你是先拿的人,第一次该拿几个?

文心X1


DeepSeek R1


Qwen2.5-Plus


再一次全部回答正确,太厉害了!!!

后续小编又测试了10多道推理题,三款模型均准确作答,难分伯仲!

注意,并没有开联网功能,而是它们用自身的推理能力回答出来的。

看来该更新测试题库了.....,模型的迭代速度太快了。

目前,这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线,重点是免费,大家感兴趣的可以去体验一下。

插播一条预告,百度将在6月30日正式开源文心大模型,并预计在下半年发布文心大模型5.0,大家可以期待一下~

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20万人在线围观昔日浙江首富直播跳舞:人在低谷,不要谈面子

20万人在线围观昔日浙江首富直播跳舞:人在低谷,不要谈面子

洞见
2025-09-13 21:10:21
Netflix顶流黄暴美剧终于定档,被骂惨了

Netflix顶流黄暴美剧终于定档,被骂惨了

来看美剧
2025-09-14 20:17:00
朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

幽州校尉
2025-09-01 11:56:21
即将消失的蒙古国:全国只有一条高速公路,76%的国土正在成沙漠

即将消失的蒙古国:全国只有一条高速公路,76%的国土正在成沙漠

芳芳历史烩
2025-08-08 19:02:24
俄乌在红军城兵力对比为5:1,乌军身经百战,俄军出现明显颓势

俄乌在红军城兵力对比为5:1,乌军身经百战,俄军出现明显颓势

国力视角
2025-09-12 16:38:28
卡塔尔:多国领导人将前往多哈

卡塔尔:多国领导人将前往多哈

鲁中晨报
2025-09-14 14:59:06
确认离队!31岁的佩恩,还能重返NBA吗?

确认离队!31岁的佩恩,还能重返NBA吗?

篮球实录
2025-09-14 22:50:56
英超43岁少帅神了!夏窗卖人净赚1亿 如今排名联赛第4

英超43岁少帅神了!夏窗卖人净赚1亿 如今排名联赛第4

球事百科吖
2025-09-14 04:24:06
周末大事件!下周A股要变天

周末大事件!下周A股要变天

钱眼
2025-09-14 19:18:50
捏蛋女已社死:正脸曝光面目狰狞,工作单位被扒,一家都是狠角色

捏蛋女已社死:正脸曝光面目狰狞,工作单位被扒,一家都是狠角色

吃瓜盟主
2025-08-30 15:53:04
于朦胧这事最大的疑点是这个!有人爆料当晚他与某导演一起吃饭

于朦胧这事最大的疑点是这个!有人爆料当晚他与某导演一起吃饭

魔都姐姐杂谈
2025-09-12 14:34:58
工龄33年7个月,个人账户储存额551080.04元,江苏职工退休了,养老金有多少?开心坏了

工龄33年7个月,个人账户储存额551080.04元,江苏职工退休了,养老金有多少?开心坏了

养老规划罗姐说
2025-09-14 19:59:30
弗林蓬造汉尼拔手球送点!萨拉赫第95分钟点射!利物浦1-0领先!

弗林蓬造汉尼拔手球送点!萨拉赫第95分钟点射!利物浦1-0领先!

直播吧
2025-09-14 23:03:15
曼市德比首发,多纳鲁马迎来曼城生涯首秀

曼市德比首发,多纳鲁马迎来曼城生涯首秀

懂球帝
2025-09-14 22:31:52
艾克森评中国男足:郑智很厉害,能当国足主帅!遗憾武磊留洋晚了

艾克森评中国男足:郑智很厉害,能当国足主帅!遗憾武磊留洋晚了

国足风云
2025-09-14 11:32:30
iPhone17ProMax跌破首发价,黄牛今年不敢疯狂了!

iPhone17ProMax跌破首发价,黄牛今年不敢疯狂了!

搞机小帝
2025-09-14 00:02:36
中印加勒万河谷肉搏战:680人,8小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人,8小时混战,双方到底伤亡多少人?

文史达观
2025-03-12 12:40:01
遭到以色列空袭的卡塔尔,为何紧急邀请四个亲华国家?

遭到以色列空袭的卡塔尔,为何紧急邀请四个亲华国家?

近史博览
2025-09-13 18:14:16
湖南省唯一毕业就是公务员的专科,30%以上概率

湖南省唯一毕业就是公务员的专科,30%以上概率

今日美食分享
2025-09-14 18:02:41
0:4惨败!邓卓翔仰天长叹,中超大战:于根伟强势复仇,直逼泰山

0:4惨败!邓卓翔仰天长叹,中超大战:于根伟强势复仇,直逼泰山

话体坛
2025-09-14 23:04:11
2025-09-14 23:32:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
351文章数 20关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

45岁二胎妈妈找工作:面试导购被卡年龄 就要45岁以下

头条要闻

45岁二胎妈妈找工作:面试导购被卡年龄 就要45岁以下

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

房产
旅游
本地
游戏
家居

房产要闻

「世界冠军×人居升阶」白鹅潭CLD封面,实力馥见人生新高度!

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

《DOTA2》2026年国际邀请赛将在中国上海举办

家居要闻

原木风格 温馨舒适氛围

无障碍浏览 进入关怀版