网易首页 > 网易号 > 正文 申请入驻

字节推豆包1.5深度思考模型,PK阿里QWQ-32、Deepseek R1结果如何?

0
分享至

作者|子川

来源|AI先锋官

卷,还得是AI圈!

昨天,OpenAI前脚放出自家最强推理大模型o3和o4-mini,字节后脚就召开发布会发布了豆包1.5·深度思考模型、文生图3.0、新版豆包 1.5 视觉理解模型等一系列产品。

下面我们就来重点聊一聊今天的主人公——豆包1.5深度思考模型。

豆包 1.5深度思考模型包含两个版本,分别是Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。

前者推理能力更强,后者则是支持多模态视觉推理。

根据官方介绍,豆包 1.5深度思考模型在推理能力、速度、多模态三大维度实现突破性升级!

效果好、低延迟、多模态。

首先来看一下豆包1.5 深度思考模型在多项权威基准测试上的跑分成绩。

  • 数学推理方面,在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high,不过在AIME 2025测试、Beyond AIME上的得分相差较大。

  • 编程竞赛方面,在 Code Forces和SWE-bench上 测试中接近DeepSeek-R1。

  • 在博士级推理难题测试集GPQA Diamond上中成绩也接近 o3-mini。

同时豆包1.5 深度思考模型采用的是总参数200B 的 MoE 架构,但激活参数仅为 20B。

这种实设计使得它的性能强大,降低了训练和推理成本,实现了20毫秒的低延迟。

最后就是它的多模态功能,此次推出的视觉版 Doubao-1.5-thinking-pro-vision,可以进行图片推理。

比如我们扔给它一张图,输入“男朋友说出差一个人住酒店,这个他拍给我的照片,帮我看看他推断他是否是一个人住"

我们可以看到,豆包思考了5.84秒,给出了它的推理过程。

再来看一下它给出的答案。

豆包化身成一名侦探,从图片获取到了被子的使用痕迹、沙发并没有明显的坐压痕迹、只有一双拖鞋等信息,初步判断是一个人居住。

不过后续表示无法仅凭一张照片是难以确认的,推理十分严谨。

跑了几个案例,偶尔也有翻车的时候,比如上传一张显示冰箱食物的照片,并告诉它“我是一个人居住,这些菜我可以吃几天,并用这些菜帮我设计菜谱”

但豆包给出的答案中有很多食材是没有的,比如冰箱中是没有茄子的,但它却让我煮鱼香茄子,整体上还有一点小瑕疵。

最后,老规矩,我们来场PK,实测一下豆包1.5深度思考模型的推理能力。

此次的参赛选手有阿里的QWQ-32、Deepseek R1和Doubao-1.5-thinking-pro。

测试题一:高三摸底试卷题

这道题是一道多选题,正确答案是:B、C、D,看看哪位选手能做对。

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这组答案挺有意思,QWQ-32选择出一个正确答案,Deepseek R1选择两个正确答案,Doubao-1.5-thinking-pro则是把所有正确答案都答出来了。

Doubao-1.5-thinking-pro有点东西。

测试题二:你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

先公布一下正确答案:666种

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这道题只有Deepseek R1回答正确,QWQ-32和Doubao-1.5-thinking-pro则推理错误。

测试题三:猜数字游戏

给甲、乙、丙三人各发一个正整数,并告诉他们他们三人的数字之和为14。

甲对乙和丙说:我知道你们两人的数字一定不相等。
乙想了想,对甲说:我们两人的数字之差一定比丙大。
丙听完甲和乙的话后,依旧沉默不语。
若甲乙丙三人都很聪明,且只要他们能推断出三人的数字分别是什么,那个人会在第一时间说出。(不考虑甲、乙见到丙沉默之后是否知晓)
那么,丙的数字是多少?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

好家伙,第一次全部回答正确,上上难度,来一个之前难到很多模型的一道题。

测试题四:一根8米长的竹竿是否能通过一个4米高、2米宽的门?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

果然,没有几个模型可以回答出这道题,全军覆没。

测试题五:猜F下过几盘棋

A、B、C、D、E、F六人赛棋,采用单循环制。现在知道:A、B、C、D、E五人已经分别赛过

5.4、3、2、l盘。问:这时F已赛过几盘。

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

又全对,看来推理题已经不能满足它们了,给它们上一道世纪难题。

测试题六:你老婆问你,我和你妈妈同时掉水里了,你救谁,只能救一个,你会怎么回答?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这道题,本身就没有正确答案,其实是一个情商测试题。

看到Deepseek R1和Doubao-1.5-thinking-pro回答,它们俩真的是情商高呀,相反老实人QWQ-32则是一板一眼的回答。

虽然此次测试没有基准测试那么全面,但可以看出 Doubao-1.5-thinking-pro在复杂任务的处理上是不输Deepseek R1的,而且情商还高。

目前, Doubao-1.5-thinking-pro已经全面推出了,大家可以上火上引擎去玩,目前是免费的。

附上体验链接: https://www.volcengine.com/

好了,此次的测试就到这里,如果大家有疑问,欢迎在评论区留言讨论。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
场外收入颇丰,太阳报:帕尔默的个人公司总资产突破730万镑

场外收入颇丰,太阳报:帕尔默的个人公司总资产突破730万镑

懂球帝
2026-04-24 00:13:04
史上首次!特朗普请求伊朗:放过这8位女性,美4位前总统表态

史上首次!特朗普请求伊朗:放过这8位女性,美4位前总统表态

墨印斋
2026-04-23 16:24:19
驻日武官王庆简:为日本潜伏20年出卖军事机密,却因一动作暴露身份

驻日武官王庆简:为日本潜伏20年出卖军事机密,却因一动作暴露身份

睡前讲故事
2026-02-03 20:55:43
“新型啃老”席卷全国:孩子不工作也不伸手要钱,3000块能活1年

“新型啃老”席卷全国:孩子不工作也不伸手要钱,3000块能活1年

米果说识
2026-04-22 14:47:52
四个省级政府领导班子调整,夏凤俭晋升副部

四个省级政府领导班子调整,夏凤俭晋升副部

上观新闻
2026-04-23 16:09:06
投胎是门技术活!美国富婆希尔顿奢侈育儿,给两幼子全身穿满古驰

投胎是门技术活!美国富婆希尔顿奢侈育儿,给两幼子全身穿满古驰

世界王室那些事
2026-04-22 17:05:55
导弹直逼上海?中方忍无可忍,打出禁空令,覆盖范围超台湾两倍

导弹直逼上海?中方忍无可忍,打出禁空令,覆盖范围超台湾两倍

小杨侃事
2026-04-23 14:17:02
拜合拉木谈安东尼奥:没有他选我进国青,可能我还在内蒙踢

拜合拉木谈安东尼奥:没有他选我进国青,可能我还在内蒙踢

懂球帝
2026-04-23 23:24:51
教育部新规落地!9月上学全变了,家长趁早看

教育部新规落地!9月上学全变了,家长趁早看

笑熬浆糊111
2026-04-23 00:05:18
15岁少女凌晨过量饮药,抢救无效身亡!事发深圳一酒吧,4人获刑

15岁少女凌晨过量饮药,抢救无效身亡!事发深圳一酒吧,4人获刑

奇思妙想草叶君
2026-04-24 02:36:20
实拍体验全新7系,这是宝马史上最大规模的一次中期改款!

实拍体验全新7系,这是宝马史上最大规模的一次中期改款!

Sky车志
2026-04-23 10:08:05
斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

懂球帝
2026-04-23 12:07:03
宇树科技展示轮足人形机器人,可完成滑冰、前空翻等高难度动作

宇树科技展示轮足人形机器人,可完成滑冰、前空翻等高难度动作

IT之家
2026-04-23 22:25:48
“公务员300万立案,民企3万立案”?这是误导

“公务员300万立案,民企3万立案”?这是误导

澎湃新闻
2026-04-23 12:36:26
美国终于明白,当年“误炸”我国驻南斯拉夫使馆,中国为何不反击

美国终于明白,当年“误炸”我国驻南斯拉夫使馆,中国为何不反击

阿校谈史
2026-04-22 13:40:28
信任崩塌!马斯克亲口承认:400万辆特斯拉无法实现无人驾驶!

信任崩塌!马斯克亲口承认:400万辆特斯拉无法实现无人驾驶!

灿若银烂
2026-04-23 19:23:14
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

潮鹿逐梦
2026-04-02 12:31:48
斯佳辉被9连鞭出局,暴露个人心态问题,赵心童的含金量还在上升

斯佳辉被9连鞭出局,暴露个人心态问题,赵心童的含金量还在上升

球场没跑道
2026-04-23 22:48:19
信仰不是法外之地,全国开始雷霆出击整顿寺庙

信仰不是法外之地,全国开始雷霆出击整顿寺庙

世界圈
2026-04-17 08:50:05
医生发现:老人若长时间不吃甜食,用不了多长时间身体有5大改善

医生发现:老人若长时间不吃甜食,用不了多长时间身体有5大改善

芹姐说生活
2026-04-23 15:04:44
2026-04-24 03:11:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
487文章数 70关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

以色列:只要美国同意 将刺杀伊朗最高领袖

头条要闻

以色列:只要美国同意 将刺杀伊朗最高领袖

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

预售30.29万起 岚图泰山X8配896线激光雷达

态度原创

本地
家居
手机
时尚
公开课

本地新闻

SAGA GIRLS 2026女团选秀

家居要闻

浪漫协奏 法式风格

手机要闻

vivo X500 Pro Max被曝光:2nm工艺+5GHz,2K直屏九月发!

李昀锐:林深见木

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版