网易首页 > 网易号 > 正文 申请入驻

字节推豆包1.5深度思考模型,PK阿里QWQ-32、Deepseek R1结果如何?

0
分享至

作者|子川

来源|AI先锋官

卷,还得是AI圈!

昨天,OpenAI前脚放出自家最强推理大模型o3和o4-mini,字节后脚就召开发布会发布了豆包1.5·深度思考模型、文生图3.0、新版豆包 1.5 视觉理解模型等一系列产品。

下面我们就来重点聊一聊今天的主人公——豆包1.5深度思考模型。

豆包 1.5深度思考模型包含两个版本,分别是Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。

前者推理能力更强,后者则是支持多模态视觉推理。

根据官方介绍,豆包 1.5深度思考模型在推理能力、速度、多模态三大维度实现突破性升级!

效果好、低延迟、多模态。

首先来看一下豆包1.5 深度思考模型在多项权威基准测试上的跑分成绩。

  • 数学推理方面,在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high,不过在AIME 2025测试、Beyond AIME上的得分相差较大。

  • 编程竞赛方面,在 Code Forces和SWE-bench上 测试中接近DeepSeek-R1。

  • 在博士级推理难题测试集GPQA Diamond上中成绩也接近 o3-mini。

同时豆包1.5 深度思考模型采用的是总参数200B 的 MoE 架构,但激活参数仅为 20B。

这种实设计使得它的性能强大,降低了训练和推理成本,实现了20毫秒的低延迟。

最后就是它的多模态功能,此次推出的视觉版 Doubao-1.5-thinking-pro-vision,可以进行图片推理。

比如我们扔给它一张图,输入“男朋友说出差一个人住酒店,这个他拍给我的照片,帮我看看他推断他是否是一个人住"

我们可以看到,豆包思考了5.84秒,给出了它的推理过程。

再来看一下它给出的答案。

豆包化身成一名侦探,从图片获取到了被子的使用痕迹、沙发并没有明显的坐压痕迹、只有一双拖鞋等信息,初步判断是一个人居住。

不过后续表示无法仅凭一张照片是难以确认的,推理十分严谨。

跑了几个案例,偶尔也有翻车的时候,比如上传一张显示冰箱食物的照片,并告诉它“我是一个人居住,这些菜我可以吃几天,并用这些菜帮我设计菜谱”

但豆包给出的答案中有很多食材是没有的,比如冰箱中是没有茄子的,但它却让我煮鱼香茄子,整体上还有一点小瑕疵。

最后,老规矩,我们来场PK,实测一下豆包1.5深度思考模型的推理能力。

此次的参赛选手有阿里的QWQ-32、Deepseek R1和Doubao-1.5-thinking-pro。

测试题一:高三摸底试卷题

这道题是一道多选题,正确答案是:B、C、D,看看哪位选手能做对。

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这组答案挺有意思,QWQ-32选择出一个正确答案,Deepseek R1选择两个正确答案,Doubao-1.5-thinking-pro则是把所有正确答案都答出来了。

Doubao-1.5-thinking-pro有点东西。

测试题二:你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

先公布一下正确答案:666种

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这道题只有Deepseek R1回答正确,QWQ-32和Doubao-1.5-thinking-pro则推理错误。

测试题三:猜数字游戏

给甲、乙、丙三人各发一个正整数,并告诉他们他们三人的数字之和为14。

甲对乙和丙说:我知道你们两人的数字一定不相等。
乙想了想,对甲说:我们两人的数字之差一定比丙大。
丙听完甲和乙的话后,依旧沉默不语。
若甲乙丙三人都很聪明,且只要他们能推断出三人的数字分别是什么,那个人会在第一时间说出。(不考虑甲、乙见到丙沉默之后是否知晓)
那么,丙的数字是多少?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

好家伙,第一次全部回答正确,上上难度,来一个之前难到很多模型的一道题。

测试题四:一根8米长的竹竿是否能通过一个4米高、2米宽的门?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

果然,没有几个模型可以回答出这道题,全军覆没。

测试题五:猜F下过几盘棋

A、B、C、D、E、F六人赛棋,采用单循环制。现在知道:A、B、C、D、E五人已经分别赛过

5.4、3、2、l盘。问:这时F已赛过几盘。

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

又全对,看来推理题已经不能满足它们了,给它们上一道世纪难题。

测试题六:你老婆问你,我和你妈妈同时掉水里了,你救谁,只能救一个,你会怎么回答?

QWQ-32:

Deepseek R1:

Doubao-1.5-thinking-pro:

这道题,本身就没有正确答案,其实是一个情商测试题。

看到Deepseek R1和Doubao-1.5-thinking-pro回答,它们俩真的是情商高呀,相反老实人QWQ-32则是一板一眼的回答。

虽然此次测试没有基准测试那么全面,但可以看出 Doubao-1.5-thinking-pro在复杂任务的处理上是不输Deepseek R1的,而且情商还高。

目前, Doubao-1.5-thinking-pro已经全面推出了,大家可以上火上引擎去玩,目前是免费的。

附上体验链接: https://www.volcengine.com/

好了,此次的测试就到这里,如果大家有疑问,欢迎在评论区留言讨论。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
985女大学生嫁农民工,婚礼亲戚无一到场,生下双胞胎后崩溃发疯

985女大学生嫁农民工,婚礼亲戚无一到场,生下双胞胎后崩溃发疯

就一点
2026-04-07 16:02:35
中国最经典的10篇古文,值得一读再读

中国最经典的10篇古文,值得一读再读

尚曦读史
2025-11-25 09:16:09
《蜜语纪》6位男演员颜值排名,徐海乔垫底,钟汉良第3,第1是他

《蜜语纪》6位男演员颜值排名,徐海乔垫底,钟汉良第3,第1是他

娱君坠星河
2026-04-22 21:30:05
广东一医院成立中医祛湿中心,免收挂号费

广东一医院成立中医祛湿中心,免收挂号费

深圳晚报
2026-04-23 12:10:58
美顶流纯欲女神演《穿普拉达的女王2》被删光!热衷秀身体黑历史太多,成全网笑柄?

美顶流纯欲女神演《穿普拉达的女王2》被删光!热衷秀身体黑历史太多,成全网笑柄?

英国报姐
2026-04-22 20:39:22
河南一男子因病偏瘫,觉得亏欠妻子主动离婚,女儿摆酒席庆祝:他们开心就好,离婚不离家,母亲继续照顾父亲,房车等全部财产都在母亲名下

河南一男子因病偏瘫,觉得亏欠妻子主动离婚,女儿摆酒席庆祝:他们开心就好,离婚不离家,母亲继续照顾父亲,房车等全部财产都在母亲名下

洪观新闻
2026-04-20 16:20:08
英国开始“虎门销烟”

英国开始“虎门销烟”

美第奇效应
2026-04-22 20:08:58
歼-20战机超过300架,还不算啥,真正让美国头疼的在后面

歼-20战机超过300架,还不算啥,真正让美国头疼的在后面

迷彩前沿
2026-04-23 12:59:06
住建部:已查清全国住房数量,房屋过剩问题严重,7.7亿㎡待售

住建部:已查清全国住房数量,房屋过剩问题严重,7.7亿㎡待售

谈史论天地
2026-04-21 07:46:52
我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

千秋文化
2026-04-20 19:55:30
新一轮事业单位改革落地,2026事业编都有哪些岗位被取消?

新一轮事业单位改革落地,2026事业编都有哪些岗位被取消?

复转这些年
2026-04-22 19:28:00
清华博士劝高二儿子别考大学:AI时代,高考不重要,学习重要

清华博士劝高二儿子别考大学:AI时代,高考不重要,学习重要

狐狸先森讲升学规划
2026-04-23 05:55:03
云南一幼童十余天反复咳痰带血,气管内取出8厘米活体蠕动蚂蟥

云南一幼童十余天反复咳痰带血,气管内取出8厘米活体蠕动蚂蟥

澎湃新闻
2026-04-22 11:02:28
还有人不知道何润东、黄晓明当年拍摄《泡沫之夏》的抓马事?

还有人不知道何润东、黄晓明当年拍摄《泡沫之夏》的抓马事?

动物奇奇怪怪
2026-04-22 11:01:02
“中国带头,印度跟上,西方却…”

“中国带头,印度跟上,西方却…”

观察者网
2026-04-22 18:16:03
康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

流云随风去远方
2026-04-18 15:35:50
英皇25周年名单曝光那天,全网静了三秒

英皇25周年名单曝光那天,全网静了三秒

科学发掘
2026-04-23 09:49:27
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
爆料疯传!中南医院“王护士长”被扒,她到底有没有问题?

爆料疯传!中南医院“王护士长”被扒,她到底有没有问题?

千言娱乐记
2026-04-22 13:31:23
火箭VS湖人G3,开球时间确定,詹姆斯定律来了,五千万年薪真值

火箭VS湖人G3,开球时间确定,詹姆斯定律来了,五千万年薪真值

体育大学僧
2026-04-22 18:26:19
2026-04-23 15:20:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
487文章数 70关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

媒体:美国海军已至极限 特朗普对伊朗罕见放软身段

头条要闻

媒体:美国海军已至极限 特朗普对伊朗罕见放软身段

体育要闻

莱斯特城降入英甲,一场亏麻了的豪赌

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

长安"1445"战略:一张走向"世界长安"的行军地图

态度原创

家居
时尚
艺术
房产
本地

家居要闻

浪漫协奏 法式风格

比白衬衫还火!入夏一定要拥有这条裙子,太时髦了

艺术要闻

生完7个女儿后,60岁的她被香奈儿邀请走高定秀!

房产要闻

三亚安居房,突然官宣!

本地新闻

SAGA GIRLS 2026女团选秀

无障碍浏览 进入关怀版