一手实测「豆包」深度思考模式：能超越 DeepSeek 吗？|算法|推理|deepseek

一手实测「豆包」深度思考模式：能超越 DeepSeek 吗？

2025-02-26 14:53:10　来源: 极客公园

北京举报

分享至

AI新浪潮观察

4min read

一手实测「豆包」深度思考模式：能超越 DeepSeek 吗？

连然2025/02/26

摘要

「元宝」给了「豆包」压力？

字节跳动旗下AI助手豆包正在小范围测试深度思考模型，据豆包相关负责人对极客公园表示，当前测试的是自家深度思考模型的不同实验版本。

另外有报道称，豆包正在测试的深度思考模型是基于豆包1.5基座模型研发。

其实此前在1月中旬，在豆包大模型团队发布豆包1.5Pro时，就已宣布了深度推理模型Doubao-1.5-pro-AS1-Preview的存在，并称「在完全不使用其他模型数据的条件下，通过 RL 算法的突破和工程优化，充分发挥 Test Time Scaling 的算力优势，完成了 RL Scaling ，研发了 Doubao 深度思考模式。」

极客公园实测发现，与豆包对话时后者生成的答案确实有开始显示推理过程的思维链，不过并不稳定出现。目前在豆包对话页面也尚未出现「深度思考」功能的入口。

从2月22日开始，豆包就被腾讯旗下的AI应用「腾讯元宝」压了一个身位，位居中国区苹果应用商店免费APP下载排行榜第三位（第一名还是deepseek)，在腾讯、百度多个应用接入deepseek后，字节豆包会如何处之就成为大家关注的焦点，如今答案正在显现。

1 豆包也上「深度思考」了？

最早具备深度思考能力的模型是OpenAI于2023年12月推出的o1系统，但其采用闭源策略而且仅限付费用户使用（每月200美元）。而DeepSeek则通过开源策略、成本降低以及交互创新，成为首个将深度思考能力大规模普及的AI公司——DeepSeek于2024年11月20日发布R1-Lite-Preview，成为国内首个对标o1的推理模型，并在2025年1月20日开源了R1模型。

R1模型的创新点在于：透明化思维链；展示完整的推理过程，包括自我质疑、假设验证等拟人化思考路径；低成本与开源；R1模型的推理成本仅为OpenAI o1的1/27，且代码完全开放。

DeepSeek的深度思考模式是一种通过显性化AI模型的推理过程来增强用户理解的功能，思维链（Chain of Thought, CoT）是支撑这一模式的核心技术。

简单来说，深度思考模式可以让用户直观看到模型的思考过程，这中间涉及思维链的展示，也就是COT（Chain of Thought）——思维链是模拟出来的，通过训练让模型输出中间步骤，比如自我质疑和反思，虽然只是文字序列，但看起来像人类的思考过程。

在深度思考模式下，用户不仅能看到AI的最终答案，还能观察到模型解决问题的完整逻辑链条，包括自我质疑、假设验证、错误修正等步骤。比如，在解决数学题时，模型会展示其从问题拆解、多方法验证到最终结论的全过程。

结合实时联网功能后，模型可抓取最新信息并进行逻辑整合。25日，Anthropic 发布了Claude 3.7 Sonnet 混合推理模型，阿里云 Qwen 推理模型「QwQ-Max 预览版」也亮相了，我让豆包评价了一下这两款推理模型：

可以看到豆包搜到9篇资料并进行了「深入思考」｜图片来源：极客公园

豆包展示了思考过程｜图片来源：极客公园

思考完毕的豆包输出了对这两款模型的评价｜图片来源：极客公园

思考过程的展示，让用户能够清晰地看到模型的推理步骤，而不仅仅是最终结果，这样一来，用户能够感受到模型的决策是有依据的，对模型输出的结果也会更有信任感。

2 豆包 vs deepseek，各有千秋

因为还在测试中，目前在豆包对话页面暂未显示「深度思考」功能的入口，输入消息时也没有像其他接入deepseek的产品一样有选择框可以选择是否开启「深度思考」功能，只是被灰度到的用户在问一些问题时会触发该功能。

我拿几个问题同时问了一下豆包和deepseek，看下两者在「深度思考」上会有哪些不同表现。

经典的数学问题：「9.11和9.9谁大」

先看下豆包的思考过程：

先说一下，在测试中，我发现豆包的「深度思考」模式出现得并不稳定，在第一次输入「9.11和9.9谁大」后，它只是简单地回应了我一下：

图片来源：极客公园

但在我又输入了一遍「9.11和9.9谁大」想试试会不会触发「深度思考」模式时，还真出现了：

豆包详细地考虑了为什么我会第二次问它这个问题……｜图片来源：极客公园

可以看到，虽然豆包意识到刚刚已经回答过我，但它还是贴心地考虑了多种也许我没理解前面答案的可能性，然后再给出判断方法最后输出结果。

再看一下deepseek的思考过程：

可以看出，虽然这是一个「看起来很简单」的问题，deepseek的思考过程同样很详细，要比豆包的思考过程更全面。

在这个简单数学题上，豆包和deepseek都遵循了小数比较的基本规则，并采用多种方法验证；不同点在于豆包注重教学引导和考虑到用户可能的误解，而DeepSeek则更现自我质疑和反复验证，思考过程更复杂。

哲学问题：意识的本质是什么？AI会获得自我意识吗？

先来看豆包的回答：

再来看看deepseek的回答：

可以看出，DeepSeek的回答分为科学理论、AI意识路径、伦理框架和解决路径四个部分，引用了神经科学、量子理论等，还提到了法律案例和具体数据；而豆包的回答更偏向哲学理论分类，列举了物理主义、二元论等，并讨论了支持与反对AI权利的观点，不过没有深入技术细节。

两者都承认意识本质尚无共识，也都提到了哲学和科学理论、伦理问题，不同则在于深度和技术细节，DeepSeek更技术导向，涉及神经形态计算、量子封印技术等，而豆包更侧重哲学流派和现有伦理指南。

通过本次实测，我们看到了豆包在深度思考模式上的初步表现，虽然目前处于测试阶段，且功能的稳定性和入口尚未完全开放，但其对推理过程的初步展示已为用户带来了更直观的理解路径。

字节跳动豆包deepseek

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.