你是否也曾榨干过DeepSeek？|题干|正确率|大模型|deepseek

你是否也曾榨干过DeepSeek？

2025-04-25 07:49:12　来源: 运营派

广东举报

分享至

在AI大模型的广泛应用中，我们常常惊叹于其快速生成回答的能力。然而，当面对一些需要深度检索和复杂信息处理的问题时，即使是强大的AI模型也可能陷入长时间的“思考”。

本文通过作者对DeepSeek的深度体验，探讨了AI在处理复杂信息检索任务时的表现，特别是OpenAI发布的BrowseComp测试中，模型在面对简单答案却隐藏在复杂信息中的问题时的挑战。

———— / BEGIN / ————

在今年深度体验AI大模型的3个月里，我发现无论他回答的对不对，大多数时候，他基本都能在1分钟内能生成回答（很多时候是秒答），无论回答质量如何，是否有幻觉，他都能很快给你答完就是了。

但是，有这么一类问题，他的答案普遍简短，有的短到只有一个单词，长的也不超过10个单词，却常常让DeepSeek深度思考五分钟以上，过程中动不动还爆出数千字以上的思维链。

比如下面这个问题：

中间的思维链就更长了，接近5000字，我就不全截图了。

你可以想象它在将近5分钟里，一直在生成思维链，全文包含79个wait：

还有下面这个问题，花了将近6分钟

这两个问题，别看题目不长，答案也都很短，大模型花了这么久，但是依然做错了。

这些问题，都来自一个测试，就是OpenAI在4月上旬发布的BrowseComp：浏览竞赛。

这个测试，主要就测一个能力：定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其实说白了，就是要看看大模型们浏览网页和搜索信息的能力，到底强到什么地步了？因为现有的测试比如SimpleQA，其实已经被“刷爆”了。

但是，基本上没太多人讨论这个BrowseComp，它被淹没在4o生图的火热和最近的o3模型的发布之中了。

浏览竞赛里的问题集的最大特点，就是答案简单，但是，题干一定会用最虚无缥缈的特征描述，把简单的答案层层包裹起来。

比如，答案是一个历史名人，但是，题干是这个人最冷僻、最不为人所知的信息点，甚至是有很大误导性的信息点，比如这个描述同时也有很多其它人符合或者是很笼统的描述，最终，你会很难猜到这个人是谁。

比如刘备，大家都知道，如果问桃园三结义里的大哥是谁，那就太好猜了。

如果这么问：某河北籍男子，身高1米88，15岁外出求学，中年创业多次失败，儿子很不成器，晚年因为要给弟弟报仇，63岁客死他乡。

是不是难了很多？

当然，理论上，还要加入更多的限制性条件，让答案唯一。

以上信息，还算是很好找的，所有信息都在一个百度百科的网页里都有了（因为就是我几分钟内现编的，如果信息有误请找百度）。

但问题是，在不知道答案是刘备的前提下，而且题干的信息给得更朦胧更误导一点的话，大模型往往需要横跨数十个甚至上百个网页，才有可能定位到其中某个信息，然后开始验证，排除，再查找，再验证…最后，答错了。

官方论文里的另一个例题：请告诉我一篇发表在 2018 至 2023 年间 EMNLP 会议上的论文，其第一作者本科毕业于达特茅斯学院（Dartmouth College），第四作者本科毕业于宾夕法尼亚大学（University of Pennsylvania）。

答案：Frequency Effects on Syntactic Rule Learning in Transformers，EMNLP 2021

这些问题在知道答案的时候，都很容易确认，就是1分钟的事情，但是不知道答案的话，模型就得暴力搜索数千篇论文了。

这也是官方所谓的“验证的不对称性asymmetry of verification”：验证容易，解答困难。但是，这就恰恰符合了这个测试的目标：大模型的检索能力。

虽不算完美，却也有效。它不是考验模型next token predidtion的能力，毕竟题干和答案都很短，也不太考验推理能力，因为不太需要什么深度研究分析（不过普遍来说推理模型的表现还是会更好），只要找得到信息，就能回答正确。

下图显示了BrowseComp的整体测试结果：花的时间越久，正确率越高，这也是之前DeepSeek会花那么久的原因之一，但是，正确率最高的模型，也就50%左右，而且严格来说，它还不算一个模型，而是agent

浏览竞赛里的问题，实在也不好编，官方说，现在拢共只有1266个问题。

官网放出了5道例题，我分别让DeepSeek V3、R1不开联网、R1开联网，分别测试了5个问题，每次都新开对话窗口，一共15次测试，全军覆没。

（注意，这并非是说DeepSeek在整个问题集里一道都做不对，而是正确率大概率很低）

而且，在没有联网的情况下，出现了前述的超长回答时间的问题，理论上，这种自我榨干的情况不该出现，它应该早一点发现自己其实根本无法作答，然后再给出一个它认为最有可能正确的猜测即可（注：R1的表现比V3好）。

那么，到底什么模型表现最好呢？

很遗憾，OpenAI还只测试了自家的模型，暂时没啥横向可比性，虽然我认为浏览网页和寻找信息的能力，肯定是agent们包含的各种tool use能力里最重要的一个。

新上线的o3，不提它在视觉理解方面的能力，就因为相比o1有了browsing功能（当然还有更强的推理能力），正确率提高了很多。

（o1在没有联网功能的情况下，仅靠内部知识库，答对了其中10%的问题）

我的三个小心得：

1、无论现有大模型在browsing方面表现如何，它们都在飞快进步和提升；

2、一旦遇到这种要查很多资料的任务，先让大模型做一遍，做对最好，没做对也没关系，它的搜索过程和给出的回答，还是能给你节约不少时间；

3、不要只问一次，在看了它第一遍的回答后，自己找找资料，思考思考，再继续给更多提示词，问第二次，第三次，榨干它，很快，你也会接近答错了

本文来自微信公众号：一个胖子的世界，作者：柳胖胖

想第一时间掌握AI动态、工具干货？扫码加入共学交流群，一起偷跑不掉队！

———— / 推荐阅读 / ————

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.