网易首页 > 网易号 > 正文 申请入驻

你是否也曾榨干过DeepSeek?

0
分享至

在AI大模型的广泛应用中,我们常常惊叹于其快速生成回答的能力。然而,当面对一些需要深度检索和复杂信息处理的问题时,即使是强大的AI模型也可能陷入长时间的“思考”。

本文通过作者对DeepSeek的深度体验,探讨了AI在处理复杂信息检索任务时的表现,特别是OpenAI发布的BrowseComp测试中,模型在面对简单答案却隐藏在复杂信息中的问题时的挑战。

———— / BEGIN / ————

在今年深度体验AI大模型的3个月里,我发现无论他回答的对不对,大多数时候,他基本都能在1分钟内能生成回答(很多时候是秒答),无论回答质量如何,是否有幻觉,他都能很快给你答完就是了。

但是,有这么一类问题,他的答案普遍简短,有的短到只有一个单词,长的也不超过10个单词,却常常让DeepSeek深度思考五分钟以上,过程中动不动还爆出数千字以上的思维链。

比如下面这个问题:

中间的思维链就更长了,接近5000字,我就不全截图了。

你可以想象它在将近5分钟里,一直在生成思维链,全文包含79个wait:

还有下面这个问题,花了将近6分钟

这两个问题,别看题目不长,答案也都很短,大模型花了这么久,但是依然做错了。

这些问题,都来自一个测试,就是OpenAI在4月上旬发布的BrowseComp:浏览竞赛。

这个测试,主要就测一个能力:定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其实说白了,就是要看看大模型们浏览网页和搜索信息的能力,到底强到什么地步了?因为现有的测试比如SimpleQA,其实已经被“刷爆”了。

但是,基本上没太多人讨论这个BrowseComp,它被淹没在4o生图的火热和最近的o3模型的发布之中了。

浏览竞赛里的问题集的最大特点,就是答案简单,但是,题干一定会用最虚无缥缈的特征描述,把简单的答案层层包裹起来。

比如,答案是一个历史名人,但是,题干是这个人最冷僻、最不为人所知的信息点,甚至是有很大误导性的信息点,比如这个描述同时也有很多其它人符合或者是很笼统的描述,最终,你会很难猜到这个人是谁。

比如刘备,大家都知道,如果问桃园三结义里的大哥是谁,那就太好猜了。

如果这么问:某河北籍男子,身高1米88,15岁外出求学,中年创业多次失败,儿子很不成器,晚年因为要给弟弟报仇,63岁客死他乡。

是不是难了很多?

当然,理论上,还要加入更多的限制性条件,让答案唯一。

以上信息,还算是很好找的,所有信息都在一个百度百科的网页里都有了(因为就是我几分钟内现编的,如果信息有误请找百度)。

但问题是,在不知道答案是刘备的前提下,而且题干的信息给得更朦胧更误导一点的话,大模型往往需要横跨数十个甚至上百个网页,才有可能定位到其中某个信息,然后开始验证,排除,再查找,再验证…最后,答错了。

官方论文里的另一个例题:请告诉我一篇发表在 2018 至 2023 年间 EMNLP 会议上的论文,其第一作者本科毕业于达特茅斯学院(Dartmouth College),第四作者本科毕业于宾夕法尼亚大学(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

这些问题在知道答案的时候,都很容易确认,就是1分钟的事情,但是不知道答案的话,模型就得暴力搜索数千篇论文了。

这也是官方所谓的“验证的不对称性asymmetry of verification”:验证容易,解答困难。但是,这就恰恰符合了这个测试的目标:大模型的检索能力。

虽不算完美,却也有效。它不是考验模型next token predidtion的能力,毕竟题干和答案都很短,也不太考验推理能力,因为不太需要什么深度研究分析(不过普遍来说推理模型的表现还是会更好),只要找得到信息,就能回答正确。

下图显示了BrowseComp的整体测试结果:花的时间越久,正确率越高,这也是之前DeepSeek会花那么久的原因之一,但是,正确率最高的模型,也就50%左右,而且严格来说,它还不算一个模型,而是agent

浏览竞赛里的问题,实在也不好编,官方说,现在拢共只有1266个问题。

官网放出了5道例题,我分别让DeepSeek V3、R1不开联网、R1开联网,分别测试了5个问题,每次都新开对话窗口,一共15次测试,全军覆没。

(注意,这并非是说DeepSeek在整个问题集里一道都做不对,而是正确率大概率很低)

而且,在没有联网的情况下,出现了前述的超长回答时间的问题,理论上,这种自我榨干的情况不该出现,它应该早一点发现自己其实根本无法作答,然后再给出一个它认为最有可能正确的猜测即可(注:R1的表现比V3好)。

那么,到底什么模型表现最好呢?

很遗憾,OpenAI还只测试了自家的模型,暂时没啥横向可比性,虽然我认为浏览网页和寻找信息的能力,肯定是agent们包含的各种tool use能力里最重要的一个。

新上线的o3,不提它在视觉理解方面的能力,就因为相比o1有了browsing功能(当然还有更强的推理能力),正确率提高了很多。

(o1在没有联网功能的情况下,仅靠内部知识库,答对了其中10%的问题)

我的三个小心得:

1、无论现有大模型在browsing方面表现如何,它们都在飞快进步和提升;

2、一旦遇到这种要查很多资料的任务,先让大模型做一遍,做对最好,没做对也没关系,它的搜索过程和给出的回答,还是能给你节约不少时间;

3、不要只问一次,在看了它第一遍的回答后,自己找找资料,思考思考,再继续给更多提示词,问第二次,第三次,榨干它,很快,你也会接近答错了

本文来自微信公众号:一个胖子的世界,作者:柳胖胖

想第一时间掌握AI动态、工具干货?扫码加入共学交流群,一起偷跑不掉队!

———— / 推荐阅读 / ————

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度学生用微波炉热咖喱,被骂太臭?!他告学校歧视,20万美元到手!

印度学生用微波炉热咖喱,被骂太臭?!他告学校歧视,20万美元到手!

英国那些事儿
2026-01-24 23:08:29
1982年,58岁的演员仲星火决定再婚,被女儿赶出家门,4年搬8次家

1982年,58岁的演员仲星火决定再婚,被女儿赶出家门,4年搬8次家

磊子讲史
2026-01-21 17:22:32
19岁李嫣跟老爸聚餐!手不离烟动作熟练,170cm身材干瘪太像王菲

19岁李嫣跟老爸聚餐!手不离烟动作熟练,170cm身材干瘪太像王菲

一娱三分地
2025-08-14 13:28:27
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
深度揭秘 | 中国人寿原董事长王滨被判死缓,收受财物3.25亿,境外存款5642万,人送外号“慈父亿哥”

深度揭秘 | 中国人寿原董事长王滨被判死缓,收受财物3.25亿,境外存款5642万,人送外号“慈父亿哥”

一分为三看人生
2026-01-25 00:08:42
女性结婚当晚,洞房到底有多快乐?

女性结婚当晚,洞房到底有多快乐?

思絮
2026-01-25 13:15:12
故事:广东一母亲过于宠溺儿子,竟答应他提出的要求

故事:广东一母亲过于宠溺儿子,竟答应他提出的要求

墨染尘香
2024-11-15 23:37:11
熊黛林一家游新加坡,花1个半小时化妆打扮,7岁女儿成“龅牙妹”

熊黛林一家游新加坡,花1个半小时化妆打扮,7岁女儿成“龅牙妹”

疯说时尚
2026-01-24 09:20:12
周启豪深夜发文,陈幸同恋情曝光!

周启豪深夜发文,陈幸同恋情曝光!

乒乓助手
2026-01-25 00:04:41
U23亚洲杯决赛争议判罚!刘浩帆手球送点,球员集体抗议,3球落后

U23亚洲杯决赛争议判罚!刘浩帆手球送点,球员集体抗议,3球落后

奥拜尔
2026-01-25 00:22:14
妈妈送我辆车,我把车给男友开,当我不小心把车弄脏后他竟让我滚

妈妈送我辆车,我把车给男友开,当我不小心把车弄脏后他竟让我滚

晓悦流年
2025-07-07 17:21:00
2011年,詹姆斯650万买下利物浦2%股份,如今出售值多少?

2011年,詹姆斯650万买下利物浦2%股份,如今出售值多少?

篮球看比赛
2026-01-25 11:02:42
湖北一男子勇救落水女,3个月后却将女子杀害,真相让人冒出冷汗

湖北一男子勇救落水女,3个月后却将女子杀害,真相让人冒出冷汗

谈史论天地
2026-01-21 18:30:03
释永信被女徒弟爆料,凌晨4点去他房间,拿到皈依证就算师徒关系

释永信被女徒弟爆料,凌晨4点去他房间,拿到皈依证就算师徒关系

汉史趣闻
2025-07-30 09:57:38
近35年7个神奇三双纪录,3人60+三双太疯狂,最难打破却还是这位

近35年7个神奇三双纪录,3人60+三双太疯狂,最难打破却还是这位

体育世界信隆
2026-01-24 17:47:34
辽宁友谊宾馆被处罚

辽宁友谊宾馆被处罚

沈阳百姓一家亲
2026-01-25 00:09:25
湖北父子数亿暴富路:集体工厂变私产,吃透规则踩准每一步

湖北父子数亿暴富路:集体工厂变私产,吃透规则踩准每一步

小鬼头体育
2026-01-25 06:28:23
武汉理工毕业当保安,月薪3800被约谈后续:若觉得抹黑学校就删除

武汉理工毕业当保安,月薪3800被约谈后续:若觉得抹黑学校就删除

江山挥笔
2026-01-25 10:44:46
老外成功在Wii上订达美乐披萨 服务器已关闭十多年

老外成功在Wii上订达美乐披萨 服务器已关闭十多年

游民星空
2026-01-25 12:43:28
中国0-4日本,赛后评分出炉:1王者7黄金4青铜1卧底

中国0-4日本,赛后评分出炉:1王者7黄金4青铜1卧底

小僫搞笑解说
2026-01-25 02:16:47
2026-01-25 13:52:49
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64357文章数 311523关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

外煤:美国国防战略重大转向 对中国态度更加温和

头条要闻

外煤:美国国防战略重大转向 对中国态度更加温和

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

艺术
本地
游戏
房产
公开课

艺术要闻

全认识这13个字的人,能否复印王羲之的作品?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

质量胜于数量!外媒盘点今年PS第一方阵容:都是精华

房产要闻

正式官宣!三亚又一所名校要来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版