网易首页 > 网易号 > 正文 申请入驻

你是否也曾榨干过DeepSeek?

0
分享至

在AI大模型的广泛应用中,我们常常惊叹于其快速生成回答的能力。然而,当面对一些需要深度检索和复杂信息处理的问题时,即使是强大的AI模型也可能陷入长时间的“思考”。

本文通过作者对DeepSeek的深度体验,探讨了AI在处理复杂信息检索任务时的表现,特别是OpenAI发布的BrowseComp测试中,模型在面对简单答案却隐藏在复杂信息中的问题时的挑战。

———— / BEGIN / ————

在今年深度体验AI大模型的3个月里,我发现无论他回答的对不对,大多数时候,他基本都能在1分钟内能生成回答(很多时候是秒答),无论回答质量如何,是否有幻觉,他都能很快给你答完就是了。

但是,有这么一类问题,他的答案普遍简短,有的短到只有一个单词,长的也不超过10个单词,却常常让DeepSeek深度思考五分钟以上,过程中动不动还爆出数千字以上的思维链。

比如下面这个问题:

中间的思维链就更长了,接近5000字,我就不全截图了。

你可以想象它在将近5分钟里,一直在生成思维链,全文包含79个wait:

还有下面这个问题,花了将近6分钟

这两个问题,别看题目不长,答案也都很短,大模型花了这么久,但是依然做错了。

这些问题,都来自一个测试,就是OpenAI在4月上旬发布的BrowseComp:浏览竞赛。

这个测试,主要就测一个能力:定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其实说白了,就是要看看大模型们浏览网页和搜索信息的能力,到底强到什么地步了?因为现有的测试比如SimpleQA,其实已经被“刷爆”了。

但是,基本上没太多人讨论这个BrowseComp,它被淹没在4o生图的火热和最近的o3模型的发布之中了。

浏览竞赛里的问题集的最大特点,就是答案简单,但是,题干一定会用最虚无缥缈的特征描述,把简单的答案层层包裹起来。

比如,答案是一个历史名人,但是,题干是这个人最冷僻、最不为人所知的信息点,甚至是有很大误导性的信息点,比如这个描述同时也有很多其它人符合或者是很笼统的描述,最终,你会很难猜到这个人是谁。

比如刘备,大家都知道,如果问桃园三结义里的大哥是谁,那就太好猜了。

如果这么问:某河北籍男子,身高1米88,15岁外出求学,中年创业多次失败,儿子很不成器,晚年因为要给弟弟报仇,63岁客死他乡。

是不是难了很多?

当然,理论上,还要加入更多的限制性条件,让答案唯一。

以上信息,还算是很好找的,所有信息都在一个百度百科的网页里都有了(因为就是我几分钟内现编的,如果信息有误请找百度)。

但问题是,在不知道答案是刘备的前提下,而且题干的信息给得更朦胧更误导一点的话,大模型往往需要横跨数十个甚至上百个网页,才有可能定位到其中某个信息,然后开始验证,排除,再查找,再验证…最后,答错了。

官方论文里的另一个例题:请告诉我一篇发表在 2018 至 2023 年间 EMNLP 会议上的论文,其第一作者本科毕业于达特茅斯学院(Dartmouth College),第四作者本科毕业于宾夕法尼亚大学(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

这些问题在知道答案的时候,都很容易确认,就是1分钟的事情,但是不知道答案的话,模型就得暴力搜索数千篇论文了。

这也是官方所谓的“验证的不对称性asymmetry of verification”:验证容易,解答困难。但是,这就恰恰符合了这个测试的目标:大模型的检索能力。

虽不算完美,却也有效。它不是考验模型next token predidtion的能力,毕竟题干和答案都很短,也不太考验推理能力,因为不太需要什么深度研究分析(不过普遍来说推理模型的表现还是会更好),只要找得到信息,就能回答正确。

下图显示了BrowseComp的整体测试结果:花的时间越久,正确率越高,这也是之前DeepSeek会花那么久的原因之一,但是,正确率最高的模型,也就50%左右,而且严格来说,它还不算一个模型,而是agent

浏览竞赛里的问题,实在也不好编,官方说,现在拢共只有1266个问题。

官网放出了5道例题,我分别让DeepSeek V3、R1不开联网、R1开联网,分别测试了5个问题,每次都新开对话窗口,一共15次测试,全军覆没。

(注意,这并非是说DeepSeek在整个问题集里一道都做不对,而是正确率大概率很低)

而且,在没有联网的情况下,出现了前述的超长回答时间的问题,理论上,这种自我榨干的情况不该出现,它应该早一点发现自己其实根本无法作答,然后再给出一个它认为最有可能正确的猜测即可(注:R1的表现比V3好)。

那么,到底什么模型表现最好呢?

很遗憾,OpenAI还只测试了自家的模型,暂时没啥横向可比性,虽然我认为浏览网页和寻找信息的能力,肯定是agent们包含的各种tool use能力里最重要的一个。

新上线的o3,不提它在视觉理解方面的能力,就因为相比o1有了browsing功能(当然还有更强的推理能力),正确率提高了很多。

(o1在没有联网功能的情况下,仅靠内部知识库,答对了其中10%的问题)

我的三个小心得:

1、无论现有大模型在browsing方面表现如何,它们都在飞快进步和提升;

2、一旦遇到这种要查很多资料的任务,先让大模型做一遍,做对最好,没做对也没关系,它的搜索过程和给出的回答,还是能给你节约不少时间;

3、不要只问一次,在看了它第一遍的回答后,自己找找资料,思考思考,再继续给更多提示词,问第二次,第三次,榨干它,很快,你也会接近答错了

本文来自微信公众号:一个胖子的世界,作者:柳胖胖

想第一时间掌握AI动态、工具干货?扫码加入共学交流群,一起偷跑不掉队!

———— / 推荐阅读 / ————

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《镖人》垫底了,吴京不敌张艺谋和沈腾,400亿票房梦要碎了

《镖人》垫底了,吴京不敌张艺谋和沈腾,400亿票房梦要碎了

影视高原说
2026-01-25 10:05:47
移居格陵兰!菲律宾人五年增长超四倍,成为该地第三大族群

移居格陵兰!菲律宾人五年增长超四倍,成为该地第三大族群

红星新闻
2026-01-24 19:30:49
迈阿密国际新年首战惨败,梅西踢了63分钟

迈阿密国际新年首战惨败,梅西踢了63分钟

星耀国际足坛
2026-01-25 12:08:07
外媒解析杨瀚森困境:关注度只保证不被裁 决策慢半秒就会受惩罚

外媒解析杨瀚森困境:关注度只保证不被裁 决策慢半秒就会受惩罚

罗说NBA
2026-01-25 20:41:55
Lululemon新款瑜伽裤因易走光下架后重新上架,中国电商渠道暂未销售,创始人发声:公司已经完全迷失方向

Lululemon新款瑜伽裤因易走光下架后重新上架,中国电商渠道暂未销售,创始人发声:公司已经完全迷失方向

鲁中晨报
2026-01-24 21:59:13
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
国防部新闻发言人蒋斌就近期涉军问题发布消息

国防部新闻发言人蒋斌就近期涉军问题发布消息

中国军视网
2026-01-24 15:55:20
43岁张杰正式宣布退出!原因令人唏嘘,担心的事还是发生了

43岁张杰正式宣布退出!原因令人唏嘘,担心的事还是发生了

往史过眼云烟
2026-01-25 19:29:33
2-1惊险逆转!王欣瑜再进决赛冲冠:中国莎娃又美又能打

2-1惊险逆转!王欣瑜再进决赛冲冠:中国莎娃又美又能打

李喜林篮球绝杀
2026-01-10 17:21:22
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
王钰栋,欧洲球探不推荐

王钰栋,欧洲球探不推荐

中场阴谋家
2026-01-25 17:33:51
连续2年输同一人!梅总吞蛋出局,20岁新星首进大满贯八强

连续2年输同一人!梅总吞蛋出局,20岁新星首进大满贯八强

全景体育V
2026-01-25 17:19:06
攀岩大神成功登顶台北101大楼,无保护自由独攀,耗时仅1小时35分

攀岩大神成功登顶台北101大楼,无保护自由独攀,耗时仅1小时35分

译言
2026-01-25 11:38:32
政策重磅利好:商业航天迎来重组大年!

政策重磅利好:商业航天迎来重组大年!

风风顺
2026-01-25 16:04:38
留学圈黑话“三通一达”火了,陪读妈妈风评反转,赔了夫人又损女

留学圈黑话“三通一达”火了,陪读妈妈风评反转,赔了夫人又损女

妍妍教育日记
2026-01-23 19:20:29
刘亦菲现身哈尔滨,带火了“东北姨太风”:上半身打麻将,下半身跳芭蕾,美到落泪!

刘亦菲现身哈尔滨,带火了“东北姨太风”:上半身打麻将,下半身跳芭蕾,美到落泪!

黎兜兜
2026-01-24 21:21:05
随着拜仁1-2,多特蒙德3-0,德甲最新积分榜出炉:争冠悬念再起

随着拜仁1-2,多特蒙德3-0,德甲最新积分榜出炉:争冠悬念再起

侧身凌空斩
2026-01-25 07:00:32
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
范元甄:曾是红极一时的“延安四美”,却因“太聪明”输掉了一生

范元甄:曾是红极一时的“延安四美”,却因“太聪明”输掉了一生

干史人
2026-01-23 11:48:39
2026 U23亚洲杯最佳阵容揭晓:中国3人入选,日本成最大赢家

2026 U23亚洲杯最佳阵容揭晓:中国3人入选,日本成最大赢家

行走的知识库
2026-01-25 01:43:38
2026-01-25 21:15:00
运营派
运营派
互联网运营学习交流平台
1562文章数 28关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

教育
游戏
数码
时尚
本地

教育要闻

小学霸发来的题,不知道到底是考验我,还是向我求教

《鬼武者》25周年纪念贺图!这些角色你能认全吗?

数码要闻

网购微星RTX 5090显卡却收到浴巾裹石头,网友分享被骗经历

新不如旧!这4件时髦“旧衣服”今年太火了

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版