网易首页 > 网易号 > 正文 申请入驻

你是否也曾榨干过DeepSeek?

0
分享至

在今年深度体验AI大模型的3个月里,我发现无论他回答的对不对,大多数时候,他基本都能在1分钟内能生成回答(很多时候是秒答),无论回答质量如何,是否有幻觉,他都能很快给你答完就是了。

但是,有这么一类问题,他的答案普遍简短,有的短到只有一个单词,长的也不超过10个单词,却常常让 DeepSeek深度思考五分钟以上,过程中动不动还爆出数千字以上的思维链。

比如下面这个问题:

中间的思维链就更长了,接近5000字,我就不全截图了,你可以想象它在将近5分钟里,一直在生成思维链,全文包含79个wait:

还有下面这个问题,花了将近6分钟

这两个问题,别看题目不长,答案也都很短,大模型花了这么久,但是依然做错了。

这些问题,都来自一个测试,就是OpenAI在4月上旬发布的BrowseCamp,浏览竞赛。

这个测试,主要就测一个能力:定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其实说白了,就是要看看大模型们浏览网页和搜索信息的能力,到底强到什么地步了?因为现有的测试比如SimpleQA,其实已经被“刷爆”了。

但是,基本上没太多人讨论这个 BrowseCamp,它被淹没在4o生图的火热和最近的o3模型的发布之中了。

浏览竞赛里的问题集的最大特点,就是答案简单,但是,题干一定会用最虚无缥缈的特征描述,把简单的答案层层包裹起来。

比如,答案是一个历史名人,但是,题干是这个人最冷僻、最不为人所知的信息点,甚至是有很大误导性的信息点,比如这个描述同时也有很多其它人符合或者是很笼统的描述,最终,你会很难猜这个人是谁。

比如刘备,大家都知道,如果问桃园三结义里的大哥是谁,那就太好猜了。

如果这么问:某河北籍男子,身高1米88,15岁外出求学,中年创业多次失败,儿子很不成器,晚年因为要给弟弟报仇,63岁客死他乡。

是不是难了很多?

当然,理论上,还要加入更多的限制性条件,让答案唯一。

以上信息,还算是很好找的,所有信息都在一个百度百科的网页里都有了(因为就是我几分钟内现编的,如果信息有误请找百度)。

但问题是,在不知道答案是刘备的前提下,而且题干的信息给得更朦胧更误导一点的话,大模型往往需要横跨数十个甚至上百个网页,才有可能定位到其中某个信息,然后开始验证,排除,再查找,再验证...最后,答错了。

官方论文里的另一个例题:请告诉我一篇发表在 2018 至 2023 年间 EMNLP 会议上的论文,其第一作者本科毕业于达特茅斯学院(Dartmouth College),第四作者本科毕业于宾夕法尼亚大学(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

这些问题在知道答案的时候,都很容易确认,就是1分钟的事情,但是不知道答案的话,模型就得暴力搜索数千篇论文了。

这是官方所谓的“验证的不对称性 asymmetry of verification ”:验证 容易,解答困难。但是,这就恰恰符合了这个测试的目标:大模型的检索能力。

虽不完美,却也有效。它不是考验 next token predidtion的能力,毕竟题干和答案都很短,也不太考验推理能力,因为不太需要什么深度研究分析(不过 普遍来说推理模型的表现还是会更好),只要找得到信息,就能回答正确。

下图显示了 BrowseCamp的整体测试结果:花的时间越久,正确率越高,这也是之前DeepSeek会花那么久的原因之一,但是,正确率最高的模型,也就50%左右,而且严格来说,它还不算一个模型,而是agent

浏览竞赛里的问题,实在也不好编,官方说,现在拢共只有1266个问题。官网放出了5道例题,我分别让DeepSeek V3、R1不开联网、R1开联网,分别测试了5个问题,每次都新开对话窗口,一共15次测试,全军覆没。(注意,这并非是说 DeepSeek一道都做不对,而是正确率大概率很低)

而且,在没有联网的情况下,出现了前述 的超长回答时间的问题,理论上,这种自我榨干的情况不该出现,它应该早一点发现自己其实根本无法作答,然后再给出一个它认为最有可能正确的猜测即可(注:R1的表现比V3好)。

那么,到底什么模型表现最好呢?很遗憾,OpenAI还只测试了自家的模型,暂时没啥横向可比性,虽然我认为浏览网页和寻找信息的能力,肯定是agent们包含的各种 tool use能力里最重要的一个。

新上线的o3,不提它在视觉理解方面的能力,就因为相比o1有了browsing功能(当然还有更强的推理能力),正确率提高了很多。(o1在没有联网功能的情况下,仅靠内部知识库,答对了其中10%的问题)

我的三个小心得:

1、无论现有大模型在browsing方面表现如何,它们都在飞快进步和提升;

2、一旦遇到这种要查很多资料的任务,先让大模型做一遍, 做对最好,没做对也没关系,它的搜索过程和给出的回答,还是能给你节约不少时间;

3、不要只问一次,在看了它第一遍的回答后,自己找找资料,思考思考,再继续给更多提示词,问第二次,第三次,榨干它,很快,你也会接近答错了

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵爸爸支持耀明糖厂,主动购买500吨糖:想为农民出一份力;此前该厂因收购滞销果蔗榨糖被称为“最暖糖厂”

全红婵爸爸支持耀明糖厂,主动购买500吨糖:想为农民出一份力;此前该厂因收购滞销果蔗榨糖被称为“最暖糖厂”

大象新闻
2026-04-29 11:48:04
1949年毛泽东访苏,询问礼品准备,杨尚昆:江青同志帮我们一起选

1949年毛泽东访苏,询问礼品准备,杨尚昆:江青同志帮我们一起选

楚风说历史
2026-04-30 08:50:03
骑士迎天王山之战!哈登力争告别拉胯,携手米切尔主场冲赛点

骑士迎天王山之战!哈登力争告别拉胯,携手米切尔主场冲赛点

体坛小李
2026-04-29 18:56:00
扎心了!顶尖名校一年招5000名博士,网友:送外卖都是博士了

扎心了!顶尖名校一年招5000名博士,网友:送外卖都是博士了

糖逗在娱乐
2026-04-30 02:30:10
46岁汤唯宣布怀二胎:“家里要多匹小马驹了,都很期待”,与韩国导演金泰勇结婚12年,已育有一女

46岁汤唯宣布怀二胎:“家里要多匹小马驹了,都很期待”,与韩国导演金泰勇结婚12年,已育有一女

极目新闻
2026-04-29 18:20:48
人民日报:换主食抗炎6周见效!研究发现:肠道菌群是“调节器”

人民日报:换主食抗炎6周见效!研究发现:肠道菌群是“调节器”

肠菌科普
2026-04-29 09:17:59
懒熊体育:世界杯中国内地版权尚未落地;FIFA的估价与谈判方有分歧

懒熊体育:世界杯中国内地版权尚未落地;FIFA的估价与谈判方有分歧

懂球帝
2026-04-29 22:14:07
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
落差太大!黄龙球场草皮严重破损,浙江队主场快成中超菜地

落差太大!黄龙球场草皮严重破损,浙江队主场快成中超菜地

老淸医学科普
2026-04-29 03:54:27
广西一制糖公司放假94天,从五一休到八月初,网友:这是什么新型招聘手段吗?能投简历吗

广西一制糖公司放假94天,从五一休到八月初,网友:这是什么新型招聘手段吗?能投简历吗

极目新闻
2026-04-29 14:06:55
特朗普:美国准备长期封锁伊朗

特朗普:美国准备长期封锁伊朗

新华社
2026-04-29 09:13:29
四库翻袋引爆全场!43岁墨菲提前庆祝+表情疑挑衅 赵心童面无表情

四库翻袋引爆全场!43岁墨菲提前庆祝+表情疑挑衅 赵心童面无表情

风过乡
2026-04-30 08:08:26
男人寿命短,根源从来不在烟酒,性学家一语戳破真相

男人寿命短,根源从来不在烟酒,性学家一语戳破真相

坠入二次元的海洋
2026-04-30 02:58:01
真的被谢霆锋状态惊到了!你们觉得呢?这个年纪,发量还巨好

真的被谢霆锋状态惊到了!你们觉得呢?这个年纪,发量还巨好

东方不败然多多
2026-04-29 20:02:12
中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

千秋文化
2026-04-27 20:01:18
新片被撤资! 陈思诚得罪了两位喜剧大佬,却给了蒋龙一个翻红机会

新片被撤资! 陈思诚得罪了两位喜剧大佬,却给了蒋龙一个翻红机会

陈意小可爱
2026-04-29 18:21:50
人社部4月28日发布会:养老金调整通知公布情况如何

人社部4月28日发布会:养老金调整通知公布情况如何

流年恰似繁花汐
2026-04-28 21:05:03
央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

人间无味啊
2026-03-13 03:17:17
乌媒:中国拆除所有俄罗斯部件,将“现代”级改造为自己的驱逐舰

乌媒:中国拆除所有俄罗斯部件,将“现代”级改造为自己的驱逐舰

素衣读史
2026-04-28 22:01:12
下课迅速再上岗!切尔西弃帅成热门人选,四大名帅同台竞争

下课迅速再上岗!切尔西弃帅成热门人选,四大名帅同台竞争

一隅非生
2026-04-30 06:55:20
2026-04-30 09:44:49
柳胖胖 incentive-icons
柳胖胖
36氪、虎嗅、钛媒体专栏作者
225文章数 389关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

牛弹琴:特朗普自以为找到妙计对伊放话 伊朗估计气懵了

头条要闻

牛弹琴:特朗普自以为找到妙计对伊放话 伊朗估计气懵了

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

一场20年级别的供应危机,在眼前了!

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

手机
旅游
健康
公开课
军事航空

手机要闻

消息称苹果iOS 27版相机新增Siri模式,AI记录食品标签等

旅游要闻

光影映太行 文旅焕新彩——河北涉县“五一”主题文旅活动重磅启幕

干细胞治烧烫伤能用了么?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版