网易首页 > 网易号 > 正文 申请入驻

1M上下文不是越大越好:DeepSeek V4炸出了一个行业集体盲区

0
分享至

2026年4月24日,DeepSeek V4发布,1M token上下文成为标配。

然后,开发者社区开始做两件事:

第一,激动地测试90万token代码库全局重构能力,测试各种"大海捞针"场景;第二,做完之后开始冷静地问同一个问题——"它真的记得住吗?"

MRCR 1M大海捞针测试的结果,揭开了这场狂欢里最不体面的那块遮羞布:V4-Pro得分83.5,Claude Opus 4.7得分92.9。同样的上下文窗口,差了将近10个百分点。

这意味着什么?意味着1M token的竞争,可能从一开始就打偏了。

先说清楚什么是大海捞针测试。

你把一根"针"(一段特定的、几乎不可能自然出现的信息,比如"在第84237个token处有一个香蕉")埋进大海(一段100万token的随机文本)中,然后问模型:你找到那根针了吗?

这个测试衡量的是模型在超长上下文中精准定位关键信息的能力,而不是"读了多长的文字"。

大海捞针测试之所以重要,是因为它直接反映了Agent场景里的核心需求:当你让AI在50万行代码里找一个Bug,它能不能真的找到,而不是在"假装找"?

V4在编程Benchmark上碾压Opus:LiveCodeBench 93.5 vs 88.8,Codeforces 3206 vs 3168,IMO数学89.8% vs 75.3%(反超14.5分)。但同样的V4,在MRCR 1M大海捞针上输了9.4分。

代码能力、数学推理、Agent工具调用——这些V4全面逼近或者超越了Opus。但在最核心的长上下文任务上,它还差一口气。

这是一个被大多数讨论忽略的关键信息。

行业有一个默认假设:上下文窗口越长,模型能力越强。

这个假设在2019-2022年是成立的——那时候128K就是极限,能处理128K的模型确实比64K的强。但2026年的今天,主流旗舰模型的上下文窗口都在1M以上,这个假设开始变得可疑。

真正的问题不是"能读多长",而是"读进去之后能用多准"。

这是一个根本不同的能力维度,却被大多数横向对比和选购指南给忽略了。大家还在比"支持多少token",但真正应该比的是"100万token里,你能不能找到那根针"。

就像买硬盘:容量2TB不代表读写速度快。上下文窗口是"容量",精准召回率才是"速度"。

DeepSeek V4用CSA+HCA混合稀疏注意力,把1M token的KV缓存压缩到了V3.2的10%,推理算力降至27%。这是工程上的重大突破——不是靠硬件堆,是靠算法效率。

但这个突破解决的是"能读多长"的问题,不是"读了之后能记住多少"的问题。

CSA+HCA的核心逻辑是:近处token用完整的注意力(看得清楚),远处token用压缩后的稀疏注意力(看得全面)。这在大多数任务上工作得很好——比如总结一篇长文、回答一个需要跨越全文的问题。

但大海捞针场景里,那根"针"可能出现在1M token中的任何一个位置,概率均等。在远处的token上,V4用的是高度压缩的稀疏注意力——这意味着远端信息在注意力计算中的权重,被系统性地压低了。

这就是为什么在精准定位任务上,V4与Opus存在差距。Opus没有用V4那种激进的稀疏压缩策略,它靠的是更大的KV缓存和更稠密的注意力计算,换来了更高的召回精度。

效率与精度,是长上下文设计中一对不可调和的矛盾。

V4选择了效率,Opus选择了精度。两者都是合理的技术路线,只是适合的场景不同。

这里出现了一个很有意思的行业悖论:

大部分用户在选购模型时,根本用不到1M token的精准召回能力。

普通用户的使用场景——写邮件、做摘要、代码补全——需要的上下文长度通常在10万token以内,128K的窗口已经绑绑有余。V4的1M token能力,对这类用户来说几乎是冗余的。

真正需要1M token精准召回的场景,是代码库级重构、大型法律文档分析、科研文献综述、多文件代码审查——这类任务的用户群体,在整个大模型用户中的占比,可能不超过5%。

也就是说,95%的用户在为那5%的能力支付溢价——无论这个溢价是价格上的,还是技术路线选择上的。

这个悖论不只是DeepSeek的问题。Claude Opus 4.7的1M token正式版、Gemini 2.0 Pro的2M token——所有这些都在强调"我能读多长"。但没人在说"我在这么长的文本里,能多准确地找到你需要的那句话"。

那么,1M上下文的实际价值在哪里?

对于那5%的深度用户,1M上下文确实有意义,但意义不在于"读得多",而在于能够进行全局推理

当你把整个50万行的代码库喂给V4,它能够理解全局架构、追踪跨文件的依赖关系、在多步骤重构中保持一致性——这是128K窗口做不到的事情,因为它不够同时容纳足够多的上下文来理解全局结构。

MRCR大海捞针只是评估模型能力的一个维度,不是全部。V4在编程和数学上的碾压性优势,本身就建立在它能处理超长代码上下文的基础上。

问题是:这个优势能持续多久?

Claude Opus 4.7的1M正式版发布于2026年4月16日——比V4早8天。Anthropic正在快速缩短与DeepSeek在长上下文能力上的差距。V4先发,不代表V4能一直领先。

DeepSeek V4发布后的社区反应很有意思:很多人做了大海捞针测试,发现V4在远端召回上不如Opus,然后开始怀疑V4是否真的值得用。

这个怀疑有合理性,但也有盲区。

合理性在于:如果你需要的正是精准召回能力,Opus确实更可靠。

盲区在于:大多数用户根本不知道自己的使用场景到底需要"读得多"还是"记得准"——他们只是被"1M上下文"这个数字吸引,然后假设这代表"最强"。

这种认知偏差,恰恰是行业在向用户兜售"上下文窗口军备竞赛"时造成的——把一个技术指标包装成了能力证明,却不告诉你这个指标在什么场景下有用、在什么场景下是冗余的。

DeepSeek V4是一台优秀的机器,但不是万能的。它把1M token的门槛降到了1元/百万token,让更多人用得起超长上下文。但它也用这个发布,无意中让整个行业暴露了一个事实:上下文窗口的长度,从来就不等于上下文能力的深度。

能读100万字,不等于读完了还记得住。

记住了,不等于需要的时候还能找出来。

找出来了,不等于找的是对的。

三个问题,三个不同的能力维度。而行业目前还在只回答第一个问题。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国帮沙特建的高铁,干了九年赔了41亿,为何如今却说赚翻了?

中国帮沙特建的高铁,干了九年赔了41亿,为何如今却说赚翻了?

悦君兮君不知
2026-04-25 13:31:44
替补砍43分!多森姆:季后赛有这样的表现,这是我儿时的梦想

替补砍43分!多森姆:季后赛有这样的表现,这是我儿时的梦想

懂球帝
2026-04-26 12:45:18
绝了!中国1500公里凝聚态电池,直接让全球汽车圈震动

绝了!中国1500公里凝聚态电池,直接让全球汽车圈震动

芭比衣橱
2026-04-25 12:18:09
随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

侧身凌空斩
2026-04-25 21:59:26
浙江:一个遍布山区的省份,为啥这么有钱?山区反倒成了优势

浙江:一个遍布山区的省份,为啥这么有钱?山区反倒成了优势

贱议你读史
2026-04-26 08:50:03
“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

妍妍教育日记
2026-04-15 09:30:09
苏联最疯狂的实验,利用日本女战俘来繁衍人口,差点改变历史进程

苏联最疯狂的实验,利用日本女战俘来繁衍人口,差点改变历史进程

睡前讲故事
2025-04-23 16:25:26
明确了:放宽至38周岁!

明确了:放宽至38周岁!

新牛城
2026-04-23 17:18:51
“大龄剩女”正在集体消失!不是嫁人了,是被现实一巴掌扇到隐形

“大龄剩女”正在集体消失!不是嫁人了,是被现实一巴掌扇到隐形

王二哥老搞笑
2026-04-23 18:52:04
孙杨综艺表现惹众怒,大V发文吐槽揭他往事,私生子传闻被深扒

孙杨综艺表现惹众怒,大V发文吐槽揭他往事,私生子传闻被深扒

古希腊掌管松饼的神
2026-04-25 11:24:56
颜骏凌在本轮结束后官宣重要决定!球迷都直言没想到,纷纷祝福他

颜骏凌在本轮结束后官宣重要决定!球迷都直言没想到,纷纷祝福他

张丽说足球
2026-04-26 12:51:11
冲击D类顶薪大合同!新疆王牌前锋合同正式到期,曾赛季场均18+3

冲击D类顶薪大合同!新疆王牌前锋合同正式到期,曾赛季场均18+3

老叶评球
2026-04-26 13:24:54
世锦赛战报:连爆大冷第一位大满贯得主出局,首场四强之争出炉了

世锦赛战报:连爆大冷第一位大满贯得主出局,首场四强之争出炉了

求球不落谛
2026-04-26 07:11:27
上港4比0大胜三镇!蒋光太赛后却唯独点名表扬他,引发热议

上港4比0大胜三镇!蒋光太赛后却唯独点名表扬他,引发热议

振刚说足球
2026-04-26 13:25:27
张雪身后的摩帮江湖

张雪身后的摩帮江湖

上观新闻
2026-04-26 08:30:22
中国公开“耍流氓”,美国气的火冒三丈,报应来的太快了

中国公开“耍流氓”,美国气的火冒三丈,报应来的太快了

小熊看国际
2026-04-26 11:45:48
“10分钟的商务座,你拍了9分钟的照”,穷养女炫富,反被群嘲

“10分钟的商务座,你拍了9分钟的照”,穷养女炫富,反被群嘲

妍妍教育日记
2026-04-15 08:25:03
陈震被拍到参加北京车展,有博主爆料称其6月会回归

陈震被拍到参加北京车展,有博主爆料称其6月会回归

映射生活的身影
2026-04-25 16:50:03
“香港演员几乎全军覆没! 无戏可拍”引发网友热议

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

许三岁
2026-03-26 11:35:13
征婚要求“未打疫苗”,这位86年优质男是真清醒

征婚要求“未打疫苗”,这位86年优质男是真清醒

难得君
2026-04-25 10:57:35
2026-04-26 14:03:00
AI效率笔记
AI效率笔记
专注AI工具测评与效率提升。
398文章数 10关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

时尚
教育
艺术
健康
本地

IU的脸,真的有自己的时间线

教育要闻

新疆温泉县:山水映校园 少年正向阳

艺术要闻

郑丽文访问清华附中引发热议,蒋中正信札字迹真实性遭质疑

干细胞如何让烧烫伤皮肤"再生"?

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

无障碍浏览 进入关怀版