网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

1M上下文不是越大越好：DeepSeek V4炸出了一个行业集体盲区

2026-04-26 09:40:07　来源: AI效率笔记

河南举报

0

分享至

2026年4月24日，DeepSeek V4发布，1M token上下文成为标配。

然后，开发者社区开始做两件事：

第一，激动地测试90万token代码库全局重构能力，测试各种"大海捞针"场景；第二，做完之后开始冷静地问同一个问题——"它真的记得住吗？"

MRCR 1M大海捞针测试的结果，揭开了这场狂欢里最不体面的那块遮羞布：V4-Pro得分83.5，Claude Opus 4.7得分92.9。同样的上下文窗口，差了将近10个百分点。

这意味着什么？意味着1M token的竞争，可能从一开始就打偏了。

先说清楚什么是大海捞针测试。

你把一根"针"（一段特定的、几乎不可能自然出现的信息，比如"在第84237个token处有一个香蕉"）埋进大海（一段100万token的随机文本）中，然后问模型：你找到那根针了吗？

这个测试衡量的是模型在超长上下文中精准定位关键信息的能力，而不是"读了多长的文字"。

大海捞针测试之所以重要，是因为它直接反映了Agent场景里的核心需求：当你让AI在50万行代码里找一个Bug，它能不能真的找到，而不是在"假装找"？

V4在编程Benchmark上碾压Opus：LiveCodeBench 93.5 vs 88.8，Codeforces 3206 vs 3168，IMO数学89.8% vs 75.3%（反超14.5分）。但同样的V4，在MRCR 1M大海捞针上输了9.4分。

代码能力、数学推理、Agent工具调用——这些V4全面逼近或者超越了Opus。但在最核心的长上下文任务上，它还差一口气。

这是一个被大多数讨论忽略的关键信息。

行业有一个默认假设：上下文窗口越长，模型能力越强。

这个假设在2019-2022年是成立的——那时候128K就是极限，能处理128K的模型确实比64K的强。但2026年的今天，主流旗舰模型的上下文窗口都在1M以上，这个假设开始变得可疑。

真正的问题不是"能读多长"，而是"读进去之后能用多准"。

这是一个根本不同的能力维度，却被大多数横向对比和选购指南给忽略了。大家还在比"支持多少token"，但真正应该比的是"100万token里，你能不能找到那根针"。

就像买硬盘：容量2TB不代表读写速度快。上下文窗口是"容量"，精准召回率才是"速度"。

DeepSeek V4用CSA+HCA混合稀疏注意力，把1M token的KV缓存压缩到了V3.2的10%，推理算力降至27%。这是工程上的重大突破——不是靠硬件堆，是靠算法效率。

但这个突破解决的是"能读多长"的问题，不是"读了之后能记住多少"的问题。

CSA+HCA的核心逻辑是：近处token用完整的注意力（看得清楚），远处token用压缩后的稀疏注意力（看得全面）。这在大多数任务上工作得很好——比如总结一篇长文、回答一个需要跨越全文的问题。

但大海捞针场景里，那根"针"可能出现在1M token中的任何一个位置，概率均等。在远处的token上，V4用的是高度压缩的稀疏注意力——这意味着远端信息在注意力计算中的权重，被系统性地压低了。

这就是为什么在精准定位任务上，V4与Opus存在差距。Opus没有用V4那种激进的稀疏压缩策略，它靠的是更大的KV缓存和更稠密的注意力计算，换来了更高的召回精度。

效率与精度，是长上下文设计中一对不可调和的矛盾。

V4选择了效率，Opus选择了精度。两者都是合理的技术路线，只是适合的场景不同。

这里出现了一个很有意思的行业悖论：

大部分用户在选购模型时，根本用不到1M token的精准召回能力。

普通用户的使用场景——写邮件、做摘要、代码补全——需要的上下文长度通常在10万token以内，128K的窗口已经绑绑有余。V4的1M token能力，对这类用户来说几乎是冗余的。

真正需要1M token精准召回的场景，是代码库级重构、大型法律文档分析、科研文献综述、多文件代码审查——这类任务的用户群体，在整个大模型用户中的占比，可能不超过5%。

也就是说，95%的用户在为那5%的能力支付溢价——无论这个溢价是价格上的，还是技术路线选择上的。

这个悖论不只是DeepSeek的问题。Claude Opus 4.7的1M token正式版、Gemini 2.0 Pro的2M token——所有这些都在强调"我能读多长"。但没人在说"我在这么长的文本里，能多准确地找到你需要的那句话"。

那么，1M上下文的实际价值在哪里？

对于那5%的深度用户，1M上下文确实有意义，但意义不在于"读得多"，而在于能够进行全局推理。

当你把整个50万行的代码库喂给V4，它能够理解全局架构、追踪跨文件的依赖关系、在多步骤重构中保持一致性——这是128K窗口做不到的事情，因为它不够同时容纳足够多的上下文来理解全局结构。

MRCR大海捞针只是评估模型能力的一个维度，不是全部。V4在编程和数学上的碾压性优势，本身就建立在它能处理超长代码上下文的基础上。

问题是：这个优势能持续多久？

Claude Opus 4.7的1M正式版发布于2026年4月16日——比V4早8天。Anthropic正在快速缩短与DeepSeek在长上下文能力上的差距。V4先发，不代表V4能一直领先。

DeepSeek V4发布后的社区反应很有意思：很多人做了大海捞针测试，发现V4在远端召回上不如Opus，然后开始怀疑V4是否真的值得用。

这个怀疑有合理性，但也有盲区。

合理性在于：如果你需要的正是精准召回能力，Opus确实更可靠。

盲区在于：大多数用户根本不知道自己的使用场景到底需要"读得多"还是"记得准"——他们只是被"1M上下文"这个数字吸引，然后假设这代表"最强"。

这种认知偏差，恰恰是行业在向用户兜售"上下文窗口军备竞赛"时造成的——把一个技术指标包装成了能力证明，却不告诉你这个指标在什么场景下有用、在什么场景下是冗余的。

DeepSeek V4是一台优秀的机器，但不是万能的。它把1M token的门槛降到了1元/百万token，让更多人用得起超长上下文。但它也用这个发布，无意中让整个行业暴露了一个事实：上下文窗口的长度，从来就不等于上下文能力的深度。

能读100万字，不等于读完了还记得住。

记住了，不等于需要的时候还能找出来。

找出来了，不等于找的是对的。

三个问题，三个不同的能力维度。而行业目前还在只回答第一个问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

今天，OpenClaw能用DeepSeek-V4了！还设成了默认模型

智东西 2026-04-26 12:35:19
1 跟贴 1
梁文锋把token价格打下来了！DeepSeek V4暴降75%，百万token只要两毛五

智东西 2026-04-26 10:38:14
1 跟贴 1

字节养的“虾”与1500亿账本背后

钛媒体APP 2026-04-25 16:44:18
0 跟贴 0

翻完DeepSeek报告，我们发现了中国AI的默契

机器之心Pro 2026-04-26 13:21:55
0 跟贴 0
朱祁钰破局夺门之变的最佳策略

朝话熹史 2026-04-22 17:05:19
0 跟贴 0

在OpenAI把Chronicle做成订阅功能48小时后，一群00后把它开源了

机器之心Pro 2026-04-26 13:23:34
0 跟贴 0

原来都是人工一个个采摘，现在都用机器，一哆嗦就完事了！

欢乐二愣子俱乐部 2026-04-24 17:02:52
4 跟贴 4
刷Token走火入魔！Meta员工写外挂作弊冲榜，1个月烧掉200万美元

新智元 2026-04-26 09:05:40
0 跟贴 0

Epoch AI万人调研：老板不订阅，AI就是摆设！

新智元 2026-04-26 09:04:03
0 跟贴 0
乌克兰前线士兵骨瘦如柴照片披露被指最长断粮17天

澎湃新闻 2026-04-25 14:48:31
31313 跟贴 31313
取树苗的专业机器，第一次见这么酷伐木机，效率翻了好几倍！

笔笔皆笑 2026-04-24 11:20:29
1 跟贴 1
南方多省电价突然飙升专家：与霍尔木兹海峡局势有关

每日经济新闻 2026-04-25 20:30:11
10176 跟贴 10176
为什么潜艇兵的饭，必须比别人好？你看完他们的生活，就懂了

毛豆何时归 2026-04-26 12:06:27
0 跟贴 0
苏超最新积分榜出炉！

无锡博报 2026-04-25 21:51:59
150 跟贴 150
美国富豪非洲打猎被5头大象踩死

看看新闻Knews 2026-04-25 19:38:18
3974 跟贴 3974
女子捡手机无法解锁随手丢草丛，设备彻底遗失，法院判赔偿6000元

阅微札记 2026-04-26 12:23:16
0 跟贴 0
工厂最危险的机器，稍不留神就切掉手指，能留下的全是老师傅！

大眼猫侃世界 2026-04-23 15:22:52
1 跟贴 1
不会写代码的文科生耗时一月，用AI灵光做应用软件赚了三万元

星视频 2026-04-22 15:21:34
0 跟贴 0
救人的哥走了50余辆出租车自发送行

极目新闻 2026-04-25 15:18:34
2609 跟贴 2609
谁说工科生只会写代码？

中国网资讯 2026-04-22 10:15:39
0 跟贴 0
内地旅客买6000港元虫草磨粉后结账竟变成7.1万

看看新闻Knews 2026-04-25 19:24:12
4914 跟贴 4914
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
伊朗议长备战新策略，中东局势再掀波澜

雾以泪聚i 2026-04-25 03:16:15
0 跟贴 0
重达7530吨！全球单机容量最大，开始安装

环球网资讯 2026-04-25 19:52:08
872 跟贴 872
DeepSeek V4 有多牛？海内外 AI 大佬集体测评

极果酷玩 2026-04-25 20:24:36
0 跟贴 0
伊朗面临困境谈判与否成焦点

乐天派WMQ 2026-04-26 12:17:16
0 跟贴 0
从摊位被挡到全网撑腰，长沙后湖这个煎饼摊前队伍越排越长，女摊主有个朴素简单的愿望

潇湘晨报 2026-04-25 21:02:19
1 跟贴 1
汽车保有量超400万辆的城市PK，苏州交通健康指数以67.66%位列全国第一

现代快报 2026-04-25 15:06:34
128 跟贴 128
华为巨鲸电池平台：鸿蒙智行的第二大安全支柱，重塑安全新标准？

车域无疆 2026-04-26 11:16:39
0 跟贴 0
“记者卧底桂林六日游低价团”后续：地接旅行社被罚30万并停业整顿

极目新闻 2026-04-24 08:03:58
550 跟贴 550
强势两连胜，国羽太稳了！

鲁中晨报 2026-04-26 10:40:11
3 跟贴 3
“为每一个你造车”，丰田TO YOU理念如何读懂中国用户

观察者网 2026-04-26 13:05:06
0 跟贴 0
开源模型横扫21个科学任务!宽德Will联手斯坦福清北,试错变武器

机器之心Pro 2026-04-26 13:19:19
0 跟贴 0
全球首个医疗视频理解大模型开源！6k+组精标测试集/英雄榜上线

量子位 2026-04-26 13:27:25
0 跟贴 0
维特根斯坦诞辰137周年丨三大理论贡献

听哲学 2026-04-26 13:10:21
0 跟贴 0
美国知名学者杰弗里·萨克斯：美式霸权正走向终结

国际在线 2026-04-25 19:09:02
191 跟贴 191
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
谷歌高管炮轰所有游戏厂家，他们都在用AI做游戏，只是没人敢承认

新游戏大妹子 2026-04-26 12:51:22
0 跟贴 0

中国帮沙特建的高铁，干了九年赔了41亿，为何如今却说赚翻了？

中国帮沙特建的高铁，干了九年赔了41亿，为何如今却说赚翻了？

悦君兮君不知

2026-04-25 13:31:44

替补砍43分！多森姆：季后赛有这样的表现，这是我儿时的梦想

替补砍43分！多森姆：季后赛有这样的表现，这是我儿时的梦想

懂球帝

2026-04-26 12:45:18

绝了！中国1500公里凝聚态电池，直接让全球汽车圈震动

绝了！中国1500公里凝聚态电池，直接让全球汽车圈震动

芭比衣橱

2026-04-25 12:18:09

随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

随着上海海港4-0,北京国安2-4,成都蓉城4-0,中超最新积分榜出炉

侧身凌空斩

2026-04-25 21:59:26

浙江：一个遍布山区的省份，为啥这么有钱？山区反倒成了优势

浙江：一个遍布山区的省份，为啥这么有钱？山区反倒成了优势

贱议你读史

2026-04-26 08:50:03

“见过最廉价的兜底”，一份山姆烧鸡，让低认知母子沦为全网笑柄

“见过最廉价的兜底”，一份山姆烧鸡，让低认知母子沦为全网笑柄

妍妍教育日记

2026-04-15 09:30:09

苏联最疯狂的实验，利用日本女战俘来繁衍人口，差点改变历史进程

苏联最疯狂的实验，利用日本女战俘来繁衍人口，差点改变历史进程

睡前讲故事

2025-04-23 16:25:26

明确了：放宽至38周岁！

新牛城

2026-04-23 17:18:51

“大龄剩女”正在集体消失！不是嫁人了，是被现实一巴掌扇到隐形

“大龄剩女”正在集体消失！不是嫁人了，是被现实一巴掌扇到隐形

王二哥老搞笑

2026-04-23 18:52:04

孙杨综艺表现惹众怒，大V发文吐槽揭他往事，私生子传闻被深扒

孙杨综艺表现惹众怒，大V发文吐槽揭他往事，私生子传闻被深扒

古希腊掌管松饼的神

2026-04-25 11:24:56

颜骏凌在本轮结束后官宣重要决定！球迷都直言没想到，纷纷祝福他

颜骏凌在本轮结束后官宣重要决定！球迷都直言没想到，纷纷祝福他

张丽说足球

2026-04-26 12:51:11

冲击D类顶薪大合同！新疆王牌前锋合同正式到期，曾赛季场均18+3

冲击D类顶薪大合同！新疆王牌前锋合同正式到期，曾赛季场均18+3

老叶评球

2026-04-26 13:24:54

世锦赛战报：连爆大冷第一位大满贯得主出局，首场四强之争出炉了

世锦赛战报：连爆大冷第一位大满贯得主出局，首场四强之争出炉了

求球不落谛

2026-04-26 07:11:27

上港4比0大胜三镇！蒋光太赛后却唯独点名表扬他，引发热议

上港4比0大胜三镇！蒋光太赛后却唯独点名表扬他，引发热议

振刚说足球

2026-04-26 13:25:27

张雪身后的摩帮江湖

上观新闻

2026-04-26 08:30:22

中国公开“耍流氓”，美国气的火冒三丈，报应来的太快了

中国公开“耍流氓”，美国气的火冒三丈，报应来的太快了

小熊看国际

2026-04-26 11:45:48

“10分钟的商务座，你拍了9分钟的照”，穷养女炫富，反被群嘲

“10分钟的商务座，你拍了9分钟的照”，穷养女炫富，反被群嘲

妍妍教育日记

2026-04-15 08:25:03

陈震被拍到参加北京车展，有博主爆料称其6月会回归

陈震被拍到参加北京车展，有博主爆料称其6月会回归

映射生活的身影

2026-04-25 16:50:03

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

许三岁

2026-03-26 11:35:13

征婚要求“未打疫苗”，这位86年优质男是真清醒

征婚要求“未打疫苗”，这位86年优质男是真清醒

难得君

2026-04-25 10:57:35

专注AI工具测评与效率提升。

398文章数 10关注度

往期回顾全部

科技要闻

涨价浪潮下，DeepSeek推动AI“价格战”

头条要闻

白宫枪手系教师兼游戏开发者曾向哈里斯总统竞选捐款

头条要闻

白宫枪手系教师兼游戏开发者曾向哈里斯总统竞选捐款

体育要闻

那一刻开始，两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后，梁文锋的转身

汽车要闻

预售19.38万元起哈弗猛龙PLUS七座版亮相

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

教育

艺术

健康

本地

IU的脸，真的有自己的时间线

教育要闻

新疆温泉县：山水映校园少年正向阳

艺术要闻

郑丽文访问清华附中引发热议，蒋中正信札字迹真实性遭质疑

干细胞如何让烧烫伤皮肤"再生"？

本地新闻

云游中国｜逛世界风筝都留学生探秘中国传统文化

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版