网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek悄悄测试新模型:百万token上下文、V4要来了?

0
分享至

春节假期还没到,DeepSeek 就先把礼物拆了一半。

2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级:上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M(百万)token。DeepTech 验证后确认,无论 App 还是网页端,模型自述的上下文长度均为“1M”。

与此同时,知识截止日期也从此前的版本更新到了 2025 年 5 月,在不联网的情况下已经能够准确回答 2025 年 4 月的新闻事件。不过,这个新版本目前仍然是一个纯文本模型,不支持视觉输入,也不具备多模态识别能力。


(来源:DeepTech)

以往 DeepSeek V3 系列仅 128K 的上下文容量是一个相当大的短板,本次提升至 1M 级别可谓进步巨大,此前,Google 的 Gemini 系列最先将上下文推至百万级别。DeepSeek 此次直接对标 Gemini 的上下文长度,算是在这个维度上跻身第一梯队。

值得注意的是,就在不到一个月前,DeepSeek 的 GitHub 仓库 FlashMLA(其自研的多头潜在注意力解码核心库)更新中,社区开发者发现了一个代号为“Model 1”的神秘模型标识,它在 114 个文件中出现了 28 次,作为独立于当前 V3.2 架构的并行分支存在。


(来源:Github)

代码层面的线索显示,Model1 在 KV 缓存(Key-Value Cache)布局、稀疏性处理和 FP8 数据格式解码等方面与 V3.2 存在明显差异,指向了一次架构层面的重大重构,而非简单的版本迭代。这一发现恰好出现在 DeepSeek-R1 发布一周年之际,更与此前媒体援引知情人士的报道,即 DeepSeek 计划于 2 月中旬春节前后发布下一代旗舰模型 V4 这一消息相呼应。

那么,今天灰度测试的这个版本,是否就是传说中 V4 的前奏?从技术逻辑上看,有一些拼图已经摆上了桌面。过去一个多月里,DeepSeek 以罕见的密度连续发布了两篇重要论文,创始人梁文锋均署名参与。元旦当天发表的 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)解决了大规模模型训练中的稳定性问题。

紧接着 1 月中旬开源的 Engram 模块则提出了“条件记忆”(Conditional Memory)这一全新稀疏性维度,用 O(1) 复杂度的哈希查找取代昂贵的神经网络计算来完成静态知识检索。Engram 论文中特别展示了将高达 100B 参数的嵌入表卸载到 CPU 内存、GPU 专注推理计算的能力,额外推理延迟低于 3%。

这种“查算分离”的架构天然适配超长上下文场景,当上下文窗口扩展到百万级别时,传统的全量注意力计算成本会急剧膨胀,而 Engram 结合去年 V3.2 中引入的 DSA(DeepSeek Sparse Attention)机制,理论上可以显著降低长序列推理的计算开销。

不过,灰度测试毕竟只是灰度测试,离正式发布还有距离。目前尚不清楚这个版本的具体参数规模(据测试,其反应速度似乎要明显快于 671B 的 V3 系列,有人猜测或为 200B 模型)、是否已整合 Engram 和 mHC 等新架构组件,以及它在标准基准测试上的表现如何,这些信息 DeepSeek 均未披露。

去年 R1 在农历新年前夕横空出世,引发全球震动,英伟达市值单日蒸发 5930 亿美元;而今年 DeepSeek 的故事还在慢慢展开。百万 token 上下文的灰度测试可能只是小年夜的一道开胃菜。真正的年夜饭,或许还在后头。

参考资料:

1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

二胡的岁月如歌
2026-01-16 18:51:52
孙颖莎又榜上有名 央妈多账号犀利说 回王曼昱的侧边球 看完难以想象

孙颖莎又榜上有名 央妈多账号犀利说 回王曼昱的侧边球 看完难以想象

林子说事
2026-02-11 20:29:35
再见了,葡超!ESPN曝穆里尼奥或离任,阿莫林将接手本菲卡

再见了,葡超!ESPN曝穆里尼奥或离任,阿莫林将接手本菲卡

万花筒体育球球
2026-02-11 15:59:45
半年巨亏超1500亿,车圈“恒大”真的来了?

半年巨亏超1500亿,车圈“恒大”真的来了?

蒋东文
2026-02-10 22:01:48
当孩子问,“同学爸爸说考第一名就给他买ipad,我考第一名,你也给我买吗?”这样回答很关键…

当孩子问,“同学爸爸说考第一名就给他买ipad,我考第一名,你也给我买吗?”这样回答很关键…

二胎妈妈圈
2026-02-08 21:50:30
两战狂胜101分!中国女篮双杀国际联队 杨舒予14+6张子宇11+9

两战狂胜101分!中国女篮双杀国际联队 杨舒予14+6张子宇11+9

醉卧浮生
2026-02-11 21:39:26
刘佳宇受伤冲上日本热搜榜首:这一刻超越国界,她是最被关心的人

刘佳宇受伤冲上日本热搜榜首:这一刻超越国界,她是最被关心的人

杨华评论
2026-02-12 02:07:39
美国必胜?哈佛教授:不要高估中国,美国已经控制了中国的命脉

美国必胜?哈佛教授:不要高估中国,美国已经控制了中国的命脉

妙知
2025-07-29 16:31:23
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
《阿凡达 3:火与烬》即将结束全球院线放映,最终票房约为14亿美元,较前两作出现显著下滑,或难越回本红线

《阿凡达 3:火与烬》即将结束全球院线放映,最终票房约为14亿美元,较前两作出现显著下滑,或难越回本红线

台州交通广播
2026-02-12 01:27:55
郑钦文再退赛惹众怒!反复横跳像作秀,“一姐”位置已然不保

郑钦文再退赛惹众怒!反复横跳像作秀,“一姐”位置已然不保

一枚野球君
2026-02-01 12:39:35
最新,盈利预测被大幅上调股,16只上榜(附名单)

最新,盈利预测被大幅上调股,16只上榜(附名单)

数据宝
2026-02-11 21:06:48
上任仅8个月!热刺官宣解雇52岁主帅,带队近8轮不胜+距降级区5分

上任仅8个月!热刺官宣解雇52岁主帅,带队近8轮不胜+距降级区5分

我爱英超
2026-02-11 18:34:17
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

梦在深巷aqa
2026-02-11 08:46:11
千万别姐弟恋,很累!

千万别姐弟恋,很累!

果粉之家
2026-01-06 11:26:21
伊朗总统:不寻求核武器并准备接受核查

伊朗总统:不寻求核武器并准备接受核查

新华社
2026-02-11 18:49:03
咖啡再次被关注!医生提醒:高血脂患者常喝咖啡,或出现4个变化

咖啡再次被关注!医生提醒:高血脂患者常喝咖啡,或出现4个变化

蜉蝣说
2026-02-10 15:26:37
最失败的交易?4个选秀权,换来的顶薪球星,场均仅13+3+3

最失败的交易?4个选秀权,换来的顶薪球星,场均仅13+3+3

体坛热评
2026-02-12 00:09:53
李友志同志逝世

李友志同志逝世

极目新闻
2026-02-11 14:41:10
继女订婚,我送一套婚房,婚宴前晚她来电:叔叔,明天你别坐主桌

继女订婚,我送一套婚房,婚宴前晚她来电:叔叔,明天你别坐主桌

堇色夜行
2025-12-06 14:47:59
2026-02-12 03:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16253文章数 514603关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

健康
家居
亲子
游戏
房产

转头就晕的耳石症,能开车上班吗?

家居要闻

简雅闲居 静享时光柔

亲子要闻

人类婴儿为什么既脆弱又愚蠢?答:正因为愚蠢才有人类的今天!

《英雄联盟》的当务之急,是往海克斯大乱斗里加广告

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

无障碍浏览 进入关怀版