网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek悄悄测试新模型:百万token上下文、V4要来了?

0
分享至

春节假期还没到,DeepSeek 就先把礼物拆了一半。

2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级:上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M(百万)token。DeepTech 验证后确认,无论 App 还是网页端,模型自述的上下文长度均为“1M”。

与此同时,知识截止日期也从此前的版本更新到了 2025 年 5 月,在不联网的情况下已经能够准确回答 2025 年 4 月的新闻事件。不过,这个新版本目前仍然是一个纯文本模型,不支持视觉输入,也不具备多模态识别能力。


(来源:DeepTech)

以往 DeepSeek V3 系列仅 128K 的上下文容量是一个相当大的短板,本次提升至 1M 级别可谓进步巨大,此前,Google 的 Gemini 系列最先将上下文推至百万级别。DeepSeek 此次直接对标 Gemini 的上下文长度,算是在这个维度上跻身第一梯队。

值得注意的是,就在不到一个月前,DeepSeek 的 GitHub 仓库 FlashMLA(其自研的多头潜在注意力解码核心库)更新中,社区开发者发现了一个代号为“Model 1”的神秘模型标识,它在 114 个文件中出现了 28 次,作为独立于当前 V3.2 架构的并行分支存在。


(来源:Github)

代码层面的线索显示,Model1 在 KV 缓存(Key-Value Cache)布局、稀疏性处理和 FP8 数据格式解码等方面与 V3.2 存在明显差异,指向了一次架构层面的重大重构,而非简单的版本迭代。这一发现恰好出现在 DeepSeek-R1 发布一周年之际,更与此前媒体援引知情人士的报道,即 DeepSeek 计划于 2 月中旬春节前后发布下一代旗舰模型 V4 这一消息相呼应。

那么,今天灰度测试的这个版本,是否就是传说中 V4 的前奏?从技术逻辑上看,有一些拼图已经摆上了桌面。过去一个多月里,DeepSeek 以罕见的密度连续发布了两篇重要论文,创始人梁文锋均署名参与。元旦当天发表的 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)解决了大规模模型训练中的稳定性问题。

紧接着 1 月中旬开源的 Engram 模块则提出了“条件记忆”(Conditional Memory)这一全新稀疏性维度,用 O(1) 复杂度的哈希查找取代昂贵的神经网络计算来完成静态知识检索。Engram 论文中特别展示了将高达 100B 参数的嵌入表卸载到 CPU 内存、GPU 专注推理计算的能力,额外推理延迟低于 3%。

这种“查算分离”的架构天然适配超长上下文场景,当上下文窗口扩展到百万级别时,传统的全量注意力计算成本会急剧膨胀,而 Engram 结合去年 V3.2 中引入的 DSA(DeepSeek Sparse Attention)机制,理论上可以显著降低长序列推理的计算开销。

不过,灰度测试毕竟只是灰度测试,离正式发布还有距离。目前尚不清楚这个版本的具体参数规模(据测试,其反应速度似乎要明显快于 671B 的 V3 系列,有人猜测或为 200B 模型)、是否已整合 Engram 和 mHC 等新架构组件,以及它在标准基准测试上的表现如何,这些信息 DeepSeek 均未披露。

去年 R1 在农历新年前夕横空出世,引发全球震动,英伟达市值单日蒸发 5930 亿美元;而今年 DeepSeek 的故事还在慢慢展开。百万 token 上下文的灰度测试可能只是小年夜的一道开胃菜。真正的年夜饭,或许还在后头。

参考资料:

1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴西将比亚迪列入“耻辱名单”

巴西将比亚迪列入“耻辱名单”

深度报
2026-04-11 22:22:26
长谈21小时未果,万斯离开前竖大拇指,特朗普关键时刻看格斗赛 ,伊朗:不着急

长谈21小时未果,万斯离开前竖大拇指,特朗普关键时刻看格斗赛 ,伊朗:不着急

红星新闻
2026-04-12 15:44:23
匈牙利大选投票率创历史新高,欧尔班前途未卜

匈牙利大选投票率创历史新高,欧尔班前途未卜

山河路口
2026-04-12 18:38:44
快讯!郑丽文太让人吃惊了!

快讯!郑丽文太让人吃惊了!

达文西看世界
2026-04-12 19:38:07
3女1男挤30平深圳合租房,小伙被随意使唤,这样的合租你能接受吗

3女1男挤30平深圳合租房,小伙被随意使唤,这样的合租你能接受吗

捣蛋窝
2026-04-12 07:46:25
匈牙利国会选举开始投票

匈牙利国会选举开始投票

界面新闻
2026-04-12 12:37:35
王石,最新发文!

王石,最新发文!

证券时报e公司
2026-04-12 19:53:01
5月1日起施行,贪污贿赂量刑新规出台,判刑标准有新调整

5月1日起施行,贪污贿赂量刑新规出台,判刑标准有新调整

李博世财经
2026-04-12 11:52:03
一张折线图揭露人类寿命暴增的真正秘密!是儿童死亡率从50%跌到4.3%

一张折线图揭露人类寿命暴增的真正秘密!是儿童死亡率从50%跌到4.3%

三言四拍
2026-04-12 10:37:11
英超最新积分战报:水晶宫翻盘绝杀,热刺落败,切尔西0-3曼城

英超最新积分战报:水晶宫翻盘绝杀,热刺落败,切尔西0-3曼城

足球狗说
2026-04-13 01:27:21
领先12分!领先9分!五大联赛基本决出4冠了,阿森纳夺冠条件出炉

领先12分!领先9分!五大联赛基本决出4冠了,阿森纳夺冠条件出炉

球场没跑道
2026-04-12 11:05:35
广西4名学生下河游泳溺亡

广西4名学生下河游泳溺亡

新京报
2026-04-12 21:23:40
含剧毒,无解药!每家每户都有,千万别乱吃,哪怕煮烂了也没用!

含剧毒,无解药!每家每户都有,千万别乱吃,哪怕煮烂了也没用!

路医生健康科普
2026-04-11 20:50:03
“你怎么在这?”女子商场惊魂:闺蜜上趟洗手间,竟跟着陌生人走

“你怎么在这?”女子商场惊魂:闺蜜上趟洗手间,竟跟着陌生人走

一丝不苟的法律人
2026-04-11 19:27:49
别再幻想了,如果国民党没失败,中国只会更惨

别再幻想了,如果国民党没失败,中国只会更惨

历史小破站
2026-04-12 04:45:03
曼城球迷在伦敦街头疯狂庆祝,高唱“阿森纳,你们在看吗?”

曼城球迷在伦敦街头疯狂庆祝,高唱“阿森纳,你们在看吗?”

懂球帝
2026-04-13 02:41:18
“邦迪女将”下课了

“邦迪女将”下课了

中国新闻周刊
2026-04-12 15:42:04
体制内一片祥和,体制外哀鸿遍野

体制内一片祥和,体制外哀鸿遍野

黯泉
2026-04-12 20:14:45
别再被假照片骗了!这才是陈丽华年轻时真实长相,脸型根本对不上

别再被假照片骗了!这才是陈丽华年轻时真实长相,脸型根本对不上

陈意小可爱
2026-04-12 19:05:19
美国之耻:30分钟滚出去。伊朗利用狼群战术,将美军逼出霍尔木兹

美国之耻:30分钟滚出去。伊朗利用狼群战术,将美军逼出霍尔木兹

梁讯
2026-04-12 14:59:13
2026-04-13 02:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16571文章数 514867关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

数码
房产
时尚
家居
艺术

数码要闻

苹果版套娃 买台Mac Pro回家:打开一看里面还藏着一台Mac Pro

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

被周冬雨、林更新戴上热搜的珠宝,究竟有多惊艳?

家居要闻

复古风格 自然简约

艺术要闻

揭开她笔下女人的神秘面纱,豪放洒脱的魅力令人惊叹!

无障碍浏览 进入关怀版