网易首页 > 网易号 > 正文 申请入驻

刚刚!DeepSeek新模型细节曝光

0
分享至

1月21日消息,DeepSeek-R1在GitHub上通过代码提交疑似剧透了DeepSeek的下一代模型。据开发者挖掘,DeepSeek旗下的FlashMLA优化库近期迎来了一波密集更新。


在一堆C++代码中,一个从未见过的代号“Model1”赫然在列。与以往的小修小补不同,代码逻辑将Model1置于了与当前旗舰V3.2完全独立的平行分支。


技术社区普遍解读为下一代大模型DeepSeek-V4的内部开发代号。据技术社区对相关代码提交的深度解读,Model1 展示了 DeepSeek 下一代技术架构的几个核心演进方向:

架构层面回归512

DeepSeek V3曾以独特的576维非对称MLA惊艳四座,这在当时是为了极致压缩KV Cache的非常规手段。然而在Model1中,head_dim参数被重新锁定512维。

这一回归标准的动作能更完美地对齐GPU的Tensor Core计算特性。DeepSeek可能已经找到了无需依赖非标维度也能实现高压缩率的新方法,或许就是代码中提及的Engram机制,从而换取更高的计算通用性。

接入下一代算力霸主

Model1的代码库中出现了大量针对 SM100,也就是英伟达最新算力硬件NVIDIA Blackwell B200的专用接口。

DeepSeek或许基本完成了对 2026 年旗舰显卡的指令集适配。测试数据显示,Model1 的稀疏算子在 B200 上的算力利用率已达 350 TFlops,这显然是有备而来。

长文本推理的稀疏化

代码中不仅出现了FP8格式的KV Cache支持,更引入了test_flash_mla_sparse_decoding测试脚本。


DeepSeek正在将MLA机制从“全量计算”进化为“Token级稀疏计算”。这种机制允许模型在处理超长上下文时,动态忽略不重要的Token,从而在显存占用和推理速度上实现数量级的优化。


DeepSeek曾在2025年1月20日发布R1模型,由此开启了新的开源LLM时代。今天刚好是R1发布一周年,Model1又会给AI领域带来怎样的变化呢?(转载自AI普瑞斯)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京双中心时代启动:东西城与通州副中心助力城市新发展!

北京双中心时代启动:东西城与通州副中心助力城市新发展!

林子说事
2026-02-07 00:34:20
江苏新规明确:禁止对民营企业违法开展异地执法

江苏新规明确:禁止对民营企业违法开展异地执法

齐鲁壹点
2026-02-07 07:47:23
一天三场失利+张本出局,这个亚洲杯比赛日,其实信息量极大

一天三场失利+张本出局,这个亚洲杯比赛日,其实信息量极大

热点一触即发
2026-02-07 06:44:32
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-05 15:32:53
79岁李保田老态难辨,住处杂乱喝10元桶装水与儿子关系在意料之中

79岁李保田老态难辨,住处杂乱喝10元桶装水与儿子关系在意料之中

阿会情感
2026-02-07 06:40:03
佩斯科夫:暂无在美国举行新一轮 乌克兰问题谈判计划

佩斯科夫:暂无在美国举行新一轮 乌克兰问题谈判计划

每日经济新闻
2026-02-07 07:42:53
奇才爆冷掀翻东部第一,但功臣真不是浓眉?

奇才爆冷掀翻东部第一,但功臣真不是浓眉?

篮球看比赛
2026-02-06 17:19:44
宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

谈史论天地
2026-02-06 17:30:03
高铁飞机大巴集体遇冷,绿皮火车为何成春运香饽饽?答案很现实

高铁飞机大巴集体遇冷,绿皮火车为何成春运香饽饽?答案很现实

复转这些年
2026-02-06 20:47:12
中方发文警告后,巴总统不服,数十亿反制将至,巴方错失最后机会

中方发文警告后,巴总统不服,数十亿反制将至,巴方错失最后机会

占领了思想
2026-02-07 04:49:25
前脚刚命中了一记三分,后脚火箭锋线新星就被立刻换下场了?

前脚刚命中了一记三分,后脚火箭锋线新星就被立刻换下场了?

稻谷与小麦
2026-02-06 23:21:27
人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

带你感受人间冷暖
2026-01-27 00:10:05
1168万!海港签20岁国足红星转会费公布 溢价3倍+成中超本土标王

1168万!海港签20岁国足红星转会费公布 溢价3倍+成中超本土标王

我爱英超
2026-02-06 10:37:27
炸了!1.3 亿巨星逼宫转会,亲自下令经纪人联系阿森纳

炸了!1.3 亿巨星逼宫转会,亲自下令经纪人联系阿森纳

澜归序
2026-02-07 03:35:35
宜家承认平价Matter-over-Thread智能家居产品存在连接问题

宜家承认平价Matter-over-Thread智能家居产品存在连接问题

IT之家
2026-02-06 07:53:36
期末考试分数不公布:错的不是政策,是认知的偏差丨中听

期末考试分数不公布:错的不是政策,是认知的偏差丨中听

大象新闻
2026-02-04 18:09:27
惋惜!北京一知名烤肉自助即将闭店!

惋惜!北京一知名烤肉自助即将闭店!

大北京早知道
2026-02-06 17:52:06
再见!北京老牌百货即将闭店!多少北京人的青春回忆啊

再见!北京老牌百货即将闭店!多少北京人的青春回忆啊

亿通电子游戏
2026-02-07 06:33:07
台海爆发战事!美军机闯入,内地战舰警示,东部沿海导弹全天竖立

台海爆发战事!美军机闯入,内地战舰警示,东部沿海导弹全天竖立

文雅笔墨
2026-02-07 06:44:58
历史性一幕!中俄战略对表不到一天,特朗普就对中国发无条件邀请

历史性一幕!中俄战略对表不到一天,特朗普就对中国发无条件邀请

聚焦热点内幕
2026-02-07 07:00:59
2026-02-07 08:19:00
鞭牛士 incentive-icons
鞭牛士
准确、快速、有深度的科技媒体
103444文章数 61685关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

大V称生活被助理"复制":她在我家穿我的衣服拍照

头条要闻

大V称生活被助理"复制":她在我家穿我的衣服拍照

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

教育
本地
手机
公开课
军事航空

教育要闻

怎样找旋转中心?两种方法都要会!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

iPhone18 Pro再次被确认:外观大改+5000mAh电池,细节也很清晰了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版