网易首页 > 网易号 > 正文 申请入驻

新发代码藏彩蛋!114个文件泄密 DeepSeek新模型为“MODEL1”?

0
分享至

作者|子川

来源|AI先锋官

作为明星产品,必须得用放大镜看!

正值DeepSeek-R1 发布一周年之际,DeepSeek 在 GitHub 上悄悄更新了一波代码。

结果,眼尖的开发者在 DeepSeek 核心的推理优化库FlashMLA中,发现了一个此前从未公开过的神秘代号:“MODEL1”


目前,行业内普遍猜测,这极有可能就是DeepSeek即将发布的下一代旗舰模型。

而这次曝光的“MODEL1”,到底是什么来头?

首先,我们要知道它是怎么被发现的。

这次泄露的源头,来自DeepSeek的一个开源项目——FlashMLA

可能大家对FlashMLA不太熟悉,这里给大家简单介绍一下。

这是DeepSeek自研工具,专门为英伟达GPU做深度优化。

正是有了它,DeepSeek才能在模型架构层面减少内存占用,把GPU硬件的性能榨干到极致,从而实现了“低成本高性能”。

而在最近更新的代码中,开发者们发现在横跨114个文件中,有28处都明确提到了“MODEL1”这个新标识符。

在代码逻辑里,“MODEL1”是与“V32”(也就是DeepSeek-V3.2)并列存在的。


这意味着,它绝不是V3版本的简单修补,而是一个采用了全新架构的独立模型。

根据技术大神的深度分析,“MODEL1”的核心变化主要体现在“回归标准”和“极致效率”上。

以前的V3模型,为了追求极致性能,采用了一种比较特殊的576维设计,而“MODEL1”则切换回了512维的标准配置。

这样做的好处非常明显:它能更好地适配英伟达下一代Blackwell(SM100)芯片。

不仅如此,“MODEL1”还引入了更高级的“稀疏化”技术。

在代码中,出现了大量针对FP8(8位浮点数)数据格式的解码支持,以及键值(KV)缓存的优化。

它能在处理极长内容时,智能地跳过不重要的计算步骤,同时利用FP8格式把记忆内容进行高保真压缩。

这直接带来的结果就是:内存占用大幅降低,计算效率成倍提升。

这意味着,可以用更便宜的显卡,就能跑得动更强的模型。

那么,这个“MODEL1”到底是传说中的V4,还是推理模型R2?

目前行业内主要有两种看法。

一种观点认为,它是DeepSeek V4

按照 DeepSeek 的命名惯例,在 V3.2 之后的旗舰级架构跨越,逻辑上即为 V4。

并且此前就有外媒报道,DeepSeek计划在2月(春节前后)发布新一代旗舰模型V4,且内部测试显示其编程能力已经超越了市场上的顶级模型。

另一种观点则认为,它是DeepSeek R2

最近一个月,DeepSeek团队连续发布了两篇重磅技术论文,介绍了一种名为“优化残差连接(mHC)”的新训练方法,以及一种模仿生物大脑的“AI记忆模块(Engram)”。

如果“MODEL1”整合了这些最新的黑科技,让AI拥有了类似人类的记忆机制,那它极有可能就是备受期待的“推理之王”R2。

不论是V4还是R2,至少有一点可以确定,DeepSeek的新模型快发布了!

结合目前模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。

这意味着,新模型的上线时间越来越近了。

那个曾在全球掀起波澜的“DeepSeek时刻”还会在今年重现吗?我们拭目以待!

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

警方通报:小区内发生一起致3死1伤刑事案件,嫌犯畏罪自杀身亡

澎湃新闻
2026-02-07 02:00:06
色情低俗屡禁不止?快手又接1.191亿元罚单

色情低俗屡禁不止?快手又接1.191亿元罚单

大望财讯
2026-02-07 16:00:41
乒乓球男单大爆冷!头号种子1:3被淘汰,无缘8强,奥运亚军出局

乒乓球男单大爆冷!头号种子1:3被淘汰,无缘8强,奥运亚军出局

国乒二三事
2026-02-07 07:08:49
米兰冬奥会开幕式争议:乌克兰获热烈欢呼!以色列亮相遭巨大嘘声

米兰冬奥会开幕式争议:乌克兰获热烈欢呼!以色列亮相遭巨大嘘声

念洲
2026-02-07 07:46:06
万万没想到!原以为马杜罗会在美国的监狱里把牢底坐穿,剧情突变

万万没想到!原以为马杜罗会在美国的监狱里把牢底坐穿,剧情突变

我心纵横天地间
2026-02-06 20:05:36
特朗普:预计到我本届任期结束时 道指将站上10万点

特朗普:预计到我本届任期结束时 道指将站上10万点

财联社
2026-02-07 13:40:26
50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

汉史趣闻
2026-02-07 17:03:56
怀胎7月孕妇与婆婆惨遭杀害,只因一条评论!行凶者:感觉受侮辱……多方发声

怀胎7月孕妇与婆婆惨遭杀害,只因一条评论!行凶者:感觉受侮辱……多方发声

上观新闻
2026-02-07 20:10:08
广东一小伙年会上抽中价值9988元手机,拿回家打开后发现里面装的是糖和瓷砖,当事人回应:手机可以不要,但是策划人必须向自己道歉

广东一小伙年会上抽中价值9988元手机,拿回家打开后发现里面装的是糖和瓷砖,当事人回应:手机可以不要,但是策划人必须向自己道歉

扬子晚报
2026-02-06 23:10:58
博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

博主外网造谣“中国每年50万人冻死”,内地特供视频换说法,一条视频两套词

可达鸭面面观
2026-02-07 22:55:27
美国前总统克林顿呼吁全面公开爱泼斯坦文件,要求川普政府举行公开听证会

美国前总统克林顿呼吁全面公开爱泼斯坦文件,要求川普政府举行公开听证会

爆角追踪
2026-02-07 16:00:48
亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

颜小白的篮球梦
2026-02-07 22:16:10
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
诺奖无用论广为流行,我们正在进入晚清时代2.0?

诺奖无用论广为流行,我们正在进入晚清时代2.0?

枫冷慕诗
2026-02-07 09:15:10
3-4!徐彬留洋首秀踢满全场 随队连丢3球遭逆转 拼抢造首球+染黄

3-4!徐彬留洋首秀踢满全场 随队连丢3球遭逆转 拼抢造首球+染黄

我爱英超
2026-02-07 22:42:05
地球上原本并没有人,那么第一个男人和女人是怎么来的?

地球上原本并没有人,那么第一个男人和女人是怎么来的?

宇宙时空
2026-02-06 19:15:08
因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

大风新闻
2026-02-07 18:17:28
京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

京东001号快递员退休生活公开:有车有房,存款一百多万,退休金每月4000多元;曾打算辞职,被刘强东亲自劝下

每日经济新闻
2026-02-07 00:24:19
陈幸同1-4不敌张本美和,无缘亚洲杯女单四强

陈幸同1-4不敌张本美和,无缘亚洲杯女单四强

懂球帝
2026-02-07 20:56:32
金晨处罚结果曝光!肇事逃逸被罚款,属违法艺人,待播作品受影响

金晨处罚结果曝光!肇事逃逸被罚款,属违法艺人,待播作品受影响

萌神木木
2026-02-07 17:09:06
2026-02-07 23:16:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
428文章数 52关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

半年巨亏超1500亿元 全球第四大汽车巨头突然爆雷

头条要闻

半年巨亏超1500亿元 全球第四大汽车巨头突然爆雷

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

健康
亲子
数码
旅游
公开课

转头就晕的耳石症,能开车上班吗?

亲子要闻

怀孕的女人闹情绪有多离谱?网友:觉得洗衣机太累了,让我给它道歉

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

旅游要闻

日夜皆有景,喜乐庆新春!仙游大济溪口鱼鳞坝解锁新春游玩新体验

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版