网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型“MODEL1”曝光

0
分享至

2026.01.21


本文字数:1454,阅读时长大约2分钟

作者 |第一财经 刘晓洁

题图 |AI生成

在DeepSeek-R1发布一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现。近日,DeepSeek官方在GitHub更新了一系列FlashMLA代码,项目文件有数十处都提到了此前未公开的“MODEL1”大模型标识符。


在项目中,“MODEL1”标识符与已知的现有模型 “V32”(即 DeepSeek-V3.2)被并列提及。行业认为,根据代码上下文,“MODEL1”很可能代表一个不同于现有架构的新模型。但是具体是V4模型还是推理模型R2行业有不同的看法,也有开发者认为可能是V3系列的终极版。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是DeepSeek模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化地利用GPU硬件。

根据开发者的分析,“MODEL1”与 “V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。

结合目前模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。这意味着,新模型的上线时间越来越近了。


“如果我们能再迎来像DeepSeek那样的突破性时刻,那将是具有里程碑意义的。”有海外博主表示。也有网友期待DeepSeek的发布速度能够更快,这对开源社区来说是个好事。

此前已有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。但此次项目曝光或许也印证了传闻。

在近一个月里DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的 “AI记忆模块(Engram)”。业内猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础。此后,又在2025年1月发布了推理模型R1,基于强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越。距离发布已经过去了一年,行业都在期待DeepSeek的下一代旗舰模型。

恰逢DeepSeek R1发布一周年,海外开源社区Hugging Face也发布了博客《“DeepSeek时刻”一周年》,回顾了中国AI力量在过去一年如何重塑全球开源生态。


文章指出,DeepSeek-R1是Hugging Face上获赞最多的模型。R1模型的开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向。

过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国。尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链。

微信编辑| 苏小

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

孤云朗境
2026-03-06 20:43:36
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
留几手谈张雪峰去世:死者又不是我爹,凭啥为大

留几手谈张雪峰去世:死者又不是我爹,凭啥为大

三言科技
2026-03-25 19:03:05
对越反击战牺牲最高级别将领:开战首日牺牲一个,撤军时牺牲一个

对越反击战牺牲最高级别将领:开战首日牺牲一个,撤军时牺牲一个

芳芳历史烩
2026-03-25 23:16:23
张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

潮鹿逐梦
2026-03-26 11:53:28
俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

洲洲影视娱评
2026-03-26 19:05:28
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

云霄纪史观
2026-03-26 17:16:00
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
如果马刺反超雷霆,文班亚马能否拿下MVP?

如果马刺反超雷霆,文班亚马能否拿下MVP?

篮球实录
2026-03-26 18:34:07
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
长征谜案揭开,白崇禧在湘江边网开一面,李宗仁晚年一句话说破

长征谜案揭开,白崇禧在湘江边网开一面,李宗仁晚年一句话说破

云端小院
2026-03-24 09:05:49
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
一刀两断!朝鲜官宣 “头号敌国”,东北亚大地震,中国稳得住吗

一刀两断!朝鲜官宣 “头号敌国”,东北亚大地震,中国稳得住吗

徐徐道史
2026-03-25 18:07:56
想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

春之寞陌
2026-03-19 05:58:30
眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

健康之光
2026-03-23 22:15:04
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
韩国首架量产KF-21下线,李在明称这象征该国“自主国防的雄心”

韩国首架量产KF-21下线,李在明称这象征该国“自主国防的雄心”

止戈军是我
2026-03-26 21:20:48
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
2026-03-26 22:03:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
248301文章数 621904关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
手机
数码
时尚
教育

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

上新|| 她们说,找到了自己的人生裙子!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

无障碍浏览 进入关怀版