网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型真的要来了?“MODEL1”曝光

0
分享至

在DeepSeek-R1发布一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现。近日,DeepSeek官方在GitHub更新了一系列FlashMLA代码,项目文件有数十处都提到了此前未公开的“MODEL1”大模型标识符。


在项目中,“MODEL1”标识符与已知的现有模型 “V32”(即 DeepSeek-V3.2)被并列提及。行业认为,根据代码上下文,“MODEL1”很可能代表一个不同于现有架构的新模型。但是具体是V4模型还是推理模型R2行业有不同的看法,也有开发者认为可能是V3系列的终极版。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是DeepSeek模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化地利用GPU硬件。

根据开发者的分析,“MODEL1”与 “V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。

结合目前模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。这意味着,新模型的上线时间越来越近了。


“如果我们能再迎来像DeepSeek那样的突破性时刻,那将是具有里程碑意义的。”有海外博主表示。也有网友期待DeepSeek的发布速度能够更快,这对开源社区来说是个好事。

此前已有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。但此次项目曝光或许也印证了传闻。

在近一个月里DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的 “AI记忆模块(Engram)”。业内猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础。此后,又在2025年1月发布了推理模型R1,基于强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越。距离发布已经过去了一年,行业都在期待DeepSeek的下一代旗舰模型。

恰逢DeepSeek R1发布一周年,海外开源社区Hugging Face也发布了博客《“DeepSeek时刻”一周年》,回顾了中国AI力量在过去一年如何重塑全球开源生态。


文章指出,DeepSeek-R1是Hugging Face上获赞最多的模型。R1模型的开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向。

过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国。尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
HBO的史诗级美剧,终于上线了

HBO的史诗级美剧,终于上线了

来看美剧
2026-01-21 18:59:51
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
特朗普:不去G7峰会 因为马克龙干不长了

特朗普:不去G7峰会 因为马克龙干不长了

财联社
2026-01-21 11:40:17
可控核聚变,有明确订单的5家公司!

可控核聚变,有明确订单的5家公司!

Thurman在昆明
2026-01-21 10:36:35
性生活后的“黄金十分钟”,坚持做对这件事,胜过世间万千补药

性生活后的“黄金十分钟”,坚持做对这件事,胜过世间万千补药

精彩分享快乐
2026-01-22 06:00:07
截胡!阿森纳必须赢下 8700 万巨星争夺战,奥恩斯坦实锤有戏!

截胡!阿森纳必须赢下 8700 万巨星争夺战,奥恩斯坦实锤有戏!

澜归序
2026-01-22 05:22:36
陈夏广出任中山市副市长

陈夏广出任中山市副市长

南方都市报
2026-01-21 18:30:09
她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

阿胡
2026-01-21 17:34:15
招行、浦发成功将卫星送上太空!通过遥感技术,银行可远程实现对楼盘贷后风险的实时监测

招行、浦发成功将卫星送上太空!通过遥感技术,银行可远程实现对楼盘贷后风险的实时监测

每日经济新闻
2026-01-21 00:23:14
又菜又爱玩?媒体人痛批广东队:打弱队还行,遇强队必崩

又菜又爱玩?媒体人痛批广东队:打弱队还行,遇强队必崩

体育见习官
2026-01-22 07:35:07
中东变天了!10万大军杀过来了,美军拔腿就跑,丢了好几个基地

中东变天了!10万大军杀过来了,美军拔腿就跑,丢了好几个基地

悦心知足
2026-01-21 18:18:33
加拿大低税进口4.9万辆中国新能源车,配额最多的居然不是比亚迪

加拿大低税进口4.9万辆中国新能源车,配额最多的居然不是比亚迪

蓝色海边
2026-01-21 03:17:15
张碧晨成都演出裤腰滑落,观众拍图上热搜,她改穿连体衣没说话

张碧晨成都演出裤腰滑落,观众拍图上热搜,她改穿连体衣没说话

阿废冷眼观察所
2026-01-21 13:20:58
山东省纪委监委网站通报:2人被查,1人系主动投案

山东省纪委监委网站通报:2人被查,1人系主动投案

齐鲁壹点
2026-01-21 17:13:13
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
Baxter:在湖人兜底选中布朗尼这件事上,珍妮认为詹姆斯不够感激

Baxter:在湖人兜底选中布朗尼这件事上,珍妮认为詹姆斯不够感激

移动挡拆
2026-01-22 01:46:30
量子计算机很可能永远不会成功

量子计算机很可能永远不会成功

观察者网
2026-01-21 08:38:06
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
1.22股市早8点丨风险不得不降低·牛市不得不继续

1.22股市早8点丨风险不得不降低·牛市不得不继续

沙黾农
2026-01-22 06:20:53
王励勤出手了!国乒大洗牌重点培养5位选手 孙颖莎王楚钦陷入两难

王励勤出手了!国乒大洗牌重点培养5位选手 孙颖莎王楚钦陷入两难

做一个合格的吃瓜群众
2026-01-17 16:38:59
2026-01-22 08:27:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
242145文章数 621256关注度
往期回顾 全部

科技要闻

日系彩电时代“彻底落幕”

头条要闻

新房灌装燃气次日爆炸:夫妻重度烧伤 房子被毁成危房

头条要闻

新房灌装燃气次日爆炸:夫妻重度烧伤 房子被毁成危房

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

健康
手机
教育
旅游
公开课

打工人年终总结!健康通关=赢麻了

手机要闻

REDMI Turbo 5跑分出炉:新一代神U天玑8500加持

教育要闻

450分也能上公办!广东3所稳进优质校必看

旅游要闻

天宫灯会明日启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版