网易首页 > 网易号 > 正文 申请入驻

R1模型发布一周年 DeepSeek新模型“MODEL1”曝光

0
分享至

《科创板日报》1月21日讯(编辑 宋子乔) 2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型“MODEL1”曝光。

北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识“MODEL1”,共被提及31次。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型“推理生成”这一环节。该算法的实现基础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化地利用GPU硬件。

MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测,MODEL1很可能是一个高效推理模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务

另外,MODEL1的硬件实现跨越多个GPU架构。在英伟达H100/H200(SM90架构)上有两个版本:model1_persistent_h64.cu用于64头配置,model1_persistent_h128.cu用于128头配置。在最新的B200(SM100架构)上有专门的Head64内核实现,而SM100的Head128实现仅支持MODEL1,不支持V3.2,有人猜测DeepSeek为适配英伟达新一代GPU,专门优化了MODEL1的架构

DeepSeek已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”。

2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架构确立了强大的综合性能基础。此后,DeepSeek在V3基础上快速迭代,发布了强化推理与Agent(智能体)能力的V3.1,并于2025年12月推出了最新正式版V3.2。同时,还推出了一个专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale。
2025年1月发布的R1,则通过强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式。

科技媒体The Information月初爆料称,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力

此前,DeepSeek研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大坂直美退赛引外界猜测,媒体称其对上轮争议带来的网暴不堪其扰

大坂直美退赛引外界猜测,媒体称其对上轮争议带来的网暴不堪其扰

网球之家
2026-01-24 22:50:58
记住吧,历史总要清算

记住吧,历史总要清算

火事杂谈
2026-01-24 18:52:38
别只盯着美国!俄军大规模报复重创基辅,欧洲火速援乌50吨装备

别只盯着美国!俄军大规模报复重创基辅,欧洲火速援乌50吨装备

Ck的蜜糖
2026-01-25 01:33:28
国外留子的生活有多炸裂?网友:给我这个农村人看笑了

国外留子的生活有多炸裂?网友:给我这个农村人看笑了

带你感受人间冷暖
2026-01-25 00:20:06
北控88-82力克北京,获胜功臣非邹雨宸非里勒

北控88-82力克北京,获胜功臣非邹雨宸非里勒

精彩不容错过
2026-01-24 22:55:13
李亚鹏难掩激动:找到新地址还带公园,网友申请报名帮忙搬家

李亚鹏难掩激动:找到新地址还带公园,网友申请报名帮忙搬家

素素娱乐
2026-01-23 12:00:43
在华销量跌回8年前!豪华车“三巨头”比拼本土化

在华销量跌回8年前!豪华车“三巨头”比拼本土化

新京报
2026-01-23 22:24:04
中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

丁隗解说
2026-01-25 05:37:19
影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

徐帮阳
2025-12-23 18:33:38
官宣!上海乒协新会长正式上任,樊振东迎来强援,许昕有望留队

官宣!上海乒协新会长正式上任,樊振东迎来强援,许昕有望留队

刘哥谈体育
2026-01-25 00:36:34
为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

今朝牛马
2026-01-08 16:05:10
网友:朋友说他听“听风的蚕”涨了好多见识,我果断与他断了往来

网友:朋友说他听“听风的蚕”涨了好多见识,我果断与他断了往来

读鬼笔记
2026-01-22 19:46:15
4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

每日经济新闻
2025-12-28 23:52:06
密谈4小时彻底变天!普京开出最终停战条件,乌克兰不低头就打到底

密谈4小时彻底变天!普京开出最终停战条件,乌克兰不低头就打到底

妙知
2026-01-24 18:42:36
林峰追了她4年,她嫁给别人只花了4天,还连生三娃!如今被曝婚变,全网心碎:女神这是被骗了?

林峰追了她4年,她嫁给别人只花了4天,还连生三娃!如今被曝婚变,全网心碎:女神这是被骗了?

黎兜兜
2026-01-24 21:21:39
0-4惨败后,日本球迷评论太扎心!中国没变强,更想和乌兹踢决赛

0-4惨败后,日本球迷评论太扎心!中国没变强,更想和乌兹踢决赛

绿茵舞着
2026-01-25 03:04:56
1982年,58岁的演员仲星火决定再婚,被女儿赶出家门,4年搬8次家

1982年,58岁的演员仲星火决定再婚,被女儿赶出家门,4年搬8次家

磊子讲史
2026-01-21 17:22:32
崛起!19岁温瑞博比林诗栋强在哪里?三大技术让小马龙又狠又稳!

崛起!19岁温瑞博比林诗栋强在哪里?三大技术让小马龙又狠又稳!

骑马寺的少年
2026-01-24 13:00:48
不到1天时间,格陵兰就被出卖了,特朗普刚要高兴,就收到坏消息

不到1天时间,格陵兰就被出卖了,特朗普刚要高兴,就收到坏消息

阿天爱旅行
2026-01-25 05:51:40
赵今麦肉丝造型惊艳出圈!甜妹秒变御姐,气场全开鲨疯全场

赵今麦肉丝造型惊艳出圈!甜妹秒变御姐,气场全开鲨疯全场

TVB的四小花
2026-01-24 02:12:35
2026-01-25 07:07:00
科创板日报 incentive-icons
科创板日报
上海报业集团主管主办
61233文章数 44540关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

艺术
本地
时尚
旅游
公开课

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

冬天最佳“显瘦”公式:上短+下长

旅游要闻

搜索量飙升!巴西免签,引爆中国游客春节出游热情

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版