网易首页 > 网易号 > 正文 申请入驻

R1模型发布一周年 DeepSeek新模型“MODEL1”曝光

0
分享至

《科创板日报》1月21日讯(编辑 宋子乔) 2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型“MODEL1”曝光。

北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识“MODEL1”,共被提及31次。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型“推理生成”这一环节。该算法的实现基础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化地利用GPU硬件。

MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测,MODEL1很可能是一个高效推理模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务

另外,MODEL1的硬件实现跨越多个GPU架构。在英伟达H100/H200(SM90架构)上有两个版本:model1_persistent_h64.cu用于64头配置,model1_persistent_h128.cu用于128头配置。在最新的B200(SM100架构)上有专门的Head64内核实现,而SM100的Head128实现仅支持MODEL1,不支持V3.2,有人猜测DeepSeek为适配英伟达新一代GPU,专门优化了MODEL1的架构

DeepSeek已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”。

2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架构确立了强大的综合性能基础。此后,DeepSeek在V3基础上快速迭代,发布了强化推理与Agent(智能体)能力的V3.1,并于2025年12月推出了最新正式版V3.2。同时,还推出了一个专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale。
2025年1月发布的R1,则通过强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式。

科技媒体The Information月初爆料称,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力

此前,DeepSeek研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

澎湃新闻
2026-01-21 15:55:20
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

素衣读史
2026-01-21 13:57:53
密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

发现新西兰
2026-01-20 11:20:02
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
巴特勒倒了想起我?库明加时隔16场重新登场,10中7砍20分5板

巴特勒倒了想起我?库明加时隔16场重新登场,10中7砍20分5板

懂球帝
2026-01-21 14:43:06
力推都没用?吴京《镖人》遭抵制,摇头晃脑的他们有很大责任

力推都没用?吴京《镖人》遭抵制,摇头晃脑的他们有很大责任

白面书誏
2026-01-20 13:53:46
全球首例!上海瑞金医院医生“唤醒”了失忆的妈妈!阿尔茨海默病或有新解法

全球首例!上海瑞金医院医生“唤醒”了失忆的妈妈!阿尔茨海默病或有新解法

新民晚报
2026-01-21 15:41:44
毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

鹤羽说个事
2026-01-20 11:48:10
官方:沙特主裁判将执法U23亚洲杯决赛中国vs日本的比赛

官方:沙特主裁判将执法U23亚洲杯决赛中国vs日本的比赛

懂球帝
2026-01-21 17:34:21
网传《歌手2026》阵容,看到名单后,难掩激动泪水,期待的都来了

网传《歌手2026》阵容,看到名单后,难掩激动泪水,期待的都来了

娱乐圈十三太保
2026-01-21 15:03:20
“陈真”梁小龙死因公布!这种病最近高发,被称为心脏疾病“最后的战场”,5年内病死率高达42.3%

“陈真”梁小龙死因公布!这种病最近高发,被称为心脏疾病“最后的战场”,5年内病死率高达42.3%

都市快报橙柿互动
2026-01-21 18:06:09
特变电工:黄金年产量约2.5-3吨

特变电工:黄金年产量约2.5-3吨

财联社
2026-01-21 15:47:08
曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

古希腊掌管月桂的神
2026-01-21 12:41:44
芬兰总统“出招”:邀特朗普蒸桑拿,帮助解决格陵兰岛的复杂局势;他曾将特朗普与泽连斯基的争吵比作婚姻中的争执,呼吁双方回到谈判桌前

芬兰总统“出招”:邀特朗普蒸桑拿,帮助解决格陵兰岛的复杂局势;他曾将特朗普与泽连斯基的争吵比作婚姻中的争执,呼吁双方回到谈判桌前

扬子晚报
2026-01-21 17:48:57
严重违纪违法,惠阳一干部被“双开”

严重违纪违法,惠阳一干部被“双开”

南方都市报
2026-01-21 17:14:07
深圳地铁过紧日子了!人流量小的地方扶梯只开上的,闸机口也停了

深圳地铁过紧日子了!人流量小的地方扶梯只开上的,闸机口也停了

火山诗话
2026-01-21 18:59:59
10亿身家换不来10分钟!刚签大单就突然猝死,他的悲剧戳中多少人

10亿身家换不来10分钟!刚签大单就突然猝死,他的悲剧戳中多少人

叮当当科技
2026-01-21 00:02:16
2026刚半个月,18岁全红婵被官媒公开点名,原来郭晶晶真的没说错

2026刚半个月,18岁全红婵被官媒公开点名,原来郭晶晶真的没说错

削桐作琴
2026-01-21 13:24:27
“国民神车”连续两个月 0 销量之后,搞了个骚操作

“国民神车”连续两个月 0 销量之后,搞了个骚操作

蓝字计划
2026-01-20 15:13:01
网友拍到京东快递车上,有人将刘强东喝酒照片恶意涂改

网友拍到京东快递车上,有人将刘强东喝酒照片恶意涂改

映射生活的身影
2026-01-21 16:41:27
2026-01-21 20:59:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
675322文章数 1016918关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

健康
游戏
家居
旅游
房产

打工人年终总结!健康通关=赢麻了

难道说?Xbox三代精英手柄有望明日公布!

家居要闻

褪去浮华 触达松弛与欣喜

旅游要闻

免票!超值套票!伏羲山冰雪节全线优惠上线!

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

无障碍浏览 进入关怀版