网易首页 > 网易号 > 正文 申请入驻

DeepSeek 发展历程

0
分享至

一、DeepSeek 介绍

DeepSeek 是一家由中国知名量化私募巨头幻方量化创立的人工智能公司,致力于开发高效、高性能的生成式 AI 模型。自 2023 年 7 月成立以来,DeepSeek 在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括 DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1。

二、DeepSeek 发展历程

2023 年 7 月:DeepSeek 成立,总部位于杭州。

2023 年 11 月 2 日:发布首个开源代码大模型 DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务。

2023 年 11 月 29 日:推出参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。

2024 年 5 月 7 日:发布第二代开源混合专家(MoE)模型 DeepSeek-V2,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。

2024 年 12 月 26 日:发布 DeepSeek-V3,总参数达 6710 亿,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。

2025 年 1 月 20 日:发布新一代推理模型 DeepSeek-R1,性能与 OpenAI 的 o1 正式版持平,并开源。

2025 年 1 月 26 日:DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。

三、DeepSeek 原理

DeepSeek 的模型设计和训练过程采用了多项创新技术,这些技术使其在性能和效率上取得了显著的突破。

混合专家架构(MoE):

DeepSeek-V3 采用了混合专家架构,总参数达 6710 亿,但每个输入只激活 370 亿参数。这种选择性激活的方式大大降低了计算成本,同时保持了高性能。

DeepSeek-V3 的 MoE 架构通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡。

多头潜在注意力(MLA):

DeepSeek-V3 引入了多头潜在注意力机制,通过低秩联合压缩机制,将 Key-Value 矩阵压缩为低维潜在向量,显著减少内存占用。

无辅助损失负载均衡:

DeepSeek-V3 采用了无辅助损失负载均衡策略,最小化了因鼓励负载均衡而导致的性能下降。

多 Token 预测(MTP):

DeepSeek-V3 采用了多 Token 预测目标,证明其对模型性能有益,并可用于推理加速。

FP8 混合精度训练:

DeepSeek-V3 设计了 FP8 混合精度训练框架,首次验证了在极大规模模型上进行 FP8 训练的可行性和有效性。

知识蒸馏:

DeepSeek-R1 通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准 LLM 中,显著提升了推理性能。

四、DeepSeek 的产品性能对比

DeepSeek-V3:在聊天机器人竞技场(Chatbot Arena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。

DeepSeek-R1:在 Chatbot Arena 综合榜单上排名第三,与 OpenAI 的 o1 并列。在高难度

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
擦边二十年的椰树,这次翻车不冤

擦边二十年的椰树,这次翻车不冤

新周刊
2026-03-17 13:18:21
从“四大家族”看华人移民欧美三代后,会不会跌入斩杀线

从“四大家族”看华人移民欧美三代后,会不会跌入斩杀线

韬闻
2026-03-15 12:28:38
中国最佳大学排名发布!深圳大学并列20,郑州大学排名29

中国最佳大学排名发布!深圳大学并列20,郑州大学排名29

一口娱乐
2026-03-18 03:41:43
多接触女性的隐秘好处:第三点,多数男人都未曾领悟

多接触女性的隐秘好处:第三点,多数男人都未曾领悟

枫红染山径
2026-03-13 00:11:29
油价下跌5.28%,3月17日汽柴油涨幅再多240元/吨,92汽油破9在即

油价下跌5.28%,3月17日汽柴油涨幅再多240元/吨,92汽油破9在即

猪友巴巴
2026-03-17 14:55:03
CBA排名巨变:北京冲击前四,辽宁跌出前八,广东第三不稳

CBA排名巨变:北京冲击前四,辽宁跌出前八,广东第三不稳

简简单单的说
2026-03-17 13:07:50
日本高官放话,只要168小时,能全歼中国海军,但中国不准用导弹

日本高官放话,只要168小时,能全歼中国海军,但中国不准用导弹

趣文说娱
2026-03-17 17:42:15
要么投降,要么死在洞里——内塔尼亚胡拒绝放走被困地道的哈马斯

要么投降,要么死在洞里——内塔尼亚胡拒绝放走被困地道的哈马斯

桂系007
2025-11-05 23:52:21
我猜你刚知道:这8样东西“不按说明使用”,简直打开新世界大门

我猜你刚知道:这8样东西“不按说明使用”,简直打开新世界大门

Home范
2026-03-17 12:13:53
白宫经济顾问:油轮“已开始零星通过”霍尔木兹海峡

白宫经济顾问:油轮“已开始零星通过”霍尔木兹海峡

每日经济新闻
2026-03-17 21:53:49
医保全国统一来了!70-80岁老人看病,这3件事必须记牢

医保全国统一来了!70-80岁老人看病,这3件事必须记牢

小影的娱乐
2026-03-18 03:26:41
霸气逼人!全新雷克萨斯ES静态体验

霸气逼人!全新雷克萨斯ES静态体验

车仔面大叔
2026-03-18 01:09:07
内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

品读时刻
2026-02-11 17:18:30
男性长期禁欲,精子只产不排,最后会怎样?医生:或有4大后果

男性长期禁欲,精子只产不排,最后会怎样?医生:或有4大后果

健康之光
2026-03-06 13:11:59
实至名归!26年英超进球数最多的球员,创造历史成功入选桑巴军团

实至名归!26年英超进球数最多的球员,创造历史成功入选桑巴军团

体坛老球迷
2026-03-17 10:53:21
中美谈妥,中方深夜发布通稿,禁止美国做2件事,特朗普表情复杂

中美谈妥,中方深夜发布通稿,禁止美国做2件事,特朗普表情复杂

影孖看世界
2026-03-17 23:50:51
以军刺杀伊朗安全高官,哈梅内伊曾委任他在自己遭遇不测后领导国家

以军刺杀伊朗安全高官,哈梅内伊曾委任他在自己遭遇不测后领导国家

极目新闻
2026-03-17 16:31:25
霍尔木兹海峡风云突变,巴基斯坦亮出底牌,强势护航油轮通过

霍尔木兹海峡风云突变,巴基斯坦亮出底牌,强势护航油轮通过

牛锅巴小钒
2026-03-15 19:38:14
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
FIFA不同意将伊朗的比赛移至墨西哥,会导致别国不便和商业问题

FIFA不同意将伊朗的比赛移至墨西哥,会导致别国不便和商业问题

懂球帝
2026-03-17 21:29:13
2026-03-18 05:12:49
经纬视界观 incentive-icons
经纬视界观
经济地理爱好者。
638文章数 20关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

特朗普:伊朗2名高级官员被清除 1人为最高层人物

头条要闻

特朗普:伊朗2名高级官员被清除 1人为最高层人物

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁官宣离婚,评论区全是冷嘲热讽

财经要闻

多款药品被曝线上线下价差巨大

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

家居
本地
房产
健康
公开课

家居要闻

侘寂美学 无用之美

本地新闻

春天出门像出舱?一个过敏星人的装备进化史

房产要闻

炸裂!狂拆642亩!那个要砸100亿的三亚香港城来了!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版