网易首页 > 网易号 > 正文 申请入驻

DeepSeek 发展历程

0
分享至

一、DeepSeek 介绍

DeepSeek 是一家由中国知名量化私募巨头幻方量化创立的人工智能公司,致力于开发高效、高性能的生成式 AI 模型。自 2023 年 7 月成立以来,DeepSeek 在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括 DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1。

二、DeepSeek 发展历程

2023 年 7 月:DeepSeek 成立,总部位于杭州。

2023 年 11 月 2 日:发布首个开源代码大模型 DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务。

2023 年 11 月 29 日:推出参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。

2024 年 5 月 7 日:发布第二代开源混合专家(MoE)模型 DeepSeek-V2,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。

2024 年 12 月 26 日:发布 DeepSeek-V3,总参数达 6710 亿,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。

2025 年 1 月 20 日:发布新一代推理模型 DeepSeek-R1,性能与 OpenAI 的 o1 正式版持平,并开源。

2025 年 1 月 26 日:DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。

三、DeepSeek 原理

DeepSeek 的模型设计和训练过程采用了多项创新技术,这些技术使其在性能和效率上取得了显著的突破。

混合专家架构(MoE):

DeepSeek-V3 采用了混合专家架构,总参数达 6710 亿,但每个输入只激活 370 亿参数。这种选择性激活的方式大大降低了计算成本,同时保持了高性能。

DeepSeek-V3 的 MoE 架构通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡。

多头潜在注意力(MLA):

DeepSeek-V3 引入了多头潜在注意力机制,通过低秩联合压缩机制,将 Key-Value 矩阵压缩为低维潜在向量,显著减少内存占用。

无辅助损失负载均衡:

DeepSeek-V3 采用了无辅助损失负载均衡策略,最小化了因鼓励负载均衡而导致的性能下降。

多 Token 预测(MTP):

DeepSeek-V3 采用了多 Token 预测目标,证明其对模型性能有益,并可用于推理加速。

FP8 混合精度训练:

DeepSeek-V3 设计了 FP8 混合精度训练框架,首次验证了在极大规模模型上进行 FP8 训练的可行性和有效性。

知识蒸馏:

DeepSeek-R1 通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准 LLM 中,显著提升了推理性能。

四、DeepSeek 的产品性能对比

DeepSeek-V3:在聊天机器人竞技场(Chatbot Arena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。

DeepSeek-R1:在 Chatbot Arena 综合榜单上排名第三,与 OpenAI 的 o1 并列。在高难度

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国足协主席:我必须强调一个分量极重的事实

中国足协主席:我必须强调一个分量极重的事实

上观新闻
2026-02-21 18:49:03
多国敦促在伊朗公民尽快撤离

多国敦促在伊朗公民尽快撤离

每日经济新闻
2026-02-21 10:10:52
5岁外甥女过年给舅舅磕头获赠30斤重银砖,价值30多万元,家长退还后,舅舅改送了一块价值1000多元带“压岁钱”字样的银砖

5岁外甥女过年给舅舅磕头获赠30斤重银砖,价值30多万元,家长退还后,舅舅改送了一块价值1000多元带“压岁钱”字样的银砖

大风新闻
2026-02-21 17:27:07
湛江妈祖事件升级!小妈祖直播报平安,一句“我很好”看哭不少人

湛江妈祖事件升级!小妈祖直播报平安,一句“我很好”看哭不少人

火山詩话
2026-02-21 06:44:08
和谈破裂,俄乌将全面开战,英国再援乌229亿美元

和谈破裂,俄乌将全面开战,英国再援乌229亿美元

史政先锋
2026-02-21 16:46:58
美军选在春节挑衅?解放军时刻准备着!

美军选在春节挑衅?解放军时刻准备着!

扬子晚报
2026-02-21 21:34:43
为啥我们五次申请CPTPP都失败?原因在于第四条

为啥我们五次申请CPTPP都失败?原因在于第四条

老籣说体育
2026-02-21 12:00:33
撞脸吴京!杭州地铁这位赵Sir火了,春节假期被问几百遍去西湖怎么走

撞脸吴京!杭州地铁这位赵Sir火了,春节假期被问几百遍去西湖怎么走

环球网资讯
2026-02-21 15:49:47
“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

环球网资讯
2026-02-21 17:27:11
特斯拉新车曝光:无方向盘、无踏板、无后视镜

特斯拉新车曝光:无方向盘、无踏板、无后视镜

澎湃新闻
2026-02-21 02:12:18
春节旅游高峰已经爆出浆!大量现场游客动弹不得直呼后悔!

春节旅游高峰已经爆出浆!大量现场游客动弹不得直呼后悔!

魔都囡
2026-02-21 01:32:37
冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

何老师呀
2026-02-21 07:14:25
宋凯:徐梦桃王心迪夺冠我很激动!中国足球要向中国冰雪学习8点

宋凯:徐梦桃王心迪夺冠我很激动!中国足球要向中国冰雪学习8点

念洲
2026-02-21 20:24:15
贝加尔湖7名遇难中国游客遗体已被发现,目击者:唯一幸存者在沉湖前最后一刻打开车门;司机为当地44岁男子,或涉违规私下接单

贝加尔湖7名遇难中国游客遗体已被发现,目击者:唯一幸存者在沉湖前最后一刻打开车门;司机为当地44岁男子,或涉违规私下接单

每日经济新闻
2026-02-21 12:38:14
7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

极目新闻
2026-02-21 14:31:40
中国队爆冷又夺1金!冬奥奖牌榜:前十仅1支亚洲队,韩国排名飙升

中国队爆冷又夺1金!冬奥奖牌榜:前十仅1支亚洲队,韩国排名飙升

何老师呀
2026-02-21 05:47:30
当利润跌破4%,一场比新车更惨烈的战争开始了

当利润跌破4%,一场比新车更惨烈的战争开始了

大佬灼见
2026-02-20 09:03:49
妈祖事件真相大白,红衣女孩已做多年乩童,这三年来变化越来越大

妈祖事件真相大白,红衣女孩已做多年乩童,这三年来变化越来越大

观察鉴娱
2026-02-21 10:51:24
王濛气到落泪:花那么多钱,就把队伍弄成这样?成天锁大门蒙眼睛

王濛气到落泪:花那么多钱,就把队伍弄成这样?成天锁大门蒙眼睛

风过乡
2026-02-21 08:03:36
这个春节,买了恒科的眼泪都流干了

这个春节,买了恒科的眼泪都流干了

贩财局
2026-02-21 09:35:42
2026-02-22 00:11:00
经纬视界观 incentive-icons
经纬视界观
经济地理爱好者。
637文章数 20关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

美军战机选在大年初二挑衅解放军 韩国防长抗议了

头条要闻

美军战机选在大年初二挑衅解放军 韩国防长抗议了

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
亲子
时尚
本地
艺术

数码要闻

物理销毁SSD:结果根本没贯穿PCB!直接就扔到垃圾桶了

亲子要闻

中韩宝宝得要从小灌输中国文化 真正的年味是什么?

冬天穿衣尽量别露腿,这些基础穿搭可尝试,简单大方又不挑人

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

历时144年,全球最高的教堂正式封顶!

无障碍浏览 进入关怀版