网易首页 > 网易号 > 正文 申请入驻

DeepSeek 发展历程

0
分享至

一、DeepSeek 介绍

DeepSeek 是一家由中国知名量化私募巨头幻方量化创立的人工智能公司,致力于开发高效、高性能的生成式 AI 模型。自 2023 年 7 月成立以来,DeepSeek 在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括 DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1。

二、DeepSeek 发展历程

2023 年 7 月:DeepSeek 成立,总部位于杭州。

2023 年 11 月 2 日:发布首个开源代码大模型 DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务。

2023 年 11 月 29 日:推出参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。

2024 年 5 月 7 日:发布第二代开源混合专家(MoE)模型 DeepSeek-V2,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。

2024 年 12 月 26 日:发布 DeepSeek-V3,总参数达 6710 亿,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。

2025 年 1 月 20 日:发布新一代推理模型 DeepSeek-R1,性能与 OpenAI 的 o1 正式版持平,并开源。

2025 年 1 月 26 日:DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。

三、DeepSeek 原理

DeepSeek 的模型设计和训练过程采用了多项创新技术,这些技术使其在性能和效率上取得了显著的突破。

混合专家架构(MoE):

DeepSeek-V3 采用了混合专家架构,总参数达 6710 亿,但每个输入只激活 370 亿参数。这种选择性激活的方式大大降低了计算成本,同时保持了高性能。

DeepSeek-V3 的 MoE 架构通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡。

多头潜在注意力(MLA):

DeepSeek-V3 引入了多头潜在注意力机制,通过低秩联合压缩机制,将 Key-Value 矩阵压缩为低维潜在向量,显著减少内存占用。

无辅助损失负载均衡:

DeepSeek-V3 采用了无辅助损失负载均衡策略,最小化了因鼓励负载均衡而导致的性能下降。

多 Token 预测(MTP):

DeepSeek-V3 采用了多 Token 预测目标,证明其对模型性能有益,并可用于推理加速。

FP8 混合精度训练:

DeepSeek-V3 设计了 FP8 混合精度训练框架,首次验证了在极大规模模型上进行 FP8 训练的可行性和有效性。

知识蒸馏:

DeepSeek-R1 通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准 LLM 中,显著提升了推理性能。

四、DeepSeek 的产品性能对比

DeepSeek-V3:在聊天机器人竞技场(Chatbot Arena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。

DeepSeek-R1:在 Chatbot Arena 综合榜单上排名第三,与 OpenAI 的 o1 并列。在高难度

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
绿源就“电动车午休视频被指擦边”致歉:已下架并处罚责任人

绿源就“电动车午休视频被指擦边”致歉:已下架并处罚责任人

南方都市报
2026-07-02 09:44:35
江文胜,任国务院副秘书长!拟任新职的山东2名市管干部,去向明确!

江文胜,任国务院副秘书长!拟任新职的山东2名市管干部,去向明确!

天气观察站
2026-07-03 13:21:01
颐和园、天坛有蛇出没?专家回应“北京公园的蛇好像变多了”

颐和园、天坛有蛇出没?专家回应“北京公园的蛇好像变多了”

极目新闻
2026-07-02 22:36:35
医生发现:每天早起后先喝水的人,用不了半年,身体迎来5大改变

医生发现:每天早起后先喝水的人,用不了半年,身体迎来5大改变

坠入二次元的海洋
2026-06-27 12:04:05
51岁大妈再婚30岁小鲜肉6个月,大妈:“年纪大了,爬不动山!”

51岁大妈再婚30岁小鲜肉6个月,大妈:“年纪大了,爬不动山!”

混音情感
2026-07-03 09:43:06
恭喜高市早苗,上任不到一年,就让日本成为全球餐桌上的“肥羊”

恭喜高市早苗,上任不到一年,就让日本成为全球餐桌上的“肥羊”

健身狂人
2026-07-02 15:36:59
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

人生录
2026-06-23 22:35:45
为什么日本模拟进攻辽宁舰值得高度警惕?

为什么日本模拟进攻辽宁舰值得高度警惕?

风铃草语
2026-06-30 06:40:47
踢球者:克洛普不会有很快的决定,但德国足协将很快宣布纳帅离任

踢球者:克洛普不会有很快的决定,但德国足协将很快宣布纳帅离任

砚底沉香
2026-07-03 15:39:05
2026上半年电影总票房仅173亿元 暴跌超40%

2026上半年电影总票房仅173亿元 暴跌超40%

快科技
2026-06-30 21:49:05
热穹顶东移北方高温将扩大,华北将40度随后干热转湿热

热穹顶东移北方高温将扩大,华北将40度随后干热转湿热

中国气象爱好者
2026-07-03 07:00:10
中国高规格出席哈梅内伊葬礼

中国高规格出席哈梅内伊葬礼

凤眼论
2026-07-03 11:22:54
乌克兰天塌了,最铁兄弟背后捅刀!援助白给了,入盟大门彻底焊死

乌克兰天塌了,最铁兄弟背后捅刀!援助白给了,入盟大门彻底焊死

魅力乌克兰
2026-07-03 14:25:12
为什么越来越多的人宁愿少拿退休金,也要提前退休?原因很简单

为什么越来越多的人宁愿少拿退休金,也要提前退休?原因很简单

职场资深秘书
2026-07-03 10:36:05
小米SU7新分期上线:首付4.99万 月供低至108元

小米SU7新分期上线:首付4.99万 月供低至108元

快科技
2026-07-01 16:00:35
《四渡》:3.5亿就拍了个“赵德发传奇”?别拿主旋律当遮羞布

《四渡》:3.5亿就拍了个“赵德发传奇”?别拿主旋律当遮羞布

浪子说
2026-07-03 14:59:43
出汗就是血脂最好的反馈,出现这5种情况,多是血脂快失控了

出汗就是血脂最好的反馈,出现这5种情况,多是血脂快失控了

白宸侃片
2026-07-03 13:03:39
7月1日正式实施!60岁以上,只要在上海,都可以找人陪着去医院

7月1日正式实施!60岁以上,只要在上海,都可以找人陪着去医院

记录生活日常阿蜴
2026-07-02 14:08:16
巴西美女问我一个问题:你们中国人,为什么非要自己造所有东西?

巴西美女问我一个问题:你们中国人,为什么非要自己造所有东西?

步论天下事
2026-07-03 16:13:36
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
2026-07-03 17:35:00
经纬视界观 incentive-icons
经纬视界观
经济地理爱好者。
650文章数 21关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

办信用卡8年被收8816元年费 女子投诉银行"悄悄扣费"

头条要闻

办信用卡8年被收8816元年费 女子投诉银行"悄悄扣费"

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
本地
家居
公开课
军事航空

《僵尸世界大战》“Limitless Strain”更新上线

本地新闻

国内足球之旅?这座小城给你高分答案

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄大使馆遇袭 2年多遭袭击次数已超25次

无障碍浏览 进入关怀版