网易首页 > 网易号 > 正文 申请入驻

DeepSeek 发展历程

0
分享至

一、DeepSeek 介绍

DeepSeek 是一家由中国知名量化私募巨头幻方量化创立的人工智能公司,致力于开发高效、高性能的生成式 AI 模型。自 2023 年 7 月成立以来,DeepSeek 在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括 DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1。

二、DeepSeek 发展历程

2023 年 7 月:DeepSeek 成立,总部位于杭州。

2023 年 11 月 2 日:发布首个开源代码大模型 DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务。

2023 年 11 月 29 日:推出参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。

2024 年 5 月 7 日:发布第二代开源混合专家(MoE)模型 DeepSeek-V2,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。

2024 年 12 月 26 日:发布 DeepSeek-V3,总参数达 6710 亿,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。

2025 年 1 月 20 日:发布新一代推理模型 DeepSeek-R1,性能与 OpenAI 的 o1 正式版持平,并开源。

2025 年 1 月 26 日:DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。

三、DeepSeek 原理

DeepSeek 的模型设计和训练过程采用了多项创新技术,这些技术使其在性能和效率上取得了显著的突破。

混合专家架构(MoE):

DeepSeek-V3 采用了混合专家架构,总参数达 6710 亿,但每个输入只激活 370 亿参数。这种选择性激活的方式大大降低了计算成本,同时保持了高性能。

DeepSeek-V3 的 MoE 架构通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡。

多头潜在注意力(MLA):

DeepSeek-V3 引入了多头潜在注意力机制,通过低秩联合压缩机制,将 Key-Value 矩阵压缩为低维潜在向量,显著减少内存占用。

无辅助损失负载均衡:

DeepSeek-V3 采用了无辅助损失负载均衡策略,最小化了因鼓励负载均衡而导致的性能下降。

多 Token 预测(MTP):

DeepSeek-V3 采用了多 Token 预测目标,证明其对模型性能有益,并可用于推理加速。

FP8 混合精度训练:

DeepSeek-V3 设计了 FP8 混合精度训练框架,首次验证了在极大规模模型上进行 FP8 训练的可行性和有效性。

知识蒸馏:

DeepSeek-R1 通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准 LLM 中,显著提升了推理性能。

四、DeepSeek 的产品性能对比

DeepSeek-V3:在聊天机器人竞技场(Chatbot Arena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。

DeepSeek-R1:在 Chatbot Arena 综合榜单上排名第三,与 OpenAI 的 o1 并列。在高难度

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米米家首款手持风扇正式发布:169元起,5米送风+40小时续航

小米米家首款手持风扇正式发布:169元起,5米送风+40小时续航

泡泡网
2026-05-27 11:25:19
泽连斯基紧急致信特朗普:乌克兰仅剩两枚导弹,恳求美国扩大爱国者产能

泽连斯基紧急致信特朗普:乌克兰仅剩两枚导弹,恳求美国扩大爱国者产能

互联网大观
2026-05-28 09:21:07
乌克兰民众买下卫星传回5900张卫星图,俄军数十亿美元资产被打掉

乌克兰民众买下卫星传回5900张卫星图,俄军数十亿美元资产被打掉

桂系007
2026-05-27 20:45:59
Lisa世界杯歌曲遭抵制,歌词无关世界杯,全是物化女性的纸醉金迷

Lisa世界杯歌曲遭抵制,歌词无关世界杯,全是物化女性的纸醉金迷

芊手若
2026-05-28 12:43:59
临时变动!首战伤退洛夫顿重回G2名单 怀特塞德连续两场缺席

临时变动!首战伤退洛夫顿重回G2名单 怀特塞德连续两场缺席

醉卧浮生
2026-05-28 18:30:05
郭士强迎强援!NBA大将回归国家队,出战世预赛,日本男篮恐惨败

郭士强迎强援!NBA大将回归国家队,出战世预赛,日本男篮恐惨败

烨侃体育
2026-05-28 16:35:38
科尔帕奇承认指错球印并致歉,称两人私交较好但王欣瑜受团队煽动

科尔帕奇承认指错球印并致歉,称两人私交较好但王欣瑜受团队煽动

网球之家
2026-05-28 10:19:42
体感60℃夺命来袭,14亿印度人正坠入高温死局!

体感60℃夺命来袭,14亿印度人正坠入高温死局!

52赫兹实验室
2026-05-27 14:39:27
万万没想到!中国狂建核电站,不是缺电,而是盯上了老美的命根

万万没想到!中国狂建核电站,不是缺电,而是盯上了老美的命根

混沌录
2026-05-27 17:04:17
深圳隔音墙熊熊大火,是否使用阻燃材料?全封闭隔音屏障是否存在安全隐患?

深圳隔音墙熊熊大火,是否使用阻燃材料?全封闭隔音屏障是否存在安全隐患?

可达鸭面面观
2026-05-28 10:47:40
杨鹤通直播发表不当言论,德云社回应

杨鹤通直播发表不当言论,德云社回应

韩小娱
2026-05-28 18:39:17
NBA西决争议不断!肖华表态支持:合理博取哨声,无需过度解读

NBA西决争议不断!肖华表态支持:合理博取哨声,无需过度解读

夜白侃球
2026-05-28 10:29:12
身价暴涨不续约?松岛辉空官宣离队!桥本帆乃香回应退出亚锦赛选拔!

身价暴涨不续约?松岛辉空官宣离队!桥本帆乃香回应退出亚锦赛选拔!

最爱乒乓球
2026-05-28 05:04:22
硬汉张雪对着馆长哭了:挣那么多钱有什么用?我的命是星辰大海

硬汉张雪对着馆长哭了:挣那么多钱有什么用?我的命是星辰大海

法老不说教
2026-05-27 17:09:20
江苏4人出海吸花甲失联,已有2人遗体被找到,亲属希望确定事故原因;海警:大规模搜救已停止,当地工作站将利用巡逻排查搜救剩余失联人员

江苏4人出海吸花甲失联,已有2人遗体被找到,亲属希望确定事故原因;海警:大规模搜救已停止,当地工作站将利用巡逻排查搜救剩余失联人员

大风新闻
2026-05-28 08:46:03
51℃烤裂印度!不断有人被热死,莫迪终于坐不住,开始一顿骚操作

51℃烤裂印度!不断有人被热死,莫迪终于坐不住,开始一顿骚操作

步论天下事
2026-05-28 18:34:05
陈士榘拿下开封,粟裕却立马撤退,众人不解,毛主席:粟裕高明啊

陈士榘拿下开封,粟裕却立马撤退,众人不解,毛主席:粟裕高明啊

浩渺青史
2026-05-28 18:53:28
俞敏洪:不要把自己逼到抑郁,不要把自己气的一身病,所有事情,除了生死都不值得一提。人这一生,过的是日子,活的是心态!

俞敏洪:不要把自己逼到抑郁,不要把自己气的一身病,所有事情,除了生死都不值得一提。人这一生,过的是日子,活的是心态!

德鲁克博雅管理
2026-05-28 17:05:47
男色经济,开始收割女性欲望

男色经济,开始收割女性欲望

李东阳朋友圈
2026-05-27 16:12:14
不会吧!一个全明星二当家,拿着2.2亿顶薪,西决场均12分

不会吧!一个全明星二当家,拿着2.2亿顶薪,西决场均12分

球毛鬼胎
2026-05-28 19:35:55
2026-05-28 22:15:00
经纬视界观 incentive-icons
经纬视界观
经济地理爱好者。
645文章数 21关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

本地
旅游
健康
亲子
公开课

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

山东文旅报道|与辉同行山东行:赴好客之约 享好品之盛

专家教你辨认“正规外泌体”!

亲子要闻

专家解读|孩子不爱吃蔬菜怎么办?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版