网易首页 > 网易号 > 正文 申请入驻

为什么昇腾是DeepSeek的“最优解”?

0
分享至

作者 | 金旺

来源 | 科技行者

2月13日,OpenAI CEO Sam Altman公开表示,“GPT-5将会在未来几个月发布,并将对公众开放免费使用。”

直接跳过OpenAI o3,迎来免费版GPT-5,这与最近一段时间DeepSeek火爆全球不无关系。

作为全球大模型领域主导者,OpenAI不能失去自己的铁王座,DeepSeek V3/R1在过去两个月里为全球人工智能产业带来的冲击,让这一领域的头部玩家们不得不重新思考人工智能的创新节奏。

就在本周,百度创始人李彦宏在World Governments Summit 2025峰会上也谈到,“每12个月,大模型的推理成本就会降低90%以上,这比以往计算机革命都要快很多。”

那么,DeepSeek究竟为人工智能产业带来了怎样的变化?它又需要怎样的算力底座?

01 DeepSeek的鲶鱼效应

2024年12月26日,国内一家成立仅一年多的AI团队发布了一个名为DeepSeek V3的模型,这个模型是在14.8万亿高质量token上进行预训练,并通过监督微调和强化学习进一步提高了模型的性能。

相较于五个月前发布的上一版本模型,这次他们采用了多头潜在注意力 (MLA)和MoE架构,并引入了无辅助损失的负载均衡策略和多token预测训练目标,这样的好处是能够实现高效推理和低成本训练。

仅仅是在一个月后,这个团队又发布了一个新模型,DeepSeek R1。

这次,他们仅用相当于OpenAI o1三十分之一的成本却实现了比肩OpenAI o1的性能,尤其DeepSeek R1还以开源形式公开了它的思维链,这让DeepSeek迅速火爆全球。

在这之后,我们看到,全球人工智能领域在短短一个月内经过了多次思想上的碰撞,推动了全球人工智能产业链的变革。

这场变革主要体现在三个方面:

第一,加速基座大模型创新。

此前,基座大模型的市场已经开始向几家头部AI玩家聚集,DeepSeek R1的出现,就像一条鲶鱼,加快了基座大模型的竞争和创新速度。

我们不仅能看到OpenAI官方将在未来几个月里推出免费版本的GPT-5,还看到了近期头部AI玩家纷纷发布了性能更强的基座大模型,例如阿里发布了Qwen 2.5-Max,谷歌也发布了Gemini 2.0系列模型。

此外,头部AI玩家纷纷加大了技术投入以维持自己的领先优势。

例如,Meta创始人扎克伯格官宣加大2025年的AI投资,预计2025年在AI领域至少投入600-650亿美元(2024年为400亿美元)。

与此同时,谷歌的AI投资也将从525亿美元增加到750亿美元。

第二,加速应用创新。

在过去一个月里,我们看到国内四大云厂商接入了DeepSeek,看到国内三大运营商跑步接入了DeepSeek,与此同时,我们也看到在B端市场,越来越多企业正在加快接入DeepSeek。

有数据显示,自DeepSeek R1发布后,仅仅20天内,国内外就已经有160多家企业接入了DeepSeek。

第三,加速大模型普及。

据QuestMobile统计数据显示,DeepSeek日活跃用户数在2月1日突破了3000万大关,刷新了全球最快达成3000万日活用户榜单。

另一组来自Xsignal的数据显示,截至2月8日,DeepSeek国内APP端日活用户数达到了3494万,海外APP端日活用户数达到了3685万,全球Web端日活更是达到4800万,全球日活用户总量达到1.19亿。

用户数的爆炸式增长,让DeepSeek成为继ChatGPT后大模型在消费市场普及的又一拐点,再次加速了大模型在消费市场的普及,以及更多大模型应用的涌现。

如果深究这场人工智能产业变革的本质,实际上是DeepSeek通过模型结构、计算通信、后训练和推理等方面极致的工程优化,提升了算力利用率。

在这一过程中,DeepSeek的模型训练效率提升了2~3倍,推理效率提升了5~7倍,与此同时,在整体训练成本降低了60%的同时,模型性能提升了20%。

而在DeepSeek加速大模型技术创新和普及应用时,稳定可靠的算力底座,依旧是模型创新的根本。

02 昇腾提供的“最优解”

2月4日,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro正式上线昇腾社区,支持一键获取DeepSeek系列模型,支持在昇腾硬件平台上开箱即用。

作为原生支持昇腾的DeepSeek,这时在国内已经有不少企业基于昇腾完成了DeepSeek的快速上线。

实际上,早在2024年,昇腾团队就已经在研究并行解码技术,这与DeepSeek V3/R1特有的多头潜在注意力机制不谋而合。

2024年12月26日,在Deepseek-V3上线并开源后,昇腾、硅基流动与DeepSeek团队进行了多次座谈,共同研讨联合创新的机会。

在这之后,昇腾成了业界首个适配完成DeepSeek核心算法,支持DeepSeek全系模型预训练及微调,也是国内业界唯一一个从预训练到微调全流程适配DeepSeek的AI训练平台。

相关数据显示,目前各行业已有80+企业基于昇腾快速适配/上线了DeepSeek系列模型并在对外提供服务,此外,还有20+企业在适配测试中,预计在未来两周内全部完成上线,总体而言,国内70%的企业基于昇腾快速上线。

为什么这么多企业会选择基于昇腾平台来上线DeepSeek?

我们了解到,昇腾是目前进行DeepSeek部署的“最优解”。

就训练能力而言,昇腾超节点支持DeepSeek全系模型预训练及微调,支持DualPipe、跨节点All2All等DeepSeek核心优化技术,超大带宽通信域更适合DeepSeek的流水线并行算法及冗余专家等能力。

DeepSeek R1是强化学习RL模型,昇腾超节点是更适合DeepSeek V3/R1的解决方案。

就推理能力而言,昇腾通过并行推理优化技术+专家负载均衡能力,助力DeepSeek模型推理吞吐性能提升30%+。

DeepSeek小专家创新架构,带来的是通信耗时及专家负载不均挑战,更多的小专家并行,引入极大的通信开销,更多专家的数据负载难以均衡。

昇腾平台通过伪EP混合并行算法,通信优化性能提升30%+,稀疏路由稠密化算法,访存性能提升20%+,从而降低专家不均衡度,推理吞吐性能提升20%~35%。

此外,作为一个开放的AI基础软硬件平台,昇腾平台打造了Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能以及一站式开发平台ModelArts等全栈产品体系,并形成了规模庞大的产业生态。

据悉,截至2024年12月31日,昇腾已发展超过60硬件合作伙伴,330万多开发者,2500多家行业合作伙伴,并共同孵化了150多个昇腾原生硬件产品,超过5800个解决方案。

面向DeepSeek掀起的这波大模型普及的技术浪潮,目前已有30+软硬件伙伴基于昇腾推出DeepSeek一体机方案,昇腾一体机成了支持DeepSeek系列模型快速上线,支撑客户生产系统的“最优解”。

此外,据公开信息统计,目前昇腾正在助力20+省、25城市公共算力服务平台启动部署DeepSeek系列模型,全国超70%区域可获取本地支持。

如果说ChatGPT是大模型从技术研发到产业应用的一个拐点,那么,DeepSeek可以被视为第二个拐点。

接下来,我们将会在2025年看到大模型技术竞争更加激烈,也将会看到更多大模型应用在产业,乃至消费市场中陆续落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
酷派集团独董郭敬晖被立案调查并实施留置,公司长期亏损,市值约2亿港元

酷派集团独董郭敬晖被立案调查并实施留置,公司长期亏损,市值约2亿港元

红星资本局
2026-03-26 13:23:04
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
一个21岁中国姑娘在阿根廷机场,给所有为人父母者上了深刻的一课

一个21岁中国姑娘在阿根廷机场,给所有为人父母者上了深刻的一课

男孩派
2026-03-25 10:00:06
51岁港星广东县城卖10元云吞,凌晨5点起床,擦桌子收碗筷超勤快

51岁港星广东县城卖10元云吞,凌晨5点起床,擦桌子收碗筷超勤快

韩小娱
2026-03-17 11:28:35
清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

磊子讲史
2026-03-20 16:07:07
别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

西楼知趣杂谈
2026-03-18 11:48:25
13分优势遭15-0逆转!两大解说怒批:乌度卡完败,这输法真活该

13分优势遭15-0逆转!两大解说怒批:乌度卡完败,这输法真活该

体育见习官
2026-03-26 13:06:25
赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

海峡导报社
2026-03-25 08:17:03
长期外派甲方工作是一种什么体验?网友:一年也不回公司一次

长期外派甲方工作是一种什么体验?网友:一年也不回公司一次

另子维爱读史
2026-03-24 20:37:44
张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

张凌赫和田曦薇,谢谢你俩让我看到了真人秀有多假

草莓解说体育
2026-03-26 14:17:01
警醒!中国该提防巴基斯坦了,他们的小孩,随口就说“秦腔穷”

警醒!中国该提防巴基斯坦了,他们的小孩,随口就说“秦腔穷”

原来仙女不讲理
2026-03-25 17:54:03
美媒:“未来战争”轮廓在伊朗清晰浮现

美媒:“未来战争”轮廓在伊朗清晰浮现

参考消息
2026-03-25 10:25:08
广东不仅持续发放原民办代课教师生活补助而且还不断新增发放人数

广东不仅持续发放原民办代课教师生活补助而且还不断新增发放人数

郭爱华追问教育
2026-03-26 06:29:01
公益一类二类事业单位改革,多种事业编实行员额制,签订劳动合同

公益一类二类事业单位改革,多种事业编实行员额制,签订劳动合同

马蹄烫嘴说美食
2026-03-26 13:59:16
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
83岁赵朴初归乡,站在陈独秀墓前直言:墓碑上少了两个字太不应该

83岁赵朴初归乡,站在陈独秀墓前直言:墓碑上少了两个字太不应该

老谢谈史
2026-03-23 12:07:01
杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

娱乐领航家
2026-03-26 00:00:03
不能只让特朗普出风头,俄罗斯宣布重磅消息:跟中国有大事要谈

不能只让特朗普出风头,俄罗斯宣布重磅消息:跟中国有大事要谈

爱看剧的阿峰
2026-03-26 14:00:36
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
48小时突袭!美国正想停火,以色列战机却在伊朗头顶抢炸最后一波

48小时突袭!美国正想停火,以色列战机却在伊朗头顶抢炸最后一波

Ck的蜜糖
2026-03-26 14:24:22
2026-03-26 15:31:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
数码
游戏
教育
公开课

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

教育要闻

高考地理中的花海经济

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版