网易首页 > 网易号 > 正文 申请入驻

满血版DeepSeek免费用,7种国产AI芯片打通!一条“中国特色”算力路线浮出水面

0
分享至

DeepSeek的爆火,让一条“中国特色”的算力路线浮出水面。

智东西2月11日报道,今日,AI基础设施创企无问芯穹上线了满血版DeepSeek-R1的国产适配版,且正逐一打通DeepSeek模型在7家国产AI芯片上的部署与推理服务。

至此,无问芯穹Infini-AI异构云大模型服务平台成为首个同时支持DeepSeek多芯片适配和推理的平台。开发者不仅能一键获取R1、V3模型,还将能选用来自壁仞科技、海光信息、华为昇腾、摩尔线程、沐曦、燧原科技、天数智芯这7家国产AI芯片品牌的算力。

无问芯穹演示了在Infini-AI平台上顺畅调用DeepSeek-R1模型及沐曦C550 AI加速卡的流程和效果。


这将DeepSeek擂响的“国产算力替代”战鼓声,推至新的高潮。比起仅仅比拼模型精度优势的竞速赛,时代的气运已经将AI竞赛的焦点,推向一场更大组织之间完整产业链实力的比拼。

技惊四座的DeepSeek大模型,用一系列创新打破了AI算力的游戏规则,降低了训练顶尖模型所需的硬件门槛,令本土替代雄心高涨。但如何利用好DeepSeek模型带来的算力优化启示,高效盘活国产算力资源?这个难题依然待解。

DeepSeek引爆的国产算力狂欢能持续多久?狂欢过后,国产AI芯片的路又该如何往前走?其论文提出对未来硬件设计的发展建议对国产芯片有何参考价值?国产大模型的发展会对算力紧缺和算力闲置并存的现象产生何种影响?未来大模型训练的比拼是否会演变为系统能力主导?

近日,智东西独家对话无问芯穹联合创始人兼CEO夏立雪,深入探讨在算力受限的条件下,国产模型、AI芯片及智算产业如何从DeepSeek的成功汲取经验,通过精耕细作来降低算力成本,发挥出国内智算资源的实用价值。

一、用有限算力训练更大模型:解读DeepSeek的技术秘籍,如何做到对算力的极致利用?

DeepSeek大语言模型共发布了3个大版本,参数规模从67B扩大到236B再到如今671B,所用的训练算力并未与模型尺寸等比例的成倍增长

在美国芯⽚封锁的背景下,DeepSeek通过算法、架构、⼯程的软硬件协同优化创新,以有限算⼒、超低成本实现了性能比肩顶尖国外模型的国产模型,印证了软硬协同这一技术路线对推动Scaling Law、突破算⼒瓶颈的有效性和巨⼤潜力

具体表现为两大类方法:

一是深⼊到底层硬件的硬核优化——需要对底层的硬件有充分理解,并能够在硬件层⾯得到⾜够开放的软件⽣态。典型技术包括底层PTX编程、精细流⽔线编排、极致的内存优化

  • 底层PTX编程:DeepSeek团队通过⽐CUDA更底层的硬件接⼝编程实现更精细的通信任务管理,将跨节点通信的效率提⾼了60%,比起“绕开CUDA”更像是“穿透CUDA”。
  • 精细流水线编排:采⽤混合专家(MoE)结构,通过缩减模型激活参数量和限制通信范围,牺牲通信换取模型规模增⼤,再通过细致的计算通信编排,实现了通信时间和计算时间将近100%重叠,成功掩盖这些开销。
  • 极致的内存优化:通过参数共享、计算换存储、协同使⽤内存显存等技术,将显存需求量降低了1/4以上,有效改善显存开销对限制模型规模的影响。

二是打通从算法到硬件的协同优化——需要对于从算法到硬件各层次都有充分理解,并具有极致的⼯程实现能⼒。典型技术包括:模型结构配合系统需求、使⽤更低精度训练、MoE负载均衡

  • 模型结构配合系统需求:修改标准Transformer(存储⼤量计算中间结果会严重制约模型能处理的上下⽂⻓度),使⽤隐空间注意⼒计算机制MLA,计算换存储,在有限显存中完成注意⼒计算。在⼏乎不损失算法精度的情况下,将显存占⽤量降低1-2个数量级。
  • 使⽤更低精度训练:通过算法上的精细分组量化、系统上CUDA核⼼与张量核⼼的并⾏计算,结合⼤量数据实验,率先实现了利用英伟达H800上FP8低⽐特计算单元训练出⾼质量模型,充分榨⼲硬件潜⼒。
  • MoE负载均衡:在MoE常⽤的负载均衡损失函数外,额外加⼊了限制极端情况的损失限制,并提出Auxiliary-Loss-Free技术减少负载均衡限制导致的模型精度损失,不仅将负载不均衡程度从超过50%降低到5%以内,也保证了MoE训练精度。

依托于深厚的系统能力,DeepSeek-R1是第⼀个成功使⽤强化学习实现推理能⼒增强、达到世界最优性能,并完全开源的类OpenAI o1/o3⽅案。DeepSeek-R1-Zero更是探索出一条全新的无需人类思考数据,直接自我迭代的技术路线,对大模型技术发展起到了深刻影响。

二、DeepSeek的软硬件优化策略,对国产算力产业有哪些启示?

软硬件联合优化是连接硬件和算法的桥梁,区别于各种算法层面优化方法,和硬件本身迭代的方法,而是随着硬件变化,让软件也不断优化,或根据软件的迭代来定义未来的底层电路实现,以更好地⽀持AI算法的运⾏。

夏立雪认为,DeepSeek通过软硬件协同降低算⼒成本,给国内的启⽰在于这套⽅法论可以打破现在的闭环⽣态瓶颈


在美国,模型、系统、芯片三个关键因素已经形成闭环生态。而国内多数大模型是通过国外芯⽚(如英伟达)训练得到的,与国内的系统、芯⽚难以形成闭环。

未来,中国需要依托国产模型、国产芯⽚、国产系统,形成⾃主可控的全国产AI⽣态闭环。实现这个⽬标需要分三步⾛:

第⼀步,⾯向国外芯⽚开展极致的软硬件协同优化,以有限算⼒实现国产模型能⼒追赶国外模型。

DeepSeek已经成功完成了第⼀步的探索,依托极致的软硬件协同优化,⽤2048块H800 GPU完成了V3模型的预训练,整体训练成本仅为558万美元。而海外训练同等能⼒模型所需的成本通常⾼达数千万美元。

第⼆步,依托国产和国外芯⽚搭建“异构”AI系统,解决算⼒缺⼝以实现国产模型能⼒超越国外模型。

据估算,OpenAI正在研发的GPT-5模型的参数量预计是GPT-4(参数量1800B)的5到10倍,⾄少需要5万块H100 GPU进⾏训练。我国现有符合条件的算力储备和供给,距离实现自主可控的下一代模型能力超越,仍有较大算力缺口,需要搭建⼀套开放⽣态的异构AI系统,推动国产芯⽚⼚商开放底层软件⽣态,实现国产算⼒的优势资源集聚。

第三步,构建国产芯⽚“同构”AI系统,软硬协同垂直打通实现国产模型Scaling Law的持续发展。

国外闭环AI⽣态是⼀个同构的AI系统,核⼼竞争⼒在于CUDA-X的垂直整合能⼒。国内可通过调动跨越软硬件和上下游的⽣态,加⼤投⼊“模型-芯⽚-系统”协同优化和垂直打通。

例如根据新⼀代模型架构来定义未来芯⽚的底层电路实现,根据国产AI系统的互联通信⽅式来设计⾼效的MoE模型结构,充分整合上层模型、中间系统、底层芯⽚的产业链资源,集中优势资源,助⼒实现国产模型Scaling Law持续发展。

在夏立雪看来,未来大模型训练的比拼,要同时考虑算法精度、系统效率甚⾄是国家战略。这需要沿着软硬件协同的路径,考虑中美差异,兼顾模型、系统与芯⽚,最终实现模型训练和落地成本的指数级降低,去牵引更⼤范围的产业升级。

三、国产AI芯片大练兵,用“系统自信”调动“算力自信”对于国内智算产业来说,DeepSeek是激励,更是绝佳的商业化试炼场。

DeepSeek刺激应用需求暴涨,激发了大量推理算力需求。几乎主流云厂商均已宣布提供R1模型服务,但全网还是很难找到服务不繁忙的“满血版”。

在推理需求愈发旺盛的背景下,国产算力还有很大被利用的空间。完善国内算⼒基建迫在眉睫。

以前,国产AI芯片各行其是,各自豪言支持大模型部署,奈何观望者众多,实际使用者寥寥。现在DeepSeek相当于将AI芯片公司拉到同一个考场,给出统一考题:你的芯片能不能支楞起来?

于是在短短10天内,20家国产AI芯片企业摩拳擦掌,各显其能,争相适配或上线DeepSeek模型,以期抓住这千载难逢的增长机遇。

这反映了中国当前特有的AI基础设施格局:有的是芯片和算力资源,只是没被利用起来

如何将大量不同架构的国产芯片变得能用、好用,并在使用过程中形成硬件与算法之间的正向循环?无问芯穹的策略是做异构云,即统筹模型和算力需求,把分散在不同地方的异构算力整合起来,实现不同模型和不同硬件之间的统⼀部署和联合优化,提供给需要算⼒和模型的客⼾。

这种将异构算力资源统一转化成标准的算力服务、规模化复制的做法,有助于扩⼤国内⼤模型产业可⽤算⼒的范围,提升算⼒利⽤效率。

无问芯穹由清华大学电子工程系教授、系主任汪玉发起,他带领的清华大学纳米集成电路与系统实验室高能效计算组(NICS-EFC)早在2018 年总结出软硬件联合优化技术路线。无问芯穹联合创始人、CEO夏立雪,联合创始人、首席科学家戴国浩,均毕业于NICS-EFC;联合创始人、CTO颜深根现任清华大学电子工程系副研究员。

这些背景使得无问芯穹吸纳了AI基础设施领域的头部研发人才,足够了解在⼤模型各种场景下的异构计算卡性能,并与多家硬件公司有充分信任关系。其推理加速技术Flash Decoding++通过异步⽅法实现注意⼒计算的真正并⾏,在10+种芯⽚上实现⾏业第⼀推理加速效果。

夏立雪谈道,做国产芯⽚适配的主要挑战来自硬件⽣态系统封闭且互不兼容,不同芯⽚有着不同的架构和相应⼯具链

比如⽤A卡的开发者,⽆法轻易迁移⾄B卡上展开⼯作,也很难同时⽤A卡和B卡做⼤模型训练或推理。如果⼀个算⼒集群中存在多种芯⽚,算⼒使⽤⽅会⾯临很多技术挑战,⽐如不同硬件平台适配不同的软件栈和⼯具链,需要为每种芯⽚定制和优化代码,令开发和维护的复杂性⼤增。


去年7⽉,无问芯穹就在业内⾸次实现千卡规模的4+2种芯⽚(天数智芯、华为昇腾、沐曦、摩尔线程与AMD、英伟达)异构混训,集群算力利⽤率最⾼达到97.6%,其运营算力已经覆盖全国超13座城市。

据夏立雪分享,在不稳定的生态环境中,需要一个从算法、硬件到模型都深入理解的团队,无问芯穹便具备这样的全栈垂直优化能力。

无问芯穹也在持续跟进业界领先的模型架构,未来如果有更专⽤的、针对模型结构的计算芯⽚出现,则可以更好地利⽤这些专⽤计算芯⽚,软硬协同优化,减少模型计算时间和硬件资源需求,降低⼤模型的开发应⽤成本。

结语:产业链⾃主可控是长远之策,盘活国产智算资源一盘棋

今年春节,DeepSeek和《哪吒之魔童闹海》两匹国产黑马,扭转了中国企业技不如人的成见,也例证了只要实力强,自有不分国界的人鼓掌。

西方的经验毕竟是过往,未必全对。在劈开算力封锁的路上,DeepSeek踏出了成功的一步,接下来的“国产模型+国产算⼒+国产云服务+国产应⽤”全国产化AI之路,还要靠产业链上下游的生态伙伴合力闯出来。

近期,MIT科技评论的一篇《除DeepSeek之外值得关注的4家中国AI初创公司》报道引起广泛关注。无问芯穹是其中唯一一家专注于AI基建和算力供给、让现有算力资源发挥出价值的公司。

DeepSeek证明了利用有限算力加上软件和工程创新,足以做出强大的模型,也让国际意识到中国还存在若干路径独特的团队,正在探寻“用Scaling Law比拼模型精度的巨头竞赛”之外可能出奇制胜的路径。这些路径能够跨越软硬件,攒动上下游,从而产生意外的战略奇袭。

最终,只有中国AI开发应用成本降下来、中国算力资源用起来,才能摆脱算力限制和算力闲置的掣肘,推动实现千行百业的大模型应用繁荣。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华晨宇演唱会延期哭了,抚仙湖居民发声:那我们之前的牺牲算什么

华晨宇演唱会延期哭了,抚仙湖居民发声:那我们之前的牺牲算什么

离离言几许
2026-04-23 20:05:27
河北偷狗女子社会性死亡:人被拘了,名声臭了,更恶心的还在后面

河北偷狗女子社会性死亡:人被拘了,名声臭了,更恶心的还在后面

社会日日鲜
2026-04-25 19:02:51
中国大学生需回炉重新学习,人社部财政部已发通知,是不是学历倒退或降级?

中国大学生需回炉重新学习,人社部财政部已发通知,是不是学历倒退或降级?

深度报
2026-04-23 22:43:47
交警提醒:5月开始全国严查,这些行为一律扣分罚款,车主别大意

交警提醒:5月开始全国严查,这些行为一律扣分罚款,车主别大意

复转这些年
2026-04-25 23:39:55
成都这把火5死2伤,人是怎么死的,又是电瓶车?

成都这把火5死2伤,人是怎么死的,又是电瓶车?

靠山屯闲话
2026-04-25 13:50:44
37岁男篮传奇人物:定居广东,身居要职财富自由,娶娇妻生双胞胎

37岁男篮传奇人物:定居广东,身居要职财富自由,娶娇妻生双胞胎

寻墨阁
2026-04-26 01:21:55
史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

柏年说政经
2026-04-25 10:00:08
想干啥?青岛两根立杆装18个摄像头24个补光灯!当地警方致歉

想干啥?青岛两根立杆装18个摄像头24个补光灯!当地警方致歉

听心堂
2026-04-25 19:00:02
埃泽世界波刷爆英超纪录,阿森纳1-0双杀纽卡,重返领头羊宝座

埃泽世界波刷爆英超纪录,阿森纳1-0双杀纽卡,重返领头羊宝座

钉钉陌上花开
2026-04-26 06:08:17
深圳女子公交站台上劝阻男子吸烟引争执 深圳官方回应

深圳女子公交站台上劝阻男子吸烟引争执 深圳官方回应

扬子晚报
2026-04-25 20:31:41
前所未有!中国罕见直接表态:军演针对菲律宾

前所未有!中国罕见直接表态:军演针对菲律宾

凤眼论
2026-04-24 18:49:26
陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

懂球帝
2026-04-25 16:34:10
58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

墨印斋
2026-04-24 16:43:38
美国发出宣战书!美军集结到位,21国要求本国公民立即从伊朗撤离

美国发出宣战书!美军集结到位,21国要求本国公民立即从伊朗撤离

史政先锋
2026-04-25 14:47:45
乌军曝出丑闻,西尔斯基怒不可遏:所有指挥官撤职查办!

乌军曝出丑闻,西尔斯基怒不可遏:所有指挥官撤职查办!

史政先锋
2026-04-25 20:38:13
车圈最卷的时候,有人开始做减法

车圈最卷的时候,有人开始做减法

虎嗅APP
2026-04-25 16:02:28
丁俊晖爬上球台逗笑全场观众,英媒赞其松弛,没被赵心童火力冲垮

丁俊晖爬上球台逗笑全场观众,英媒赞其松弛,没被赵心童火力冲垮

杨华评论
2026-04-26 02:31:00
王石真的老了!突然现身大梅沙,他赤裸着上半身,贴着胰岛素针头

王石真的老了!突然现身大梅沙,他赤裸着上半身,贴着胰岛素针头

火山詩话
2026-04-26 06:11:32
上海人终于体会到了引进印度人的“快乐”!

上海人终于体会到了引进印度人的“快乐”!

步论天下事
2026-04-25 09:34:47
俄朝图们江二桥主体正式合拢!比一桥更矮,挚友关系似乎更贴近了

俄朝图们江二桥主体正式合拢!比一桥更矮,挚友关系似乎更贴近了

历史摆渡
2026-04-25 22:30:03
2026-04-26 10:28:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11685文章数 117047关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

游戏
家居
亲子
房产
手机

制作人亲口证实!Steam超好评游戏新篇章要来了

家居要闻

自然肌理 温润美学

亲子要闻

喂得她自己都咽口水了!

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

手机要闻

停更一年憋大招!小米大折叠携玄戒O3回归,系统也是新的

无障碍浏览 进入关怀版