网易首页 > 网易号 > 正文 申请入驻

部分国产芯片适配满血版 DeepSeek,仍「遥遥无期」

0
分享至

国内最强AI芯片公司,适配满血版DeepSeek的目标是25Tokens/s。

作者丨包永刚

编辑丨王亚峰

不同于春节假期刚结束时近20家AI芯片公司忙着宣布完成适配DeepSeek蒸馏模型的热闹景象,半个月后宣布完成适配满血版DeepSeek模型的寥寥数家,这也真实反映出了国产AI芯片的真实力。

“只要厂家之前已经支持的大模型的训练推理,那么适配DeepSeek就没有任何难度。”AI芯片软件工程师梓豪说,“我们公司的应用工程师(AE)就可以完成DeepSeek蒸馏模型的适配。”

这足以解释为什么有芯片公司可以用数小时时间就完成DeepSeek蒸馏模型的适配,但对于一直致力于做大芯片的AI芯片公司来说,适配满血版DeepSeek更能体现其价值。

目前,华为、寒武纪、摩尔线程以及昆仑芯都有公开信息表示其完成满血版DeepSeek模型的适配。更多国产AI芯片公司适配满血版大模型进展欢迎添加作者微信BENSONEIT了解。

“即便是现在已经宣布适配满血版DeepSeek的芯片公司,其性能都不太好。”AI芯片资深工程师杰克说,“从技术上判断,此前已经将大模型跑起来的公司,比如燧原、壁仞、天数智芯适配满血版DeepSeek也只是时间问题,之前没有部署过大模型的公司适配满血版DeepSeek可能‘遥遥无期’。

那么到底适配DeepSeek蒸馏模型和满血版DeepSeek模型会成为AI芯片公司的分水岭?为什么有人说国内AI芯片公司的人不懂AI?DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市?

01

适配蒸馏版DeepSeek模型只是开胃小菜

半个月前芯片公司铺天盖地的适配DeepSeek的新闻里,有公司明确表达了适配的是蒸馏模型,也有公司只说适配了DeepSeek,但适配蒸馏模型和满血版模型之间存在着巨大的差别。

满血版模型指的是与DeepSeek官网性能一致的V3和R1的全量参数模型,其参数高达671B,一般需要多台高性能GPU服务器并行才能流畅运行推理服务。

蒸馏版DeepSeek模型是利用DeepSeek-R1生成的数据对其他模型进行微调,参数从几B到几十B都有,比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,这些蒸馏模型的效果差于满血版,但更易于部署。

“我一度认为适配蒸馏版DeepSeek模型没有太大价值,许多工程师也都更倾向于满血版DeepSeek,但我现在的想法发生了转变。”有二十多年芯片行业经验的柏林说,“蒸馏版模型能满足普通用户的聊天需求,对于普及AI的意义非常大。”

杰克也表示,虽然蒸馏模型的准确度不如满血版模型,但蒸馏版模型能让端侧AI的能力上一个台阶,端侧资源受限,有了DeepSeek的蒸馏模型之后,比如原来只能部署7B模型的场景,现在能达到14B模型的效果。

国产AI芯片适配蒸馏版DeepSeek模型也难度不大。

无论是使用GPGPU架构还是专用ASIC架构对AI芯片公司,都迅速完成了对DeepSeek的适配。“GPT火了之后所有公司都想办法支持大模型,DeepSeek和之前的大模型没有本质的不同,有此前适配大模型的工作,适配蒸馏版DeepSeek不是难题。”梓豪表示。

“CUDA兼容的GPGPU适配起来确实会更容易,但只要给ASIC更多时间做到极致,性能可以超过GPU。”杰克认为。

从长期看,无论什么架构的芯片,如果只是支持几个有限的模型,总能在这个架构上找到最优的解决方案。DeepSeek的火爆,主流模型就是DeepSeek和LLMA等少数几个,从这个角度看,对AI芯片公司来说算是好事。

对于采用国产AI芯片的智算中心来说,DeepSeek的火爆同样是重大利好。

“DeepSeek火爆之后我们想用一家国产AI芯片公司的卡适配。”国产智算中心从业者博远说,“但现实的问题是,如果适配DeepSeek A100的性能是100分,这家国产卡跑起来只有几分的性能,使劲优化也只有A100十几分的性能。”DeepSeek的火爆到底如何影响智算中心发展,添加作者微信BENSONEIT互通有无

既然从普及AI和适配的角度,蒸馏版DeepSeek就有巨大的价值,那为什么还要适配满血版DeepSeek?

只有部署了满血版DeepSeek模型,才能得到蒸馏版模型,我认为这是部署满血版DeepSeek模型的重要原因。”杰克表示。

02

国内领先AI芯片最快月底能适配「好」满血版模型

但是想要部署参数高达671B满血版DeepSeek-R1模型,即便是Int8精度模型的大小也高达671G,以单卡96G HBM计算,单机8卡总共768GB也只是勉强够部署满血版DeepSeek,只要模型精度比Int8更高,单台服务器就无法部署满血版DeepSeek模型。

此时就需要多机互联,这正是国产AI芯片公司仍未很好解决地问题。

“Nvidia有NV Link,国产芯片没有多机互联的解决方案会选择InfiniBand(IB)或者高速以太网RoCE实现互联,这些方案的通信的延迟很大,这就极大程度会影响最终部署的效果。”杰克说,“多卡和多机互联是国产芯片适配满血版DeepSeek的第一个难点,如果之前没有解决通信问题,想做起来很难,距离成功适配满血版DeepSeek可能遥遥无期。”

梓豪认为在多机互联方面,摩尔线程和沐曦有一定的优势。

另一个难点是DeepSeek的MoE混合专家系统,MoE是多一个router(路由模块)的计算,它会将token路由至合适的专家权重去做计算,这个路由是动态的,这和此前的Transformer大模型的部署不一样,这也是一个全新的挑战。

对于所有国产AI大芯片而言,还有一个硬伤就是不原生支持FP8数据类型,DeepSeek模型采用了 FP8 混合精度训练,全球领先的AI芯片公司英伟达从H100开始,AMD MI325X都原生支持FP8。

“不原生支持FP8不意味着就不能部署满血版DeepSeek,只是会带来效率问题,比如用FP16来部署,就需要2倍的存储。”杰克表示,这就意味着需要更多卡,问题又到了多卡多机互联。

要注意,即便是2024年推出的新一代国产AI卡,也没有支持FP8。

柏林认为,最新的国产AI芯片不支持FP8、FP4这类非IEEE定义的数据类型,说明企业内部没有前沿的研究指导这些公司的设计。并且英伟达2022年推出的H100就已经支持了FP8,已经有人做出产品,就算照着“抄”也不难了,这体现了国内许多做AI芯片的人并不懂AI。

即便解决了技术难题可以部署满血版DeepSeek,从可用到好用还有一段很长的距离。杰克就深有感触,此前适配大模型的时候,杰克所在的公司跨机通信也解决了,但是要实现性能的提升难度很大。

这也是目前国产芯片公司适配满血版头疼的问题。

雷峰网了解到,目前国内领先的AI芯片公司以4台服务器(32卡,FP16数据类型),或者2台服务器(16卡,Int8数据类型)适配满血版DeepSeek的效果也只达到了10tokens/s,其目标是在本月底前能够达到25tokens/s,性能大概是英伟达H100的25%。

另有消息称,国内上市AI芯片公司在智算中心已经达到了适配满血版DeepSeek 25tokens/s的性能。

从用户的角度,使用满血版DeepSeek要有比较好的使用体验有两个非常直观的指标,一个是首字延迟,另一个就是每秒吞吐量。大致而言,首字延迟在1-1.4秒是大部分用户能够接受的延迟,而每秒生成20token能满足正常阅读的需求。

这样说来,即便是国内领先的公司,最快也要到本月底达到让用户相对满意的使用体验。

至于其他AI芯片公司,雷峰网了解到,在上市辅导流程里的AI芯片公司有两家适配满血版DeepSeek的速度在10 tokens/s及以下

AI大芯片公司的张伟判断,未来一个月适配不好满血版DeepSeek的AI公司可能有一半。柏林认为,未来一个季度国产AI芯片都会陆续适配满血版DeepSeek。

“其他已经有成功部署大模型经验的芯片公司适配满血版DeepSeek只是时间问题。”杰克说,“这些公司里好几家都处于上市辅导阶段,我认为谁能更快、更好支持好满血版DeepSeek,我认为会大幅增加他们上市的概率,因为很多机构和公司都在积极部署满血版DeepSeek,有利于AI芯片公司做出真实的业绩,支撑其上市。”

不过两位芯片投资人都对雷峰网表示,A股的成功上市的因素比较复杂,能够支持好满血版DeepSeek确实是实力的体现,但对于最终成功上市很难说有直接利好。

毋庸置疑的是,DeepSeek对于国内芯片、智算中心、AI应用都是巨大利好,我们已经处在AI变革前夜。关于AI算力的更多挑战,欢迎添加作者微信BENSONEIT讨论。

注,文中梓豪、杰克 、柏林、博远、张伟均为化名。

Arm自研芯片:背刺客户,却振奋股民?

手握800万期权,上市前辞职,AI芯片人的情非得已

7年的AI芯片销售,决定去开网约车

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
房价上涨的最强信号!

房价上涨的最强信号!

米宅
2026-03-24 07:26:02
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

小小科普员
2026-03-25 19:25:13
20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

明月清风阁
2026-03-25 14:50:09
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
中国移动正式发布通知:全国将统一执行,4月30日起

中国移动正式发布通知:全国将统一执行,4月30日起

林子说事
2026-03-27 00:39:14
朗斯反对无效!法甲确认争冠战延期为大巴黎欧冠让路,2队仅差1分

朗斯反对无效!法甲确认争冠战延期为大巴黎欧冠让路,2队仅差1分

夏侯看英超
2026-03-27 01:37:53
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
银行内部提醒:今明两年慎存定期,这3个原因很现实

银行内部提醒:今明两年慎存定期,这3个原因很现实

小陆搞笑日常
2026-03-26 17:44:10
中央定调养老金调整方向!工龄增加设为一年3元,可行吗?

中央定调养老金调整方向!工龄增加设为一年3元,可行吗?

王五说说看
2026-03-24 07:06:10
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
打压其他球员!除非加入杜锋经纪公司,徐昕是最好的例子

打压其他球员!除非加入杜锋经纪公司,徐昕是最好的例子

篮球大陆
2026-03-26 14:26:19
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
外媒:以军对18个月大婴儿施酷刑,逼其父招供

外媒:以军对18个月大婴儿施酷刑,逼其父招供

观察者网
2026-03-24 13:44:04
“根本不敢上路”!深圳男子买全新百万豪车,修了15次还是坏的!很多车主受害

“根本不敢上路”!深圳男子买全新百万豪车,修了15次还是坏的!很多车主受害

南方都市报
2026-03-26 09:26:45
太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

环球网资讯
2026-03-26 21:48:04
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
2026-03-27 01:55:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68861文章数 656102关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
教育
数码
健康

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

400万人爱过的女孩,被黄谣网暴180天后

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版