网易首页 > 网易号 > 正文 申请入驻

部分国产芯片适配满血版 DeepSeek,仍「遥遥无期」

0
分享至

国内最强AI芯片公司,适配满血版DeepSeek的目标是25Tokens/s。

作者丨包永刚

编辑丨王亚峰

不同于春节假期刚结束时近20家AI芯片公司忙着宣布完成适配DeepSeek蒸馏模型的热闹景象,半个月后宣布完成适配满血版DeepSeek模型的寥寥数家,这也真实反映出了国产AI芯片的真实力。

“只要厂家之前已经支持大模型的训练推理,那么适配DeepSeek就没有任何难度。”AI芯片软件工程师梓豪说,“我们公司的应用工程师(AE)就可以完成DeepSeek蒸馏模型的适配。”

这足以解释为什么有芯片公司可以用数小时时间就完成DeepSeek蒸馏模型的适配,但对于一直致力于做大芯片的AI芯片公司来说,适配满血版DeepSeek更能体现其价值。

目前,华为、寒武纪、摩尔线程以及昆仑芯都有公开信息表示其完成满血版DeepSeek模型的适配。更多国产AI芯片公司适配满血版大模型进展欢迎添加作者微信BENSONEIT了解。

“即便是现在已经宣布适配满血版DeepSeek的芯片公司,其性能都不太好。”AI芯片资深工程师杰克说,“从技术上判断,此前已经将大模型跑起来的公司,比如燧原、壁仞、天数智芯适配满血版DeepSeek也只是时间问题,之前没有部署过大模型的公司适配满血版DeepSeek可能‘遥遥无期’。

那么到底适配DeepSeek蒸馏模型和满血版DeepSeek模型会成为AI芯片公司的分水岭?为什么有人说国内AI芯片公司的人不懂AI?DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市?

1

适配蒸馏版DeepSeek模型只是开胃小菜

上个月芯片公司铺天盖地的适配DeepSeek的新闻里,有公司明确表达了适配的是蒸馏模型,也有公司只说适配了DeepSeek,但适配蒸馏模型和满血版模型之间存在着巨大的差别。

满血版模型指的是与DeepSeek官网性能一致的V3和R1的全量参数模型,其参数高达671B,一般需要多台高性能GPU服务器并行才能流畅运行推理服务。

蒸馏版DeepSeek模型是利用DeepSeek-R1生成的数据对其他模型进行微调,参数从几B到几十B都有,比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,这些蒸馏模型的效果差于满血版,但更易于部署。

“我一度认为适配蒸馏版DeepSeek模型没有太大价值,许多工程师也都更倾向于满血版DeepSeek,但我现在的想法发生了转变。”有二十多年芯片行业经验的柏林说,“蒸馏版模型能满足普通用户的聊天需求,对于普及AI的意义非常大。”

杰克也表示,虽然蒸馏模型的准确度不如满血版模型,但蒸馏版模型能让端侧AI的能力上一个台阶,端侧资源受限,有了DeepSeek的蒸馏模型之后,比如原来只能部署7B模型的场景,现在能达到14B模型的效果。

国产AI芯片适配蒸馏版DeepSeek模型也难度不大。

无论是使用GPGPU架构还是专用ASIC架构对AI芯片公司,都迅速完成了对DeepSeek的适配。“GPT火了之后所有公司都想办法支持大模型,DeepSeek和之前的大模型没有本质的不同,有此前适配大模型的工作,适配蒸馏版DeepSeek不是难题。”梓豪表示。

“CUDA兼容的GPGPU适配起来确实会更容易,但只要给ASIC更多时间做到极致,性能可以超过GPU。”杰克认为。

从长期看,无论什么架构的芯片,如果只是支持几个有限的模型,总能在这个架构上找到最优的解决方案。DeepSeek的火爆,主流模型就是DeepSeek和Llama等少数几个,从这个角度看,对AI芯片公司来说算是好事。

对于采用国产AI芯片的智算中心来说,DeepSeek的火爆同样是重大利好。

“DeepSeek火爆之后我们想用一家国产AI芯片公司的卡适配。”国产智算中心从业者博远说,“但现实的问题是,如果适配DeepSeek A100的性能是100分,这家国产卡跑起来只有几分的性能,使劲优化也只有A100十几分的性能。”DeepSeek的火爆到底如何影响智算中心发展,添加作者微信BENSONEIT互通有无

既然从普及AI和适配的角度,蒸馏版DeepSeek就有巨大的价值,那为什么还要适配满血版DeepSeek?

只有部署了满血版DeepSeek模型,才能得到蒸馏版模型,我认为这是部署满血版DeepSeek模型的重要原因。”杰克表示。

2

国内领先AI芯片最快月底能适配「好」满血版模型

但是想要部署参数高达671B满血版DeepSeek-R1模型,即便是Int8精度模型的大小也高达671G,以单卡96G HBM计算,单机8卡总共768GB也只是勉强够部署满血版DeepSeek,只要模型精度比Int8更高,单台服务器就无法部署满血版DeepSeek模型。

此时就需要多机互联,这正是国产AI芯片公司仍未很好解决的问题。

“Nvidia有NV Link,国产芯片没有多机互联的解决方案会选择InfiniBand(IB)或者高速以太网RoCE实现互联,这些方案的通信的延迟很大,这就极大程度会影响最终部署的效果。”杰克说,“多卡和多机互联是国产芯片适配满血版DeepSeek的第一个难点,如果之前没有解决通信问题,想做起来很难,距离成功适配满血版DeepSeek可能遥遥无期。”

梓豪认为在多机互联方面,摩尔线程和沐曦有一定的优势。

另一个难点是DeepSeek的MoE混合专家系统,MoE是多一个router(路由模块)的计算,它会将token路由至合适的专家权重去做计算,这个路由是动态的,这和此前的Transformer大模型的部署不一样,这也是一个全新的挑战。

对于所有国产AI大芯片而言,还有一个硬伤就是不原生支持FP8数据类型,DeepSeek模型采用了 FP8 混合精度训练,全球领先的AI芯片公司英伟达从H100开始,AMD MI325X都原生支持FP8。

“不原生支持FP8不意味着就不能部署满血版DeepSeek,只是会带来效率问题,比如用FP16来部署,就需要2倍的存储。”杰克表示,这就意味着需要更多卡,问题又到了多卡多机互联。

要注意,即便是2024年推出的新一代国产AI卡,也没有支持FP8。

柏林认为,最新的国产AI芯片不支持FP8、FP4这类非IEEE定义的数据类型,说明企业内部没有前沿的研究指导这些公司的设计。并且英伟达2022年推出的H100就已经支持了FP8,已经有人做出产品,就算照着“抄”也不难了,这体现了国内许多做AI芯片的人并不懂AI。

即便解决了技术难题可以部署满血版DeepSeek,从可用到好用还有一段很长的距离。杰克就深有感触,此前适配大模型的时候,杰克所在的公司跨机通信也解决了,但是要实现性能的提升难度很大。

这也是目前国产芯片公司适配满血版头疼的问题。

雷峰网了解到,目前国内领先的AI芯片公司以4台服务器(32卡,FP16数据类型),或者2台服务器(16卡,Int8数据类型)适配满血版DeepSeek的效果也只达到了10tokens/s,其目标是在二月底前能够达到25tokens/s,性能大概是英伟达H100的25%。

另有消息称,国内上市AI芯片公司在智算中心已经达到了适配满血版DeepSeek 25tokens/s的性能。

从用户的角度,使用满血版DeepSeek要有比较好的使用体验有两个非常直观的指标,一个是首字延迟,另一个就是每秒吞吐量。大致而言,首字延迟在1-1.4秒是大部分用户能够接受的延迟,而每秒生成20token能满足正常阅读的需求。

这样说来,即便是国内领先的公司,最快也要到二月底达到让用户相对满意的使用体验。

至于其他AI芯片公司,雷峰网了解到,在上市辅导流程里的AI芯片公司有几家适配满血版DeepSeek的速度在10 tokens/s及以下

AI大芯片公司的张伟判断,未来一个月适配不好满血版DeepSeek的AI公司可能有一半。柏林认为,未来一个季度国产AI芯片都会陆续适配满血版DeepSeek。

“其他已经有成功部署大模型经验的芯片公司适配满血版DeepSeek只是时间问题。”杰克说,“这些公司里好几家都处于上市辅导阶段,我认为谁能更快、更好支持好满血版DeepSeek,会大幅增加他们上市的概率,因为很多机构和公司都在积极部署满血版DeepSeek,有利于AI芯片公司做出真实的业绩,支撑其上市。”

不过两位芯片投资人都对雷峰网表示,A股的成功上市的因素比较复杂,能够支持好满血版DeepSeek确实是实力的体现,但对于最终成功上市很难说有直接利好。

毋庸置疑的是,DeepSeek对于国内芯片、智算中心、AI应用都是巨大利好,我们已经处在AI变革前夜。关于AI算力的更多挑战,欢迎添加作者微信BENSONEIT讨论。

注,文中梓豪、杰克 、柏林、博远、张伟均为化名。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

为什么中国只有一个 DeepSeek?

谁将替代 Transformer?

Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白宫证实:美伊巴在伊斯兰堡举行“面对面”会谈

白宫证实:美伊巴在伊斯兰堡举行“面对面”会谈

国际在线
2026-04-11 23:20:05
李想在朋友圈飙脏话!疑似炮轰东风日产

李想在朋友圈飙脏话!疑似炮轰东风日产

鞭牛士
2026-04-11 16:34:04
万茜蹲火了

万茜蹲火了

动物奇奇怪怪
2026-04-11 17:32:32
他是上海体育名嘴,不当主持开店创业当网红,如今又转行玩古董

他是上海体育名嘴,不当主持开店创业当网红,如今又转行玩古董

白面书誏
2026-04-11 16:58:20
知名网站宣布:即将停止服务!赶紧备份,退费

知名网站宣布:即将停止服务!赶紧备份,退费

环球网资讯
2026-04-10 13:35:16
美伊谈判:俩“生手”上桌,三大分歧待解,都藏着后手

美伊谈判:俩“生手”上桌,三大分歧待解,都藏着后手

上游新闻
2026-04-11 16:59:35
操心完台海又担忧南海,“若中国学伊朗用这招…”

操心完台海又担忧南海,“若中国学伊朗用这招…”

观察者网
2026-04-11 12:15:06
随着申花1-0战胜海港,泰山1-0,中超最新积分:榜首领先垫底20分

随着申花1-0战胜海港,泰山1-0,中超最新积分:榜首领先垫底20分

球场没跑道
2026-04-11 21:36:16
快讯!就在刚刚!外交部10字表态,直接戳穿郑丽文访陆的舆论陷阱

快讯!就在刚刚!外交部10字表态,直接戳穿郑丽文访陆的舆论陷阱

兰妮搞笑分享
2026-04-11 15:52:16
郑丽文一声“毛主席”,打破了国民党一个禁忌

郑丽文一声“毛主席”,打破了国民党一个禁忌

月明风清1029
2026-04-11 17:27:07
海底捞回应“员工因顾客投诉被强制自费买礼物”:情况属实,一定依法对该伙伴进行赔偿,已通知一千多家门店进行内部排查

海底捞回应“员工因顾客投诉被强制自费买礼物”:情况属实,一定依法对该伙伴进行赔偿,已通知一千多家门店进行内部排查

大象新闻
2026-04-11 19:45:04
暴跌95%!一代神车退场了,比燃油车卖不掉更可怕的事正在发生

暴跌95%!一代神车退场了,比燃油车卖不掉更可怕的事正在发生

毒sir财经
2026-04-10 16:25:00
中华复兴的重要节点,不需要易中天式的文化叛徒

中华复兴的重要节点,不需要易中天式的文化叛徒

侠客栈
2026-04-11 11:35:08
刚刚,奥特曼家被炸了!

刚刚,奥特曼家被炸了!

新智元
2026-04-11 09:52:54
理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

快科技
2026-04-11 18:08:11
熬出头!整整4年啊,终于不用打附加赛,老鹰,感谢吹杨吧

熬出头!整整4年啊,终于不用打附加赛,老鹰,感谢吹杨吧

球童无忌
2026-04-11 21:02:53
"翻脸"是迟早的事?王濛怒甩李小冉当众黑脸,内娱恶俗一幕被揭开

"翻脸"是迟早的事?王濛怒甩李小冉当众黑脸,内娱恶俗一幕被揭开

离离言几许
2026-04-11 15:21:33
减重30%,成本还更低!中国电动车掀起镁代铝浪潮:问界单车用镁达20公斤级,零跑、长安急寻供应商⋯⋯

减重30%,成本还更低!中国电动车掀起镁代铝浪潮:问界单车用镁达20公斤级,零跑、长安急寻供应商⋯⋯

每日经济新闻
2026-04-10 19:23:16
贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

潮鹿逐梦
2026-04-10 12:43:59
美伊“特殊交易”曝光:美国解冻资产,换取海峡安全通航

美伊“特殊交易”曝光:美国解冻资产,换取海峡安全通航

识局Insight
2026-04-11 18:36:49
2026-04-12 00:00:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7183文章数 20744关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
数码
旅游
教育
时尚

艺术要闻

耗资68亿!梅洪元院士出手!长沙奥体中心冲出地面,2028年见!

数码要闻

逆天!英特尔新技术显存暴降 18 倍,8GB 显卡秒变顶配,游戏党狂喜

旅游要闻

[视频]多元业态融合 打造文旅消费新热点

教育要闻

俞正强:教师专业本质是“我有办法”

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

无障碍浏览 进入关怀版