网易首页 > 网易号 > 正文 申请入驻

十万预算部署DeepSeek一体机,靠不靠谱?

0
分享至

DeepSeek的火爆极大促进了大语言模型在千行百业的落地。

首先是有了使用的信心。DeepSeek-R1推理模型已经拥有6710亿参数规模,符合“参数越多越智能”的认知,而且有实际测试表现和广泛的使用反馈作为佐证,让大家相信这个开源模型已经足够好了。其次是完全开源,不论是直接使用,还是用作基础模型进一步微调、后训练,都没有法律风险。其三是丰俭由人,提供了671B全量模型,以及覆盖70B、32B、7B等不同规模的蒸馏模型,还有若干低秩量化版本,可以满足不同推理质量和算力资源的要求。

模型开源,独享更香

应用的热情盘活了大大小小云厂商的算力资源,随着公开的DeepSeek服务纷纷瘫痪,连付费客户都大受影响。公有云“掉链子”引发的群体焦虑进一步催生了私有化部署的热潮:云厂商积极打包算力和服务,主打低门槛和弹性;硬件厂商纷纷推出各式“推理一体机”,开箱即用。

自持资源的可及性、可靠性是私有化部署的重要原因,但更长远地看,根本原因还是数据隐私与法规的要求。姑且不说公有云服务商在用户协议中的霸王条款,即使是私有云也会面临数据上传外网的合规限制。

利用大模型审查商业合同、法律文书,对病历、科研数据进行总结,都能明显节省时间,但恰恰都面临隐私和法律风险。对于这类需求,在本地部署DeepSeek推理一体机是一个很好的选择,而且,门槛并不高。

基于英特尔至强W处理器、2~4块GPU卡构建的推理一体机,预算在十万元左右,便可以支持数十人并发使用的需求,满足中小型企业全员上AI的需求。

如何构建高性价比算力底座

英特尔至强W是单路处理器,采用全大核、大缓存的架构,可以提供多达60核、112.5MB L3缓存(W9-3595X),睿频加速可达4.8GHz,甚至部分后缀为X的型号还可以进一步超频。

对于推理一体机,至强W的高扩展性得到了充分发挥。它支持8通道内存,内存容量可以达到4TB;112条PCIe 5.0通道,可以配置4到7块高性能GPU卡,不但可以加载较大参数规模的模型,还可以提供可扩展的吞吐量。

以搭配英特尔Arc A770 16GB卡为例,单卡已经可以部署7~14B蒸馏模型;双卡可以部署32B蒸馏模型;4卡即可使32B蒸馏模型的推理输出达到500~800 Tokens/s的水平。在中文环境下,每个Token相当于0.75~1.8个汉字。以500Tokens/s、每Token对应1个汉字计,这就相当于每分钟输出3万汉字。这个输出能力足够满足20到50人的并发请求。

这里以部署DeepSeek-R1-32B为目标,是因为这个规模的蒸馏模型已经在多数测试项目中超过了OpenAI-o1-mini,在实践中也证明可以比较高质量地完成长文本处理、代码生成等任务。以审查合同、会议纪要为代表的严肃工作可以交由部署32B大模型的一体机完成,而不再需要担心隐私泄露甚至违法的风险。



如果搭配24GB显存的加速卡,还可以部署70B蒸馏模型,吞吐量以千计,部分显存位宽较大的卡可以达到2000Tokens/s以上,完全能够满足百人量级的同时使用需求。70B模型可以完成长文本生成、创意辅助等高质量的工作。另外,较大的显存容量除了可以部署一个较大规模的模型,也可以实现在一体机内部署多个不同规模、不同特点的中小型模型,以满足不同类型用户的需求。

值得一提的是,借助KTransformer为代表的开源大语言模型推理优化框架,基于至强W的推理一体机还可以运行“满血版”的DeepSeek-R1,以支持对推理精度要求最高的任务。这类优化框架可以让GPU和CPU共同分担计算任务,并将一部分模型参数放置在容量较大的主内存。以使用单条96GB DDR5 RDIMM为例,至强W的八个内存通道可以实现768GB的内存容量和307GB/s的内存带宽,独立部署FP8精度的DeepSeek-R1 671B完全没有问题,更不用说Q4、Q2量化版本了。

随着KTransformer这类优化框架的不断开发,还有机会进一步发挥至强W内置的AMX(Advanced Matrix Extension)加速器的优势,进一步提升推理吞吐量。至强W-2400/3400正式开始引入AMX,可以每个时钟周期内进行2048次并行运算,在神经网络推理、机器学习当中已经展现了不错的实用性。

产品案例

根据并发用户数、模型规模,可以配置不同的CPU内核数量和GPU显存容量,以满足各种类型用户、不同场景的需求。

  • 至强W5+2×Arc A770方案:可部署14B蒸馏模型提供文档识别、智能问答等服务。如果部署32B蒸馏模型,可为20人以内的部门、小型企业提供较高质量的、不太频繁的文本服务,譬如合同审查等。随着应用需求提升,用户也可进一步升级为四卡配置。
  • 至强W5+4×Arc A770方案:建议部署32B蒸馏模型,由于处理能力和显存充裕,推理批次可以大幅提升,速度达520~780 Token/s,可以满足上百人规模的中小型企业使用,可以用于涉及大量文档检索、归纳整理之类的知识管理型的工作,以及代码辅助等场景。
  • 至强W7+4×ArcA770方案:增加CPU的内核数量,以支持数百人规模企业,并发处理30~50个用户请求,适用于医疗、律所等专业文书的分析、生成场景。
  • 至强W9+96GB显存方案:96GB显存可以通过6块Arc A770,或4块其他24GB显存的加速卡构成。这样的配置支持70B参数模型部署,吞吐量可以达到1500~2400 Tokens/s,可以满足中、大型企业内多个部门高质量、高吞吐、高并发的需求,可以用于知识图谱、长文本生成等场景。



目前宝德、超云、长城、倍联德、昱格、智微智能等多家厂商已推出基于至强W处理器+四卡的DeepSeek一体机。一体机搭配多种蒸馏模型的应用落地,已经获得上下游厂商和用户的共同验证,日臻成熟。

基于Xeon W高效部署满血版DeepSeek-R1模型的工作也在不断进行,敬请期待

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军人设不保,让员工工作12小时创造996制度,不以为耻反以为荣

雷军人设不保,让员工工作12小时创造996制度,不以为耻反以为荣

汉史趣闻
2025-04-25 09:05:54
贝蒂斯5-1升至欧冠区,曼联弃将安东尼惊艳策动,伊斯科利剑出鞘

贝蒂斯5-1升至欧冠区,曼联弃将安东尼惊艳策动,伊斯科利剑出鞘

侧身凌空斩
2025-04-25 05:28:15
夫妻刚离婚,丈夫直接断了岳母花销,夜不归宿的妻子回家后傻眼了

夫妻刚离婚,丈夫直接断了岳母花销,夜不归宿的妻子回家后傻眼了

泽泽先生
2025-04-23 16:23:51
英特尔美股盘后跌超7%

英特尔美股盘后跌超7%

每日经济新闻
2025-04-25 05:09:04
继司马南之后,郭松民、项立刚也玩完了,就差昆仑策了

继司马南之后,郭松民、项立刚也玩完了,就差昆仑策了

壹家言
2025-04-24 10:01:13
多尔特是不是脏,毕竟老詹也体验过

多尔特是不是脏,毕竟老詹也体验过

风子说个球
2025-04-25 14:19:04
拔出萝卜带出泥!沈腾林允恋情再添实锤?女方那点事再也瞒不住了

拔出萝卜带出泥!沈腾林允恋情再添实锤?女方那点事再也瞒不住了

野山历史
2025-04-24 11:40:09
2003年,宋美龄在宋子文墓前落泪:我们宋家人,为何会葬在这里?

2003年,宋美龄在宋子文墓前落泪:我们宋家人,为何会葬在这里?

新车知多少
2025-04-25 08:32:39
新Apple Watch要来了,全新曝光!

新Apple Watch要来了,全新曝光!

搞机小帝
2025-04-25 06:06:38
黄一鸣甩重锤,曝聊天记录。王思聪百口莫辩!网友:信息量有点大

黄一鸣甩重锤,曝聊天记录。王思聪百口莫辩!网友:信息量有点大

科学发掘
2025-04-25 06:46:37
教授怼董明珠:该退出历史舞台了,视野和格局制约格力进一步发展

教授怼董明珠:该退出历史舞台了,视野和格局制约格力进一步发展

小人物看尽人间百态
2025-04-24 13:34:54
直到孩子厌学才醒悟:最伤孩子的不是打骂,而是父母的灾难化思维

直到孩子厌学才醒悟:最伤孩子的不是打骂,而是父母的灾难化思维

百合家庭教育
2025-04-24 10:07:49
多特遭到狂喷!脏得要死 怎么不调查他啊 要是追梦早被调查了

多特遭到狂喷!脏得要死 怎么不调查他啊 要是追梦早被调查了

直播吧
2025-04-25 11:21:19
住家保姆怀孕说是64岁父亲的,亲子鉴定后父亲忏悔:我对不起你

住家保姆怀孕说是64岁父亲的,亲子鉴定后父亲忏悔:我对不起你

第四思维
2025-04-21 16:49:16
人一旦当了牛马之后,这牛马的气质立刻就出来了!东哥也不例外!

人一旦当了牛马之后,这牛马的气质立刻就出来了!东哥也不例外!

翻开历史和现实
2025-04-23 14:08:21
顾客买鱼被商贩扔秤砣后续:身份被曝,警方处罚结果已出,解气

顾客买鱼被商贩扔秤砣后续:身份被曝,警方处罚结果已出,解气

涵豆说娱
2025-04-24 17:31:28
导弹兵王王忠心,两次退伍被召回,妻子笑他:只长胡子,不长职务

导弹兵王王忠心,两次退伍被召回,妻子笑他:只长胡子,不长职务

以绝望挥剑
2025-04-23 19:31:28
仅播4集,评分9.8,终于有跟《漫长的季节》一较高下的悬疑剧了!

仅播4集,评分9.8,终于有跟《漫长的季节》一较高下的悬疑剧了!

头号剧委会
2025-04-24 23:45:03
俄媒“泄露天机”,中国海军还有10年时间,等美军自己让出制海权

俄媒“泄露天机”,中国海军还有10年时间,等美军自己让出制海权

书中自有颜如玉
2025-04-25 12:41:32
⚾大谷翔平当父亲后12打席仅1支安打,美媒:最优秀的棒球运动员也是人

⚾大谷翔平当父亲后12打席仅1支安打,美媒:最优秀的棒球运动员也是人

雷速体育
2025-04-25 10:49:09
2025-04-25 14:48:49
DT Value incentive-icons
DT Value
关注数据价值,企业数字化变革
920文章数 1158关注度
往期回顾 全部

科技要闻

这届上海车展,没人靠流量活着

头条要闻

"网红"谭媛为救前男友去世 三年后父亲用其账号求助

头条要闻

"网红"谭媛为救前男友去世 三年后父亲用其账号求助

体育要闻

国乒的新掌门人,为什么是王励勤?

娱乐要闻

被网红丑化 杨坤不再沉默开始了反击!

财经要闻

中央政治局:适时降准降息

汽车要闻

限时优惠价29.98万元 BJ40增程赤兔版上海车展发布

态度原创

房产
本地
旅游
艺术
公开课

房产要闻

影响孩子未来20年的教育TALK!未来方洲与教育理想的一场深度对话

本地新闻

云游湖北 | 汉川文旅新体验:千年陶艺邂逅湖光

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版