网易首页 > 网易号 > 正文 申请入驻

不用GPU也能落地大模型,中小企如何选择AI服务器?

0
分享至

DeepSeek带火了本地化部署和推理市场,降低了算力成本,能让更多的企业享受到AI大模型带来的效率提升。但就当下的硬件设备来说,以大模型运行的核心设备——服务器为例,一台GPU服务器动辄几十万,上百万的价钱,对于中小企业来说依旧是高昂的开销。

中小企业应用大模型,算力平台如何选择?

在大模型快速向各行业渗透的今天,与预训练、后训练等训练过程相比,企业对于大模型的推理需求更为迫切。据IDC数据,到2027年,智能算力规模5年增长1.7倍,用于推理的工作负载占比72.6%,AI算力需求将面临巨大的供应缺口,未来所有的算力都需要具有智能的能力。

另一方面,随着DeepSeek的火爆,带火了一体机的市场,市面上目前已经有超过60家企业推出了结合DeepSeek的一体机产品。虽然这些推出DeepSeek一体机的企业有本来就做硬件的设备厂商,也有来自优刻得、青云科技这样的云服务商,更有格灵深瞳这样的新兴科技企业,但从售价上来看,企业采购一台一体机的成本在几十万到上百万,甚至两百万不等。“即便是支持DeepSeek-R1蒸馏版本的一体机售价也达到了几十万,支持满血版DeepSeek的一体机售价上百万,”浪潮信息副总经理赵帅指出,“这对于大部分中小企业,或教育、科研用户来说,投入巨大。”

赵帅进一步与钛媒体APP分享了中小企业和科研院校在使用大模型赋能时的痛点,他指出,当下,用户十分想使用诸如DeepSeek这些大模型创造价值,但如果选择上云(API调用)的方式将面临私有数据上云,“一些企业和科研机构的业务,涉及到商业机密或保密数据的特性,让他们没法选择通过云的方式使用大模型。”赵帅指出。

另一方面,就如前文所述,如果企业部署一个满血版的服务器或一体机,初始投资费用很高,尤其是在各行业都选择降本增效的大背景下,管理层在选择应用技术和采购设备的时候会充分考虑ROI,尤其是一些对大模型赋能业务仍然存疑的企业,高昂的初始投资费用,足以让他们望而却步。

除此之外,对于中小企业来说,在应用大模型的业务场景中,因为人员规模、业务规模均较小,满血版提供的高并发能力在他们那就显得资源浪费,“对于规模在100~200人的企业来说,小并发量下在人均20token/s就已经有很流畅的体验了,”赵帅进一步指出,“这些企业就需要一个更高性价比,更易部署、更易管理、更易用的硬件设备。”

与此同时,通过对市场上客户的调研发现,中小企业在使用服务器运行大模型的同时,还想要将企业诸如OA、邮件等在内的其他业务也能同时通过服务器纳管起来,“这些业务诉求都是非常现实的需求点,也是对硬件厂商提出的考验。”赵帅明确到。

CPU推理服务器让大模型门槛更低

在企业部署大模型的过程中,参数规模与其应用场景息息相关。基础大模型的创新非常重要,而基于基础大模型蒸馏后的小模型备受中小企业青睐企业。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示,目前92%企业使用的生成式人工智能模型平均参数量小于50B。一般而言,671B等超大规模参数的模型性能更强,但对硬件资源要求高,部署成本昂贵;而32B级模型在理解能力和知识储备上有显著优势,能够平衡性能和部署成本。

以参数量为32B的模型为例,DeepSeek-R1 32B在知识问答、智能写作、内容生成等方面表现优秀,QwQ-32B则在数学推理、编程任务和长文本处理等方面的性能优异。DeepSeek-R1 32B和QwQ-32B的训练数据中包含海量的高质量中文语料库,会更适合于国内企业应用,而Llama 70B主要基于英文语料进行训练,对中文用户而言不够友好。

“基于此,大多数企业应用场景中,如企业知识库问答、文档写作、会议纪要整理等场景,32B参数级别的模型往往是上佳选择,既能提供强大的能力支持,又能保持合理的硬件投入。”赵帅指出。

另一方面,在某些特定场景,使用CPU的推理服务器成本比GPU的服务器有明显的优势,例如,大模型推理需要的内存超过了单块GPU的显存容量,需要多块或更高配GPU卡时,采用CPU部署的方案,可以降低成本。

企业如何能更好地拥抱大模型?如何能将性价比达到极致?这些问题对于企业来说是需要考虑的事情,而对于硬件设备厂商来说,更是他们接下来“卷”的重点。

从成本角度出发,显然使用纯CPU的推理服务器解决方案要远比使用GPU的方案更为便宜,但纯CPU的方案也带来了一些诸如模型参数上的限制。不过赵帅表示,就目前浪潮信息的研究和客户反馈来看,对于规模在500人以下的中小企业来说,使用32B参数的DeepSeek-R1或QwQ模型就足以支撑他们当前的业务,而节省的投入费用却是一个不小的金额。

正是基于此,浪潮信息在近日推出了元脑CPU推理服务器,据了解,该款服务器采用4颗英特尔至强6448H处理器(32核心/颗)和多通道内存系统设计,支持32组DDR5内存,最大容量16TB,内存带宽达1.2TB/s,结合AMX加速技术提升AI推理效率,通过先进的张量并行策略和AMX加速技术,单机即可高效运行DeepSeek-R1(32B)和QwQ-32B推理模型,单用户性能超20tokens/s,可同时处理20个并发用户请求。

测试数据显示,基于单台NF8260G7,在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,解码性能超过20tokens/s,20个并发用户下,总token数达到255.2tokens/s;在使用QwQ-32B进行模型推理时,支持20个并发用户数,总token数达到224.3Tokens/s,可以提供流畅稳定的用户体验。

赵帅介绍,目前CPU推理服务器的询单客户很多,已经有不少金融、教育、初创企业,以及高校科研团队的咨询用户对CPU推理服务器表达了较强的采购意愿。

软硬协同是关键

若想利用CPU就实现本地推理过程,仅依靠纯硬件的性能是并不能实现的,软件的优化与适配也很关键。

相较于硬件设备,实现利用CPU完成推理的过程,更需要软硬件协同优化的能力,赵帅表示,“浪潮信息通过张量并行计算AWQ量化的方式,采用了逐通道测放的方式,然后通过网格搜索来找到最佳的缩放因子,通过这种方式是减少了量化的误差。”

赵帅进一步指出,“除此之外,在研发过程中,我们还采用TP并行的方式,将权重分成四份,分别把每一份的权重放到对应CPU的内存内,从而提升了整机的内存带宽,可以利用整机性能对模型解码进行加速。”

“元脑CPU推理服务器仅基于通用处理器进行软硬协同优化,可为企业32B模型推理与云计算、数据库等通用关键业务场景融合提供更高效、更灵活、更稳定的AI通用算力支撑。”赵帅介绍。

值得注意的是,赵帅告诉钛媒体APP,CPU在运行DeepSeek-R1这种MoE架构的模型方面,可以通过一个路由器选择某个专家模型,对于数据选择来说,CPU比GPU的推理解决方案更友好。

除此之外,用户使用CPU推理服务器还有一个重要的需求:易用能力。而这种用户对大模型在本地化部署过程中的易用能力的需求,不光是集中在CPU推理服务器上,也集中在本地化部署的一体机和GPU服务器上。

从市面上常见的软硬件服务商的布局可以看出,平台化的软件产品与硬件的结合,是当下提升硬件易用性的最优解,围绕此,神州数码推出了神州文学平台、浪潮信息推出了EPAI平台、青云科技推出了AI智算平台.......

以浪潮信息为例,赵帅对钛媒体APP表示,比如在推理一体机里,服务器能够预装AI操作系统,以及AIStation管理平台,“通该过平台,用户可以自由选择诸如QwQ-32B、DeepSeek-R1 32B,甚至可以再往下包括14B、8B这样的模型,”赵帅进一步指出,“用户可以根据自己的应用场景,通过简单的界面点选就能够现在最适用的平台。整个RAG的应用会更简单,更方便用户去使用。”

显然,软硬协同是端侧大模型能否落地的关键。从目前技术发展上看,面向中小企业,纯CPU的服务器用于AI推理有比较大的推广前景,但对于大规模高并发的用户需求,还是需要使用高性能的AI推理服务器。对此,赵帅也向钛媒体APP坦言,如果用户规模较小,利用CPU推理服务器也可以运行DeepSeek-R1 671B的模型,小并发下单用户性能在7~8token/s,也能有顺畅的推理性能表现。“但对于规模比较大的企业,要建自己的小型智算中心,就需要采用更高性能的推理服务器,才能支撑海量并发下的推理需求。”

据了解,今年春节期间,浪潮信息就收到了许多客户订单咨询,希望快速供货支撑大并发需求的服务器,“如果要建设自己的小型智算中心,1~20台的区间,会是企业部署私有化算力比较适合的规模,20台机器大概可满足上万人规模大型公司全员流畅的应用体验。”赵帅如是说。

虽然CPU推理服务器在企业本地确实有不少发挥的场景,也确实能帮助中小企业快速落地小参数的模型产品,但由于硬件本身性能上限的限制,对于大型企业,以及一些追求高并发、高性能模型的企业来说,还是选择GPU的服务器部署业务较好,因此企业在选择的相对应的产品的过程中,需要根据切实的业务需求来选择,才能达到最高的性价比。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
秦岚魏大勋正式解绑:相爱四年,各自安好

秦岚魏大勋正式解绑:相爱四年,各自安好

背包旅行
2026-03-26 20:28:55
斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

澎湃新闻
2026-03-26 17:02:26
官宣!中国最大省再设立新县,什么信号?

官宣!中国最大省再设立新县,什么信号?

西部城市
2026-03-26 21:08:33
全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

车知事
2026-03-26 21:34:27
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
伊朗军方:已击中或击落202架各类美以军机

伊朗军方:已击中或击落202架各类美以军机

界面新闻
2026-03-26 15:29:15
“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

柴狗夫斯基
2026-03-26 21:06:15
人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

奇思妙想草叶君
2026-03-25 12:40:13
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

180视角
2026-03-26 18:36:11
遗憾!3次活命机会都没抓住!张雪峰去世前,倒地30分钟才被发现

遗憾!3次活命机会都没抓住!张雪峰去世前,倒地30分钟才被发现

奇思妙想草叶君
2026-03-26 02:36:58
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
A股:股民做好下车准备,大资金明牌了,周五将迎更大的暴风雨?

A股:股民做好下车准备,大资金明牌了,周五将迎更大的暴风雨?

夜深爱杂谈
2026-03-26 17:19:44
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

狼叔评论
2026-03-26 22:22:04
罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

快科技
2026-03-25 09:53:08
2026-03-26 23:27:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131380文章数 862014关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
房产
旅游
艺术
数码

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

艺术要闻

哪一座桥不是风景?

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

无障碍浏览 进入关怀版