网易首页 > 网易号 > 正文 申请入驻

仅靠CPU也能跑DeepSeek、QwQ!浪潮更懂中小企业的AI服务器来了

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 | 陈骏达
编辑 | 漠影

2025年,以DeepSeek、QwQ等为代表的推理大模型火爆全球,并在复杂任务上展现出强大实力。这也让不少企业考虑,如何能利用此轮推理大模型的技术进步,来优化自身的决策、提升企业运行效率并促进创新。

然而,传统的CPU服务器在处理当前的AI推理需求时显得力不从心,而GPU推理服务器动辄上百万的高昂成本又将许多中小企业挡在门外。

在这样的背景下,市场亟需一种既能控制成本又能保证性能的服务器解决方案,以满足企业对便捷、高性价比AI推理服务的需求。

随着AI技术的快速发展,CPU服务器也在不断进化。近日,浪潮信息发布的元脑CPU推理服务器,能高效运行DeepSeek-R1 32B和QwQ-32B等适合企业日常需求的推理模型,还能与企业原有的业务兼容,具备性价比高、运维简单等优势。

▲元脑CPU推理服务器,基于QwQ-32B模型生成猜数字游戏

在GPU服务器之外,新一代CPU推理服务器为企业提供了快速、易获取且低成本的算力供给,正成为更多企业的理想选择。

一、跑大模型GPU并非唯一解,CPU推理服务器成中小企业理想新选择

当谈及部署大模型时,不少企业的第一反应都是“买卡”。的确,在大模型训练、推理的场景中,GPU加速卡凭借强大的浮点运算能力和大规模并行处理架构,在高吞吐量的AI推理任务上展现出明显优势。

但GPU并不是唯一解。

CPU更擅长处理复杂的逻辑运算和通用计算任务,虽然在高并行计算任务上不如GPU,但在处理多样化工作负载(如数据库查询、业务逻辑处理)时性能表现优秀。而且,随着技术的不断迭代,具备AI计算能力的CPU服务器也开始在AI推理场景中展现独到优势。

在大模型推理过程中,不少模型采用KV Cache(键值缓存),用于存储解码过程中生成的中间结果,以减少重复计算,提升推理效率。随着模型规模的增大,KV Cache的存储需求也随之增加。

与GPU服务器相比,CPU推理服务器以更低的硬件投入,支持更大容量的系统内存,能够轻松存储更大规模的KV Cache,避免频繁的数据交换,从而提升推理效率。CPU推理服务器还可通过多通道内存系统,进一步支持大规模KV Cache的高效访问。

当CPU推理服务器与高效的中等尺寸推理模型结合后,能够形成显著的协同效应,在保证性能的同时进一步压缩成本。

以业界多款32B推理模型为例,这些模型通过采用更高效的注意力机制、模型量化与压缩技术以及KV Cache优化,显著降低了计算和存储需求。例如,DeepSeek-R1 32B在知识问答、智能写作和内容生成等方面表现优异,而QwQ-32B则在数学推理、编程任务和长文本处理等领域展现出强大的性能。

此外,DeepSeek-R1 32B和QwQ-32B的训练数据中包含了海量的高质量中文语料库,使其更加适合国内企业的应用需求。

在企业知识库问答、文档写作、会议纪要整理等场景中,32B参数级别的模型往往是最佳选择,既能提供强大的能力支持,又能保持合理的硬件投入,仅基于CPU推理服务器,企业用户即可实现本地化部署,满足对性能、成本和易用性的多重需求。

从成本角度来看,相比GPU服务器高昂的硬件成本,更严格的电源、散热和机架空间,CPU服务器对环境的要求较为宽松,对于轻量使用和预算有限的企业而言,更具性价比。

二、软硬件协同优化成效显著,解码速度翻番、效率提升至4倍

浪潮信息本次推出的元脑CPU推理服务器,正是这样一款支持中等尺寸模型推理,能为中小企业提供高效AI推理服务的CPU推理服务器。

在实际测试中,单台元脑CPU推理服务器在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,解码性能超过20tokens/s,20个并发用户下,总token数达到255.2tokens/s。

▲基于DeepSeek-R1 32B 并发性能测试数据

在使用QwQ-32B进行模型推理时,20个并发用户数下总token数达到224.3tokens/s,可以提供流畅稳定的用户体验。

▲基于QwQ-32B 并发性能测试数据

元脑CPU推理服务器的性能,得益于浪潮信息的软硬件协同优化。

算力方面,元脑CPU推理服务器采用4颗32核心的英特尔至强处理器6448H,具有AMX(高级矩阵扩展)AI加速功能,支持张量并行计算。与传统双路服务器方案的有限内存不同,元脑CPU推理服务器的多通道内存系统设计可支持32组DDR5内存。

在这些硬件的加持下,元脑CPU推理服务器单机具备BF16精度AI推理能力、最大16T内存容量和1.2TB/s内存带宽,可以更好满足模型权重、KV Cache等计算和存储需求,快速读取和存储数据,大幅提升大模型推理性能。

▲元脑CPU推理服务器NF8260G7配置

在算法方面,元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化,通过张量并行和内存绑定技术,充分释放服务器CPU算力和内存带宽潜能,实现多处理器并行计算,效率最高提升至4倍。

面对内存带宽的挑战,元脑CPU推理服务器为进一步提升解码性能,采用了AWQ(Activation-aware Weight Quantization激活感知权重量化)技术。

AWQ技术能确定模型中对性能影响最大的少部分重要权重,并通过保护这些权重来减少量化带来的误差。AWQ还避免了混合精度计算带来的硬件效率损失。

采用了AWQ的元脑CPU推理服务器在解码任务中的性能提升了一倍,让大模型在保持高性能的同时,跑得更快、更省资源。

元脑CPU推理服务器还通过浪潮信息打造的AI Station平台,支持用户灵活选择适配的大模型算法,包括DeepSeek全系模型、QwQ和Yuan等不同参数量的模型。

三、更懂中小企业需求,通用性、成本效益突出

在智东西与浪潮信息副总经理赵帅的沟通中,我们了解到,元脑CPU推理服务器仅推出1周,便吸引了多家来自大模型、金融、教育等行业的客户咨询和测试,这款CPU推理服务器精准地填补了中小企业市场中的一个关键空白。

目前,许多企业对将私有数据上云仍持保留态度,更倾向于在本地完成AI推理任务。然而,如果企业选择使用GPU服务器来部署高性能AI模型,往往需要承担高昂的初始投资成本。对于中小企业而言,这种投资的性价比并不高——它们通常不需要极致的AI性能或超高的并发处理能力,而是更关注易于部署、易于管理、易于使用的入门级AI推理服务。

在这种情况下,生态更为成熟、开发工具更为健全的CPU推理服务器展现出了显著的优势。CPU推理服务器不仅能够更好地融入企业现有的IT基础设施,还因其通用性而具备更高的灵活性。

与专用AI硬件(如GPU服务器)不同,CPU推理服务器在AI推理需求空闲期,还可以兼顾企业的其他通用计算需求,如数据库管理、ERP系统运行等,从而最大化硬件资源的利用率。

在部署便捷性方面,元脑CPU推理服务器功耗2000W左右,降低了对供电设备的要求,还使得服务器的冷却需求大幅减少,仅需家用级空调即可满足散热要求。这意味着元脑CPU推理服务器能够轻松适应大部分企业自建的小型机房环境,无需额外投资高成本的冷却设施或对现有机房进行大规模改造。

元脑CPU推理服务器还具备高可靠性的特点,平均无故障时间可达200000小时,能够保障关键应用和AI推理任务的持续稳定运行。这一特性对于企业来说尤为重要,尤其是在金融、医疗、制造等对系统稳定性要求极高的行业中,高可靠性意味着更低的业务中断风险和更高的运营效率。

谈及未来,赵帅分享,浪潮信息还将进一步提升元脑CPU推理服务器的能力。依托于融合架构开发的经验积累,他们已在开发内存资源池化的新技术,结合长文本等算法特征进行软件优化,更好地支持企业的使用需求。

结语:CPU推理服务器有望推动AI普惠

随着AI技术往行业深水区发展,大模型推理需求正从大型企业逐步向中小企业渗透,从少部分企业所享有的“奢侈品”转化为大部分企业的“必需品”。

在这一进程中,如元脑CPU推理服务器这样的高性价比AI推理解决方案,有望成为中小企业实现AI普及化和行业智能化的重要工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚复出就开演唱会,票价卖到1280,到底谁给的自信?

刚复出就开演唱会,票价卖到1280,到底谁给的自信?

易同学爱谈娱乐
2025-07-02 08:32:15
马斯克发声,狂飙49%!

马斯克发声,狂飙49%!

中国基金报
2026-01-05 19:07:42
闫学晶事件导致佐香园被抵制,不少网友将其倒掉或者丢掉

闫学晶事件导致佐香园被抵制,不少网友将其倒掉或者丢掉

映射生活的身影
2026-01-05 20:39:48
王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

瓜汁橘长Dr
2026-01-05 16:48:07
《盖世神功》定档1月16日,集结林雪、詹瑞文等知名配角

《盖世神功》定档1月16日,集结林雪、詹瑞文等知名配角

好叫好伐
2026-01-05 19:35:12
2026年物业新规1月1日施行!物业费、公共收益、维权全明确

2026年物业新规1月1日施行!物业费、公共收益、维权全明确

另子维爱读史
2026-01-03 21:36:56
菲利克斯也带不动!新月1分反超利雅得胜利登顶,C罗冠军又悬了?

菲利克斯也带不动!新月1分反超利雅得胜利登顶,C罗冠军又悬了?

篮球看比赛
2026-01-05 10:52:36
三星财团李在贤“选妃”细节:必须高挑纤瘦、穿黑短裙与黑丝袜

三星财团李在贤“选妃”细节:必须高挑纤瘦、穿黑短裙与黑丝袜

旧时楼台月
2026-01-05 14:59:18
扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

有趣的火烈鸟
2025-12-31 20:39:06
重磅!佛教协会新规落地:寺院住持最多干15年,70岁强制退休

重磅!佛教协会新规落地:寺院住持最多干15年,70岁强制退休

鋭娱之乐
2026-01-05 17:25:12
委内瑞拉代表:美对委行动严重违反《联合国宪章》和国际法

委内瑞拉代表:美对委行动严重违反《联合国宪章》和国际法

财联社
2026-01-06 02:20:04
“没见过这么离谱的”!深夜零下20℃,数百游客滞留!两知名景区双双被挤爆,最新致歉→

“没见过这么离谱的”!深夜零下20℃,数百游客滞留!两知名景区双双被挤爆,最新致歉→

新民晚报
2026-01-04 14:29:18
这又是闹哪样!比亚迪要换车标了,当年随便起的名,要换说法了?

这又是闹哪样!比亚迪要换车标了,当年随便起的名,要换说法了?

小李车评李建红
2026-01-03 07:30:03
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
阿里纳斯:杰伦-布朗已经是大当家球员,他和塔图姆都能扛起球队

阿里纳斯:杰伦-布朗已经是大当家球员,他和塔图姆都能扛起球队

懂球帝
2026-01-05 18:10:02
梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

萧竹轻语
2025-11-14 17:10:43
布克绝杀联盟第一,仍无缘日最佳!你碰到41岁创3项纪录的詹姆斯

布克绝杀联盟第一,仍无缘日最佳!你碰到41岁创3项纪录的詹姆斯

毒舌NBA
2026-01-05 13:58:36
突发!知名影帝安圣基因吃饭被噎去世,曾与刘德华出演《墨攻》

突发!知名影帝安圣基因吃饭被噎去世,曾与刘德华出演《墨攻》

心静物娱
2026-01-05 13:49:36
接触的人多了你会明白如果一个人还在穿5年前的衣服只说明3个问题

接触的人多了你会明白如果一个人还在穿5年前的衣服只说明3个问题

深度报
2026-01-05 22:52:09
中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中...

中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中...

砚底沉香
2026-01-04 12:02:23
2026-01-06 03:23:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11014文章数 116936关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

中方在联合国点名美国:4个严重违反 予以严重谴责

头条要闻

中方在联合国点名美国:4个严重违反 予以严重谴责

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

本地
手机
数码
健康
公开课

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

手机要闻

1月Turbo混战,中端性能机你选哪个?

数码要闻

2025年度数码好物大赏【年度评选】

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版