网易首页 > 网易号 > 正文 申请入驻

告别GPU依赖!CPU的AI时代来临 | CPUBone让视觉模型在CPU上飞起来

0
分享至

来源:市场资讯

(来源:集智书童)


你是否还在为边缘设备上的AI模型推理速度慢、耗电高而烦恼?是否尝试过各种轻量化模型,却发现它们在ARM CPU上的表现远不如预期?今天,我们为你带来一个突破性的解决方案:CPUBone——一款专为低并行化能力设备(如各种CPU)设计的视觉骨干网络,它在ImageNet分类任务上,相比当前SOTA模型,在同等精度下实现了高达数倍的推理速度提升,代码已开源!

开源代码已放出:https://github.com/altair199797/CPUBone[1]

❓ 核心痛点:为什么“轻”不等于“快”?

许多开发者都陷入了一个误区:认为模型的计算量越低,在边缘设备上的推理速度就一定越快。然而,残酷的现实是,一个MACs更少的模型,在CPU上的延迟可能反而更高!

这是因为CPU的并行化能力有限,这与GPU和移动端NPU有天壤之别。一个典型的例子是深度可分离卷积,它的MACs极低,但在CPU上执行时,每秒能完成的乘加运算数也非常低,导致“硬件效率”低下,无法充分利用CPU的计算能力。

换句话说,模型设计不仅要“减量”,更要“增效”——在降低计算负担的同时,必须保证CPU能高效地执行这些剩余的计算。

但为什么大多数针对GPU或移动芯片优化的模型,迁移到CPU上就表现平平?关键在于它们的设计没有考虑到CPU的核心瓶颈:有限的并行度和内存访问开销。

图:论文核心内容漫画解读

在深入技术细节之前,先来看一张趣味漫画,1分钟get论文核心!一张漫画胜千言——快速把握论文全貌!


*图:论文核心内容漫画解读*

漫画生动地展示了CPUBone的设计哲学:通过分组卷积和调整核尺寸,在减少计算量的同时,让CPU“跑”得更欢,最终实现延迟的大幅降低。下面,我们就来拆解这背后的硬核技术。

原理拆解:两大法宝,专治CPU“低效病”

CPUBone的核心洞察直击要害:为了在CPU上实现低延迟,必须同时做到两点:1. 减少总计算量;2. 提升硬件执行效率。为此,论文提出了两大核心设计策略。

策略一:分组卷积(Groups=2)

分组卷积不是什么新概念,但CPUBone的巧妙之处在于对分组策略的精细权衡。简单回顾一下,一个卷积层的MACs计算公式为:

可以看出,MACs与分组数 成反比。将 从1设置为2,理论上MACs就能减少一半!

但关键在于,分组会不会拖慢CPU的执行速度(降低MACpS)? 为此,论文对MobileNet V2中经典的移动倒置瓶颈模块 进行了改造,创造了两种新的分组变体:

  • • 分组MBConv(GrMBConv)

  • • 分组融合MBConv(GrFuMBConv)

它们的结构对比如下图所示:


*图:四种MBCConv变体结构对比,分组版本在第一个卷积层设置groups=2以减少计算量*

那么,这两种分组模块在真实硬件上表现如何?论文在多种CPU和一块GPU上进行了严格的基准测试。


*表:不同MBConv变体在多种硬件上的执行效率(MMACs/ms,越高越好)*

从表1中我们能得出两个至关重要的结论:

1. 效率守恒:在CPU上,GrFuMBConv相比非分组的FuMBConv,MACs减少了45%,但MACpS几乎不变(甚至微升1%)。这意味着延迟降低几乎完全来自于计算量的减少,硬件效率没有被牺牲。

2. 融合的优势:对于通道数少于256的层,融合变体的硬件效率远高于未融合变体。这指导了CPUBone的微观设计:在浅层使用融合分组模块。

实战思考:这里揭示了一个关键设计原则——“分组”和“融合”是黄金搭档。单独分组可能带来开销,但与融合结构结合后,能在CPU上实现近乎完美的“减量不降效”。

策略二:缩小卷积核(3×3 → 2×2)

除了分组,另一个降低MACs的经典方法是减小卷积核尺寸。从 降到 ,核内参数从9个减少到4个,理论上单个卷积的MACs能降低约56%。

同样,核心问题还是:CPU执行2×2卷积的效率如何? 论文对比了不同核尺寸下,深度卷积以及FuMBConv/GrFuMBConv模块的表现。


*表:深度可分离卷积在ARM CPU上,不同核尺寸与分辨率的执行效率*


*表:GrFuMBConv与FuMBConv在ARM CPU上,不同核尺寸下的执行效率对比*

表2和表3的结果令人振奋:

  • • 对于深度卷积,使用2×2核虽然MACpS略有下降(-10%),但由于MACs减半,总体延迟仍然降低。

  • • 对于FuMBConv和GrFuMBConv模块,使用2×2核甚至能提升MACpS! 这意味着减小核尺寸在CPU上带来了“双重福利”:既减少计算量,又提升执行效率。

然而,论文也指出了一个重要反差:同样的核缩减策略,在GPU上会导致MACpS严重下降,完全抵消了计算量减少带来的收益。这再次印证了面向特定硬件设计的重要性——对CPU友好的优化,对GPU可能完全是反作用。

你在模型部署时,是否也遇到过这种“硬件不兼容”的困扰?欢迎在评论区分享你的经历~

️ CPUBone整体架构:模块化堆叠的艺术

基于以上两大策略的深入分析,CPUBone构建了一个高效且简洁的宏观架构。它借鉴了Low-Former的阶段化设计,但在每个模块的选择上充分体现了硬件感知的智慧。


*图:CPUBone的宏观网络架构,由多个阶段堆叠GrFUMConv模块构成,后期引入注意力机制*

整体架构如图3所示,是一个清晰的四阶段设计。具体到每个版本的配置,则如下表所示:


*表:CPUBone四个变体(B0-B3)的详细结构配置*

CPUBone的设计充满了巧思:

  • • 微观模块选择:根据之前分析的结论,当输入通道数 时,使用硬件效率更高的 GrFuMBConv(分组融合模块);当 时,则切换回 GrMBConv(分组非融合模块)。

  • • 核尺寸策略:仅在网络深层的第3、4阶段使用 小核。这是因为深层计算密集,小核收益最大;而浅层需要大感受野来保证精度。

  • • 注意力机制:在最后两个阶段引入了轻量化的 Low-Former Attention,但将其中的转置卷积替换为更高效的最近邻上采样(后续消融实验证明了这一选择)。

这个设计是否颠覆了你对轻量化模型架构的认知?点赞支持作者继续深挖更多细节!

实验验证:数据说话,全面领先

理论再完美,也需要实验的检验。CPUBone在ImageNet分类、目标检测、语义分割等多个任务上进行了全面评测,结果堪称惊艳。

SOTA对比:CPU上的速度王者

首先看最核心的ImageNet-1K图像分类任务。论文在树莓派Pi5、Pixel 7 Pro和高通Snapdragon等多种CPU平台上测试了推理延迟。


*表:在ImageNet-1K上,CPUBone与主流轻量模型在精度与多种CPU延迟上的综合对比*

表4的数据极具冲击力。我们以CPUBone-B1为例:

  • • vs EffFormerV2-S0:在Pi5上快50%,在Pixel 7 Pro上快3倍,同时精度高出3.9%。

  • • vs FasterNet-T1:在Pi5上快33%,在Pixel 7 Pro上快76%,同时精度高出1.4%。

  • • vs RepViT-M2.3:CPUBone-B3在所有测试CPU上都显著更快,同时精度还高出0.6%。

这不仅仅是小幅提升,而是全面的性能碾压。 CPUBone在精度-延迟权衡曲线上,几乎将所有对比模型都“推”向了右下角——即更高延迟、更低精度的区域。

这种优势在可视化图表中更为直观:


*图:ARM CPU上,各模型延迟-准确率分布图,CPUBone(蓝色虚线)在相同精度下延迟最低*

如图1所示,CPUBone的四个变体(B0-B3)构成的曲线,整体位于其他模型曲线的左下方,这标志着在相同精度下延迟最低,相同延迟下精度最高,实现了帕累托最优。

下游任务:强大的迁移能力

一个好的骨干网络,必须能很好地迁移到下游任务。CPUBone在目标检测(COCO)和语义分割(ADE20K)上的表现同样出色。


*表:在RetinaNet检测框架下,不同骨干网络在Pi5 CPU上的延迟与检测精度(AP)对比*

表7展示了目标检测的结果。CPUBone-B3达到了42.9%的AP,延迟为1181.6ms,优于同精度级别的其他模型。在保持相似AP的前提下,CPUBone的推理速度可以达到对比模型的3-4倍! 这证明其高效性不仅限于分类,更能转化为下游任务的实际加速收益。

消融实验:每一个设计都至关重要

CPUBone的成功不是偶然,是多个精心设计共同作用的结果。论文通过详尽的消融实验,验证了每个组件的必要性。


*表:CPUBone-B1模型上不同结构变化的消融实验分析*

表6的消融实验清晰地告诉我们:

1. 分组卷积是效率核心:使用Groups=8虽然能进一步降低计算量和延迟,但精度损失太大。Groups=2在效率与精度间取得了最佳平衡。

2. 模块选择是关键:仅使用原始MBConv的变体,即使MACs与Baseline相近,其延迟也更高,精度更低。这证明了GrMBConv/GrFuMBConv在提升硬件效率方面的巨大优势。

3. 细节决定成败:将注意力模块中的转置卷积换为最近邻上采样,虽然损失了0.2%的精度,但换来了所有CPU设备上显著的延迟降低,是值得的权衡。

⚖️ 客观评价与未来展望

CPUBone无疑在CPU高效模型设计上树立了新的标杆,但它也并非没有局限性。

局限性:

  • • 硬件专一性:CPUBone为CPU深度优化,这意味着其在GPU或NPU上的性能可能不是最优的。论文中的实验也证实,其分组和核缩减策略在GPU上收益甚微甚至为负。它是一款“特长生”模型。

  • • 更高分组数的潜力:消融实验显示Groups=8会损失精度,但或许通过更精细的架构调整或训练策略,能解锁更高分组数下的潜力。

计算开销:从参数量和计算量看,CPUBone与同类模型保持在同一水平,但其核心优势在于将这些计算更高效地“兑现”为CPU上的低延迟。

未来展望:CPUBone的工作指明了方向:硬件感知的模型设计必须深入到算子级别。未来,我们或许会看到更多针对不同硬件特性(如CPU缓存、内存带宽、特定指令集)的极致优化。此外,将这种设计理念与神经架构搜索(NAS)结合,自动探索针对特定芯片的最优架构,也是一个充满前景的方向。

价值升华 + 行动号召

回顾全文,CPUBone给我们带来了三大核心启示:

1. 评估标准革新:模型效率不能只看MACs,硬件效率 是决定实际延迟的关键。

2. 设计策略闭环:分组卷积(Groups=2) 与 融合结构、2×2小核 相结合,是面向CPU设计的黄金组合。

3. 硬件专属优化:没有“放之四海而皆准”的高效模型,为特定硬件(如CPU)量身定制的设计能带来数量级的性能提升。

CPUBone的出现,让在树莓派、老旧手机、嵌入式CPU等资源受限设备上部署高效、精准的视觉模型成为了更触手可及的现实。

深度思考:你认为CPUBone这类CPU专属优化技术,最可能率先颠覆哪个应用场景?是智能安防摄像头、工业质检设备,还是车载边缘计算单元?欢迎在评论区留下你的观点!

#AI技术 #深度学习 #模型优化 #边缘计算 #论文解读 #CPU #轻量化模型

参考

CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities

引用链接

[1]: https://github.com/altair199797/CPUBone

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他从正部降到副厅,级别恢复后不想上任,宋任穷:这是中央的决定

他从正部降到副厅,级别恢复后不想上任,宋任穷:这是中央的决定

鉴史录
2026-04-20 20:54:57
4699起交个朋友?华为Pura 90也开始有性价比了。。。

4699起交个朋友?华为Pura 90也开始有性价比了。。。

差评XPIN
2026-04-21 00:08:00
世界引擎:Post-Training开启Physical AGI新纪元

世界引擎:Post-Training开启Physical AGI新纪元

机器之心Pro
2026-04-19 20:00:03
最新:曝俄军败退扎波罗热!丢失几年来占领的全部土地

最新:曝俄军败退扎波罗热!丢失几年来占领的全部土地

项鹏飞
2026-04-20 20:13:15
NBA历史首现!文班全票当选最佳防守球员 成马刺队史第4位获奖者

NBA历史首现!文班全票当选最佳防守球员 成马刺队史第4位获奖者

罗说NBA
2026-04-21 06:20:00
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

云舟史策
2026-04-20 07:21:35
日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

掠影后有感
2026-04-19 10:16:27
突发!库克卸任苹果CEO,一个时代结束了

突发!库克卸任苹果CEO,一个时代结束了

智东西
2026-04-21 06:50:16
骑士灭猛龙总分2-0:哈登28分创3项里程碑 米切尔30+7+5

骑士灭猛龙总分2-0:哈登28分创3项里程碑 米切尔30+7+5

醉卧浮生
2026-04-21 09:37:55
日本地震震级修正为7.7级

日本地震震级修正为7.7级

界面新闻
2026-04-20 18:59:43
孙宏斌现状:公司负债大幅减少,63岁愁白了头,儿子成了他的骄傲

孙宏斌现状:公司负债大幅减少,63岁愁白了头,儿子成了他的骄傲

洲洲影视娱评
2026-04-20 15:16:52
睡一觉5万没了!全国多地爆发新型盗刷,睡前必查手机这4处

睡一觉5万没了!全国多地爆发新型盗刷,睡前必查手机这4处

洞见小能手
2026-04-20 16:03:26
1991年中央派人请张学良回大陆,张:回大陆可以,但我有三个要求

1991年中央派人请张学良回大陆,张:回大陆可以,但我有三个要求

史之铭
2026-04-14 18:16:07
伊朗籍中国货轮!在公海被美军扣押后,不到24小时,中方表态

伊朗籍中国货轮!在公海被美军扣押后,不到24小时,中方表态

离离言几许
2026-04-20 22:15:30
特朗普不喜欢北约,泽连斯基可喜欢北约了:要帮欧洲建自主反导系统

特朗普不喜欢北约,泽连斯基可喜欢北约了:要帮欧洲建自主反导系统

新民周刊
2026-04-21 09:10:38
施罗德拉胯!骑士115-105胜猛龙,哈登砍28+5+4+5,米切尔30+7+5

施罗德拉胯!骑士115-105胜猛龙,哈登砍28+5+4+5,米切尔30+7+5

小徐讲八卦
2026-04-21 10:02:21
罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

社会日日鲜
2026-04-21 05:24:33
赖文峰出狱后已做爸爸!如今直播带货,吃杨钰莹过往爱情的红利

赖文峰出狱后已做爸爸!如今直播带货,吃杨钰莹过往爱情的红利

TVB的四小花
2026-04-20 18:57:25
广西一小学食堂员工疑多次把营养午餐带回家,官方通报:系将剩余饭菜带回家喂养家禽,不存在克扣学生营养午餐情况

广西一小学食堂员工疑多次把营养午餐带回家,官方通报:系将剩余饭菜带回家喂养家禽,不存在克扣学生营养午餐情况

大象新闻
2026-04-21 09:15:04
69年陈云下放江西,时任省委书记拒不见面,陈云:此人胆子很大

69年陈云下放江西,时任省委书记拒不见面,陈云:此人胆子很大

鉴史录
2026-04-20 22:03:41
2026-04-21 10:43:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2936593文章数 6824关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

牛弹琴:特朗普成美伊谈判最大障碍 伊朗果然勃然大怒

头条要闻

牛弹琴:特朗普成美伊谈判最大障碍 伊朗果然勃然大怒

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

旅游
本地
艺术
游戏
公开课

旅游要闻

2026八达岭夜长城4月30日起焕新开放

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

任伯年写竹,真带劲

《识质存在》一百万销量 卡普空发布可爱贺图

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版