网易首页 > 网易号 > 正文 申请入驻

百元级硬件流畅运行百亿参数LLM!上交&本智激活开源端侧原生LLM

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

AI的下一个战场,不在云端,而在你的口袋里。

iPhone、华为、三星、小米、OPPO等各大手机厂商几乎都在将大模型塞进手机,端侧AI已然成为兵家必争之地。

背后的逻辑清晰而坚定:最懂你的AI,必须能安全地访问你的个人数据——邮件、照片、日程,而这一切的前提,就是将计算留在本地,将隐私还给用户

然而,想让AI在本地流畅运行,远比想象的要难得多。最好的证据,莫过于财力雄厚、软硬一体的苹果,其雄心勃勃的Apple Intelligence计划也未能如期而至,核心AI功能不得不推迟到明年。

这无疑向整个行业释放了一个清晰的信号:端侧AI,是一块难啃的硬骨头

正当全球科技巨头在端侧AI的道路上艰难探索时,一股产学研深度融合的新兴力量,给出了独有的解决路线。

今天,上海交通大学IPADS研究所、上海交通大学人工智能学院联合初创公司本智激活(Zenergize AI),在HuggingFace开源了端侧原生大模型SmallThinker

该系列模型采用为端侧算力、内存、存储特性而原生设计的模型架构,并从零开始预训练,具体包含两个尺寸的稀疏模型,分别是SmallThinker-4B-A0.6B和SmallThinker-21B-A3B,模型也已开源,链接如下。

  • https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct
  • https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct

其显著特征,就是用端侧CPU即可快速推理,不再依赖高端GPU
其中,4B模型在1GB峰值内存下的推理速度达到惊人的19.41tokens/s。

而更令人瞩目的是,21B旗舰稀疏模型,在一块百元级的国产RK3588开发板上,实现了相较于同等能力的主流模型(Qwen-14B)高达21倍的推理加速,将同类解决方案远远甩在身后。

SmallThinker:端侧原生大模型

主流大模型,从出生起就是为云端成千上万TOPS算力、TB级显存的GPU集群“量身定制”的。想把它们塞进算力、内存等都不到云端5%的端侧设备,传统方法只有“压缩”。

这就好比让一个“博士生”模型,通过蒸馏、量化等手段,强行“降智”,最终变成一个只会简单问答的“小学生”,牺牲了太多智能。

是否存在一种不做“模型降智”,而是一步到位的选择?

为了实现这一目标,SmallThinker系列针对端侧的弱算力、小内存、慢存储,设计了创新的大模型架构,并从零开始预训练,实现了与端侧硬件的“精巧匹配”。

具体来说,这一端侧原生的大模型架构主要拥有三大核心技术特性:

第一,端侧算力原生的双层稀疏架构,稀疏度提升5倍。

传统的MoE(混合专家模型)只在专家层面是稀疏的。而SmallThinker在此基础上,增加了专家内部的神经元稀疏

这就好比,模型不仅能精准调用最相关的专家知识,还能只激活专家知识库里最核心的部分,避免“复述全部所学”,对端侧算力的要求大大降低。

第二,端侧存储原生的专家路由前置,显著隐藏IO开销。

在内存资源受限的端侧,通常模型权重不能完全放置在内存里,需要在推理过程中动态从慢速存储(比如SSD、UFS等)加载模型专家权重,而在这个过程中,端侧的慢速I/O会严重影响推理速度。

传统方案是算完注意力,再计算路由,最后排队等待加载专家。

而SmallThinker在模型架构中就原生提供了机制,帮助预判需要哪个专家,在进行注意力计算的同时,就去异步加载专家

做到了“边检查边传唤”,将I/O等待时间隐藏在注意力计算的过程中。

第三,端侧内存原生的混合稀疏注意力,KV缓存占用下降76%。

针对长文本场景,SmallThinker设计了“略读”+“精读”的混合注意力机制。它使用滑动窗口注意力(Sliding Window)进行高效的“略读”,同时保留全局注意力的能力进行“精读”

两种方式组合,在处理16K文本时,相比传统GQA机制,KV缓存占用降低76%,让端侧设备也能轻松处理长文档

生态兼容性与极致性能:SmallThinker与PowerInfer的完美结合

一个真正优秀的开源模型,不仅自身要强大,更要拥抱广阔的开放生态。
SmallThinker模型系列在设计上充分考虑了开发者的使用习惯,能够无缝兼容HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers等一系列主流推理框架

在硬件适配上,它实现了对英特尔、英伟达、高通等主流芯片,甚至已经可以在国产鸿蒙操作系统上进行推理。这种开箱即用的灵活性,极大地降低了开发者的使用门槛。

而要体验SmallThinker最极致的端侧加速与内存优化效果,则需要使用团队为其量身打造的端侧原生Infra——PowerInfer(https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md)。

PowerInfer是团队于2023年12月开源的业界首个稀疏大模型端侧推理框架,发布后迅速获得全球开发者的高度关注,目前GitHub星标已达8.2K,并曾连续两天蝉联GitHub全球项目趋势榜第一。

它能够深度激活SmallThinker原创的双层稀疏架构,在推理时只调用必要的专家及神经元,并能在不影响推理速度的情况下降低内存占用。

它就像是为SmallThinker这台“F1赛车”专门打造的引擎,为开发者提供了一套从模型到部署、真正完整的全栈优化解决方案。

SmallThinker模型智力与推理性能兼具

理论再好,也要看疗效。SmallThinker团队交出的,是一份模型能力与端侧推理性能兼备的答卷。

为了真正实现“端侧原生”,团队从零开始预训练,基于高质量数据语料,训练了两种规模的模型:

  • SmallThinker-4B-A0.6B:基于2.5T Tokens数据预训练,拥有40亿参数,激活6亿参数,主打极速响应
  • SmallThinker-21B-A3B:基于7.5T Tokens数据预训练,拥有210亿参数,激活30亿参数,主打旗舰性能。它能够在百元级RK3588上流畅部署,全内存情况下的CPU推理速度也能达到10.84 tokens/s。

口说无凭,评测见真章。

在MMLU、GPQA等多个权威评测基准上,SmallThinker的智力水平均超越了同尺寸甚至更大尺寸的开源模型,充分证明了其“原生”架构设计的优越性。

而在更关键的实际运行性能上,当SmallThinker与PowerInfer结合时,其在内存约束场景下的优势尽显。团队在旗舰移动平台和个人电脑PC上,对业界主流模型进行了正面硬刚。

场景一: 手机极限内存瓶颈 (1GB RAM)

在主流手机上,SmallThinker-4B-A0.6B模型的Q4量化版本,在仅调用4个CPU核心的情况下,推理速度便高达79 tokens/s

而在对模型架构与推理框架构成终极考验的极限内存瓶颈(1GB)场景下,SmallThinker的优势则体现得淋漓尽致4B模型依然跑出了19.91 tokens/s的流畅速度。

作为对比,Qwen3-1.7B模型速度仅为1.07 tokens/s,几乎无法正常使用。

近19倍的性能差距,充分证明了SmallThinker在极端资源受限环境下的卓越运行能力。这不仅是一次技术的胜利,更是将高端AI平民化的关键一步。

场景二: 主流PC配置(8GB RAM)

当内存放宽到旗舰PC的8GB时,SmallThinker的架构优势依然显著。

SmallThinker-21B-A3B的4核CPU(Intel i9 14990K)推理速度达到20.30 tokens/s,而Qwen3-30B-A3B的4核CPU速度为10.11 tokens/s,加速比达到2倍。

未来展望:不止于此,通往端侧原生智能

在这训练过程中,团队发现;即使在如此庞大的数据投喂之后,模型的loss曲线仍在稳步下降,仍未达到饱和

未来,团队会围绕两条路线演进。

第一条路线,继续Scaling:更大更强。

既然模型尚未“吃饱”,那么最直接的路径就是——继续投喂。

团队的下一步计划,将继续遵循被验证有效的Scaling Law,利用更多的高质量Tokens进行进一步训练。进一步压榨模型潜力,在知识储备、逻辑推理和代码生成等核心能力上,将SmallThinker推向新的高度,打造出更强大的端侧基础模型。

第二条路线,打造“个人贾维斯”:从模型到可信赖的智能体。

如果说Scaling Law是让模型变得更“博学”,那么团队的终极野心,则是打造一个真正属于每个人的“贾维斯式”智能体。

这个智能体的独特之处在于,它完全运行在你的个人设备上,能够安全、完整地理解你的全部数字生命——从邮件、日程,到聊天记录和相册。正是在这片独一无二的私有数据土壤之上,才能生长出“千人千面”、真正懂你的可信赖AI。

相信未来,随着端侧原生AI能力的不断进步,未来的AI能力就会像今天的水和空气一样,主动融入我们每个人的日常工作和生活,提供安全私密、成本低廉、充满智慧的AI体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

担扑
2026-03-26 17:02:51
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
费率0.3%,社保“第六险”来了,退休人员也要交

费率0.3%,社保“第六险”来了,退休人员也要交

财话连篇
2026-03-26 13:09:33
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

都市快报橙柿互动
2026-03-26 07:59:37
东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

懂球帝
2026-03-26 14:13:09
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

全栈遛狗员
2026-03-25 17:33:34
古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

铭记历史呀
2026-03-26 11:22:56
张雪峰猝死前最后午餐,吃六碗外卖,用塑料餐盒装着,全网泪崩!

张雪峰猝死前最后午餐,吃六碗外卖,用塑料餐盒装着,全网泪崩!

风起见你
2026-03-26 15:07:07
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
女人其实比男人更开放、更大胆、更热烈、更需要刺激

女人其实比男人更开放、更大胆、更热烈、更需要刺激

加油丁小文
2026-03-24 11:55:30
绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

极目新闻
2026-03-26 16:43:13
沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

界面新闻
2026-03-26 16:51:04
1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

文史明鉴
2026-03-25 19:14:13
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

爆涨50倍比黄金还猛!二手手机成 “香饽饽”,3部破手机能换一台iPhone...

极果酷玩
2026-03-26 16:58:41
罗杰斯再抛惊人预言:2026年将出现史上最严重的金融动荡

罗杰斯再抛惊人预言:2026年将出现史上最严重的金融动荡

东风寄的千愁
2026-03-19 08:31:17
2026-03-26 19:24:50
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
教育
时尚
数码

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

皮衣+裙,高级到炸

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

无障碍浏览 进入关怀版