网易首页 > 网易号 > 正文 申请入驻

一台手掌大小、300克的AI主机,为什么能跑122B模型?

0
分享至



当AI原生设备成为Agent新物种主力,底层算力也正在加速重构。

作者丨包永刚

编辑丨林觉民

把一台能运行122B大模型的AI主机塞进口袋,需要付出什么代价?

过去大半年,端侧AI硬件的逻辑正在发生变化。

两个月前,国内掀起一场现象级的本地部署Agent热潮,大量AI爱好者开始“养虾”,让原本偏小众的Mac mini意外出圈,一度出现溢价和缺货。在更硬核的开发者圈子里,三四万元的英伟达DGX Spark同样热度不低,因为它已经能够在本地运行千亿参数模型。

Mac mini和DGX Spark同时走红,背后其实指向的是同一个趋势:Agent正在迅速抬高端侧AI硬件的门槛。

此前,40TOPS级别的AI PC,仅能完成对话、生成等轻量任务。但进入Agent时代后,开发者开始追求更大的模型、更长时间的本地推理,以及真正能够承担生产力任务的端侧AI设备。

问题随之出现。Mac mini足够安静、低功耗,却很难支撑更大的本地模型;DGX Spark拥有强悍性能,但价格、功耗与散热,又很难真正走向大众化。大算力、低功耗与小体积之间,似乎始终难以兼得。

Agent时代真正缺少的,不再只是一台更强的AIPC而是一种能够7×24小时运行、低功耗、安静,并具备本地执行能力的新终端。

一种介于AI PC与AI工作站之间的Agent Computer出现了。最近发布的联想AI主机P7,仅300克、30W功耗的设备,拥有190TOPS端侧AI算力,能在本地运行122B参数模型。

01

AI 2.0时代,

需要怎样的Agent Computer?

传统AI更多还是一问一答式交互,任务结束后,模型也随之停止运行。但Agent不同,它需要长期在线、持续调用模型、自主拆解任务,并在本地完成记忆、推理、执行等一整套过程。

这意味着Agent设备比拼的,不再只是瞬时性能,而是长期稳定运行能力。

换句话说,AI 2.0时代真正需要的不是AIPC的简单升级版,而是一种介于AI PC与AI工作站之间的新终端,它既要具备运行大模型的能力,又必须兼顾低功耗、静音、小体积,以及7×24小时持续工作的稳定性。

联想AI主机P7,正是在AI 2.0需求下诞生的Agent Computer新物种。它既尝试接近DGX Spark的大模型生产力能力,又保留了类似Mac mini的低功耗与静音特性。


P7拥有190TOPS异构AI算力(dNPU+SoC),其中160TOPS来自后摩漫界M50 dNPU,30TOPS来自此芯P1 SoC。整机最高支持122B参数模型本地部署,最高可配置80GB RAM,并支持128K上下文窗口。

在无网环境下,P7本地自主推理速度最高可达50 Tokens/s,可以实现7×24小时连续执行Agent任务。

围绕Agent长期在线需求,P7的机身只有手掌大小,重量约300克,甚至可以直接通过充电宝供电运行。为了在小体积下实现持续稳定运行,P7还将整机功耗控制在30W以内,并将运行噪音压低至35分贝以下。

这意味着,联想AI主机P7已经开始真正具备本地生产力价值。

更重要的是,与传统PC+AI的思路不同,P7并不是在原有设备中增加AI功能,而是围绕Agent场景重新定义终端逻辑。

例如,P7采用了一机双模设计,在智能体模式下,本地运行天禧Claw,将复杂任务尽可能留在本地执行;在大模型模式下,则通过开放API Key接入各类AI应用与智能体,直接承担本地推理与Token生成能力。

P7的推出代表着过去只有高功耗工作站才能承担的大模型本地推理能力,开始有机会进入更低功耗、更低成本的小型设备。

而只有当大模型推理能够在低功耗、小体积条件下长期运行,Agent才有可能真正从少数开发者设备,逐渐走向更广泛的消费级与行业终端场景。

支撑这种Agent Computer形态成立的,是P7背后一套不同于传统GPU路线的新算力方案。

02

千亿模型装进口袋之后,

算力逻辑也变了

联想在P7立项初期就已经明确,要做一台能放进口袋、又能本地运行大模型的AI主机。这意味着它的芯片必须同时满足三个几乎互斥的条件:大算力、低功耗、小体积。

传统AI芯片很难同时兼顾这些需求,核心在于数据搬运——计算单元与存储单元物理分离,数据在两者之间频繁流动,带来额外的能耗与延迟。

AI芯片行业因此不断探索新的架构路径,其中一个正在被越来越多厂商探索的方向就是存算一体,存算一体让数据在存储侧就近完成计算,从而减少搬运开销,提升整体能效。

联想选择引入存算一体架构芯片,作为P7的主要AI算力来源,也就是dNPU(Discrete NPU),它类似于独立GPU的定位,拥有更强的AI性能。

这颗dNPU,正是后摩智能在2025年推出的存算一体AI芯片——后摩漫界M50。

后摩漫界M50采用存算一体架构设计,具备160TOPS物理算力,配备最高48GB内存与153.6GB/s带宽,典型功耗仅10W,能效达到传统架构芯片的5~10倍。


雷峰网了解到,M50在设计阶段就针对大模型部署进行了优化,通过SRAM与48GB LPDDR5的组合方案,在兼顾性能的同时,提升了千亿参数模型的可部署性与成本可控性。

真正的挑战不止于芯片,而是如何让千亿参数模型在一台300克级别的设备上长期稳定运行。这需要联想与后摩智能在本地Agent系统、推理框架以及软硬件协同层面进行深度配合。

尤其是在Agent执行链路、模型调度与端侧资源管理上,联想需要一套全新的系统能力来支撑持续运行的AI任务。

从2025年下半年项目正式启动开始,联想与后摩智能组建联合团队,围绕硬件设计、软件适配与推理框架展开了长达十多个月的联合攻坚,最终实现了在后摩漫界M50上运行千亿参数大模型。

目前,P7已经支持千问、智谱、DeepSeek等主流模型,并可实现新模型的Day0适配,即模型发布当天即可完成运行支持。对于用户而言,这使得P7不再只是演示型设备,而是一台可长期运行Agent任务的本地AI终端。

从芯片到系统,再到Agent执行能力,联想与后摩智能正在共同验证一种新的AI主机形态。

随着端侧大模型持续演进,这种兼顾性能、功耗与长期运行能力的Agent Computer,正在成为AI 2.0时代最具现实落地潜力的终端方向之一。

03

Agent 浪潮重构硬件规则,

存算一体迎来推理黄金时代

AI芯片的竞争逻辑,正在发生一场静默的翻转。

过去几年,行业的核心指标是峰值算力,比拼的是谁能训练更大的模型,GPU也因此成为整个AI时代的核心基础设施。

但当AI从1.0时代的生成一次回答走向2.0时代的长期运行、持续执行任务的Agent形态后,芯片的评价体系开始变化:能效比、持续推理能力、本地执行复杂任务的稳定性,逐渐与峰值算力同等重要。

这一变化并不是传统AI芯片的优势所在,却为新的架构路径打开了窗口。

一个明显的信号来自行业巨头。英伟达重金收购初创公司 Groq 核心技术资产,将其 LPU (Language Processing Unit)语言处理单元用于高性能推理场景。后摩智能与Groq都是存算一体技术路线,都是基于SRAM设计产品,减少数据搬运、提升推理能效,只是产品叫法不同。

后摩智能在成立之初就专注于存算一体技术的研发与产业化,2024年推出针对大模型推理优化的后摩漫界M30,支持运行60亿参数模型,并获得了中国移动等客户。

目前,基于后摩漫界M50,后摩智能已经搭建起M.2卡、DM.2卡、Pcie卡,最高 640TOPS 算力的完整产品矩阵,并完成了从技术原型到规模化商用的关键跨越。如今后摩漫界M50已全面落地联想AI主机P7、 AI PC、桌面机器人、Agent Box、智能语音终端、AI 网关等多元端边场景。

后摩智能也在研发下一代芯片,目标是进一步提升能效比与大模型推理能力,以适配未来更复杂的Agent时代。

这是一个标志性的转折点,GPU 定义了大模型训练时代,而 Agent 的全面爆发,正将算力竞争从云端训练中心,推向海量的端侧、边缘推理节点。在这场算力格局迁移中,以存算一体为代表的 AI 原生架构,不再只是 GPU 的补充或替代,更在逐步建立端侧 Agent 时代的全新硬件标准。

随着Agent开始向更多本地设备渗透,行业对于低功耗、高能效端边推理芯片的需求也会持续增加。

未来,围绕端侧大模型推理,还会出现更多新的芯片形态与架构路线。

在这场Agent驱动的AI硬件范式切换中,AI原生的芯片成为竞争的关键,像后摩智能这样率先完成存算一体商业化落地的公司,正在进入更大的增长通道。

更多关于推理时代算力需求的深度交流欢迎添加作者微信BENSONEIT


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
董文华不再沉默,揭露了曾经被“封杀”的原因,原来我们错怪了她

董文华不再沉默,揭露了曾经被“封杀”的原因,原来我们错怪了她

打小我就醜
2026-06-01 10:33:27
全市场:国米优先追帕莱斯特拉,球员估值4000万欧

全市场:国米优先追帕莱斯特拉,球员估值4000万欧

懂球帝
2026-06-01 13:30:21
被裁三个月后,前主管来电:甲方机器出故障快去处理!我直接挂断

被裁三个月后,前主管来电:甲方机器出故障快去处理!我直接挂断

千秋文化
2026-05-31 21:57:48
人类历史上最强大的军队,为何无法赢得自己亲手发动的战争  ?

人类历史上最强大的军队,为何无法赢得自己亲手发动的战争 ?

西楼饮月
2026-05-29 13:12:43
弗爵也嘲讽阿森纳沉闷?事实真相揭晓!爵爷下赛季有望重返梦剧场

弗爵也嘲讽阿森纳沉闷?事实真相揭晓!爵爷下赛季有望重返梦剧场

罗米的曼联博客
2026-06-01 11:23:25
中央电视台录播2026年6月1日至7日乒乓球比赛

中央电视台录播2026年6月1日至7日乒乓球比赛

乒乓球球
2026-06-01 01:02:42
8000公里外传来意外之喜,这就是中国国运!美国急疯也没任何作用

8000公里外传来意外之喜,这就是中国国运!美国急疯也没任何作用

南宗历史
2026-05-31 20:49:48
公元前 88 年,年迈汉武帝临幸钩弋夫人,就寝前突然下令将其赐死

公元前 88 年,年迈汉武帝临幸钩弋夫人,就寝前突然下令将其赐死

磊子讲史
2026-05-28 18:54:37
58岁富婆找老伴:可以给对方1套房,但必须要满足我4个条件

58岁富婆找老伴:可以给对方1套房,但必须要满足我4个条件

热心柚子姐姐
2026-05-31 12:18:20
不服气!“黄毛”发小居然比教师混得成功引争议,网友:凭什么啊

不服气!“黄毛”发小居然比教师混得成功引争议,网友:凭什么啊

火山詩话
2026-05-31 12:52:32
男人开始“断崖式衰老”,往往是这6个习惯害的

男人开始“断崖式衰老”,往往是这6个习惯害的

健身S叔
2026-05-30 14:14:17
CCTV5直播!广厦男篮生死对决上海,王博调整空间有限 或被4-0横

CCTV5直播!广厦男篮生死对决上海,王博调整空间有限 或被4-0横

安海客
2026-06-01 12:55:01
日经225指数首次突破67,000点 日韩股市续创历史新高

日经225指数首次突破67,000点 日韩股市续创历史新高

财联社
2026-06-01 09:18:08
国民党败退台湾后,给新中国留下了惊天军工家底?该说出真相了!

国民党败退台湾后,给新中国留下了惊天军工家底?该说出真相了!

鹤羽说个事
2026-05-18 22:42:50
谁骂我谁倒霉!透过泽连斯基,看懂什么叫顶级因果律武器

谁骂我谁倒霉!透过泽连斯基,看懂什么叫顶级因果律武器

大又元
2026-05-12 16:13:52
广东一男子为控制血糖,每天坚持走10000步,一年后他的身体咋样

广东一男子为控制血糖,每天坚持走10000步,一年后他的身体咋样

坠入二次元的海洋
2026-05-31 12:40:54
上海滩大佬深谋远虑,送幼子奔赴延安,晚年得以安稳善终

上海滩大佬深谋远虑,送幼子奔赴延安,晚年得以安稳善终

唠叨说历史
2026-05-25 14:18:49
杰伦·威廉姆斯:如果我没受伤,我们能击败马刺

杰伦·威廉姆斯:如果我没受伤,我们能击败马刺

体坛周报
2026-06-01 10:14:41
扎根南京二十载合法企业遭暴力强拆 省劳模蒋岸川七年维权路漫漫

扎根南京二十载合法企业遭暴力强拆 省劳模蒋岸川七年维权路漫漫

CC说话的人
2026-06-01 09:34:06
全球第一大车企中止纯电动汽车的开发

全球第一大车企中止纯电动汽车的开发

新浪财经
2026-05-30 15:28:07
2026-06-01 14:31:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69539文章数 656138关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

时尚
本地
手机
游戏
军事航空

女人不管多大年纪,夏天都要准备一条白色阔腿裤,百搭又清爽

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

小米17系列即将突破500万销量,国产安卓第一人有意见吗?

“并非bug”!《GTA6》悬浮路灯竟是佛罗里达真实实景

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版