网易首页 > 网易号 > 正文 申请入驻

端侧 GUI 智能体模型全球第一:Mano-P 如何做到“又强又安全”

0
分享至

2026 年 3 月 24 日,Anthropic 宣布其 “Computer Use”功能正式获得“操作你电脑”的能力——在 Claude中,AI 可以移动鼠标、点击按钮、打开应用、填写表格,像一个真正坐在你电脑前的助手那样工作。

一个新赛道正在以肉眼可见的速度成型:GUI 智能体——不是和你聊天的 AI,而是替你干活的 AI。

但一个被大多数报道忽略的问题是:当 AI 在帮你操作电脑时,你的屏幕截图正在被上传到云端。Anthropic 自己在官方文档中警告:“当 Computer Use 激活时,Claude 能看到屏幕上显示的一切,包括个人数据、敏感文档或私人信息。”他们甚至建议用户在虚拟机或容器中运行这项功能。

这不是一个小问题——对于处理客户数据、财务信息、法律文件的企业来说,这可能是一个根本性的架构选择问题。

有没有一种 GUI 智能体,能像 Claude 一样强大,但数据完全不出设备?

明略科技 Mano-P 已经给出了答案:围绕隐私与个性化两大支柱,72B 模型屠榜证明实力,4B 蒸馏版上机证明可用——在 OSWorld 专用模型榜以 58.2% 成功率拿下全球第一,领先第二名超过 13 个百分点,而这一切完全在你自己的 Mac 上本地运行。


图片来源:明略科技

关键要点

GUI 智能体赛道逐渐成型:Anthropic 发布 Claude Computer Use 桌面版

核心矛盾浮出水面:当前主流 GUI 智能体都需要将屏幕截图上传云端,Anthropic 官方文档明确警告隐私风险

72B 屠榜,4B 上机:明略科技Mano-P 72B 模型以 58.2% 成功率拿下 OSWorld 专用模型全球第一,蒸馏为 4B 版本后可在 M4 Mac 上流畅运行

端侧模型不等于弱模型:Mano-P 在 WebRetriever 等多个基准测试中超越多个千亿参数级通用大模型

架构级安全:本地模式下所有推理在设备上完成,屏幕截图不出设备,支持完全离线运行

AI for Personal 双支柱:隐私(数据不出设备)+ 个性化(三阶段逐步释放完整技术栈)

二、GUI 智能体是什么?为什么它是 AI 落地的关键一步

过去两年,大模型的能力主要体现在“说”——写文章、回答问题、生成代码。但企业真正需要的不是一个能说会道的聊天机器人,而是一个能真正干活的数字员工。

GUI 智能体(GUI Agent)就是这一步的关键跨越。它的核心能力是:通过理解图形用户界面(GUI),像人类一样操作电脑完成任务。你告诉它“帮我在 CRM 系统里录入今天的客户拜访记录”,它就真的打开 CRM、找到对应字段、填写内容、点击保存——全程不需要你动手。

这和传统的 RPA(机器人流程自动化)有本质区别:

RPA 依赖系统 API 和预设规则,界面一改版就得重配,维护成本高,灵活性差。

GUI 智能体 基于视觉理解,像人一样“看”屏幕、“理解”界面、“决定”下一步操作。界面改了?它能自适应,因为它理解的是语义,不是像素坐标。

这个差异意味着什么?意味着 GUI 智能体可以操作任何人类能操作的软件——不管是现代 SaaS 工具、老旧的 ERP 系统,还是只有图形界面没有 API 的专业软件。它解锁的不是某一个系统的自动化,而是通用的桌面自动化能力。

三、行业现状:能力很强,但有两个根本性问题

截至目前,GUI 智能体赛道的主流方案几乎都走了同一条路:依赖云端大模型推理。底层逻辑都是“截屏→上传云端→模型推理→返回操作指令”。

这条路有两个根本性的问题:

第一个问题是数据安全。你的每一张屏幕截图都在云端服务器上走了一遭。对于个人用户操作浏览器这种场景,这或许可以接受。但当企业把 GUI 智能体用在审查合同、处理财务报表、录入客户数据等核心业务时,合规团队会问:“这些截图存在哪里?谁能看到?保留多久?”

第二个问题更根本:云端 AI 不可能真正“主动”帮你。 真正有用的 AI 助手应该是主动的——自己发现你有个会议快开了,自动帮你准备资料;看到重要邮件,自动提醒你。但这种主动性意味着 AI 要不停地自发运算。在云端,每一次运算都消耗平台的算力和费用——AI 越主动,平台越亏钱。所以云端平台必然限制 AI 的主动性,这就是为什么你用 ChatGPT 从来不会看到它主动找你。

端侧模型从根本上解决了这两个问题:AI 跑在你自己的设备上,用的是你自己的芯片和电——它主动运行一万次也不花平台一分钱;同时数据一步都不出你的设备。

这就引出了一个关键问题:有没有一种端侧方案,性能也能达到顶级?

四、Mano-P:72B 屠榜,4B 上机

在上述格局中,明略科技近期开源的的 Mano-P 占据了一个独特的位置:专用模型性能第一 + 端侧本地运行。


图片来源:明略科技

性能:不是“也能用”,是“最能打”


图片来源:明略科技

72B 模型屠榜证明技术实力,蒸馏为 4B 上机证明日常可用。对于Mano-P来说,能力和便捷不是二选一。经过专项训练和优化的专用模型,完全可以在特定任务上达到甚至超越通用大模型的水平。端侧模型不等于弱模型。


图片来源:明略科技

安全:不是“更安全”,是“架构级安全”

Mano-P 的本地模式不是在已有的云端架构上“加了一层加密”,而是从架构层面消除了数据外泄的可能性:


图片来源:明略科技

对于金融机构审查合同、医疗机构处理病历、政务系统录入公民信息等场景,这种“架构级安全”不是加分项,而是准入门槛。

技术:怎么做到“又大又快”

在一台 Mac 上运行大参数模型做 GUI 操作,听起来不太现实。Mano-P 靠三项核心技术解决了这个问题:

GSPruning 视觉 Token 剪枝:处理高分辨率屏幕截图时,智能保留界面结构骨架和关键 UI 元素,将视觉 Token 数量压缩至 12.57%——相当于只看屏幕上最重要的 13% 信息,推理速度提升数倍,而任务成功率几乎不损失。

混合精度量化(w4a16):用更紧凑的方式存储模型——权重用 4bit,激活值保留 16bit。效果:4B 量化版本在 M4 Pro 上峰值内存仅 4.356GB,每秒能吐出约 300-400 个中文字,跑 AI 的同时你还能正常办公。

Mano-Action 双向自增强训练:传统模型只学“你告诉我点哪里,我就点哪里”。Mano-P 同时学习正向和反向两个方向,通过循环一致性互相验证。配合三阶段渐进训练(监督微调→离线强化学习→在线强化学习),模型从“背操作手册”进化到“真正学会操作界面”。

五、怎么让 Mano-P在本地设备上自主操作界面完成任务?

Mano-P 提供了三种使用形式,覆盖从开发者到普通用户的不同需求:


图片来源:明略科技

其中 mano-skill 最值得关注。作为 OpenClaw 等 AI Agent 平台的技能插件,Mano-P 赋予了 Agent “看屏幕、动鼠标”的能力。OpenClaw 是大脑,Mano-P 是双手——全链路开源,全程端侧运行,数据一步不出你的设备。

举个例子:你在 OpenClaw 中对 Agent 说“帮我把这份报告的数据录入到公司的 ERP 系统里”,Agent 自动规划任务步骤,需要操作界面时调用 mano-skill,Mano-P 接管屏幕操作——整个过程在本地完成,Agent 编排和 GUI 执行无缝衔接。

运行时,屏幕右上角会显示一个状态面板,实时显示任务进度,用户可以随时暂停或停止。每一步操作执行前,敏感或潜在危险的操作会要求用户确认——AI 干活,人类监督。

六、从“能用”到“敢用”:三阶段开源路线

GUI 智能体赛道正处于从“技术验证”到“规模落地”的关键转折点。

从技术趋势看,两个方向正在同步发展:一是通用大模型持续提升 GUI 操作能力,二是专用端侧模型通过精巧的训练和优化方法,在更小的参数规模上逼近甚至超越通用模型的任务表现。Mano-P 已经用实测数据证明了后一条路线的可行性——而这条路线天然兼容数据安全和合规要求。

Mano-P 代表的端侧路线给出了一个清晰的回答:AI 最强大的能力,应该跑在每个人自己的设备上。 开源、本地、可审计——AI 最强大的能力,应该跑在每个人自己的设备上。这不是一句口号,而是一个正在被实现的技术路线。


图片来源:明略科技

立即体验:`brew install mano-cua`


图片来源:明略科技

七、常见问题

Q: Mano-P 是什么?

Mano-P 是一个开源的 GUI-VLA(Vision-Language-Action)智能体,设计用于在苹果芯片边缘设备上本地运行。它使用纯视觉理解来跨平台自动化桌面 GUI 操作。Mano 是西班牙语里”手”的意思,P 有两重含义:Person(个体)与 Party(组织)——我们相信,无论个人还是企业,都能够创造属于自己的个性化 AI。核心理念:AI for Personal = 隐私 + 个性化。

Q: Mano-P 与 Claude Computer Use 相比如何?


图片来源:明略科技

Mano-P 在专用模型中排名全球第一,在网页检索等任务上领先 Claude,且天然满足数据安全要求。适合高安全需求场景。

Q: Mano-P 可以离线运行吗?

可以! 在本地模式下,所有模型推理都在 Apple M4 设备上运行。✅ 不会向外部服务器发送任何截图或任务描述。

Q: 需要什么硬件配置?

最低要求:Mac mini 或 MacBook;Apple M4 芯片;32GB 内存

替代方案:任何 Mac + Mano-P 算力棒(通过 USB 4.0+ 连接)

我们计划在未来支持更多设备。

了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!桂林《印象·刘三姐》演员被质疑擦边低俗,此前曾全裸出境

震惊!桂林《印象·刘三姐》演员被质疑擦边低俗,此前曾全裸出境

火山詩话
2026-05-09 07:37:50
商务部国际贸易谈判代表兼副部长李成钢:中方希望发出三个信号

商务部国际贸易谈判代表兼副部长李成钢:中方希望发出三个信号

新浪财经
2026-05-09 23:29:15
民政部:一季度全国结婚登记169.7万对,离婚登记62.2万对

民政部:一季度全国结婚登记169.7万对,离婚登记62.2万对

上观新闻
2026-05-10 13:48:06
女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

谭老师地理大课堂
2026-04-15 20:11:42
佩德罗:加布里埃尔是本赛季最难对付的对手,还好世界杯是队友

佩德罗:加布里埃尔是本赛季最难对付的对手,还好世界杯是队友

懂球帝
2026-05-10 23:50:09
250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

闻识
2026-05-10 18:17:01
这一脚踢碎110万欧!媒体人公开处刑申花天才:这耳光,杀人诛

这一脚踢碎110万欧!媒体人公开处刑申花天才:这耳光,杀人诛

生活新鲜市
2026-05-08 18:02:57
美国公开UFO文件 曹卫东:精心设计的战略布局

美国公开UFO文件 曹卫东:精心设计的战略布局

看看新闻Knews
2026-05-09 23:44:08
官僚主义最阴狠的套路:把所有风险,砸向最底层

官僚主义最阴狠的套路:把所有风险,砸向最底层

职场资深秘书
2026-05-08 20:44:41
色胆包天!泰国一大巴,仅剩1名21岁女孩,56岁司机,锁门猥亵!

色胆包天!泰国一大巴,仅剩1名21岁女孩,56岁司机,锁门猥亵!

川渝视觉
2026-04-26 21:05:13
结婚7年,林志玲终于摊牌,远嫁日本原因曝光,远比你想的更复杂

结婚7年,林志玲终于摊牌,远嫁日本原因曝光,远比你想的更复杂

悦君兮君不知
2026-05-08 16:50:03
Nice!杜兰特点赞!勇士第一笔重磅签约

Nice!杜兰特点赞!勇士第一笔重磅签约

篮球实战宝典
2026-05-10 19:42:35
央视镜头全给了她!詹姆斯沦为陪衬,这姐才是NBA的神?

央视镜头全给了她!詹姆斯沦为陪衬,这姐才是NBA的神?

观星娱记
2026-05-10 10:24:34
惊喜!梁靖崑连得8分逆转 林诗栋跳上球台庆祝 王楚钦生日夜夺冠

惊喜!梁靖崑连得8分逆转 林诗栋跳上球台庆祝 王楚钦生日夜夺冠

侃球熊弟
2026-05-11 00:06:53
晃了所有人!每体:姆巴佩缺战巴萨让队友意外 世界杯前不想冒险

晃了所有人!每体:姆巴佩缺战巴萨让队友意外 世界杯前不想冒险

砚底沉香
2026-05-11 01:02:21
离开郭富城嫁给郭可颂后,熊黛林再次重蹈覆辙,她的委屈没人能懂

离开郭富城嫁给郭可颂后,熊黛林再次重蹈覆辙,她的委屈没人能懂

手工制作阿歼
2026-05-11 01:49:29
雨神去代孕求子了?蔡文静账号被没收?龚俊补习?田嘉瑞受欢迎?姨太问答

雨神去代孕求子了?蔡文静账号被没收?龚俊补习?田嘉瑞受欢迎?姨太问答

毒舌扒姨太
2026-05-10 22:38:11
悲催!网传广东一律所人走完了,有转行的,有转所的,还有待业的

悲催!网传广东一律所人走完了,有转行的,有转所的,还有待业的

火山詩话
2026-05-09 16:31:17
错过这三个星座,一辈子都在遗憾中度过!

错过这三个星座,一辈子都在遗憾中度过!

星座不求人
2026-05-10 21:00:03
胎压2.5是谎言?干了十年汽修,我来告诉你真正的标准!

胎压2.5是谎言?干了十年汽修,我来告诉你真正的标准!

娱乐圈的笔娱君
2026-05-10 01:52:36
2026-05-11 02:40:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1081267文章数 1334236关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
旅游
游戏
健康
军事航空

艺术要闻

这些美人体摄影,简直美得让人窒息!

旅游要闻

北京“二绿地区”郊野公园焕新升级

LPL第二赛段:拒绝让一追二!JDG三局战胜AL,挺进前三

干细胞能让人“返老还童”吗

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版