网易首页 > 网易号 > 正文 申请入驻

这个国产开源模型,让AI终于"看见"了屏幕

0
分享至

一个工程师对着CRM系统发呆。客户数据明明就在眼前,AI助手却只能干瞪眼——它读不懂这个界面。

这是当下AI agent最尴尬的处境:脑子够快,眼睛却瞎了。


文本之外的硬边界

Claude Code能写代码,OpenClaw能调API。命令行、编辑器、云端服务——这些有标准化接口的地方,AI如鱼得水。

但企业软件的另一面是:填个报销单、调个设计参数、在ERP里跑个审批流。这些日常操作困住了所有agent。

问题不是智能不够。是agent根本看不见屏幕。

现有平台靠三条路子和计算机打交道:命令行(CLI)、浏览器开发者协议(CDP)、应用程序接口(API)。这三条路的共同死穴:只认"程序化接口"。

而现实很骨感——大量日常软件没有API:

• 遗留系统:银行、医院、政府的老旧软件,界面古老但业务核心

• 桌面应用:Photoshop、Excel、CAD工具,功能封闭在图形界面里

• 动态网页:现代前端框架渲染的页面,DOM结构随时变

• 第三方SaaS:中小厂商的产品,开放接口优先级极低

这是agent技术栈的结构缺口。有"大脑"做规划推理,缺"眼睛"看屏幕,更缺"双手"操作界面。

人类怎么干活,AI就该怎么学

人操作电脑靠视觉反馈闭环:看屏幕→理解界面→定位元素→执行动作→检查结果→继续下一步。这套流程不依赖任何底层API,纯靠"看见"和"动手"。

传统RPA(机器人流程自动化)试过模仿这条路。但它是硬编码的:固定坐标、元素路径、像素匹配。UI一变——现代软件每周都在变——脚本就崩,得人工重修。

更 robust 的方向是GUI-VLA(图形界面-视觉-语言-动作)模型:把视觉感知(看屏幕)、语言理解(读指令)、动作执行(点击、输入、导航)统一到一个框架里。不依赖固定的UI结构,agent通过视觉理解来认识界面,再相应行动。

核心 implication:只要软件有图形界面,agent理论上就能操作。

Mano-P的三张底牌

Mano-P是Mininglamp Technology(明略科技)开源的GUI-VLA agent模型,Apache 2.0协议,专为边缘设备设计。它的打法很彻底:纯视觉驱动,不解析DOM,不调系统API,只看截图、只执行动作。

技术设计有三张底牌:

渐进式三阶段训练。监督微调(SFT)打基础,离线强化学习练稳定性,在线强化学习磨实战能力。每一层在前一层上建,动作准确率和环境适应性逐步提升。

想-做-验推理循环。每次动作前先规划意图,执行后验证结果是否符合预期。如果走偏,系统自动纠偏。这直接把错误率压下来。

边缘优化架构。模型体积和计算需求针对本地设备压缩,不依赖云端大模型,响应延迟低,数据不出本地。

为什么"看见"这么难

GUI-VLA听起来直观,工程坑极多。

屏幕是像素矩阵,但操作意图是高层语义。"把第三行的数字改成2024"——人一眼懂,模型得先定位"第三行"、识别"数字"、理解"改"的含义、找到输入框、执行编辑。每一步都可能错。

更麻烦的是动态性。同样一个"保存"按钮,不同主题色、不同分辨率、不同窗口大小,像素完全不一样。硬匹配死路一条,得学抽象的视觉概念。

还有长任务拆解。复杂工作流十几步,中间一步错了,后面全崩。需要推理能力把大目标拆成可验证的小步骤,还得有记忆跟踪状态。

Mano-P的"想-做-验"循环就是针对这个:不盲目执行,每一步有检查点。这比端到端黑箱更可控,也比纯规则系统更灵活。

开源边缘设备的算盘

选Apache 2.0和边缘优化,明略科技有明确考量。

企业场景数据敏感。财务系统、客户资料、内部工具——上云意味着合规风险和审批噩梦。本地跑模型,数据不出内网,IT部门好签字。

响应速度是可用性门槛。云端大模型每次截图传上去、推理、传回来,延迟几秒。高频操作(比如批量处理表格)根本受不了。边缘部署压到毫秒级,体验才顺滑。

开源换生态。GUI-VLA是新兴赛道,各家数据格式、评测标准、最佳实践都没定型。先放出来占坑,吸引开发者贡献场景数据、打磨工具链,比闭门造车快。

明略科技本身做企业智能,服务过大量金融、零售客户。Mano-P不是实验室玩具,是从自己痛点里长出来的。

实际能解锁什么

GUI-VLA的真正价值不在"替代RPA",在打开以前完全自动化的禁区。

跨应用工作流。销售从CRM导出客户,去Excel算提成,再回邮件系统发通知。三个系统三个界面,以前得三个API集成或人工串。现在一个agent看屏幕、切窗口、填数据,全流程走完。

遗留系统现代化。银行核心系统20年前的界面,重构成本上亿。agent不需要改一行代码,像人一样操作,把老系统包装成新服务。

长尾SaaS整合。企业用了几十个第三方工具,大部分没有开放接口。agent成为万能胶水, visually 打通数据孤岛。

复杂决策辅助。不是简单点击,是"分析这个仪表盘,发现异常指标,下钻到明细,生成报告"。视觉理解+推理+操作,闭环完成。

这些场景的共同点:界面复杂、步骤多变、没有API。恰恰是传统自动化够不着的地方。

还没解决的硬骨头

GUI-VLA不是银弹,当前边界很清楚。

可靠性。视觉推理会犯错,尤其是小众软件、自定义主题、异常状态(弹窗报错、加载失败)。"想-做-验"能降低错误,但无法归零。关键业务流程需要人工兜底或复核机制。

效率。人眼一扫懂的界面,模型要截图、编码、推理、解码动作。步骤多、延迟高,简单任务可能比人慢几倍。优化空间在模型压缩和专用硬件,但短期内是trade-off。

安全边界。agent能看能点,权限怎么控?误操作破坏性多大?需要细粒度的行为审计、沙箱隔离、人工确认节点。这些工程配套比模型本身更费功夫。

学习成本。每个新软件界面都要适应,虽然比硬编码RPA快,但也不是零样本。企业部署需要收集场景数据、微调模型,前期投入不小。

赛道格局与变量

GUI-VLA是2024-2025年agent竞赛的新前线。

Anthropic的Computer Use、OpenAI的Operator、Google的Project Mariner——大厂都在押注。路线略有不同:有的靠云端多模态大模型,有的走浏览器插件,有的做操作系统级集成。

Mano-P的差异化是"开源+边缘"。大厂方案强但封闭、贵、上云;Mano-P给需要自主可控、成本敏感、数据合规的企业多一个选项。

关键变量有几个:视觉模型的压缩效率(能不能小到笔记本流畅跑)、多步骤任务的规划稳定性(长流程不跑偏)、跨软件泛化能力(没见过的新界面能不能快速适应)。

另一个变量是生态。GUI操作需要大量标注数据:屏幕截图对应什么意图、该执行什么动作。开源社区能贡献多少真实场景数据,决定模型能长多快。

对从业者的实用判断

如果你在企业做自动化、RPA、AI落地,Mano-P这类GUI-VLA值得密切关注,但不必急于生产环境。

现阶段最务实的用法:POC验证。挑一个"有界面、无API、高频重复"的场景,用开源模型跑通端到端,量化准确率和耗时。数据说话,再决定投入。

技术储备方向:视觉-语言模型的微调经验、边缘部署的工程能力、agent行为的审计框架。这些是GUI-VLA落地的真实门槛,比模型本身稀缺。

风险对冲:不要押注单一技术路线。大厂闭源方案在快速迭代,开源社区在追赶,RPA厂商也在补视觉能力。保持架构灵活性,接口层抽象好,底层可替换。

长期看,GUI-VLA会吃掉传统RPA的大部分市场,但不是替代关系——是"视觉理解+规则兜底"的混合架构。关键业务流程需要确定性,纯神经网络给不了;长尾场景、快速变化、无API环境,纯规则又够不着。两者结合,各尽其用。

对明略科技来说,Mano-P是技术品牌资产,更是获客钩子。企业试用开源模型,遇到复杂场景需要支持、定制、集成——自然流向商业服务。这套打法在B2B软件领域验证过多次。

对行业来说,GUI-VLA的成熟意味着AI agent从"文本和API的囚徒"变成"计算机的全权代理"。这个转变的规模,不亚于当年从命令行到图形界面的跃迁。区别是,这次agent既是用户,也是操作者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“爽完之后就想跑?”

“爽完之后就想跑?”

阿振观点
2026-04-30 06:57:50
恭喜日本人,终于尝到的引进印度人的“快乐”

恭喜日本人,终于尝到的引进印度人的“快乐”

步论天下事
2026-04-29 10:05:07
伦敦世乒赛未开打,孙颖莎突发状况,全网揪心心疼

伦敦世乒赛未开打,孙颖莎突发状况,全网揪心心疼

阿振观点
2026-04-30 05:28:21
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
当特朗普秀“两个国王”合照时,越来越多美国人正排队放弃国籍

当特朗普秀“两个国王”合照时,越来越多美国人正排队放弃国籍

澎湃新闻
2026-04-29 11:50:27
缺德到这种程度,已经不是简单“措辞不当”的问题了!

缺德到这种程度,已经不是简单“措辞不当”的问题了!

胖胖说他不胖
2026-04-29 09:00:32
游牧民族几乎没有碳水来源,为什么没营养不良?

游牧民族几乎没有碳水来源,为什么没营养不良?

深度报
2026-04-29 22:45:52
“福特”号航母将于近日撤离中东返美,美军已要求42艘商船掉头或返港,称正在中东部署“史上最强”军力,伊朗海军司令发出警告

“福特”号航母将于近日撤离中东返美,美军已要求42艘商船掉头或返港,称正在中东部署“史上最强”军力,伊朗海军司令发出警告

每日经济新闻
2026-04-30 07:41:07
张军身为羽协一把手,毫不注重个人形象,把自己养的这么白白胖胖

张军身为羽协一把手,毫不注重个人形象,把自己养的这么白白胖胖

人间烟火记事本
2026-04-28 01:19:13
香奈儿发布无底绑带鞋,网友:太抽象了!

香奈儿发布无底绑带鞋,网友:太抽象了!

都市快报橙柿互动
2026-04-29 15:43:37
张凌赫片场两度倒地!低血糖只是借口?身高190cm体重曝光引众怒

张凌赫片场两度倒地!低血糖只是借口?身高190cm体重曝光引众怒

白面书誏
2026-04-29 19:18:48
越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

正观历史
2026-04-29 14:04:21
郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是该清醒了

郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是该清醒了

共工之锚
2026-04-30 00:09:03
溥仪这气质哪像傀儡?抛开立场,那时的溥仪骨子里依然是傲慢的!

溥仪这气质哪像傀儡?抛开立场,那时的溥仪骨子里依然是傲慢的!

史之铭
2026-04-28 22:35:50
重磅!最高法院裁定:划分“黑人选区”违宪

重磅!最高法院裁定:划分“黑人选区”违宪

大洛杉矶LA
2026-04-30 06:32:53
C罗笑了!霸气回击球迷:你们有2座亚冠?我5座欧冠在手

C罗笑了!霸气回击球迷:你们有2座亚冠?我5座欧冠在手

叶青足球世界
2026-04-30 07:47:05
G5火箭99-93力克湖人 球员评价:2人优秀,6人及格

G5火箭99-93力克湖人 球员评价:2人优秀,6人及格

篮球资讯达人
2026-04-30 12:53:16
全球人均GDP榜单出炉:来看中、美、俄、印、日、韩等国数据吧

全球人均GDP榜单出炉:来看中、美、俄、印、日、韩等国数据吧

南生今世说
2026-04-30 00:25:04
激动握拳!父亲笑了!吴宜泽13-8进世锦赛4强 多少奖金?对手确定

激动握拳!父亲笑了!吴宜泽13-8进世锦赛4强 多少奖金?对手确定

林子说事
2026-04-30 04:18:26
澎湖,拿下!台海归一,这块“不沉的航母”已进入倒计时!

澎湖,拿下!台海归一,这块“不沉的航母”已进入倒计时!

华山穹剑
2026-04-29 20:53:04
2026-04-30 13:36:51
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
1919文章数 16关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

安世之乱,闻泰帝国近黄昏?

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

手机
艺术
家居
房产
旅游

手机要闻

外媒初探三星Galaxy Connect:设置繁琐、兼容性受限

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

家居要闻

灵动实用 生活艺术场

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

旅游要闻

“五一”到巴山大峡谷 一场“巴文化”的视听盛宴已为你备好

无障碍浏览 进入关怀版