1981年4月27日,施乐公司推出Star 8010信息系统时,没人想到这个商业失败品会定义未来45年的计算体验。更没人想到,2025年的今天,"图形用户界面"这个词里的"用户"正在悄然换主。
导读:从人眼到机器眼
![]()
GUI的四十五年历史,前四十年只解决一个问题:让人类看懂屏幕。过去两年,一个全新技术方向突然爆发——训练AI像人类一样看屏幕、点鼠标、敲键盘。明略科技开源的Mano-P项目,把这件事做成了本地可跑的4B量化模型。这不仅是技术路线的迭代,更是人机交互底层逻辑的翻转。
五个里程碑,前四个为人,第五个为AI
施乐Star 8010的诞生,确立了现代计算的视觉语法:位图显示、桌面隐喻、图标、窗口、鼠标、所见即所得。这些设计围绕一个核心假设展开——用户是人类,具备视觉认知能力。
界面设计师花了四十年优化这套逻辑:图标要直观,布局要符合眼球自然移动,交互要即时反馈。所有努力都指向同一个目标:降低人类理解成本。
第五个里程碑的出现打破了这条主线。GUI Agent(图形界面智能体)技术方向的核心假设是:屏幕前的"用户"可以是AI。
这不是传统意义上的自动化脚本。传统方案依赖API调用或DOM解析,需要预先知道软件内部结构。GUI Agent走了一条更"笨"也更 radical 的路:像人类一样,纯靠看。
为什么"看屏幕"比"调接口"更难也更对
明略科技开源的Mano-P采用纯视觉路线,技术架构叫GUI-VLA(视觉-语言-动作)。三个模块端到端整合:视觉理解、语言推理、动作生成。
这种设计继承了施乐Star设计师四十五年前的核心原则:好的图形界面应该自解释——你看着它就知道怎么用。当年这个能力专属于人类,现在AI正在习得。
纯视觉路线的代价和收益都很清晰。代价是技术难度:模型要理解像素层面的布局、识别可交互元素、推断操作后果。收益是通用性:不依赖任何内部API,理论上能操作任何人类能操作的软件。
Mano-P的硬件门槛已经压到消费级:Apple M4芯片+32GB内存本地运行,或者任意Mac插一个USB 4.0的Mano-P计算棒。4B量化模型(w4a16)的体积,意味着这件事从实验室Demo走向了实际可用。
开源背后的商业逻辑
Apache 2.0许可证的选择值得玩味。这不是技术炫耀,而是生态卡位。
GUI Agent的战场不在模型参数,在数据飞轮。谁能获得更多真实场景的操作数据,谁的模型就能更快迭代。开源降低了试用门槛,也加速了数据回流。
明略科技的主业是企业级数据智能,Mano-P的开源释放了一个信号:他们判断GUI Agent会成为下一代人机交互的基础设施,就像当年的浏览器、移动操作系统一样。
这个判断的赌注很大。如果AI操作软件成为常态,整个SaaS行业的价值链条都要重写——从"人使用软件"变成"人指挥AI使用软件",中间层的定价权、数据归属、安全边界全是新问题。
没变的与变了的
施乐Star 8010当年定价16,595美元,大多数人从未见过实物。但它的设计基因——位图、桌面隐喻、所见即所得——活在每一台Mac、PC、手机、平板里。
GUI Agent是下一章:为人类眼睛设计的界面,原来也适用于AI眼睛。
这件事的讽刺之处在于,GUI四十五年没变的底层架构,突然成了AI时代的基础设施优势。如果当年走的是纯命令行路线,今天的Agent技术路线会完全不同。
历史没有如果,但有回响。1981年施乐工程师设计自解释界面时,不会想到四十年后"自解释"的对象变成了机器。这个设计选择的长期价值,远超当年任何商业考量。
技术报告里的细节
arXiv:2509.17336的技术报告透露了几个关键信息。GUI-VLA架构的端到端设计,意味着视觉理解和动作生成之间没有人工硬编码的中间层。这是和传统计算机视觉方案的本质区别。
4B参数量的选择也很讲究。再大就难本地化,再小就损失能力。这个平衡点瞄准的是"个人设备可部署"这个场景,而非云端大模型的军备竞赛。
量化方案w4a16(4bit权重、16bit激活)的采用,说明团队在推理效率上做了深度优化。这不是研究项目,是产品化思维。
谁该紧张
RPA(机器人流程自动化)厂商的商业模式建立在"录制-回放"脚本上,依赖对特定软件的深度适配。GUI Agent的纯视觉路线一旦成熟,这种适配成本归零。
低代码平台的卖点是"让业务人员自己搭应用"。如果AI能直接操作现有软件完成相同任务,低代码的中间层价值会被压缩。
甚至操作系统厂商也需要重新思考。当AI成为主要用户,窗口管理、多任务切换、视觉反馈这些设计是否还有必要以人类为中心?
最该紧张的可能是那些靠封闭生态建立壁垒的软件公司。API开放与否不再是关键问题,AI能直接"看"着用,接口墙的作用被削弱。
还没解决的问题
Mano-P的发布是节点,不是终点。几个硬问题摆在面前:
安全边界怎么设?AI有权限点击任何按钮,误操作的后果由谁承担?
操作的可解释性怎么保证?端到端模型的黑箱特性,和企业审计需求之间存在张力。
多步任务的容错机制怎么做?人类操作错了能"撤销",AI操作链的中断恢复更复杂。
这些不是技术细节,是产品化的必经之路。开源社区能加速迭代,但商业场景的落地需要有人对这些问题给出答案。
开放提问
四十年前,施乐Star教会人类用眼睛与计算机交互。今天,AI正在学会同一套语言。如果"看屏幕操作"成为AI的默认能力,软件设计的根本假设会不会翻转——不再是"人类用户需要直观界面",而是"AI用户需要结构化信息,人类只是偶尔介入的监督者"?到那时,我们用了四十五年的GUI,会变成什么样?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.