01
“智体”成巨头新战场
随着AI技术的日益成熟,科技巨头们纷纷将目光投向了AI Agent(智体)这一潜力巨大的市场。
谷歌、亚马逊、苹果、微软等科技巨头纷纷推出自己的AI Agent产品,如谷歌助手(Google Assistant)、亚马逊Alexa、Siri和Cortana等,这些产品不仅在智能家居、智能设备控制方面发挥着重要作用,还在逐步渗透到在线教育、健康管理、金融服务等多个领域。
今年1月23日,智谱正式上线GLM-PC。据介绍,GLM-PC是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。GLM-PC还推出了深度思考模式,并新增逻辑推理和代码生成功能。
紧接着,OpenAI的AI智能体Operator在北京时间1月24日凌晨亮相,它能够代理用户执行基于网页的操作,直接与网页交互——像人类一样点击、滚动和输入文字,自动执行各种复杂操作,包括编写代码、预订餐厅、购物等。后续的部分用户测试显示,Operator还可以完成在Arxiv上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作(如图1)。
而刚进入2月,微软CEO SatyaNadella在社交媒体发文宣布,GitHubCopilot全面接入智能体,微软的自主SWE智能体也首次亮相。微软的自主SWE智能体像一个AI工程师,在用户下达指令后,它就能自主去完成任务,这不仅提升了开发效率,还为开发者提供了更强大的编程支持。
相较于微软的长期愿景,本轮智谱和OpenAI发布的智能体,都无需依赖API或特定网站就能完成所有自动化操作。
以Operator 为例,其在 GPT-4o 的基础上专门对视觉UI界面的理解和交互进行了额外专项训练。智谱GLM-PC是通过对屏幕截图的分析,识别页面元素,然后使用鼠标和键盘进行模拟。这种全新的交互方式可以将Agent与API 的紧耦合关系解绑,以适配更多的应用场景。
Agent 有望成为多应用的统一入口,成为新时期互联网的“门户”,只不过对于用户而言,你可愿意将自己的PC控制权拱手让人?
02
赛博数码牛牛,PC的AI助手
在GLM-PC之前 ,智谱AI已经推出过针对手机使用的AutoGLM,用户打开 AutoGLM 后,只需要动动嘴(当然也支持文字输入),就能让智能体接管自己的手机,并在微信、抖音、小红书、微博等常用 App上自动执行任何指令任务,这一次推出的GLM-PC的同时,还给其取了一个有趣的名字“牛牛”。
GLM-PC目前已经支持Win和Mac两大系统阵营,Mac用户在智谱AI官网下载dmg格式安装文件后,把GLM-PC拖动到Applications中即可(如图2),Win系统用户则直接双击下载好的exe文件就可以根据提示安装。
首次启用GLM-PC时用户需要通过手机短信登录(目前处于内测阶段,用户需提前申请体验资格),就可以进入“牛牛”操作界面了。“牛牛”目前提供了极速模式和深度思考模式,其中极速模式并不支持附件上传和多轮对话,也就是端到端的text to action,但通过手机远程遥控功能仅支持在极速模式下使用(如图3)。而深度思考模式则会展现思考链路和逻辑,输入和输出内容更加丰富,可执行的指令也更加复杂。
极速模式下,“牛牛”主界面给出新闻日报、资料搜索、会议预订等三个应用提示,深度思考模式则是群发助手、年货采购和英语单词助记三个功能。当然,最让用户感兴趣的还是“牛牛”究竟是如何实现自主操控PC的。
03
让AI替我当打工人
电脑的“无人驾驶”体验
“牛牛”并不会直接“接管”用户电脑,而是需要用户在对话框中输入任务指令,“牛牛”再根据用户的任务需求,迅速制定出详细的任务规划方案。它会综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。
在极速模式下,笔者首先尝试让“牛牛”帮忙整理新闻,根据提示在对话框输入“使用浏览器打开网址:「https://tech.sina.com.cn」引用热点话题内容的「10」个标题,汇总信息形成列表格式”的指令并发送后,“牛牛”就会开启工作,当然,用户也可以将网页地址换成自己想要的目标网站。
然而,让笔者较为失望的是“牛牛”虽然在指令下达后煞有介事地接过PC控制权,可却没能按照指令输出理想中的列表形式内容(如图4)。
接下笔者体验的是“资料搜索”功能,同样直接引用官方给出的指令原句“打开小红书,搜索“智谱AI GLM-PC”,引用第一个帖子的图片内容和正文返回给我”,体验可谓有喜有悲。
喜的是“牛牛”的确具备识别电脑屏幕内容的能力,笔者因为工作关系,PC同时安装有Edge、夸克浏览器、360AI浏览器、QQ浏览器等多个浏览器软件,“牛牛”直接启用了笔者日常使用频次最高的QQ浏览器。同时,网页版小红书会频繁弹出账号登录提示,“牛牛”也知道自动点关闭按钮,毕竟它可没有登录账户信息。
然而,尴尬的是“牛牛”虽然知道自己没有账号无法登录小红书完成搜索,但依旧抓取了随机页面的第一个帖子内容为笔者生成答案,但这显然是错误的(如图5)。
显然,从上面两个网页内容的整理来看,“牛牛”能够按照指令访问网站并对整个PC屏幕进行浏览和理解,但在具体的内容分析和整理上,恐怕还有一段路要走。
而在“深度思考”模式下,笔者首先尝试了“红到发紫”的“群发助手”功能,笔者根据官方指令将“在微信 应用「相亲相爱一家人」群成员列表,给每个人发送2025新春祝福语和一张蛇年主题图片”中的“相亲相爱一家人”改为“时光荏苒”(主要是笔者群名中没有“相亲相爱一家人”)。
“牛牛”为我们展示了完整的思考链条,但非常遗憾的是其虽然在PC上启动了微信,但在一番尝试后,最终失败告终(如图6)。
整个添加过程中并非完全自主,“牛牛”在最终添加环节还是会提醒用户点击“继续”授权,如此懂得权限的边际感显然是用户需要的。
点评:与其瞻前顾后,不如先迈出第一步。“牛牛”的功能在体验上显然多次让笔者碰壁,但不可否认的是这些功能从定位到设计上,都是具有相当生产力价值的,相信随着不断测试互动反馈,智谱AI会在后期版本中不断优化升级,让“牛牛”在学习中不断成长。
04
大模型从Chat走向Act
人类与机器的互动方式正在发生范式转变,这是由于只有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主AI Agent。
大模型技术正在改变机器和人的互动方式,基于理解需求、规划与决策、执行行动和自我反思,AI Agent将带来符合直觉的人机交互——从人适应机器,到让机器适应人。
与GenAI(生成式人工智能)不同,Agent 是目标驱动型的,能够完全执行工作流程,适应、学习、迭代、与其他系统和人类协作,并端到端的完成任务。从某种意义上看,Agent完全可以看作是大模型通用操作系统LLM-OS的雏形。
欢迎通过邮局渠道订阅2025年《电脑报》
邮发代号:77-19
单价:8元,年价:400元
编辑|张毅
审核|吴新
爆料联系:cpcfan1874(微信)
壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.