网易首页 > 网易号 > 正文 申请入驻

智谱Agent抢跑OpenAI,GLM-PC一句话搞定一切!网友:有AGI那味了

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】OpenAI超级智能体,竟被中国公司抢发?智谱率先卷入L3级使用工具能力,发布全球首个面向公众、回车即用的电脑智能体GLM-PC。

放假倒计时4天,春节期间最少不了的是什么?

发拜年微信!

想象这样一个场景:微信上给xxx发送祝福语,再给他发送一个新春图片和一个新春祝贺视频。

这一幕,听起来是不是比抢红包还刺激?

就在刚刚,一个具有「代码思维」智能体悄然而至——GLM-PC v1.1。

它可以成为你的「手替」,任何事都可以由它代劳。

这不,我们上传一张图片后,然后给出指令——「识别图片中的信息生成朋友圈文案,并发送一个朋友圈」。

它首先会将任务分解成多个步骤,并对图片内容进行识别,生成相应配文。

然后,AI瞬间跳转到微信,打开朋友圈,将图片上传,再附上文案,一键发送就搞定了。

这个神操作,让许多人看了惊掉下巴。

现在的AI都这么强了?

没错,这个在去年11月就抢跑了OpenAI的「GLM-PC」,就是智谱发布的全球首个面向公众、回车即用的电脑智能体,小名叫「牛牛」。

爆料称OpenAI超级智能体也将在本周问世

现在,经过全新升级的v1.1版本,不仅能够像人类一样「观察」和「操作」计算机,自主完成各种复杂任务;而且还拥有「深度思考」模式,以及专门用来做逻辑推理和代码生成的功能。

值得一提的是,GLM-PC的Window和Mac客户端已经同步上线了。

试用地址:https://cogagent.aminer.cn

左脑与右脑,GLM-PC的Agent思维结构

2025年,注定是智能体「元年」。

OpenAI曾被曝出内部AGI路线图,将这一终极目标的实现划分了五级。目前已经实现了L2级,下一步就是向自主AI智能体迈进。

几周前,ChatGPT「任务」功能,已初步向所有人展示了AI自主看股票、提醒日程的能力。

不仅如此,还有谷歌、微软、Ahthropic、亚马逊等国内外科技公司门,纷纷开始在智能体领域发力。

与大洋彼岸的巨头们相比,智谱在智能体领域,早已展现出令人瞩目的领先优势。

值得一提的是,24年10月,他们推出的AutoGLM凭借流畅的智能手机操作能力,迅速引爆科技圈。

智谱之所以能够成为这一领域的先行者,离不开这家公司从成立伊始就绘制出的AI路线图。

2024年,智谱同样将AGI的实现划分了5级,能力从L1逐步攀升至L5。

在他们看来,AI的能力早已突破了传统语言和文本处理限制。

目前,AI已经从语言/文本逐渐扩展到多模态、工具使用,未来还会有更多的自我认知。

而最近,智谱CEO张鹏在Agent OpenDay上,再次阐述了公司对AI能力演进的战略构想:

截至目前,LLM已经初步具备了人类与现实物理世界互动的部分能力。 智能体将会极大地提升L3使用工具能力,同时开启对L4自我学习能力的探索。

这个技术愿景,是智谱所独有的。

GLM-PC v1.1的推出,意味着智谱在L3级智能体的探索又有了新的进展!

截至目前,智谱已经有了手机智能体AutoGLM和电脑智能体GLM-PC两大系统,实现了工具使用能力的深度突破。

这两个系统分别覆盖了移动设备和桌面端——

AutoGLM在手机上,能够精准操控各类应用,实现跨场景智能交互;而GLM-PC则将电脑端的操作提升到了新的高度,基于视觉语言模型VLM的图形界面智能体GUI Agent,实现逻辑推理与感知认知的结合,凸显出AI对复杂系统工具的掌控力。

这些并非是简单功能的堆砌,而是对人机交互范式的根本性重塑。

根据这个技术路线图,AI实现L3之后,通过不断优化工具使用能力,正为L4阶段——自主学习发明创新奠定了扎实的技术基础。

这也正是智谱下一步,所要开拓的智能。

多模态感知,通往全GUI空间交互

回到现在,当前LLM一个明显的缺陷是:能够公开使用的纯文本形式的API工具非常有限。

这就大大限制了语言模型作为Agent的使用场景。那么,我们有什么办法能破局?

智谱选择了一条通往全GUI空间交互的道路——借助多模态感知!

这个思路,就体现在以CogAgent为代表的一系列基于视觉语言模型(VLM)的图形界面智能体(GUI Agent)上。

基于VLM的GUI Agent通过模仿人类行为,就能感知和理解交互界面中的视觉元素与整体布局,并能模拟人类做出任意元操作(例如点击、键盘输入、悬浮、拖拽等)。

这,就拓宽了Agent在虚拟交互空间中的使用边界——理论上,任意人类能做的GUI操作,从此多模态Agent都能完成了!

接下来的问题,就是如何才能让这些智能体去完成实际应用中的复杂任务了。

为此,我们需要打造一个在感知、思维,以及执行层面完备的Agent系统。

感知层面,能接受任务所需的多元信号,如文字、图像、视频、音频。 思维层面,具备严谨的逻辑思维能力和复杂任务规划能力(类似左脑),也具备高效全面的感知能力、灵活的拟人操作能力(类似右脑)。 执行层面,能完成全GUI空间操作,接收环境反馈并自我纠正。

在这之中,最为重要的一点就是,要在逻辑性和创造性之间实现平衡。

如今,智谱通过借鉴人类「左脑」与「右脑」分工,成功实现了逻辑推理与感知认知的深度结合,赋予了GLM-PC这种能力。

Agent左脑:代码思维框架与逻辑执行

智能体的大脑,就好比人类一样,左脑负责逻辑语言、数学等理性的信息,而右脑主要负责的是视觉、感知等感性信息。

那么,GLM-PC的「左脑」便承担着严谨的逻辑推理、代码,以及任务执行职责。

它主要专注于规划、循环执行、动态反思、纠错与优化。

接下来,让我们在实际demo中,具体看看GLM-PC(牛牛)是怎么做到的。

规划(Planning)

想象一下,若是有一个超级助手基于用户需求,能瞬间将复杂任务拆解为清晰可行的步骤,是不是会省力得多。

GLM-PC「左脑」,正是这样一个智能规划的专家。

通过综合分析目标与资源,它能够生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。

马上就要春节了,假设你要采购一批年货,直接将汇总的图片链接扔给牛牛,并告诉它——

获取图片中的商品信息,在桌面新建Excel存储信息,把商品信息加入淘宝购物车。

牛牛获取图片中的信息后,将指令中的需求拆分,先保存Excel文件,然后列出了将魔芋爽、薯片、猪肉脯、辣条添加到购物车的分解步骤。

在规划完成后,GLM-PC将启动代码生成模块,执行逻辑循环,逐步推进任务完成

接下来,就是见证奇迹的时刻了。

循环执行(Looping Execution)

牛牛进入淘宝主页,开始搜索魔芋爽,点击加入购物车;然后再回到搜索主页,查找薯片加入购物车;之后继续执行,直到所有完成商品加入购物车的任务。

完全不用手动,AI就帮你做了。这是因为在规划阶段结束后,GLM-PC 将启动代码生成模块,执行逻辑循环,逐步推进任务完成。

(视频做了一定加速处理)

可见,GLM-PC的循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预。

长思考能力:动态反思、纠错与优化

以上,还只是GLM-PC左脑基本的一个操作。

除了生成静态规划,它还能在执行任务过程中,根据环境信息实时动态调整,反思纠正和自我纠错,从而持续优化解决方案。

举个栗子,你想假期与朋友聚会准备去看一场「春节贺岁档电影」,小红书会有很多推荐。

这时,你根本不用自己去手动搜索,直接打开牛牛,告诉它——

在小红书搜索「春节贺岁档电影」,引用第一篇图文贴的贴子图片,把图片发送到微信上的{GGG}群聊,问他们想看哪一部电影。

如同上个案例,牛牛收到指令后逐步分解任务,先去小红书中搜索「春节贺岁档电影」第一个帖子。

接下来,它又回到工作台,开启一步任务——进入微信找到「GGG」群聊,然后发送消息。

这样一来,你能省下大把手动筛选和分享的时间。

总而言之,通过这些自动化操作,GLM-PC能够提供了更加便捷的社交互动和决策支持。

Agent右脑:图像与GUI认知

见识了GLM-PC「左脑」的强大,它的「右脑」是一个具有深度感知与交互体验的智能系统。

其核心功能涵盖了多个方面,比如GUI图像理解、用户行为认知、图像语义解析、多模态信息融合。

还以春节常见的场景为例,现在有了GLM-PC就能向领导「花样」送祝福了!

给微信上的「大Boss」发送2025年新春祝福语,再给他制作一个新春图片,发送给他

GLM-PC进入微信找到「大Boss」,然后生成简短的祝福语,确认发送。

然后,再回到控制台,生成一张精美的图片发给老板。

有了这个拜年神器,你只管玩手机,群发多少个都能搞定。

左右脑协作,迎来更强泛化能力!

正是上面这种左右脑协作的模式,让GLM-PC成为了Agent of Agents。

现在,它不仅能处理复杂的逻辑任务,在面对开放性问题时,适应能力、创造力和泛化能力也更强了。

比如,即使从未在训练中见过的网页和任务,GLM-PC都能完成。

有了这个AI,手写抄题可以省妈了。

现在只需将试卷PDF文档上传,让GLM-PC提取出想要界面的内容,简直易如反掌。

帮我把桌面的 排列组合与二项式定理练习.pdf文件打开, 引用总结当前界面的前几条数学题 ,放到桌面新建word文档中

成功提取文字后,AI会自动将信息保存到Word文档中。

再比如,我想要追一部剧——「驿站」,直接告诉GLM-PC:「腾讯视频搜索『驿站』电视剧,并播放」。

它会立即跳转到腾讯主页,搜索关键词,打开了视频。

背后模型

GLM-PC的背后,智谱自主研发的多模态Agent模型CogAgent与代码模型CodeGeex。

在智能体运转的过程中,首先会生成代码形式的思维框架,指挥GLM-PC的工作流程和工具调用。

期间,GLM-PC可以稳定高效地应对各种复杂场景和任务。

并且在实际执行时,GLM-PC会感知到来自GUI环境、程序执行环境与模型间的多层反馈,协助反思,有效地自我纠正与优化。

CogAgent-9B-20241220执行指令「标题设置为CogAgent」的过程

其实早在2023年8月,智谱就开始研发首个基于视觉语言模型(VLM)的开源GUI智能体模型——CogAgent。

在经过一年多的迭代升级之后,CogAgent于2024年12月重磅升级到了「9B-20241220」版本,并成功应用在了刚刚推出的GLM-PC上。

值得一提的是,最新的CogAgent-9B-20241220除了已经用在自家产品上外,团队为了让研究者们有机会共同探索与提升与训练GUI Agent,已经在第一时间进行了全面的开源。

开源项目:https://github.com/THUDM/CogAgent

评测结果显示,CogAgent-9B-20241220模型在多平台、多类别的GUI agent及GUI grounding benchmarks上取得了当前最优的结果。

其中,CogAgent在GUI定位(Screenspot)、单步操作(OmniAct)、中文step-wise榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了领先的结果,仅在OSworld上略逊于针对Computer Use特化的Claude-3.5-Sonnet和结合外接GUI grounding模型的GPT-4o。

下一步,装进AIPC

下一步,GLM-PC还将与AIPC深度融合,让所有人触手可及。

据称,智谱正与联想、华硕等知名PC厂商展开深度合作探讨,共同推动AIPC的创新与发展。

AIPC绝不仅仅是一台电脑,更是Agent在个人计算领域的全新应用。

未来,是一个智能无限的世界。

个人电脑能够完全理解你的意图,自动帮你优化工作流程,而且7x24小时待命,随时提供精准的智能支持。

现在,GLM-PC正将这个未来变成现实。而我们,已经站在了这场智能革命的最前沿。

参考资料:

https://cogagent.aminer.cn/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近一年5.1万家咖啡店倒闭!刚入冬就有大批门店“阵亡”

近一年5.1万家咖啡店倒闭!刚入冬就有大批门店“阵亡”

赢商网新媒体
2025-11-18 21:19:09
黄晓明和杨颖的结婚照,当时真是挺大胆的

黄晓明和杨颖的结婚照,当时真是挺大胆的

可乐谈情感
2025-11-20 01:26:37
全运会最新金牌榜!山东单日狂揽7金拉大差距,浙江41金逼近广东

全运会最新金牌榜!山东单日狂揽7金拉大差距,浙江41金逼近广东

老吴说体育
2025-11-20 00:12:04
广东模特冠军的事,后续更加劲爆!

广东模特冠军的事,后续更加劲爆!

麦杰逊
2025-11-19 15:31:05
赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

翻开历史和现实
2025-11-19 12:51:46
中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

博览历史
2025-11-19 18:36:57
深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

极目新闻
2025-11-19 10:38:42
天啊!看到林凤娇和10岁房祖名合影,才明白成龙为啥说一见钟情

天啊!看到林凤娇和10岁房祖名合影,才明白成龙为啥说一见钟情

温柔娱公子
2025-11-19 16:50:03
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

我爱英超
2025-11-19 07:10:18
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

极目新闻
2025-11-19 13:18:23
太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

火山诗话
2025-11-18 09:14:18
俄罗斯警告高市早苗

俄罗斯警告高市早苗

极目新闻
2025-11-19 17:31:43
销量下滑22%!小米汽车卖不动了,雷军急坏了

销量下滑22%!小米汽车卖不动了,雷军急坏了

明月光
2025-11-19 11:04:17
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

纵相新闻
2025-11-19 15:05:03
“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

妍妍教育日记
2025-11-18 19:53:15
汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

冷紫葉
2025-11-18 22:35:54
喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

叶公子
2025-11-19 19:04:02
2025-11-20 03:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13908文章数 66278关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

旅游
本地
时尚
手机
公开课

旅游要闻

女性专属酒店好不好,还得由市场说了算

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

辛芷蕾的炸裂10分钟,让人大受震撼

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版