网易首页 > 网易号 > 正文 申请入驻

智谱 GLM-5:当 Agent 融入日常生活

0
分享至

如果让你来协调六七个人的聚会选点,你会怎么做?

每个人从不同的地方出发,有人坐地铁、有人开车,你还得考虑通勤时间的公平性。不能让某个人跑一小时,其他人只走十分钟。

光在群里收集完所有人的出发地,打开地图一个个查,你大概就已经想说……算了,随便选个中间的点吧。


我把所有人的出发地发给了 Agent ⬇️


在无人干预的 4 分钟内,它自主调用 40 次地图工具,交错思考 25 轮后,一次性给出了综合各方通勤距离的选点方案,附带每个人的出行建议。


还做出了完整清晰、带有路线方案与用时的可视化路线图:


完成这个任务的是 GLM-5。

智谱过年前最新发布的开源模型,专为多阶段、长步骤复杂 Agentic 任务设计。侧重拆解复杂任务、调用外部工具、多步自主执行。也是 Opus 4.6 等海外模型正在走的方向。

这篇文章,我会分享有关 GLM-5 的一切:


  1. 1.速览 GLM-5 规格参数、使用途径
  2. 2.Agent 效果实验与 Skill 方法:聚会选点、资讯日报自动生成……
  3. 3.我对 GLM-5 的使用感受,以及 2026 年 Agent 变化的小想法

抛开 Coding 视角,Agent 现在能帮我们什么,也在这个过程中感受 GLM-5 的新提升。

速览 GLM-5,你所需知道的一切

GLM-5 正式发布前,有个小插曲。

一个叫「Pony Alpha」的匿名模型,悄悄出现在 OpenRouter 上,占据模型趋势榜前列。


现在身份揭晓了,就是 GLM-5 的测试版。

GLM-5 已在 Z.ai、智谱清言、BigModel 上线,可以在上述网站直接使用。


得益于 Agent 能力提升,Z.ai 直接在官网推出了 Agent 模式,能够自行使用多种工具、技能,交付复杂任务结果,当前可免费体验。

另外,技术方面,GLM-5 新模型的变化相当明显:


  • 参数规模提升明显,GLM-5 总参数从 4.7 的 355B(激活 32B),拓展至 744B(激活 40B),预训练数据从 23T 提升至 28.5T,通过更大规模的预训练算力,提升模型通用智能水平
  • 采用全新的异步强化学习框架「Slime」,提升强化学习后训练流程效率
  • 并且采用了 DeepSeek Sparse Attention 机制,在维持长文本效果无损的同时,大幅降低模型部署成本

——说人话就是:多、快、好、省。(不客气,我是翻译侠)

在业内多个公认的主流基准测试中,Coding 和 Agent 跑分均到了开源模型前列。


在多个榜单表现中,基本对齐 Claude Opus 4.5

价格方面,输入 4-6 元/百万 tokens,输出 18-22 元/百万 tokens,是国产模型的主流定价区间。


依然全系开源,遵循 MIT 协议。

且已纳入 GLM Coding Plan 计划,兼容 Claude Code、Opencode 等主流 Agent 工具,也支持在 OpenClaw 中接入 GLM-5。是日常在 Agent 中爽用 GLM 模型的好选择。(Coding Plan 订阅地址:https://bigmodel.cn/glm-coding)

本次还发布了专门的 Z Code 工具,用户可以用手机远程指挥桌面端 Agent,解决代码、生活办公等复杂任务:

1️⃣ 日常生活中的复杂 Agent 任务:多人聚会路线规划

最近新模型们的 Coding 能力越来越强,讲真挺难想出好办法,让非技术的读者们能在短篇幅内,感受到模型的能力提升。

灵机一动,与其强行讲解重构、Debug 效果,让 Agent 融入日常,解决生活中的复杂任务,也是一种有意思的新测试角度。

相信大部分人都经历过聚会选点的难题:约了几个朋友周末聚聚,地址选在哪更为方便?


为了解决这个问题,我们不得不多次在地图 APP 内选点、规划路线、估算时间。人数越多、距离跨度越远,任务也越复杂。

不过,这刚好是个典型「拆解任务、调用工具、多步执行」的复杂任务,简直是用来测试模型 Agentic 能力再好不过的 Benchmark。

整个配置只要 1 个高德地图 MCP。

Agent 配置教程附在本节末尾

只要把每个人的出发地和交通偏好列出来,Agent 就能自动找出一个对所有人通勤最公平的聚会地点(最优策略 = 让路程最远的人耗时最短)。

1)路线规划:GLM-5 效果如何?

为了能有更好的测试效果,我设计了一个完整的 benchmark prompt ⬇️

也可以用于你的日常使用,对参与者信息稍作调整后,发给配好 MCP 的 GLM-5 Claude Code 就行。



prompt 示例

然后就不用自己操心了。

GLM-5 会自己拆任务,逐一将出发地解析为经纬坐标

搜索地理中心区域的候选聚会点


可以看到,在执行过程中,GLM-5 充分发挥了 Agentic 模型的自主性和复杂任务适应能力,多次、主动查询了大量不同点位、不同交通的各方耗时情况 ⬇️


并用一次性路径规划接口,交叉计算每个人到各候选点的通勤方案。

最终输出了各人出行方案,包含每个人从哪出发、走哪条线路、坐什么交通、预计多久到达。


总计整个过程仅需 4 分钟,无人干预,自主推进。


相较于人类用户自行翻查地图 APP,分次输入每个人的起点、目标点,Agent 能一次性查询目标地区的多家咖啡店,并考虑不同交通方案,大幅提升此类决策的效率与准确度,整个流程快了太多。

2)制作可视化路线图,验证可信度

为了能够更好的看看路线规划的效果,我继而要求 GLM-5 做了份可视化路线图:

给我做一个浏览器能看的 HTML 地图,用地图可视化标点体现出来他们的起点和最终的终点以及大致的路线。用于让参会者一眼明白自己的路线建议方案。

它生成的第一份 Google Map 风格路线图是这样的:


非常清晰,标注了各方所在的起点和目的地,还有各自的出行方式、大致路线、时间的完整指引。

如果不是我说,你肯定想不到这是 Agent 生成的临时地图,在聚会时能省下太多决策与寻路精力。(甚至在高德 APP,我们没法做出同时查询多人路线)

刚才的地图偏向 Google Map 风格,我还试着让其一键编程为 Apple Map 风格,这是对应的结果 ⬇️


前端 Coding 审美过关,GLM-5 在 Coding 能力上也依然保持了一直以来的优秀水准。

最终,手动与高德地图 APP 的实际导航建议比对,验证方案真实性,基本出行方案与用时结论也都与 APP 近乎一致 ✅


路线规划是个典型的多轮工具调用的复杂 Agent 任务,甚至通过增加参会人数、距离跨度,能持续提升任务难度。

而测试下来,GLM-5 不负其榜单表现,Cover 了该任务所需的 AI 能力。

附:如何尝试多人聚会选点 Agent 任务?

整个任务只要配置一个 MCP:高德地图。

到高德开放平台申请一个 Key,把 MCP 配置到你的 Coding Agent 环境里(我是 Claude Code),就可以开始了。

大致流程如下:

1)安装 Claude Code:

如果你还没有 Claude Code,可参考我的历史文章 。你可在「第二部分:Skill 完全教程」中学会如何安装,顺便习得当下最值得学习的 Agent Skill 用法。

2)获取地图 MCP Key:

高德给了个人开发者每月 15w 次的地图服务额度。
参考 https://lbs.amap.com/api/mcp-server/create-project-and-key ,在 https://console.amap.com/dev/key/app 注册开发者身份并创建应用,即可获取高德 MCP Key。这是 GLM-5 Agent 查询地点、路线的关键工具。


3)让 Claude Code 替你配置地图 MCP

在 CC 对话界面中发送以下 Prompt:

添加 MCP:
{
"mcpServers": {
"amap-maps-streamableHTTP": {
"url": "https://mcp.amap.com/mcp?key=【此处替换为你的 MCP Key】"
}
}
}


Agent 就会自动帮你完成 MCP 的剩余配置,完成后重启 CC。


接着只要按上文示例发送任务消息,AI 就能自行批量查询地点,规划出行路线。

接下来看另一个办公、生活常见的需求:多信源信息聚合。

2️⃣ 每日资讯日报:多信源信息聚合

日报生成是一个典型的 Agent 任务:多信源、多工具、流水线处理。

有朋友戏称其为:AI 时代的 Hello World(程序员梗:学编程的第一步就是让程序输出 Hello World)

我用 Claude Code 做了一个 AI 资讯日报的 Agent Skill:

和 AI 说明想关注的信源,Agent 就能自动抓取、筛选、摘要,生成一份结构化的每日资讯,并把每日的资讯自动部署为好看的网页。


这是它的整个Agent 设计流程介绍,全程尽可能依靠 Agent 自行处理爬取过程中不同信源的处理问题。


对于基座模型来说,想要一次性无错完成,也是不小的挑战。

在测试 GLM-5 的过程中,只需要我发送一条 Skill 调用指令:


GLM-5 就作为 Agent 的基座模型,一口气处理了最近 3 天的多个信源的资讯,涵盖 OpenAI、Anthropic 官网 News,X 上的特定关注者、以及部分海外科技资讯网站。

有意思的是 Agent 在这个任务里的工具调用方式。

不同类型的信源有不同的自适应获取策略:


  • Level 1:RSS 源直接解析 feed
  • Level 2:普通网页用 WebFetch 抓取
  • Level 3:需要登录或 JS 渲染的页面则调用 Browser MCP 操作浏览器,避开反爬机制。


更加智能的是,当你要求添加信源时,Agent 能根据需要,自行判断每个信源该用哪种方式,逐一执行,再统一去重、摘要、排版。

这类「重复、多步、有明确规则」的信息聚合任务,特别适合交给 Agent。人来做很累,每天打开十几个网站逐个翻阅;Agent 做就是一条指令的事。

最终,GLM-5 一次性完成了日报的信源抓取、入库、分条摘要、合并日报、网站更新的全过程。相当顺滑、实用。



这个 Skill 目前已经放在了 GitHub 上供体验:

你可以在「eze-skills」获取我全部公开的 Skill:https://github.com/eze-is/eze-skills

Daily-news 也还在迭代中(主要想优化多信源的并行抓取策略),主流程已经可用,感兴趣可以试试。

写在最后:当 Agent 融入日常生活

智谱在发布 GLM-5 时,给它定的主题是 Agentic Engineering 时代。


从实测体感来看,GLM-5 的 Agent 任务执行力确实到位。多步拆解、工具调用、自主推进,完成度又有了质的提升。

社区也生产了一批复杂 Coding 的 Case,你可以在这个视频里,看看 GLM-5 的其他 Coding 效果。

距离上午官宣发布到写文的这段时间内,由于大量用户的涌入,GLM-5 的 API 速率出现了短期波动,GLM Coding Plan 也已经在官网售罄。


只不过 GLM-5 是纯文本模型,多模态版本需要等待后续更新,“贴张参考图让 AI 照着做”这类视觉提示效果不会太好(官方采用 4.6v 联用的方法进行兼容),前端风格迁移设计场景受限。

但正如文章展示的,即使在生活类复杂任务中,不依赖视觉的 Agent 任务空间,也已经相当具备想象力 ⬇️



另外,你应该也发现了,这篇文章故意没聊 coding benchmark 测试。

因为时至今日,如果未经精心设计高难 Benchmark,你越来越难单凭简单 Case,体感区分国产和海外模型的能力上限。更多模型差异来自于提示习惯与模型自身思考风格的偏好。

然而,从 Claude Cowork、OpenClaw,再到国内的各类办公 Agent,

今年将有一个趋势值得关注:构成 Personal Agent 的关键拼图,已然初具雏形


  • GLM-5 等 Agentic 模型越来越强,国产模型已足以应对多阶段、长步骤的复杂任务
  • MCP 连接现实服务,寻路、抓取、浏览网页、操作 office 文件,Agent 的"手"越伸越长
  • Skill 定义场景化的处理流程,让 Agent 按 SOP 自主执行
  • Memory 沉淀人与 Agent 之间的交互记忆,让 AI 越来越懂你的语境与偏好

2026,Agent 开始走出 IDE,作为每个人的口袋 Agent,处理人人都有的日常复杂需求。

每个人的 Personal Agent,可能比我们想的更快到来。

希望本文能对你有所启发,记得关注~

也感谢你的点赞与分享:)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春晚歌舞类收视榜出炉!凤凰传奇第二,成龙第四,第一名都没想到

春晚歌舞类收视榜出炉!凤凰传奇第二,成龙第四,第一名都没想到

观察鉴娱
2026-02-17 16:43:01
搞笑表妹糗事冷笑话,表妹来我家玩看见我房间有根黄瓜,问我能吃么我说洗了在吃!

搞笑表妹糗事冷笑话,表妹来我家玩看见我房间有根黄瓜,问我能吃么我说洗了在吃!

天天明星
2026-02-18 00:02:35
前中央政治局常委64岁主动请辞,临终坦然:我死而无憾

前中央政治局常委64岁主动请辞,临终坦然:我死而无憾

阿諢体育
2026-02-13 04:28:34
杨秀清如此精明之人,为什么在天京事变中居然轻易被干掉了?

杨秀清如此精明之人,为什么在天京事变中居然轻易被干掉了?

掠影后有感
2026-02-18 10:37:25
女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

黄河新闻网吕梁频道
2026-02-18 15:07:20
16岁读博的神童张炘炀,如今无业躺平啃老,坦然承认:我不是神童

16岁读博的神童张炘炀,如今无业躺平啃老,坦然承认:我不是神童

梦史
2025-12-27 10:38:02
伊朗突然作起死来了...

伊朗突然作起死来了...

西楼饮月
2026-02-18 23:02:15
巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

东极妙严
2026-02-18 21:04:48
河南食人魔兄弟,爱吃发廊女腰子,劫杀11名小姐

河南食人魔兄弟,爱吃发廊女腰子,劫杀11名小姐

情感艺术家
2026-02-17 21:59:51
史诗级转会!1亿英镑“超巨”空降曼联!顶级突击手同意投奔红魔

史诗级转会!1亿英镑“超巨”空降曼联!顶级突击手同意投奔红魔

头狼追球
2026-02-18 16:16:52
收视率破36!央视马年春晚首波口碑出炉,观众的评价“一针见血”

收视率破36!央视马年春晚首波口碑出炉,观众的评价“一针见血”

八卦南风
2026-02-16 23:11:18
【意·关注】深夜血案!“唐人街”卡拉OK斗殴,一人被刺、天花板现枪击痕迹

【意·关注】深夜血案!“唐人街”卡拉OK斗殴,一人被刺、天花板现枪击痕迹

意烩
2026-02-19 01:15:55
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
玉足踩沙,海风撩发,等着邂逅一场浪漫

玉足踩沙,海风撩发,等着邂逅一场浪漫

艾斯莱斯奈斯
2026-02-19 00:30:34
林峯老婆晒娃却被骂上热搜,网友:给孩子穿这个,良心不会痛吗?

林峯老婆晒娃却被骂上热搜,网友:给孩子穿这个,良心不会痛吗?

情感大头说说
2026-02-18 22:35:36
小品之所以被春晚遗弃,是因历年来的小品相声都过于“尖锐”?

小品之所以被春晚遗弃,是因历年来的小品相声都过于“尖锐”?

魔都姐姐杂谈
2026-02-17 10:45:24
万斯谈谷爱凌代表中国参赛:受益于我们体系,更应该为美国而战

万斯谈谷爱凌代表中国参赛:受益于我们体系,更应该为美国而战

全景体育V
2026-02-18 09:03:03
婆婆家的年夜饭只有两个菜?网友:这咋了,我婆家就没有年夜饭

婆婆家的年夜饭只有两个菜?网友:这咋了,我婆家就没有年夜饭

夜深爱杂谈
2026-02-18 21:02:24
特朗普对华态度180度转变,美媒:想赢中国只有一条路可选

特朗普对华态度180度转变,美媒:想赢中国只有一条路可选

介知
2026-02-18 23:37:32
为男闺蜜做红烧肉错过老公手术,护士说:你闺蜜守了他一夜

为男闺蜜做红烧肉错过老公手术,护士说:你闺蜜守了他一夜

晓艾故事汇
2026-02-15 16:11:20
2026-02-19 01:51:00
一泽Eze
一泽Eze
AI 产品,提示工程师 ? 探索AI应用边界,寻找人与AI共处的答案
43文章数 2关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

艺术
游戏
时尚
手机
教育

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

PS王牌引擎太强大!成为《死亡搁浅2》唯一选择

马年壁纸送上,祝大家新年快乐,马上发财!

手机要闻

三星预热S26系列全新相机功能,AI修复画面、切换昼夜场景

教育要闻

初二掉分不是偶然,是慢慢积累的结果

无障碍浏览 进入关怀版