![]()
智谱今天发了款新模型 GLM-5V-Turbo,专门给 AI 编程 Agent 长眼睛用的。
以前的编程模型是"盲人摸象"——你喂它文本,它吐代码。现在这套方案相当于给 AI 配了副眼镜:截图、设计稿、网页界面扔进去,它能直接看懂画面里的布局、配色、组件层级,然后生成能跑的前端工程。
官方列了几个场景,挺有意思。
最基础的是"看图复刻"。草图、Figma 稿、参考网站截图丢过去,模型自己拆解视觉结构,还原版式和动效。进阶玩法是"GUI 自主探索"——结合 Claude Code 这类框架,AI 能自己点开目标网站,逐页浏览、记录跳转关系、采集素材,最后把整个站点代码复刻出来。从被动接收图片,到主动探索环境,这是两回事。
还有个叫"龙虾"的 Agent 生态(OpenClaw/AutoClaw),接入了这套视觉能力之后,任务边界明显拓宽。官方 demo 里有个"股票分析师"Skill:AI 直接读取 K 线图、估值区间、券商研报图表,四路数据源并行采集,60 秒输出带图文排版的分析报告。
技术层面有个值得注意的细节:GLM-5V-Turbo 从预训练阶段就把视觉和文本能力揉在一起,不是后期拼装的"视觉插件"。这样做的好处是,纯文本编程能力没丢——在 CC-Bench-V2 的 Backend、Frontend、Repo Exploration 三项测试里,表现和专注文本的模型持平。
上下文窗口拉到 200k,支持画框、截图、读网页等多模态工具调用。Agent 的"感知-行动"链路,从纯文本延伸到了视觉交互。
AutoClaw 里已经能切换到这个模型。试用的入口藏得不算深,但估计大部分用户会先问那句:"帮我分析今天 XXX 的股价。"
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.