网易首页 > 网易号 > 正文 申请入驻

看草图直出代码!实测智谱最新多模态Coding模型

0
分享至


智东西
作者 江宇
编辑 漠影

智东西4月2日报道,今日,“国产大模型第一股”智谱发布了其首个多模态Coding基座模型GLM-5V-Turbo,将AI大模型的感知边界从纯文本推到视觉世界。这是继GLM-5-Turbo之后,智谱短时间内在Coding基座模型上的又一次快速迭代。

据官方新闻稿介绍,GLM-5V-Turbo不仅能读懂代码,还能“看懂画面再写代码”。给定一张设计稿截图,它能直接生成完整可运行的前端工程;在接入OpenClaw、AutoClaw等龙虾Agent之后,它也能看懂屏幕、读懂K线图、浏览各类网页,然后自主完成一整套长程任务

得益于出色的视觉编程性能,GLM-5V-Turbo在海外引发了广泛的关注,截至发稿前,其官方推文已经获得了130万+的浏览量,海外开发者甚至夸张地打趣道:“对Anthropic来说,现在游戏结束了。”


X网友@Zaid表示,“Anthropic现在的处境岌岌可危。”


如今,放眼整个行业来看,GLM-5V-Turbo推出的意义正变得越来越清晰:当Coding模型开始进入真实生产环境,光靠文本确实已经不够用了,而刚刚发布的GLM-5V-Turbo,将为「视觉编程」新范式提供一个全新的启示

一、上手实测:看见即复刻,图像即代码

说再多不如直接上手。我们用三个实测案例,看看GLM-5V-Turbo在不同输入方式下的前端复刻能力。

案例一:画个草图,也能复刻?

先从最离谱的场景开始,我们只给GLM-5V-Turbo画几个框框,让它做个酷炫的音乐播放器。结果模型还真搞得像模像样,布局合理、配色协调、连播放控件都安排得明明白白,让它改个配色也是言出法随。建议各位产品经理抓紧体验,以后改需求再也不用看前端的脸色了。

案例二:输入网址,直接复刻

这是GLM-5V-Turbo的主打功能之一。因为模型有强大的GUI Agent能力,只要给它一个目标网站URL,它就能自主浏览页面,梳理布局结构、采集视觉素材与交互细节,然后直接生成完整可运行的前端工程。不需要手动截图、不需要描述需求,一个链接就够了。

例如,我们让GLM-5V-Turbo复刻这个颇具设计感的网站:https://niore.webflow.io/


这是复刻效果,可以看到,不论是布局、字体,甚至是插图都非常相似。

案例三:输入录屏,还原动效

将一段网页操作录屏发给模型,GLM-5V-Turbo能从视频中理解页面的动态交互逻辑——滚动效果、弹窗切换、表单联动、按钮反馈等,然后将这些交互细节还原为可运行的代码。不只是”还原长什么样”,而是”还原怎么动”。

我们把这个美食网站的录屏发给GLM-5V-Turbo,让它复刻一下。

▲录屏

可以看到,网站的布局、照片、字体都比较还原,浮现动效和字体特效这类动态细节也基本复刻到位。

▲结果

二、技术探索:不是简单“加了个视觉模块”

与以往传统方法不同,GLM-5V-Turbo不是在一个纯文本Coding模型上“外挂”了一个视觉理解模块,而是从预训练阶段就开始进行文本与视觉能力的深度融合,解决了“视觉能力与纯文本编程和推理能力无法兼得”的问题。

具体来说,智谱团队研发了新一代CogViT视觉编码器,在通用物体识别、细粒度理解、几何与空间感知上均做到了领先水平,同时设计了一套兼容多模态输入且推理友好的MTP结构,在多模态场景下实现了较高的推理效率。

更关键的是,在强化学习阶段,智谱团队采用了30+任务类型的协同优化策略,覆盖STEM推理、视觉grounding、视频理解、GUI Agent等多个子领域。这种多任务协同强化学习的好处在于,它有效缓解了单领域训练容易出现的不稳定性,也就是说,不会因为某一项能力的提升而牺牲其他能力。

而且从评测数据来看,这套方案确实跑通了。

在多模态Coding维度,GLM-5V-Turbo在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。


而在纯文本Coding维度,GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三项核心测试中保持了稳定表现——也就是说,视觉能力的引入并没有拖累纯文本编程能力


用一句话总结:GLM-5V-Turbo不是在“看图”和“写代码”之间做取舍,而是“全都要”

结语:Coding基座模型的下一步,是“看见世界”

从GLM-5-Turbo到GLM-5V-Turbo,智谱在Coding基座模型上的迭代逻辑非常清晰:先让模型在文本世界里把任务跑通,再让它“看见”视觉世界,从而进入更广阔的应用空间。

这背后的判断是:Agent时代,模型能力不只由智能水平定义,还由它能处理的context容量定义。一个只能处理纯文本的模型,哪怕推理能力再强,在真实世界里的应用边界也是有限的。因为真实世界的信息,绝大多数以图片、视频、界面等视觉形式存在。

从这个角度来看,GLM-5V-Turbo不只是智谱的一次产品更新,更像是一个行业信号:Coding模型的竞争,正在从“谁的代码写得好”升级到“谁能看懂世界并写出代码”。

而随着越来越多的Coding模型开始进入真实生产环境,“看得懂、写得出、跑得通”这三项能力的整合程度,将成为区分模型之间差距的关键维度。

这场竞赛,才刚刚进入深水区。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
把公婆接来家第二天老公外派五年不管不顾,我注销黑卡申请离婚,他回国傻眼了

把公婆接来家第二天老公外派五年不管不顾,我注销黑卡申请离婚,他回国傻眼了

奶茶麦子
2026-04-08 00:08:15
伊朗背后三个神秘力量开始浮出水面,美国一个也对付不了

伊朗背后三个神秘力量开始浮出水面,美国一个也对付不了

揭秘历史的真相
2026-04-05 20:57:15
6岁女童遇害,受害者父亲被隔离,当地群众围堵凶手,要求严惩!

6岁女童遇害,受害者父亲被隔离,当地群众围堵凶手,要求严惩!

眼光很亮
2026-04-07 12:11:52
郑告蒋家后代:蒋介石逝哪葬哪,是对全体中国人民的最好安排!

郑告蒋家后代:蒋介石逝哪葬哪,是对全体中国人民的最好安排!

扶苏聊历史
2025-12-26 16:08:12
人的基因有多强大?网友:今年剪了个短发,我爸一看就害怕!

人的基因有多强大?网友:今年剪了个短发,我爸一看就害怕!

另子维爱读史
2026-02-27 21:05:30
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
美国专家也难理解!中国为何再次将先进材料,给打到“白菜价”?

美国专家也难理解!中国为何再次将先进材料,给打到“白菜价”?

丁丁鲤史纪
2026-03-19 14:20:20
官宣!全国多城永久取消停车费:路边+机关车位全免费,民之所向

官宣!全国多城永久取消停车费:路边+机关车位全免费,民之所向

君说舆情
2026-04-06 21:47:03
断联后,女人有以下表现,说明她已经放下你了

断联后,女人有以下表现,说明她已经放下你了

莲子说情感
2026-02-08 11:18:41
问界M9新车型来了,不是小改,是重新定规矩。

问界M9新车型来了,不是小改,是重新定规矩。

沙雕小琳琳
2026-04-08 00:37:16
邮报:B费、马奎尔和卡里克花了一小时给都柏林球迷合影签名

邮报:B费、马奎尔和卡里克花了一小时给都柏林球迷合影签名

懂球帝
2026-04-08 01:22:17
别再傻扔过期药了!这6种常备药养花堪比神药,植物吃了狂长爆盆

别再傻扔过期药了!这6种常备药养花堪比神药,植物吃了狂长爆盆

复转这些年
2026-03-23 20:20:36
铁血网关闭始末,青春的陪伴,曾让我以为歼-8真的可以对抗F-22

铁血网关闭始末,青春的陪伴,曾让我以为歼-8真的可以对抗F-22

干史人
2026-01-18 07:10:03
悲哀!官媒炮轰国乒饭圈:盼自己人输外国人成风气,王楚钦得罪谁

悲哀!官媒炮轰国乒饭圈:盼自己人输外国人成风气,王楚钦得罪谁

小潌拍客在北漂
2026-04-07 23:14:13
村妇坚称军马吃了自家粟谷,石敬瑭:把马杀了,没有粟谷就杀村妇

村妇坚称军马吃了自家粟谷,石敬瑭:把马杀了,没有粟谷就杀村妇

收藏大视界
2026-03-22 22:16:23
令人唏嘘!陈丽华走了,迟重瑞的百亿豪门梦,碎了一地!

令人唏嘘!陈丽华走了,迟重瑞的百亿豪门梦,碎了一地!

慢歌轻步谣
2026-04-07 19:46:25
二汽总工程师:把厂子建在山里以为隐蔽,其实美国用卫星都看到了

二汽总工程师:把厂子建在山里以为隐蔽,其实美国用卫星都看到了

凉了时光人
2026-03-10 23:03:57
罗福莉:各位醒醒吧,该结束token虚假狂欢了

罗福莉:各位醒醒吧,该结束token虚假狂欢了

硅星人
2026-04-07 10:14:49
网约车八小时新规,是为了谁,又是害了谁?

网约车八小时新规,是为了谁,又是害了谁?

求实处
2026-04-07 14:03:09
坑惨国人的四个“伪豪车”,国外当草国人当宝,二手车贩避之不及

坑惨国人的四个“伪豪车”,国外当草国人当宝,二手车贩避之不及

番外行
2026-03-10 08:08:05
2026-04-08 02:40:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11523文章数 117024关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普:伊朗人愿为自由承受轰炸

头条要闻

特朗普:伊朗人愿为自由承受轰炸

体育要闻

阿森纳客战葡体:哲凯赖什战旧主,马杜埃凯、厄德高首发

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

健康
教育
艺术
旅游
数码

干细胞抗衰4大误区,90%的人都中招

教育要闻

这位学生自制的学具你见过吗?

艺术要闻

深圳最惨地王复活?70亿起拍,曾规划中国第一高楼!

旅游要闻

废弃“老北京景观”能否随意搬回家

数码要闻

贱驴NV60磁轴键盘上市:显卡主题造型设计,899元

无障碍浏览 进入关怀版