网易首页 > 网易号 > 正文 申请入驻

看草图直出代码!实测智谱最新多模态Coding模型

0
分享至

智东西(公众号:zhidxcom)

作者 | 江宇

编辑 | 漠影

智东西4月2日报道,今日,“国产大模型第一股”智谱发布了其首个多模态Coding基座模型GLM-5V-Turbo,将AI大模型的感知边界从纯文本推到视觉世界。这是继GLM-5-Turbo之后,智谱短时间内在Coding基座模型上的又一次快速迭代。

据官方新闻稿介绍,GLM-5V-Turbo不仅能读懂代码,还能“看懂画面再写代码”。给定一张设计稿截图,它能直接生成完整可运行的前端工程;在接入OpenClaw、AutoClaw等龙虾Agent之后,它也能看懂屏幕、读懂K线图、浏览各类网页,然后自主完成一整套长程任务

得益于出色的视觉编程性能,GLM-5V-Turbo在海外引发了广泛的关注,截至发稿前,其官方推文已经获得了130万+的浏览量,海外开发者甚至夸张地打趣道:“对Anthropic来说,现在游戏结束了。”


X网友@Zaid表示,“Anthropic现在的处境岌岌可危。”


如今,放眼整个行业来看,GLM-5V-Turbo推出的意义正变得越来越清晰:当Coding模型开始进入真实生产环境,光靠文本确实已经不够用了,而刚刚发布的GLM-5V-Turbo,将为「视觉编程」新范式提供一个全新的启示

一、上手实测:看见即复刻,图像即代码

说再多不如直接上手。我们用三个实测案例,看看GLM-5V-Turbo在不同输入方式下的前端复刻能力。

案例一:画个草图,也能复刻?

先从最离谱的场景开始,我们只给GLM-5V-Turbo画几个框框,让它做个酷炫的音乐播放器。结果模型还真搞得像模像样,布局合理、配色协调、连播放控件都安排得明明白白,让它改个配色也是言出法随。建议各位产品经理抓紧体验,以后改需求再也不用看前端的脸色了。

案例二:输入网址,直接复刻

这是GLM-5V-Turbo的主打功能之一。因为模型有强大的GUI Agent能力,只要给它一个目标网站URL,它就能自主浏览页面,梳理布局结构、采集视觉素材与交互细节,然后直接生成完整可运行的前端工程。不需要手动截图、不需要描述需求,一个链接就够了。

例如,我们让GLM-5V-Turbo复刻这个颇具设计感的网站:https://niore.webflow.io/


这是复刻效果,可以看到,不论是布局、字体,甚至是插图都非常相似。

案例三:输入录屏,还原动效

将一段网页操作录屏发给模型,GLM-5V-Turbo能从视频中理解页面的动态交互逻辑——滚动效果、弹窗切换、表单联动、按钮反馈等,然后将这些交互细节还原为可运行的代码。不只是“还原长什么样”,而是“还原怎么动”。

我们把这个美食网站的录屏发给GLM-5V-Turbo,让它复刻一下。

▲录屏

可以看到,网站的布局、照片、字体都比较还原,浮现动效和字体特效这类动态细节也基本复刻到位。

▲结果

二、技术探索:不是简单“加了个视觉模块”

与以往传统方法不同,GLM-5V-Turbo不是在一个纯文本Coding模型上“外挂”了一个视觉理解模块,而是从预训练阶段就开始进行文本与视觉能力的深度融合,解决了“视觉能力与纯文本编程和推理能力无法兼得”的问题。

具体来说,智谱团队研发了新一代CogViT视觉编码器,在通用物体识别、细粒度理解、几何与空间感知上均做到了领先水平,同时设计了一套兼容多模态输入且推理友好的MTP结构,在多模态场景下实现了较高的推理效率。

更关键的是,在强化学习阶段,智谱团队采用了30+任务类型的协同优化策略,覆盖STEM推理、视觉grounding、视频理解、GUI Agent等多个子领域。这种多任务协同强化学习的好处在于,它有效缓解了单领域训练容易出现的不稳定性,也就是说,不会因为某一项能力的提升而牺牲其他能力。

而且从评测数据来看,这套方案确实跑通了。

在多模态Coding维度,GLM-5V-Turbo在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。


而在纯文本Coding维度,GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三项核心测试中保持了稳定表现——也就是说,视觉能力的引入并没有拖累纯文本编程能力


用一句话总结:GLM-5V-Turbo不是在“看图”和“写代码”之间做取舍,而是“全都要”

结语:Coding基座模型的下一步,是“看见世界”

从GLM-5-Turbo到GLM-5V-Turbo,智谱在Coding基座模型上的迭代逻辑非常清晰:先让模型在文本世界里把任务跑通,再让它“看见”视觉世界,从而进入更广阔的应用空间。

这背后的判断是:Agent时代,模型能力不只由智能水平定义,还由它能处理的context容量定义。一个只能处理纯文本的模型,哪怕推理能力再强,在真实世界里的应用边界也是有限的。因为真实世界的信息,绝大多数以图片、视频、界面等视觉形式存在。

从这个角度来看,GLM-5V-Turbo不只是智谱的一次产品更新,更像是一个行业信号:Coding模型的竞争,正在从“谁的代码写得好”升级到“谁能看懂世界并写出代码”。

而随着越来越多的Coding模型开始进入真实生产环境,“看得懂、写得出、跑得通”这三项能力的整合程度,将成为区分模型之间差距的关键维度。

这场竞赛,才刚刚进入深水区。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
35天已到!全球收到普京消息,以色列全境被炸,五军合围美以联军

35天已到!全球收到普京消息,以色列全境被炸,五军合围美以联军

杰丝聊古今
2026-04-03 15:38:03
27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
教育厅原厅长,主动投案!

教育厅原厅长,主动投案!

双一流高校
2026-04-04 00:09:16
两天票房只有零元,全是一星差评,4月最惨电影诞生了

两天票房只有零元,全是一星差评,4月最惨电影诞生了

影视高原说
2026-04-02 15:19:21
雷克萨斯全新一代ES开启预售,预售价30.88万元起

雷克萨斯全新一代ES开启预售,预售价30.88万元起

南方都市报
2026-04-02 21:36:12
伊朗恰拉克港口遭袭 4艘登陆艇受损 1人遇难

伊朗恰拉克港口遭袭 4艘登陆艇受损 1人遇难

财联社
2026-04-04 00:18:17
李若彤带货翻车!假洋牌'优思益'被央视实锤,小龙女道歉

李若彤带货翻车!假洋牌'优思益'被央视实锤,小龙女道歉

仙味少女心
2026-04-02 23:46:49
高盛:对冲基金疯狂逃命,以13年来最快速度抛售全球股票

高盛:对冲基金疯狂逃命,以13年来最快速度抛售全球股票

新浪财经
2026-04-03 15:10:41
憋了53年,拉了泡大的!美国绕月火箭刚上天就掉链子,美媒怪中国

憋了53年,拉了泡大的!美国绕月火箭刚上天就掉链子,美媒怪中国

新浪财经
2026-04-03 17:44:01
这个新瓜,把人恶心吐了!

这个新瓜,把人恶心吐了!

八卦南风
2026-04-01 15:48:25
付豪20+8辽宁惜败浙江 赵继伟13助攻总抢断超易建联历史第八

付豪20+8辽宁惜败浙江 赵继伟13助攻总抢断超易建联历史第八

醉卧浮生
2026-04-03 21:43:25
曾是浙江美女记者,嫁同学为妻,现已是上市公司董事长身价245亿

曾是浙江美女记者,嫁同学为妻,现已是上市公司董事长身价245亿

素衣读史
2026-04-03 15:37:18
中方暂停部分成品油,独独菲律宾越南照常发货,背后算计太高!

中方暂停部分成品油,独独菲律宾越南照常发货,背后算计太高!

共工之锚
2026-04-03 19:08:15
上海一小吃摊主擅自用路边消防栓取水,自来水公司:消防水长期未使用无法直接饮用或做菜

上海一小吃摊主擅自用路边消防栓取水,自来水公司:消防水长期未使用无法直接饮用或做菜

大象新闻
2026-04-03 11:49:06
老人说:“四月吃一瓜,中药不用抓”,一利尿,二排毒,三消肿。

老人说:“四月吃一瓜,中药不用抓”,一利尿,二排毒,三消肿。

阿龙美食记
2026-04-02 10:35:01
美战机飞行员或被伊朗军方俘虏

美战机飞行员或被伊朗军方俘虏

新京报
2026-04-03 19:29:17
途中偷偷摘套,到底要怎么预防?

途中偷偷摘套,到底要怎么预防?

六层楼先生
2026-04-03 10:34:43
胡雪岩破产前的顿悟:这世上最不能得罪的不是达官显贵、地痞流氓

胡雪岩破产前的顿悟:这世上最不能得罪的不是达官显贵、地痞流氓

近史谈
2026-04-02 19:16:43
曾创作雍正王朝主题曲的徐沛东,因失误被迫下课,如今过的怎样

曾创作雍正王朝主题曲的徐沛东,因失误被迫下课,如今过的怎样

米果说识
2026-04-02 14:47:07
260Mbps高清无码!美国绕月将进行4K激光直播

260Mbps高清无码!美国绕月将进行4K激光直播

快科技
2026-04-03 14:31:38
2026-04-04 01:44:49
呼呼历史论
呼呼历史论
分享有趣的历史
418文章数 16750关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

旅游
游戏
家居
数码
公开课

旅游要闻

一秒坠入油画里!小火车、花海、露营……千亩金黄等你来打卡

三十年铁律崩塌!主机涨价疯魔 IGN警告行业"将死"

家居要闻

温馨多元 爱的具象化

数码要闻

消息称三星显示器部门面临巨大危机,最坏结果将退出中国大陆市场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版