网易首页 > 网易号 > 正文 申请入驻

从网页截图到精准复刻只需30秒:这个新模型刷新了我的认知

0
分享至

今天,智谱AI正式发布了GLM-4.6V系列模型。

这次发布挺有意思的,我估计很多人都知道GLM前几个月就发布过视觉理解模型4.5V,而4.6V听起来只是4.5V的小性能提升版本。但别被骗了,他们其实搞了个大的——整出了首个支持工具调用的视觉模型。

简单说就是,以前的视觉模型只能「看」和「说」,现在GLM-4.6V不仅能看,还能调用工具去搜索、去截图、去画图。这个能力听起来有点抽象,我测完之后发现,确实有点东西。

他们这次发布了两个版本:GLM-4.6V(106B参数)和GLM-4.6V-Flash(9B参数)。前者是旗舰版,后者是轻量版,都是MIT License开源的。官方说在同等参数规模下,这个模型在20多个多模态评测基准上拿到了SOTA成绩。


但我更关心的是,这玩意儿在实际场景里到底好不好用。所以我找了7件日常会遇到的事情,一个一个测了一遍。

对了,说一下测试环境:我用的是官方开放平台的GLM-4.6V(106B版本),所有测试都是直接在他们的官网z.ai完成的。

测试1:识别澳洲街头的鸟


先说第一个测试,识别澳洲街头的鸟。看我发布这篇文章的IP你就能看出,我最近在澳洲旅居。最近在街上总能看到一种长嘴的白鸟,跟鸽子似的喜欢找人要吃的,但我一直不知道它叫啥,以前在别的国家也从未见过。把照片扔给GLM-4.6V,它很快就告诉我这是澳大利亚白鹮(Australian White Ibis)。


更惊喜的是,它不仅给出了名字,还详细介绍了这种鸟的外观特征、生活习性、分布区域,甚至提到了一个有趣的俚语——澳洲人叫它"bin chickens"(垃圾桶鸡),因为它们特别喜欢在城市垃圾桶里找吃的。这个细节我之前完全不知道,但确实很符合我在街头看到的场景。

测试2:分析赶海地点


第二个测试是分析赶海地点。可能是B站OK哥视频看多了,我最近挺想去赶海抓海胆和螺的,据说悉尼附近有不少海滩能捡到好东西。所以在小红书搜了搜,倒是有不少人分享照片,但很多人都不愿意说具体在哪。我就找了一张赶海照片,问GLM-4.6V能不能推测出可能的地点。

它先分析了图片里的细节:植被类型、岩石特征、地形结构,然后给出了推测——可能是悉尼附近的Bare Island(裸岛)。推理逻辑还挺详细的,比如岩石的形态、海岸线的特征、植被的分布,都和Bare Island的特点吻合。


最让我意外的是,它还自动去搜索了Bare Island的照片,做了对比验证。我肉眼确认了下,确实是这个地方没错了,会推理,还会自己主动做验证,这个过程还挺聪明的。

测试3:OCR识别繁体竖版文字


第三个测试是OCR识别繁体竖版文字。这个需求其实挺常见的,比如看一些繁体书籍或者古籍,排版都是从上到下、从右到左的。传统的OCR工具要么识别不出来,要么顺序全乱了。


我上传了一张繁体竖版文字的图片,要求GLM-4.6V识别并转换成简体中文。结果还不错,它准确识别了文字内容,也正确转换成了简体,而且保持了原文的段落结构。虽然有个别字可能有点小错误,但整体准确率还是挺高的。

测试4:股票技术分析


第四个测试是股票技术分析。我上传了英伟达(NVDA)的K线图,包括MACD、MA10、MA20等技术指标,让GLM-4.6V分析一下技术面情况。


它给出的分析还挺专业的:趋势判断、关键支撑位和阻力位、技术指标分析,还有短期操作建议。比如它指出当前股价在MA5和MA10均线附近,MACD的DIF和DEA在0轴下方,显示空头市场,建议观望或者设好止损点。

虽然分析的深度可能不如专业分析师,但对于普通投资者来说,这个水平的技术分析已经够用了。至少能快速了解当前的趋势和关键位置,不用自己慢慢看图琢磨。

(注:这个测试只是为了用来做测试演示,这个分析结果不代表任何投资建议哈...)

测试5:长文档PDF分析(图文混排惊喜)


第五个测试是长文档PDF分析,这个是最让我惊喜的。我上传了OpenRouter刚发布的《State of AI》报告,这是一份基于100万亿token的实证研究报告,有36页,包含几十个图表。我问了一个挺有针对性的问题:"这份报告的哪个图表提到了GLM?里面是怎么描述的,我们从中能看到什么趋势?"


结果出来之后我直接震惊了。GLM-4.6V不仅在36页报告里准确定位到了提到GLM的两个图表,还做了图文混排!它从PDF里截取了Figure 3和Figure 13这两个图表,直接嵌入到回答里,并且详细分析了GLM在开源模型市场份额和工具调用能力方面的表现。


这个功能太实用了。一方面,你能清楚地知道数据从哪来,有图有真相,可信度高。另一方面,这种图文排版的输出,完全可以直接拿来发公众号文章或者做研报,省了大量的复制粘贴和排版时间。

更关键的是,面对这种几十页、几十个图表的长文档,传统方式是你得自己翻完整份报告,找到相关内容,再截图整理。现在GLM-4.6V能自动定位、提取、排版,这效率提升太明显了。

这个图文混排功能真的大大拓宽了模型的使用场景,不仅仅是回答问题,而是能直接生产出可用的内容。

测试6:水果摊图片识别+精准定位


第六个测试是水果摊图片识别。我上传了一张水果摊的照片,要求GLM-4.6V识别图片中的水果,并返回每个水果的英文名在图片中的精准位置坐标(bbox格式)。


它返回了一个JSON格式的结果,包括orange、apple、pineapple等,每个都有对应的坐标。我拿到这个结果之后,又让AI根据这些坐标生成一张带标注框的图片。


结果完全准确!每个水果的标注框都精准地框住了对应的位置,没有错位或者漏标。这个Grounding能力真的太实用了,比如我之前做的拍照学单词App,原来只能识别图片的氛围和场景,去产生相关单词,但不知道具体位置,所以效果大致如下


现在有了这个能力,可以精准标注每个单词的位置,看来我完全可以再升级一般app了。

测试7:前端复刻+多轮调整(国产工具终于能打了)


最后一个测试是前端复刻,这个对我来说太有共鸣了。

说实话,Claude Code、Cursor这些工具早就支持截图生成代码了,我之前也经常用。但问题是,国产模型虽然在纯代码生成能力上追得不错,图像理解能力一直比较偏科。所以在复刻网站这个场景下,国产工具一直没有好的选择,只能继续用国外的工具。

而且对于大多数开发者来说,表达自己想要的设计风格其实挺难的。对于大多数缺乏产品和设计经验的工程师或者vibe coder来说,你很难用文字精确描述自己的需求。

传统的vibe coding(看着设计稿写代码)痛点也很明显:你得仔细看每个元素的位置、颜色、字体、间距,在脑子里转换成CSS代码,写完之后发现和设计稿不一样,又得慢慢调。

之前虽然有一些AI工具能截图生成代码,但效果参差不齐。有的生成的代码一堆占位符,图片全是灰色方块,根本没法用。有的布局还原度不高,生成出来和原图差距很大。更别提多轮交互修改了,基本上每次改动都要重新生成,前后不一致。

我用GLM-4.6V测了一下YouTube首页的复刻。第一步,我上传了YouTube首页的截图,要求生成完整的HTML代码,并且特别强调"图片区域请用真实图片替代,不要用任何占位符"。


结果让我很惊喜。生成的代码不仅布局还原度很高,而且真的没用占位符,所有图片都是真实的网络图片链接。打开浏览器一看,虽然不是100%像素级还原(毕竟YouTube的UI很复杂),但整体结构、配色、排版都非常接近原版。


更厉害的是多轮交互调整。我接着提了第二个要求:"请将网站设计调整为夜间主题"。它直接在之前生成的代码基础上做了修改,把背景色、文字颜色、卡片颜色都调整成了深色主题,而且保持了整体布局不变。


这个能力对于快速原型开发、设计稿验证、甚至是日常的网页搭建,都非常实用。以后看到喜欢的网页设计,截个图就能快速复刻出来,省了大量的手写代码时间。

更重要的是,国产工具终于有了一个在图像理解+代码生成这个场景下相当能打的选择。在基础的网页复刻和多轮调整上,GLM-4.6V已经能满足日常需求了。对于更倾向用国产工具的开发者来说,这是个不错的消息。

测完这7件事,我的整体感受是:GLM-4.6V确实有点东西。

先说优点。速度真的快,比我之前用的GPT-5和Gemini 3 Pro都快不少。尤其是处理长文档的时候,128k的上下文窗口确实给力,不用担心文档太长被截断。前端复刻的能力也挺惊喜的,虽然不是100%还原,但生成的前端代码质量比我预期的高。

最让我印象深刻的是Grounding能力,也就是精准定位物体位置。这个能力在实际应用中太有用了,比如我之前做的拍照学单词App,原来只能识别图片里的所有单词,但单词在图片上的位置是乱的。现在有了Grounding,可以精准标注每个单词的位置,用户体验能提升一大截。

工具调用这个能力也确实解决了不少问题。以前用多模态模型,如果需要搜索或者生成图片,得自己写代码去调API,现在模型能自己调工具,省了不少事。

和GPT-5、Gemini 3对比的话,我觉得各有优劣。GPT-5在理解复杂逻辑和生成长文本方面还是更强,Gemini 3的多模态融合做得更自然。但GLM-4.6V的优势在于速度快、开源、工具调用能力强,而且国内访问更稳定。

但也有槽点,比如偶尔会遇见「回复内容为空」的情况,可能是我测试的时候还处在内测阶段,有些不稳定吧,我相信一些细节体验的问题应该能挺快解决的。


如果你是开发者,想做一些多模态应用,GLM-4.6V确实是个不错的选择。尤其是需要处理长文档、做前端复刻、或者需要精准定位物体的场景,这个模型的表现会超出预期。

如果你只是普通用户,想用来处理日常工作,比如分析财报、识别文字、复刻网页,GLM-4.6V也够用,而且速度快体验好。

最后说一下试用方式。官方提供了开放平台(bigmodel.cn),可以直接在线试用。如果想本地部署,GitHub上也有开源代码,支持vLLM、SGLang等推理框架。

对了,智谱在产品设计上还挺用心的。他们在界面上加了一排场景标签,比如「万能识搜」「图文扫描」「文档智读」「视频理解」「智能比价」「数理解题」。一方面是提醒你这个视觉模型到底能帮你做什么,另一方面也能看出他们针对这些主流场景做了专门优化。比如你要读论文、读财报,希望AI帮你写图文混排的分析,选中「文档智读」会有更好的体验。这种产品细节做到位的感觉,还是挺难得的。


如果你有这几个场景的需求的话,现在就可以去他们官网免费试试看-> https://chat.z.ai/

以及,我觉得很好的一点是,如果你是个专业的开发者,或者Vibe Coder,都可以直接通过他们的Coding Plan套餐直接使用他们这次新发布的GLM-4.6V模型,不需要额外付费(顺便说一句,花叔自己是花了真金白银订阅了100元/月的Coding Plan Pro套餐的)。


我之前写过文章介绍他们的Coding Plan,甚至还开发了个让你更方便使用GLM模型去提到Claude的GLM Code,感兴趣的可以去看看我之前的教程:

AI是一门实践的艺术,实际上手的每一次体验都胜过看10篇文章,做100次解读的。

都看到这了,如果觉得内容对你有帮助的话,欢迎点赞、在看、关注,以及转发给你需要的朋友。哦对了,你也可以通过点击「阅读原文」去看看上面提到的GLM Coding Plan套餐。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗拒绝向国外转移浓缩铀

伊朗拒绝向国外转移浓缩铀

每日经济新闻
2026-02-27 07:45:22
上海一女子怀疑丈夫出轨闺蜜,花9000元雇人追踪被抓包!法院:“私家侦探”判刑4个月罚款3000元

上海一女子怀疑丈夫出轨闺蜜,花9000元雇人追踪被抓包!法院:“私家侦探”判刑4个月罚款3000元

大象新闻
2026-02-26 09:45:07
西城妇幼医院门口“云雾缭绕”,孩子在烟雾中穿行…这烟非吸不可?

西城妇幼医院门口“云雾缭绕”,孩子在烟雾中穿行…这烟非吸不可?

家住东西城
2026-02-26 20:34:36
寿司郎多地门店预约需等待一个月,店员称有人早上6点来排队,二手平台现排队号码

寿司郎多地门店预约需等待一个月,店员称有人早上6点来排队,二手平台现排队号码

红星新闻
2026-02-26 19:07:25
医保全国统一落地!70—80岁老人看病,这3件事一定要记牢!

医保全国统一落地!70—80岁老人看病,这3件事一定要记牢!

阿兵科普
2026-02-27 08:46:49
“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

妍妍教育日记
2026-02-04 19:09:07
北斗七星都是些什么恒星?它们分别有多大?距离地球有多远?

北斗七星都是些什么恒星?它们分别有多大?距离地球有多远?

心中的麦田
2026-02-24 18:53:58
唐尚珺也没想到,他经历16次高考35岁才上岸,却在直播间完成自救

唐尚珺也没想到,他经历16次高考35岁才上岸,却在直播间完成自救

法老不说教
2026-02-26 19:14:53
美军“福特”号航母驶离希腊前往中东

美军“福特”号航母驶离希腊前往中东

新华社
2026-02-26 20:43:04
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

老范谈史
2026-02-24 14:51:55
同样煮饺子,“盖盖煮”和“不盖盖煮”区别大,难怪煮出来不一样

同样煮饺子,“盖盖煮”和“不盖盖煮”区别大,难怪煮出来不一样

阿龙美食记
2026-02-23 17:00:18
吉利全新硬核“方盒子”SUV曝光!三点没想到,方程豹钛7或遇强劲对手

吉利全新硬核“方盒子”SUV曝光!三点没想到,方程豹钛7或遇强劲对手

车矩阵更懂车
2026-02-26 23:19:44
我在国安局监听敌方频道时,竟听到了我上司和敌方在密谋交易

我在国安局监听敌方频道时,竟听到了我上司和敌方在密谋交易

千秋文化
2026-02-20 20:27:25
藏得太深!星链离不开的7家中国公司,每一家都是全球顶尖!

藏得太深!星链离不开的7家中国公司,每一家都是全球顶尖!

Thurman在昆明
2026-02-26 16:52:11
“小命不保了还在炫耀”,无知家长晒00后毛娘女儿:收入比她爸高

“小命不保了还在炫耀”,无知家长晒00后毛娘女儿:收入比她爸高

妍妍教育日记
2026-02-26 20:15:22
国米将为冲击双冠王而轮换 意甲第八年薪的教练加鸡腿在即

国米将为冲击双冠王而轮换 意甲第八年薪的教练加鸡腿在即

国际足球冷雪
2026-02-27 07:13:05
欧足联2025俱乐部收入榜:皇马第1,巴萨第2,前10英超占六席

欧足联2025俱乐部收入榜:皇马第1,巴萨第2,前10英超占六席

懂球帝
2026-02-26 19:50:06
1985年,开国上将萧华弥留之际,提出一个要求:把我的大女婿叫来

1985年,开国上将萧华弥留之际,提出一个要求:把我的大女婿叫来

大运河时空
2026-02-26 08:40:03
继混双之后,女双也再次出局,这一切背后离不开王励勤的战略布局

继混双之后,女双也再次出局,这一切背后离不开王励勤的战略布局

杨哥乒乓
2026-02-26 21:14:51
2026-02-27 09:55:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
146文章数 64关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

魅族手机,终成弃子?

汽车要闻

40岁的吉利,不惑于内外

态度原创

艺术
房产
本地
公开课
军事航空

艺术要闻

莫言获诺贝尔文学奖,争议背后的真相是什么?

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版