从网页截图到精准复刻只需30秒：这个新模型刷新了我的认知|调用|代码|混排|深度思考按钮

从网页截图到精准复刻只需30秒：这个新模型刷新了我的认知

2025-12-08 22:35:29　来源: AI进化论花生

北京举报

分享至

今天，智谱AI正式发布了GLM-4.6V系列模型。

这次发布挺有意思的，我估计很多人都知道GLM前几个月就发布过视觉理解模型4.5V，而4.6V听起来只是4.5V的小性能提升版本。但别被骗了，他们其实搞了个大的——整出了首个支持工具调用的视觉模型。

简单说就是，以前的视觉模型只能「看」和「说」，现在GLM-4.6V不仅能看，还能调用工具去搜索、去截图、去画图。这个能力听起来有点抽象，我测完之后发现，确实有点东西。

他们这次发布了两个版本：GLM-4.6V（106B参数）和GLM-4.6V-Flash（9B参数）。前者是旗舰版，后者是轻量版，都是MIT License开源的。官方说在同等参数规模下，这个模型在20多个多模态评测基准上拿到了SOTA成绩。

但我更关心的是，这玩意儿在实际场景里到底好不好用。所以我找了7件日常会遇到的事情，一个一个测了一遍。

对了，说一下测试环境：我用的是官方开放平台的GLM-4.6V（106B版本），所有测试都是直接在他们的官网z.ai完成的。

测试1：识别澳洲街头的鸟

先说第一个测试，识别澳洲街头的鸟。看我发布这篇文章的IP你就能看出，我最近在澳洲旅居。最近在街上总能看到一种长嘴的白鸟，跟鸽子似的喜欢找人要吃的，但我一直不知道它叫啥，以前在别的国家也从未见过。把照片扔给GLM-4.6V，它很快就告诉我这是澳大利亚白鹮（Australian White Ibis）。

更惊喜的是，它不仅给出了名字，还详细介绍了这种鸟的外观特征、生活习性、分布区域，甚至提到了一个有趣的俚语——澳洲人叫它"bin chickens"（垃圾桶鸡），因为它们特别喜欢在城市垃圾桶里找吃的。这个细节我之前完全不知道，但确实很符合我在街头看到的场景。

测试2：分析赶海地点

第二个测试是分析赶海地点。可能是B站OK哥视频看多了，我最近挺想去赶海抓海胆和螺的，据说悉尼附近有不少海滩能捡到好东西。所以在小红书搜了搜，倒是有不少人分享照片，但很多人都不愿意说具体在哪。我就找了一张赶海照片，问GLM-4.6V能不能推测出可能的地点。

它先分析了图片里的细节：植被类型、岩石特征、地形结构，然后给出了推测——可能是悉尼附近的Bare Island（裸岛）。推理逻辑还挺详细的，比如岩石的形态、海岸线的特征、植被的分布，都和Bare Island的特点吻合。

最让我意外的是，它还自动去搜索了Bare Island的照片，做了对比验证。我肉眼确认了下，确实是这个地方没错了，会推理，还会自己主动做验证，这个过程还挺聪明的。

测试3：OCR识别繁体竖版文字

第三个测试是OCR识别繁体竖版文字。这个需求其实挺常见的，比如看一些繁体书籍或者古籍，排版都是从上到下、从右到左的。传统的OCR工具要么识别不出来，要么顺序全乱了。

我上传了一张繁体竖版文字的图片，要求GLM-4.6V识别并转换成简体中文。结果还不错，它准确识别了文字内容，也正确转换成了简体，而且保持了原文的段落结构。虽然有个别字可能有点小错误，但整体准确率还是挺高的。

测试4：股票技术分析

第四个测试是股票技术分析。我上传了英伟达（NVDA）的K线图，包括MACD、MA10、MA20等技术指标，让GLM-4.6V分析一下技术面情况。

它给出的分析还挺专业的：趋势判断、关键支撑位和阻力位、技术指标分析，还有短期操作建议。比如它指出当前股价在MA5和MA10均线附近，MACD的DIF和DEA在0轴下方，显示空头市场，建议观望或者设好止损点。

虽然分析的深度可能不如专业分析师，但对于普通投资者来说，这个水平的技术分析已经够用了。至少能快速了解当前的趋势和关键位置，不用自己慢慢看图琢磨。

（注：这个测试只是为了用来做测试演示，这个分析结果不代表任何投资建议哈...）

测试5：长文档PDF分析（图文混排惊喜）

第五个测试是长文档PDF分析，这个是最让我惊喜的。我上传了OpenRouter刚发布的《State of AI》报告，这是一份基于100万亿token的实证研究报告，有36页，包含几十个图表。我问了一个挺有针对性的问题："这份报告的哪个图表提到了GLM？里面是怎么描述的，我们从中能看到什么趋势？"

结果出来之后我直接震惊了。GLM-4.6V不仅在36页报告里准确定位到了提到GLM的两个图表，还做了图文混排！它从PDF里截取了Figure 3和Figure 13这两个图表，直接嵌入到回答里，并且详细分析了GLM在开源模型市场份额和工具调用能力方面的表现。

这个功能太实用了。一方面，你能清楚地知道数据从哪来，有图有真相，可信度高。另一方面，这种图文排版的输出，完全可以直接拿来发公众号文章或者做研报，省了大量的复制粘贴和排版时间。

更关键的是，面对这种几十页、几十个图表的长文档，传统方式是你得自己翻完整份报告，找到相关内容，再截图整理。现在GLM-4.6V能自动定位、提取、排版，这效率提升太明显了。

这个图文混排功能真的大大拓宽了模型的使用场景，不仅仅是回答问题，而是能直接生产出可用的内容。

测试6：水果摊图片识别+精准定位

第六个测试是水果摊图片识别。我上传了一张水果摊的照片，要求GLM-4.6V识别图片中的水果，并返回每个水果的英文名在图片中的精准位置坐标（bbox格式）。

它返回了一个JSON格式的结果，包括orange、apple、pineapple等，每个都有对应的坐标。我拿到这个结果之后，又让AI根据这些坐标生成一张带标注框的图片。

结果完全准确！每个水果的标注框都精准地框住了对应的位置，没有错位或者漏标。这个Grounding能力真的太实用了，比如我之前做的拍照学单词App，原来只能识别图片的氛围和场景，去产生相关单词，但不知道具体位置，所以效果大致如下

现在有了这个能力，可以精准标注每个单词的位置，看来我完全可以再升级一般app了。

测试7：前端复刻+多轮调整（国产工具终于能打了）

最后一个测试是前端复刻，这个对我来说太有共鸣了。

说实话，Claude Code、Cursor这些工具早就支持截图生成代码了，我之前也经常用。但问题是，国产模型虽然在纯代码生成能力上追得不错，图像理解能力一直比较偏科。所以在复刻网站这个场景下，国产工具一直没有好的选择，只能继续用国外的工具。

而且对于大多数开发者来说，表达自己想要的设计风格其实挺难的。对于大多数缺乏产品和设计经验的工程师或者vibe coder来说，你很难用文字精确描述自己的需求。

传统的vibe coding（看着设计稿写代码）痛点也很明显：你得仔细看每个元素的位置、颜色、字体、间距，在脑子里转换成CSS代码，写完之后发现和设计稿不一样，又得慢慢调。

之前虽然有一些AI工具能截图生成代码，但效果参差不齐。有的生成的代码一堆占位符，图片全是灰色方块，根本没法用。有的布局还原度不高，生成出来和原图差距很大。更别提多轮交互修改了，基本上每次改动都要重新生成，前后不一致。

我用GLM-4.6V测了一下YouTube首页的复刻。第一步，我上传了YouTube首页的截图，要求生成完整的HTML代码，并且特别强调"图片区域请用真实图片替代，不要用任何占位符"。

结果让我很惊喜。生成的代码不仅布局还原度很高，而且真的没用占位符，所有图片都是真实的网络图片链接。打开浏览器一看，虽然不是100%像素级还原（毕竟YouTube的UI很复杂），但整体结构、配色、排版都非常接近原版。

更厉害的是多轮交互调整。我接着提了第二个要求："请将网站设计调整为夜间主题"。它直接在之前生成的代码基础上做了修改，把背景色、文字颜色、卡片颜色都调整成了深色主题，而且保持了整体布局不变。

这个能力对于快速原型开发、设计稿验证、甚至是日常的网页搭建，都非常实用。以后看到喜欢的网页设计，截个图就能快速复刻出来，省了大量的手写代码时间。

更重要的是，国产工具终于有了一个在图像理解+代码生成这个场景下相当能打的选择。在基础的网页复刻和多轮调整上，GLM-4.6V已经能满足日常需求了。对于更倾向用国产工具的开发者来说，这是个不错的消息。

测完这7件事，我的整体感受是：GLM-4.6V确实有点东西。

先说优点。速度真的快，比我之前用的GPT-5和Gemini 3 Pro都快不少。尤其是处理长文档的时候，128k的上下文窗口确实给力，不用担心文档太长被截断。前端复刻的能力也挺惊喜的，虽然不是100%还原，但生成的前端代码质量比我预期的高。

最让我印象深刻的是Grounding能力，也就是精准定位物体位置。这个能力在实际应用中太有用了，比如我之前做的拍照学单词App，原来只能识别图片里的所有单词，但单词在图片上的位置是乱的。现在有了Grounding，可以精准标注每个单词的位置，用户体验能提升一大截。

工具调用这个能力也确实解决了不少问题。以前用多模态模型，如果需要搜索或者生成图片，得自己写代码去调API，现在模型能自己调工具，省了不少事。

和GPT-5、Gemini 3对比的话，我觉得各有优劣。GPT-5在理解复杂逻辑和生成长文本方面还是更强，Gemini 3的多模态融合做得更自然。但GLM-4.6V的优势在于速度快、开源、工具调用能力强，而且国内访问更稳定。

但也有槽点，比如偶尔会遇见「回复内容为空」的情况，可能是我测试的时候还处在内测阶段，有些不稳定吧，我相信一些细节体验的问题应该能挺快解决的。

如果你是开发者，想做一些多模态应用，GLM-4.6V确实是个不错的选择。尤其是需要处理长文档、做前端复刻、或者需要精准定位物体的场景，这个模型的表现会超出预期。

如果你只是普通用户，想用来处理日常工作，比如分析财报、识别文字、复刻网页，GLM-4.6V也够用，而且速度快体验好。

最后说一下试用方式。官方提供了开放平台（bigmodel.cn），可以直接在线试用。如果想本地部署，GitHub上也有开源代码，支持vLLM、SGLang等推理框架。

对了，智谱在产品设计上还挺用心的。他们在界面上加了一排场景标签，比如「万能识搜」「图文扫描」「文档智读」「视频理解」「智能比价」「数理解题」。一方面是提醒你这个视觉模型到底能帮你做什么，另一方面也能看出他们针对这些主流场景做了专门优化。比如你要读论文、读财报，希望AI帮你写图文混排的分析，选中「文档智读」会有更好的体验。这种产品细节做到位的感觉，还是挺难得的。

如果你有这几个场景的需求的话，现在就可以去他们官网免费试试看-> https://chat.z.ai/

以及，我觉得很好的一点是，如果你是个专业的开发者，或者Vibe Coder，都可以直接通过他们的Coding Plan套餐直接使用他们这次新发布的GLM-4.6V模型，不需要额外付费（顺便说一句，花叔自己是花了真金白银订阅了100元/月的Coding Plan Pro套餐的）。

我之前写过文章介绍他们的Coding Plan，甚至还开发了个让你更方便使用GLM模型去提到Claude的GLM Code，感兴趣的可以去看看我之前的教程：

AI是一门实践的艺术，实际上手的每一次体验都胜过看10篇文章，做100次解读的。

都看到这了，如果觉得内容对你有帮助的话，欢迎点赞、在看、关注，以及转发给你需要的朋友。哦对了，你也可以通过点击「阅读原文」去看看上面提到的GLM Coding Plan套餐。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.