今天,智谱AI正式发布了GLM-4.6V系列模型。
这次发布挺有意思的,我估计很多人都知道GLM前几个月就发布过视觉理解模型4.5V,而4.6V听起来只是4.5V的小性能提升版本。但别被骗了,他们其实搞了个大的——整出了首个支持工具调用的视觉模型。
简单说就是,以前的视觉模型只能「看」和「说」,现在GLM-4.6V不仅能看,还能调用工具去搜索、去截图、去画图。这个能力听起来有点抽象,我测完之后发现,确实有点东西。
他们这次发布了两个版本:GLM-4.6V(106B参数)和GLM-4.6V-Flash(9B参数)。前者是旗舰版,后者是轻量版,都是MIT License开源的。官方说在同等参数规模下,这个模型在20多个多模态评测基准上拿到了SOTA成绩。
![]()
但我更关心的是,这玩意儿在实际场景里到底好不好用。所以我找了7件日常会遇到的事情,一个一个测了一遍。
对了,说一下测试环境:我用的是官方开放平台的GLM-4.6V(106B版本),所有测试都是直接在他们的官网z.ai完成的。
测试1:识别澳洲街头的鸟
![]()
先说第一个测试,识别澳洲街头的鸟。看我发布这篇文章的IP你就能看出,我最近在澳洲旅居。最近在街上总能看到一种长嘴的白鸟,跟鸽子似的喜欢找人要吃的,但我一直不知道它叫啥,以前在别的国家也从未见过。把照片扔给GLM-4.6V,它很快就告诉我这是澳大利亚白鹮(Australian White Ibis)。
![]()
更惊喜的是,它不仅给出了名字,还详细介绍了这种鸟的外观特征、生活习性、分布区域,甚至提到了一个有趣的俚语——澳洲人叫它"bin chickens"(垃圾桶鸡),因为它们特别喜欢在城市垃圾桶里找吃的。这个细节我之前完全不知道,但确实很符合我在街头看到的场景。
测试2:分析赶海地点
![]()
第二个测试是分析赶海地点。可能是B站OK哥视频看多了,我最近挺想去赶海抓海胆和螺的,据说悉尼附近有不少海滩能捡到好东西。所以在小红书搜了搜,倒是有不少人分享照片,但很多人都不愿意说具体在哪。我就找了一张赶海照片,问GLM-4.6V能不能推测出可能的地点。
它先分析了图片里的细节:植被类型、岩石特征、地形结构,然后给出了推测——可能是悉尼附近的Bare Island(裸岛)。推理逻辑还挺详细的,比如岩石的形态、海岸线的特征、植被的分布,都和Bare Island的特点吻合。
![]()
最让我意外的是,它还自动去搜索了Bare Island的照片,做了对比验证。我肉眼确认了下,确实是这个地方没错了,会推理,还会自己主动做验证,这个过程还挺聪明的。
测试3:OCR识别繁体竖版文字
![]()
第三个测试是OCR识别繁体竖版文字。这个需求其实挺常见的,比如看一些繁体书籍或者古籍,排版都是从上到下、从右到左的。传统的OCR工具要么识别不出来,要么顺序全乱了。
![]()
我上传了一张繁体竖版文字的图片,要求GLM-4.6V识别并转换成简体中文。结果还不错,它准确识别了文字内容,也正确转换成了简体,而且保持了原文的段落结构。虽然有个别字可能有点小错误,但整体准确率还是挺高的。
测试4:股票技术分析
![]()
第四个测试是股票技术分析。我上传了英伟达(NVDA)的K线图,包括MACD、MA10、MA20等技术指标,让GLM-4.6V分析一下技术面情况。
![]()
它给出的分析还挺专业的:趋势判断、关键支撑位和阻力位、技术指标分析,还有短期操作建议。比如它指出当前股价在MA5和MA10均线附近,MACD的DIF和DEA在0轴下方,显示空头市场,建议观望或者设好止损点。
虽然分析的深度可能不如专业分析师,但对于普通投资者来说,这个水平的技术分析已经够用了。至少能快速了解当前的趋势和关键位置,不用自己慢慢看图琢磨。
(注:这个测试只是为了用来做测试演示,这个分析结果不代表任何投资建议哈...)
测试5:长文档PDF分析(图文混排惊喜)
![]()
第五个测试是长文档PDF分析,这个是最让我惊喜的。我上传了OpenRouter刚发布的《State of AI》报告,这是一份基于100万亿token的实证研究报告,有36页,包含几十个图表。我问了一个挺有针对性的问题:"这份报告的哪个图表提到了GLM?里面是怎么描述的,我们从中能看到什么趋势?"
![]()
结果出来之后我直接震惊了。GLM-4.6V不仅在36页报告里准确定位到了提到GLM的两个图表,还做了图文混排!它从PDF里截取了Figure 3和Figure 13这两个图表,直接嵌入到回答里,并且详细分析了GLM在开源模型市场份额和工具调用能力方面的表现。
![]()
这个功能太实用了。一方面,你能清楚地知道数据从哪来,有图有真相,可信度高。另一方面,这种图文排版的输出,完全可以直接拿来发公众号文章或者做研报,省了大量的复制粘贴和排版时间。
更关键的是,面对这种几十页、几十个图表的长文档,传统方式是你得自己翻完整份报告,找到相关内容,再截图整理。现在GLM-4.6V能自动定位、提取、排版,这效率提升太明显了。
这个图文混排功能真的大大拓宽了模型的使用场景,不仅仅是回答问题,而是能直接生产出可用的内容。
测试6:水果摊图片识别+精准定位
![]()
第六个测试是水果摊图片识别。我上传了一张水果摊的照片,要求GLM-4.6V识别图片中的水果,并返回每个水果的英文名在图片中的精准位置坐标(bbox格式)。
![]()
它返回了一个JSON格式的结果,包括orange、apple、pineapple等,每个都有对应的坐标。我拿到这个结果之后,又让AI根据这些坐标生成一张带标注框的图片。
![]()
结果完全准确!每个水果的标注框都精准地框住了对应的位置,没有错位或者漏标。这个Grounding能力真的太实用了,比如我之前做的拍照学单词App,原来只能识别图片的氛围和场景,去产生相关单词,但不知道具体位置,所以效果大致如下
![]()
现在有了这个能力,可以精准标注每个单词的位置,看来我完全可以再升级一般app了。
测试7:前端复刻+多轮调整(国产工具终于能打了)
![]()
最后一个测试是前端复刻,这个对我来说太有共鸣了。
说实话,Claude Code、Cursor这些工具早就支持截图生成代码了,我之前也经常用。但问题是,国产模型虽然在纯代码生成能力上追得不错,图像理解能力一直比较偏科。所以在复刻网站这个场景下,国产工具一直没有好的选择,只能继续用国外的工具。
而且对于大多数开发者来说,表达自己想要的设计风格其实挺难的。对于大多数缺乏产品和设计经验的工程师或者vibe coder来说,你很难用文字精确描述自己的需求。
传统的vibe coding(看着设计稿写代码)痛点也很明显:你得仔细看每个元素的位置、颜色、字体、间距,在脑子里转换成CSS代码,写完之后发现和设计稿不一样,又得慢慢调。
之前虽然有一些AI工具能截图生成代码,但效果参差不齐。有的生成的代码一堆占位符,图片全是灰色方块,根本没法用。有的布局还原度不高,生成出来和原图差距很大。更别提多轮交互修改了,基本上每次改动都要重新生成,前后不一致。
我用GLM-4.6V测了一下YouTube首页的复刻。第一步,我上传了YouTube首页的截图,要求生成完整的HTML代码,并且特别强调"图片区域请用真实图片替代,不要用任何占位符"。
![]()
结果让我很惊喜。生成的代码不仅布局还原度很高,而且真的没用占位符,所有图片都是真实的网络图片链接。打开浏览器一看,虽然不是100%像素级还原(毕竟YouTube的UI很复杂),但整体结构、配色、排版都非常接近原版。
![]()
更厉害的是多轮交互调整。我接着提了第二个要求:"请将网站设计调整为夜间主题"。它直接在之前生成的代码基础上做了修改,把背景色、文字颜色、卡片颜色都调整成了深色主题,而且保持了整体布局不变。
![]()
这个能力对于快速原型开发、设计稿验证、甚至是日常的网页搭建,都非常实用。以后看到喜欢的网页设计,截个图就能快速复刻出来,省了大量的手写代码时间。
更重要的是,国产工具终于有了一个在图像理解+代码生成这个场景下相当能打的选择。在基础的网页复刻和多轮调整上,GLM-4.6V已经能满足日常需求了。对于更倾向用国产工具的开发者来说,这是个不错的消息。
测完这7件事,我的整体感受是:GLM-4.6V确实有点东西。
先说优点。速度真的快,比我之前用的GPT-5和Gemini 3 Pro都快不少。尤其是处理长文档的时候,128k的上下文窗口确实给力,不用担心文档太长被截断。前端复刻的能力也挺惊喜的,虽然不是100%还原,但生成的前端代码质量比我预期的高。
最让我印象深刻的是Grounding能力,也就是精准定位物体位置。这个能力在实际应用中太有用了,比如我之前做的拍照学单词App,原来只能识别图片里的所有单词,但单词在图片上的位置是乱的。现在有了Grounding,可以精准标注每个单词的位置,用户体验能提升一大截。
工具调用这个能力也确实解决了不少问题。以前用多模态模型,如果需要搜索或者生成图片,得自己写代码去调API,现在模型能自己调工具,省了不少事。
和GPT-5、Gemini 3对比的话,我觉得各有优劣。GPT-5在理解复杂逻辑和生成长文本方面还是更强,Gemini 3的多模态融合做得更自然。但GLM-4.6V的优势在于速度快、开源、工具调用能力强,而且国内访问更稳定。
但也有槽点,比如偶尔会遇见「回复内容为空」的情况,可能是我测试的时候还处在内测阶段,有些不稳定吧,我相信一些细节体验的问题应该能挺快解决的。
![]()
如果你是开发者,想做一些多模态应用,GLM-4.6V确实是个不错的选择。尤其是需要处理长文档、做前端复刻、或者需要精准定位物体的场景,这个模型的表现会超出预期。
如果你只是普通用户,想用来处理日常工作,比如分析财报、识别文字、复刻网页,GLM-4.6V也够用,而且速度快体验好。
最后说一下试用方式。官方提供了开放平台(bigmodel.cn),可以直接在线试用。如果想本地部署,GitHub上也有开源代码,支持vLLM、SGLang等推理框架。
对了,智谱在产品设计上还挺用心的。他们在界面上加了一排场景标签,比如「万能识搜」「图文扫描」「文档智读」「视频理解」「智能比价」「数理解题」。一方面是提醒你这个视觉模型到底能帮你做什么,另一方面也能看出他们针对这些主流场景做了专门优化。比如你要读论文、读财报,希望AI帮你写图文混排的分析,选中「文档智读」会有更好的体验。这种产品细节做到位的感觉,还是挺难得的。
![]()
如果你有这几个场景的需求的话,现在就可以去他们官网免费试试看-> https://chat.z.ai/
以及,我觉得很好的一点是,如果你是个专业的开发者,或者Vibe Coder,都可以直接通过他们的Coding Plan套餐直接使用他们这次新发布的GLM-4.6V模型,不需要额外付费(顺便说一句,花叔自己是花了真金白银订阅了100元/月的Coding Plan Pro套餐的)。
![]()
我之前写过文章介绍他们的Coding Plan,甚至还开发了个让你更方便使用GLM模型去提到Claude的GLM Code,感兴趣的可以去看看我之前的教程:
AI是一门实践的艺术,实际上手的每一次体验都胜过看10篇文章,做100次解读的。
都看到这了,如果觉得内容对你有帮助的话,欢迎点赞、在看、关注,以及转发给你需要的朋友。哦对了,你也可以通过点击「阅读原文」去看看上面提到的GLM Coding Plan套餐。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.