网易首页 > 网易号 > 正文 申请入驻

重磅!今年最好的开源9B/106B视觉模型,出现了

0
分享至

大家好,我是袋鼠帝。

我发现智谱今年下半年是真滴猛。

从7月份那个超强的10B视觉小模型GLM-4.1V-Thinking,再到后来的GLM-4.5V,以及10月编程、Agent领域的GLM-4.6,每一款都打在了我的心巴上。

本来以为到了年底,大家都在忙着做年终总结,没什么新东西了。

没想到,智谱反手又卷起来了..


刚刚,智谱开源了他们最强的视觉模型:GLM-4.6V

让我兴奋的是,这次一口气开源了两个尺寸:一个是106B的GLM-4.6V,另一个是9B的GLM-4.6V-Flash(消费级显卡就能本地部署)。

在同参数量级下,多模态交互、逻辑推理、长上下文能力都取得了SOTA(State Of The Art,目前最强)。

太卷了,貌似现在不是SOTA都不好意思发布..


GLM-4.6V支持128k上下文窗口,可以一次性处理约150页PDF、200页PPT、近一小时的关键帧序列。

不仅支持多模态输入,还可以多模态输出(图文并茂)

除了视觉能力强,还有工具调用能力,在z.ai集成了四种工具


一图胜千言(来自朋友:@甲木,真好用)


体验下来,我的感觉是:如果你想在本地玩视觉模型,这就是目前的版本答案。

9B的GLM-4.6V-Flash,意味着你不需要那种动辄几十万的专业GPU,哪怕是你家里的游戏本,或者是公司配的消费级显卡,都能随便跑起来。

整体表现超过Qwen3-VL-8B

这对于很多注重数据隐私,或者需要在边缘设备上部署AI的企业来说,还是比较香的。

我前段时间去杭州给一家国企做培训,参观了他们的生产车间。在那儿,我看到了一个特别接地气的AI落地场景

他们在产品流水线的末端,装了个摄像头和传感器。

每当包装好的纸箱传送过来,摄像头就会咔嚓拍一张,然后传给旁边的一台普通电脑。电脑里跑着一个视觉模型,专门负责检查这个纸箱有没有破损,胶带封没封好。

大概是下面这种场景(网图)


当时他们用的是阿里的一个小模型。我问了效果,负责人表示,虽然能用,但误判率还是不低。一些好好的箱子,也被AI判成了破损,导致工人还得去复核,挺折腾的。

现在就可以换成GLM-4.6V-Flash试试。同参数量下的SOTA,意味着在同样的硬件条件下,它的性能会更好,准确度也会提升。

106B的GLM-4.6V,说大不大,说小也不小。它不像DeepSeek R1那种671B的巨无霸,除了大厂,没几个企业能私有化部署得起。106B,属于那种努努力,够一够,还是能玩得起的。

如果你对性能有要求,又必须把数据掌握在自己手里,那这个106B的版本,是一个现阶段完美的平衡点。

上次我在成都遇到OneOneTalk的彭总,他就在用一台2万多的华硕本,本地跑了一个120B的开源模型:gpt‑oss‑120b

就是下面这台性能猛兽


当然,如果你不在乎数据上云,直接调智谱的API,速度和体验会更好。

目前GLM-4.6V可以在z.ai上使用,也能以MCP的形式接入Agent使用(做本地Agent的眼睛)

还能接入Claude Code当作基模使用。

比如我接入Claude Code之后,让它执行了复杂的多平台价格对比,条件筛选商品的任务。

完成得很好:

GLM-4.6V开源地址汇总,方便大家直达:

GitHub:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区:

https://modelscope.cn/collections/GLM-46V-37fabc27818446

我也第一时间在z.ai上,测试了GLM-4.6V:

之前一直有个难题,就是在那种大合照里,识别出某个人的位置。我试过很多模型,甚至包括Gemini 3,效果都不咋地。


我明明在第一排,从左往右数的第三个。

我同样把上次昆明Trae活动的大合照,加上一张我的自拍照,一起扔给了GLM-4.6V。


结果,GLM-4.6V居然准确的找到了我!这还让我蛮惊讶的。

这对于以后做智能相册管理,或者安防监控领域来说,太有用了。

z.ai里面还有一个Image Research功能,对我来说挺实用的。

我写公众号的时候,经常需要找各种配图、或者封面图。以前我都是去Google各种搜图,有时候搜出来的图很多都不是我想要的。

这次我让它帮我搜几张关于GEO(Generative Engine Optimization)生成式引擎优化的图片。


它搜出来的图,非常精准,质量高。

其中一张,正好就是我上一篇GEO的文章用到的封面图。

以后我的封面图工作流又要升级了(增加一个环节)。

用NanoBanana Pro生成创意图的同时,用GLM-4.6V搜图,最后我只负责选。

说到搜图,这次的GLM-4.6V还能直接产出图文并茂的文章

这得益于它的工具调用能力

比如我让它生成北京旅游的推文

解读GEO的PDF论文(论文PDF中的图片也会被它插入到正确的位置)


上次不是写了一篇飞书多维表格的教程嘛,在评论区看到,还是有一些朋友不清楚怎么调用的NanoBanana Pro API

我给大家演示一下, 你只需要把不懂的部分截图,丢给GLM-4.6V,它就能帮你把散落在5张图的API请求,按照想要的形式组装起来了。



然后我还把一直贴着我车头停车(可能只差0.5cm就碰到了)的红车丢给了它..



有高手能评论区教一下怎么才能停成这样吗??我每次离别人车还有30cm就不敢继续靠近了..

除了黑车品牌没有猜对,其他都对了,挺强的。

上次车停在车位被剐蹭了,去调监控,花了几个小时终于把逃逸者找到了..

我把最后的维修单丢给GLM-4.6V识别



经过我的逐字检查,准确率非常高,大概是99.9%

它还能识别影帝的情绪~

渣渣辉封神片段:你知道我这五年怎么过的吗?


剧情、情绪的变化都识别的相当nice。而且非常细节,角色湿润的眼眶都识别到了。

除了在z.ai使用,GLM-4.6V还可以接入Claude Code

也可以把GLM-4.6V通过MCP的方式,接入Claude Code。

接入Claude Code,可以参考官方文档:

https://docs.bigmodel.cn/cn/guide/develop/claude

或者直接修改Claude的settings.json配置文件:

}

配置好之后,重启Claude,你就拥有了一个有手有眼的本地Agent啦~

既然有手有眼了,那就让它干点实事儿。

我给这个本地Agent布置了一个较复杂的任务:使用playwright MCP,通过浏览器查找,进行产品的全网比价,提示词如下:

Prompt:全程使用playwright MCP工具。先在淘宝上找一款半入耳式蓝牙耳机,价格在500-1000元之间。找到销量第一的那款。然后,拿着这款耳机的型号,去唯品会和京东比价,找到最便宜的那个平台,并把它加到我的购物车里。

这个任务,涉及到了多平台的网页浏览、视觉识别(看价格、看型号)、逻辑判断(比大小)和操作执行,对于现阶段的所有视觉大模型来说,都是一个挑战。

GLM-4.6V负责看网页信息,Claude Code负责任务的调度。两者配合,居然真的把这个复杂的流程给跑通了。

美中不足的是漏掉了筛选价格区间的操作,但其余的任务几乎完美实现。

在淘宝找销量第一的半入耳式蓝牙耳机,以及跟唯品会、京东同款耳机比价,最后把价格最划算的商品都加入了购物车



我觉得虽然GLM-4.6V可以写代码,但是它的代码能力还是会比GLM-4.6差一些

所以我决定让它在Claude Code里面做GLM-4.6的眼睛

也就是作为MCP-Server使用

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=你的智谱apikey -- npx -y "@z_ai/mcp-server"

在settings.json里面把模型换回glm-4.6即可

既然有了眼睛,那复刻网页就不用我费劲去描述了。

Prompt:使用zai-mcp-server分析当前目录下的视频,分析视频中的网站的页面、交互、动效,然后1:1复刻视频中的网站

原网站效果

复刻后的效果

GLM-4.6V负责识别视频,GLM-4.6负责生成高质量的前端代码。

网页复刻得还不错,至少这个卡片飞来飞去的效果有了,整体交互和动效都有原视频的影子。要想一次性百分百还原是很难的,毕竟原视频的动效太棒了。

GLM-4.6V虽然在极致的视觉能力上,它可能还略逊于Gemini 3这种顶级模型。但别忘了,它只有106B。

对于想要私有化部署的企业来说,这是一个够一够就能得着的高性价比选项。

而对于个人开发者,9B的Flash版本够我们在本地免费使用了。

不过,我心里也有个小疑问:为什么智谱不直接把视觉能力融合进GLM-4.6里,要分拆成两个模型呢?有没有懂的朋友在评论区给我科普一下?

我猜可能是为了更灵活的部署和更低的推理成本?

顺便说一下,行业+AI,才能真正释放AI的生产力。

懂业务的朋友,真的建议多学学怎么用好这些AI模型。

当你能把业务痛点和模型能力对接上的那一刻,效率的提升,绝对是指数级的。

补充:GLM-4.6和GLM-4.6V都在Coding Plan的使用范围内

能看到这里的都是凤毛麟角的存在!

如果觉得不错,随手点个赞、在看、转发三连吧~

如果想第一时间收到推送,也可以给我个星标⭐

谢谢你耐心看完我的文章~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第16波打击来了,美航母开始后撤,伊朗犯下大错,以色列致电中国

第16波打击来了,美航母开始后撤,伊朗犯下大错,以色列致电中国

东极妙严
2026-03-04 10:41:07
官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

老沮系戏精北鼻
2026-01-08 11:59:03
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
哈梅内伊继任者也死了?以色列准备开放领空、股市大涨

哈梅内伊继任者也死了?以色列准备开放领空、股市大涨

历史总在押韵
2026-03-02 22:56:03
2292 万台 卖爆!中国超高端市场 iPhone 17 一骑绝尘!

2292 万台 卖爆!中国超高端市场 iPhone 17 一骑绝尘!

EETOP半导体社区
2026-03-02 12:16:51
7场换了5个左边锋!曼联左路真空,急需真神归位

7场换了5个左边锋!曼联左路真空,急需真神归位

乐道足球
2026-03-04 09:50:14
发现没有,凡是家里干干净净的,日子过得往往都——差不了!

发现没有,凡是家里干干净净的,日子过得往往都——差不了!

家居设计师宅哥
2026-03-03 08:00:03
金融美女高管沉迷小鲜肉,威逼利诱让他献身,丈夫抓奸场面太炸裂

金融美女高管沉迷小鲜肉,威逼利诱让他献身,丈夫抓奸场面太炸裂

离离言几许
2026-03-03 15:53:07
以袭击伊最高领袖选举会场,战事向中东多国外溢,最新动态→

以袭击伊最高领袖选举会场,战事向中东多国外溢,最新动态→

极目新闻
2026-03-04 08:06:30
67岁上海退休老干部,骂33岁河南务工者“小赤佬”,被榔头打死

67岁上海退休老干部,骂33岁河南务工者“小赤佬”,被榔头打死

谈史论天地
2026-03-03 12:27:36
这一次,伊朗领导人的惨痛遭遇,再一次印证了毛主席的高瞻远瞩

这一次,伊朗领导人的惨痛遭遇,再一次印证了毛主席的高瞻远瞩

梦史
2026-03-02 11:21:33
悲催!单亲爸爸打铁花成网红后中毒去世,留下2个人未成年孩子

悲催!单亲爸爸打铁花成网红后中毒去世,留下2个人未成年孩子

恪守原则和底线
2026-03-04 06:00:03
农村精智障女性被逼婚?委员建议来了

农村精智障女性被逼婚?委员建议来了

中国新闻周刊
2026-03-03 19:30:16
CBA最应该在国家队的两名球员!一人得罪郭士强,一人触碰底线

CBA最应该在国家队的两名球员!一人得罪郭士强,一人触碰底线

阅微札记
2026-03-03 19:19:50
詹姆斯被联盟哄抢!继哈登和米切尔招募后,库里和格林也要招募!

詹姆斯被联盟哄抢!继哈登和米切尔招募后,库里和格林也要招募!

氧气是个地铁
2026-03-03 17:07:43
重返女篮?李梦回归不是妥协,女篮真正刚需终于曝光

重返女篮?李梦回归不是妥协,女篮真正刚需终于曝光

卿子书
2026-03-04 09:02:50
“伊朗被渗透成筛子”背后:美以成功诱导伊朗年轻人认知撕裂

“伊朗被渗透成筛子”背后:美以成功诱导伊朗年轻人认知撕裂

郎言志
2026-03-03 16:58:45
全国人大代表、黑龙江省委书记许勤给人民网网友回信

全国人大代表、黑龙江省委书记许勤给人民网网友回信

金台资讯
2026-03-03 17:39:51
8年谜团终破!张柏芝三胎生父线索曝光,最大赢家是被冤的谢霆锋

8年谜团终破!张柏芝三胎生父线索曝光,最大赢家是被冤的谢霆锋

秋姐居
2026-03-03 17:48:27
黄金交易提醒:中东大战愈演愈烈!黄金竟暴跌4.4%,但它才是2026年最狠的“躺赢王”?

黄金交易提醒:中东大战愈演愈烈!黄金竟暴跌4.4%,但它才是2026年最狠的“躺赢王”?

汇通网
2026-03-04 07:33:03
2026-03-04 11:16:49
袋鼠帝 incentive-icons
袋鼠帝
持续分享AI实践干货,走超级个体崛起之路
53文章数 52关注度
往期回顾 全部

科技要闻

新MacBook Pro首发M5 Pro/Max芯片 17999起

头条要闻

牛弹琴:伊朗选出新的最高领袖 一个更不可能妥协的人

头条要闻

牛弹琴:伊朗选出新的最高领袖 一个更不可能妥协的人

体育要闻

“头铁”拼图在NBA也有生存环境

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

伊朗,正在打破特朗普的幻想

汽车要闻

比亚迪元PLUS遭导弹袭击 车辆未起火/乘员均生还

态度原创

房产
艺术
本地
公开课
军事航空

房产要闻

400组,30套!聚亿·椰海锦程为何能在春节火出圈?

艺术要闻

2025“情系塔里木”美术作品展

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版