作者|子川
来源|AI先锋官
智谱又开源了!
两周前,智谱把 GLM-4.5 系列砸向开源圈。
时隔不久,就在两天前,智谱再次宣布开源其最新一代的视觉理解模型——GLM-4.5V。
这是一个视觉能力强悍的多模态推理模型。
根据官方介绍,该模型基于 GLM-4.5-Air 训练,拥有 1060 亿参数和 120 亿激活参数。
先来看一下它的纸面实力。
根据官方发布的技术细节,在 41 个公开的视觉多模态榜单上,GLM-4.5V 的表现在同尺寸模型中最佳,超越了 Step-3、Qwen2.5-VL 等模型。
![]()
同时,GLM-4.5V还参与了拍图猜地点积分赛,最终GLM-4.5V的积分排到了该赛事网站的第66名,超越了99%的人类用户。
![]()
那它的实际效果到底如何?有介绍的那么厉害吗?老规矩,我们来测一测。
实测一:复现前端页面
发布会上有提到,GLM-4.5V 可以根据网页录屏或截图来复现前端代码。
我们上传一张抖音的截图,让它 1:1 复刻一个一模一样的页面。
![]()
生成的效果是这样式的。
![]()
一眼看过去,页面上几乎所有的功能,如登录、点赞、收藏等按钮,都被复制粘”过来了。
但缺点也很明显:每个功能模块之间的距离没有把控好,更多 UI 细节没能还原,看起来有点丑(当然,这已经很强了)。
为了测试 GLM-4.5V 的极限,我们还让它 1:1 复刻一个功能入口极其繁多的淘宝首页。
![]()
从结果来看,这似乎是把它难住了。
这次它没能把所有的文本信息都复制过来,缺失了一部分功能,比如“淘宝直播”、“88VIP”等模块就没有看到。
![]()
实测二:文字识别
接下来,我们测试了它的文字识别能力。我们上传了一张发票,并要求它提取所有关键信息。
提示词:请提取这张照片的内容,其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校 验 码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地 址、电 话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单 位’、‘数 量’、‘单 价’、‘金 额’、‘税率’、‘税 额’、‘价税合计(大写)’、‘价税合计(小写)’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地 址、电 话’、‘销售方地 址、电 话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息,返回的结果信息以json格式返回
![]()
这一次,GLM-4.5V 表现堪称完美,准确识别并提取出所有的文字信息。
![]()
实测三:图像识别与查找
为了测试 GLM-4.5V 的图像识别能力,我们让它玩起了“找东西”游戏。
比如让它找寻图片中有几个“3”。
![]()
GLM-4.5V很快答案,并且准确地在图中标注了出来。
![]()
升级一下难度,让它在一堆熊猫中寻找一个足球。
说实话,如果不是提前知道答案,小编也很难快速找到。
![]()
尽管比较复杂,但还是很快就找到了。
![]()
实测4:地理定位
这个测试怎么能少的得了看图识位置呢。
上传一张小编之前去玩时拍的照片,让它猜猜这是哪儿。
![]()
回答正确!它很快就识别出这是深圳的“湾区之光”摩天轮。
![]()
不过,考虑到这个摩天轮还算比较出名,可能没什么挑战性。再换一张小众点的风景照试试。
![]()
这次 GLM-4.5V 就没能准确识别了,它推测这里可能是日本冈山县牛窗地区的某个海滨。
而正确答案其实是:深圳。
![]()
目前该模型可以直接在z.ai或智谱清言体验。
同时GitHub、Hugging Face、魔搭社区均已上架,甚至贴心地提供了FP8量化版,大家感兴趣,可以去试玩一番。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.