网易首页 > 网易号 > 正文 申请入驻

41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

0
分享至

新智元报道

编辑:定慧

【新智元导读】智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V,在42个公开榜单中41项夺得SOTA!其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

这半年,多模态大模型已经成为各家的标配,但似乎功能都有点趋同,玩起来都有点腻了。

不过,今晚智谱最新开源的GLM-4.5V视觉推理模型,带来了非常多的惊喜!

两周前,智谱发布GLM-4.5,这个融合ARC(Agentic、Reasoning、Coding)能力的模型获得非常高的关注。

取得了全球模型第三、国产模型第一,开源模型第一的成绩!

智谱这次乘胜追击!在GLM-4.5基座之上进一步训练出100B级别最强开源多模态模型,成功在多模态赛道上占据一席之地。

GLM-4.5V「看懂世界」的方式,是真的有点东西,而且在智谱最近新推出的z.ai的平台上,升级了很多视觉多模态的全新玩法

比如这次更新后,GLM-4.5V可以玩看图猜地址GeoGuessr游戏,而且准确率非常高。

我们试了三次,每次的国家和大洲都非常准确,不过具体经纬度可能还需抽卡。

下面是其中一次测试,GLM-4.5V可以找到画面中的关键元素,配合地理风格、建筑风格等来推理出正确结论。

值得一提的是,智谱还派出GLM-4.5V参加了国内的图寻游戏挑战,和国内最顶尖的两万多名人类玩家真实对战。

目前智谱已经在全球排名66,而其他都是人类选手。

智谱这次更新的另一个玩法就是Grounding能力,GLM-4.5V眼神太好,可以在清明上河图中找到三匹马(左上角角落),并在图中做出标识。

GLM-4.5V不仅眼神好,还能理解视频,而代码能力又沿袭了它的基座模型GLM-4.5,两者相加「涌现」出一种全新能力

那就是,通过直接上传视频也能复刻网站!

神奇之处在于,GLM-4.5V完全没有训练过「看视频」前端网页复刻,这个意外发现体现了GLM-4.5很强的泛化能力。

我们录了一个Github的网站视频。

GLM-4.5V竟然也可以复刻个七七八八。

下图左边是原版,右边是复刻,大体框架没有问题,有个别按钮的位置,以及时间线组件被修改为列表等小问题。

在实测中,我们发现,不论是GeoGuessr看图挑战、空间关系理解、复杂图表推理、OCR识别、做题,甚至可以理解视频等各个方面,GLM-4.5V的表现都远超预期。

GLM-4.5V一手实测

GLM-4.5V基于智谱发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用了GLM-4.1V-Thinking的结构。

其中,GLM-4.1V-Thinking 7月上线后就登上了HuggingFace Trending第一,模型已获得累计超过13万次下载。

Github:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

魔搭社区:

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

GLM-4.1V-Thinking是一个小参数模型,而全新的GLM-4.5V拥有106B总参数,12B的激活参数。

可以说,GLM-4.5V是100B参数这个「重量级」的SOTA标杆,现已经登录官网。

GLM-4.5V实测了42个公开视觉多模态榜单,在其中41个榜单达到同级别开源模型SOTA性能,涵盖图像、视频、文档理解以及GUIAgent等常见任务。

GLM-4.5V这次升级了很多玩法,实现全场景视觉推理覆盖,比如:

  • 图像推理(场景理解、复杂多图分析、位置识别)

  • 视频理解(长视频分镜分析、事件识别)

  • GUI任务(屏幕读取、图标识别、桌面操作辅助)

  • 复杂图表与长文档解析(研报分析、信息提取)

  • Grounding能力(精准定位视觉元素)

此次更新,模型新增「思考模式」开关,可以自行决定是否启用推理功能。

体验网站:https://chat.z.ai/

此外,继上次GLM-4.5「V50包月」活动,这次GLM-4.5V为企业与开发者提供高性价比的多模态AI解决方案:

  • API调用价格:低至输入2元/M tokens,输出6元/M tokens

  • 响应速度:达到60-80tokens/s

  • API接口文档:http://docs.bigmodel.cn/api-reference

GLM-4.5V API现已上线智谱开放平台BigModel.cn,智谱为所有新老用户准备了2000万Tokens的免费资源包。

领取链接:

https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv

精准识别和定位目标物体

GLM-4.5V能够从图片中理解并识别出具体的目标的物体。

可以在界面上直接选择Grounding模式,传入图片和提示词即可。

比如上传了一张AI随机生成的图片,GLM-4.5V的推理能力可以从图片中准确识别出「非现实」的物体,就是红框中看着像昆虫的洒水机器人。

简单介绍下Grounding能力,在计算机视觉与多模态任务中,Grounding能力指的是模型将自然语言中的词语或短语,精确地与图像中的具体区域或对象建立对应关系的能力。

它不仅要求模型能「看懂」图片,也能「读懂」文字,并在两者之间建立准确的语义—视觉映射

较知名的Flickr30k Entities数据集

并且GLM-4.5V的Grounding的能力还附带了「推理魔法」。

比如下面这张《我,机器人》剧照中,有一个机器人明显看着比其他机器人更有灵魂。

GLM-4.5V一下子就找到了!这确实很令人惊讶,4.5V的视觉能力已经可以理解表情了。

而且你仔细看这个Grounding的Box,完全贴着右下角的机器人,即使是胳膊部分也几乎相切,确实有点东西。

看图猜地址

除了可以在GeoGuessr中玩,GLM-4.5V这次还可以通过随机照片来推理地址。

比如上传一张照片,GLM-4.5V能通过建筑特征来识别照片是在哪里拍摄的。

这个推理结果和GPT-5 Pro结果相同。

甚至在描述判断逻辑方面,GLM-4.5V看起来更胜一筹,因为模型不仅注意到建筑风格,还从门牌号上识别到北欧古典建筑。

视频理解能力

这次GLM-4.5V另一个重大更新就是视频理解。

类似这种超现实主义的视频,GLM-4.5V也能完全get到视频中的重点元素和隐喻含义。

它甚至识别出了特斯拉Cybertruck。

或者像这种偏重于抽象的视频,GLM-4.5V也能理解,并且可以给出非常深度的解释。

宇宙、人类、精神、灵魂、科技、艺术,GLM-4.5V还是真的大超预期。

空间关系理解

视觉能力中,有一项很重要的空间理解能力,比如这个包含常见物体空间关系图。

我们随机给关系打上马赛克,然后让GLM-4.5V来定义物体的空间关系。

单箭头的情况下,多次测试GLM-4.5V每次都可以判断正确,正确率100%。

多个箭头的情况下,会有偶尔的识别出现失误,比如应该是Behind的情况会识别为旁边。

但整体模型在空间理解上,来的一个新的高度。

前端能力:UI到Code

这次GLM-4.5V更新的另一大看点是可以通过UI界面直接转化为Code。

比如我们用GLM-4.5V的官网截图制作了一个「它自己」。

不得不说,GLM-4.5V编程能力确实很强,做出来的网站一模一样,甚至连左侧的Emoji都带上了,画面比例和UI风格也做到了1:1复刻。

图像识别能力

有名的Magic Eye测试图片集,GLM-4.5V也能准确识别,比如下图这种多种鱼类拼凑的重复画面。

GLM-4.5V甚至可以定位到「橙色带条纹」,肉眼想看的话,还是需要放大并且仔细观察的。

视觉模型的「数数」能力

再来一个世界模型经常遇到的「数数」问题,模型需要识别图片中的物体种类和数量。

这些问题对于人类来说很简单,但是对于VLM就没那么容易了。

在这种「目标搜索」任务中VLM的表现,会随着场景里目标数量的增多而迅速下降。

GLM-4.5V准确的识别到松饼和羊,并且完成了左上、左下和右上的数量识别。

右下人类也很难数得清,但GLM-4.5V表示他数了个大概,非常拟人了,这里的处理几乎可以说得上完美。

以上实测并不是测试的全部,但是GLM-4.5V除了能力很强外,最大的特点是又快又好玩,基本上很多任务都是秒出。

而且更有意思的是,每个任务都会自动匹配一个题目+一个Emoji,这代表模型真正的理解了任务的核心。

很多Emoji配的都无比形象,这在其他很多产品中都没有这个功能。

技术创新

开头我们介绍了GLM-4.5V基于智谱新发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用GLM-4.1V-Thinking的结构。

GLM-4.5V模型原理

GLM-4.5V由视觉编码器、MLP 适配器和语言解码器三部分组成,支持64K多模态长上下文。

视觉编码器采用AIMv2-Huge,支持图像与视频输入,并通过三维卷积提升视频处理效率。

模型引入三维旋转位置编码(3D-RoPE)和双三次插值机制,增强了对高分辨率和极端宽高比图像的适应性。

同时,语言解码器中的位置编码扩展为3D 形式(3D-RoPE),进一步提升了多模态空间理解能力。

GLM-4.5V训练策略

GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)。

  • 在预训练阶段,结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力

  • 在SFT阶段,引入了显式「思维链」格式训练样本,增强了GLM-4.5V的因果推理与多模态理解能力;

  • 在RL阶段,引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V在STEM问题、多模态定位、Agent任务等方面获得全面优化。


更多技术细节,请查看发布的GLM-4.5V技术报告。

https://github.com/zai-org/GLM-V

从4月份OpenA的GPT-4o「原生全能多模态模型」引发的「吉卜力热」就能看出,多模态是模型发展的必然。

多模态这一能力之所以重要,在于它模拟了人类利用多种感官综合感知世界的方式。

通过将不同模态的信息优势结合,AI系统能够对复杂场景作出更整体化的判断。

特斯拉机器人卖爆米花

而集成视觉、文本、推理、看视频等能力的视觉推理模型正成为企业侧升级的主战场。

多模态大模型正从实验室走向现实,用例也从单一走向多元,整体价值也从演示Demo走向真正地实用

视觉语言模型在提升人机交互自然度、提高专业工作效率、创造新内容形态等方面具有巨大潜力。

总体来看,多模态大模型已从「能力验证」走向「规模落地」

海外以OpenAI GPT、谷歌Gemini、Anthropic Claude领跑。

国内阿里Qwen‑VL、智谱GLM、字节Seed等在追赶并局部反超。

GLM-4.5V为代表的视觉推理模型,将成为AI进化的新方向,未来的AI模型不仅要看得懂,还要能自主推理。

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

红星新闻
2026-06-03 13:18:18
机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

深圳晚报
2026-06-03 08:01:52
霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

每日经济新闻
2026-06-03 07:49:10
媒体:武契奇或辞去总统职务后出任塞尔维亚总理

媒体:武契奇或辞去总统职务后出任塞尔维亚总理

俄罗斯卫星通讯社
2026-06-03 15:10:14
买了34层一套房 收房时得知只建到32层;开发商仲裁代理人:“当时是计划建设到34层,但盖到32层就不让盖了”

买了34层一套房 收房时得知只建到32层;开发商仲裁代理人:“当时是计划建设到34层,但盖到32层就不让盖了”

大风新闻
2026-06-03 08:06:11
联想急了

联想急了

虎嗅APP
2026-06-03 03:04:27
今早台州一辆问界M9底部起火!刚刚,问界回应:非车辆自身原因导致

今早台州一辆问界M9底部起火!刚刚,问界回应:非车辆自身原因导致

都市快报橙柿互动
2026-06-03 12:22:15
日本“国宝级”成人影片女优来中国x交易!当场被抓,遭驱逐出境

日本“国宝级”成人影片女优来中国x交易!当场被抓,遭驱逐出境

澳洲红领巾
2026-06-03 15:20:03
百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

扬子晚报
2026-06-02 22:40:00
*ST闻泰演绎“天地板”走势

*ST闻泰演绎“天地板”走势

证券时报
2026-06-03 10:26:40
“我妈急需20万做手术,你年薪50万,为什么不肯出钱”妻子:滚

“我妈急需20万做手术,你年薪50万,为什么不肯出钱”妻子:滚

广西秦胖胖
2026-06-02 15:01:05
官方严厉表态,痛批综艺乱象,刘涛郑恺等8位艺人遭点名批评

官方严厉表态,痛批综艺乱象,刘涛郑恺等8位艺人遭点名批评

一盅情怀
2026-06-03 15:30:26
“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

扬子晚报
2026-06-03 07:37:03
台当局对日菲启动海域划界谈判予以肯定,外交部:彻头彻尾的民族败类

台当局对日菲启动海域划界谈判予以肯定,外交部:彻头彻尾的民族败类

海峡导报社
2026-06-02 16:15:16
割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

番外行
2026-06-02 14:19:47
日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

互联鱼
2026-06-02 19:32:57
运动员哪能这么白这么露?铁三女神冯竟爽再次夺冠,回击流言蜚语

运动员哪能这么白这么露?铁三女神冯竟爽再次夺冠,回击流言蜚语

杨华评论
2026-06-03 02:20:48
女子独游罗马,惨遭5人囚禁、轮奸3天

女子独游罗马,惨遭5人囚禁、轮奸3天

侠客栈
2026-06-01 13:33:10
游客在苏州网师园拉开围栏拍照,致清代落地罩撞击受损,景区回应:3块残件已临时粘连并启动修复,警方已介入

游客在苏州网师园拉开围栏拍照,致清代落地罩撞击受损,景区回应:3块残件已临时粘连并启动修复,警方已介入

大风新闻
2026-06-03 14:48:20
北京市发布雷电蓝色预警

北京市发布雷电蓝色预警

界面新闻
2026-06-03 11:08:17
2026-06-03 17:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

艺术
房产
旅游
时尚
本地

艺术要闻

二十年前割麦的场景

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

旅游要闻

海拔3666米的牛背山,凭啥承接“登超”?

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

本地新闻

用杨柳青年画的方式,打开天津

无障碍浏览 进入关怀版