网易首页 > 网易号 > 正文 申请入驻

41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码

0
分享至

新智元报道

编辑:定慧

【新智元导读】智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V,在42个公开榜单中41项夺得SOTA!其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

这半年,多模态大模型已经成为各家的标配,但似乎功能都有点趋同,玩起来都有点腻了。

不过,今晚智谱最新开源的GLM-4.5V视觉推理模型,带来了非常多的惊喜!

两周前,智谱发布GLM-4.5,这个融合ARC(Agentic、Reasoning、Coding)能力的模型获得非常高的关注。

取得了全球模型第三、国产模型第一,开源模型第一的成绩!

智谱这次乘胜追击!在GLM-4.5基座之上进一步训练出100B级别最强开源多模态模型,成功在多模态赛道上占据一席之地。

GLM-4.5V「看懂世界」的方式,是真的有点东西,而且在智谱最近新推出的z.ai的平台上,升级了很多视觉多模态的全新玩法

比如这次更新后,GLM-4.5V可以玩看图猜地址GeoGuessr游戏,而且准确率非常高。

我们试了三次,每次的国家和大洲都非常准确,不过具体经纬度可能还需抽卡。

下面是其中一次测试,GLM-4.5V可以找到画面中的关键元素,配合地理风格、建筑风格等来推理出正确结论。

值得一提的是,智谱还派出GLM-4.5V参加了国内的图寻游戏挑战,和国内最顶尖的两万多名人类玩家真实对战。

目前智谱已经在全球排名66,而其他都是人类选手。

智谱这次更新的另一个玩法就是Grounding能力,GLM-4.5V眼神太好,可以在清明上河图中找到三匹马(左上角角落),并在图中做出标识。

GLM-4.5V不仅眼神好,还能理解视频,而代码能力又沿袭了它的基座模型GLM-4.5,两者相加「涌现」出一种全新能力

那就是,通过直接上传视频也能复刻网站!

神奇之处在于,GLM-4.5V完全没有训练过「看视频」前端网页复刻,这个意外发现体现了GLM-4.5很强的泛化能力。

我们录了一个Github的网站视频。

GLM-4.5V竟然也可以复刻个七七八八。

下图左边是原版,右边是复刻,大体框架没有问题,有个别按钮的位置,以及时间线组件被修改为列表等小问题。

在实测中,我们发现,不论是GeoGuessr看图挑战、空间关系理解、复杂图表推理、OCR识别、做题,甚至可以理解视频等各个方面,GLM-4.5V的表现都远超预期。

GLM-4.5V一手实测

GLM-4.5V基于智谱发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用了GLM-4.1V-Thinking的结构。

其中,GLM-4.1V-Thinking 7月上线后就登上了HuggingFace Trending第一,模型已获得累计超过13万次下载。

Github:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

魔搭社区:

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

GLM-4.1V-Thinking是一个小参数模型,而全新的GLM-4.5V拥有106B总参数,12B的激活参数。

可以说,GLM-4.5V是100B参数这个「重量级」的SOTA标杆,现已经登录官网。

GLM-4.5V实测了42个公开视觉多模态榜单,在其中41个榜单达到同级别开源模型SOTA性能,涵盖图像、视频、文档理解以及GUIAgent等常见任务。

GLM-4.5V这次升级了很多玩法,实现全场景视觉推理覆盖,比如:

  • 图像推理(场景理解、复杂多图分析、位置识别)

  • 视频理解(长视频分镜分析、事件识别)

  • GUI任务(屏幕读取、图标识别、桌面操作辅助)

  • 复杂图表与长文档解析(研报分析、信息提取)

  • Grounding能力(精准定位视觉元素)

此次更新,模型新增「思考模式」开关,可以自行决定是否启用推理功能。

体验网站:https://chat.z.ai/

此外,继上次GLM-4.5「V50包月」活动,这次GLM-4.5V为企业与开发者提供高性价比的多模态AI解决方案:

  • API调用价格:低至输入2元/M tokens,输出6元/M tokens

  • 响应速度:达到60-80tokens/s

  • API接口文档:http://docs.bigmodel.cn/api-reference

GLM-4.5V API现已上线智谱开放平台BigModel.cn,智谱为所有新老用户准备了2000万Tokens的免费资源包。

领取链接:

https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv

精准识别和定位目标物体

GLM-4.5V能够从图片中理解并识别出具体的目标的物体。

可以在界面上直接选择Grounding模式,传入图片和提示词即可。

比如上传了一张AI随机生成的图片,GLM-4.5V的推理能力可以从图片中准确识别出「非现实」的物体,就是红框中看着像昆虫的洒水机器人。

简单介绍下Grounding能力,在计算机视觉与多模态任务中,Grounding能力指的是模型将自然语言中的词语或短语,精确地与图像中的具体区域或对象建立对应关系的能力。

它不仅要求模型能「看懂」图片,也能「读懂」文字,并在两者之间建立准确的语义—视觉映射

较知名的Flickr30k Entities数据集

并且GLM-4.5V的Grounding的能力还附带了「推理魔法」。

比如下面这张《我,机器人》剧照中,有一个机器人明显看着比其他机器人更有灵魂。

GLM-4.5V一下子就找到了!这确实很令人惊讶,4.5V的视觉能力已经可以理解表情了。

而且你仔细看这个Grounding的Box,完全贴着右下角的机器人,即使是胳膊部分也几乎相切,确实有点东西。

看图猜地址

除了可以在GeoGuessr中玩,GLM-4.5V这次还可以通过随机照片来推理地址。

比如上传一张照片,GLM-4.5V能通过建筑特征来识别照片是在哪里拍摄的。

这个推理结果和GPT-5 Pro结果相同。

甚至在描述判断逻辑方面,GLM-4.5V看起来更胜一筹,因为模型不仅注意到建筑风格,还从门牌号上识别到北欧古典建筑。

视频理解能力

这次GLM-4.5V另一个重大更新就是视频理解。

类似这种超现实主义的视频,GLM-4.5V也能完全get到视频中的重点元素和隐喻含义。

它甚至识别出了特斯拉Cybertruck。

或者像这种偏重于抽象的视频,GLM-4.5V也能理解,并且可以给出非常深度的解释。

宇宙、人类、精神、灵魂、科技、艺术,GLM-4.5V还是真的大超预期。

空间关系理解

视觉能力中,有一项很重要的空间理解能力,比如这个包含常见物体空间关系图。

我们随机给关系打上马赛克,然后让GLM-4.5V来定义物体的空间关系。

单箭头的情况下,多次测试GLM-4.5V每次都可以判断正确,正确率100%。

多个箭头的情况下,会有偶尔的识别出现失误,比如应该是Behind的情况会识别为旁边。

但整体模型在空间理解上,来的一个新的高度。

前端能力:UI到Code

这次GLM-4.5V更新的另一大看点是可以通过UI界面直接转化为Code。

比如我们用GLM-4.5V的官网截图制作了一个「它自己」。

不得不说,GLM-4.5V编程能力确实很强,做出来的网站一模一样,甚至连左侧的Emoji都带上了,画面比例和UI风格也做到了1:1复刻。

图像识别能力

有名的Magic Eye测试图片集,GLM-4.5V也能准确识别,比如下图这种多种鱼类拼凑的重复画面。

GLM-4.5V甚至可以定位到「橙色带条纹」,肉眼想看的话,还是需要放大并且仔细观察的。

视觉模型的「数数」能力

再来一个世界模型经常遇到的「数数」问题,模型需要识别图片中的物体种类和数量。

这些问题对于人类来说很简单,但是对于VLM就没那么容易了。

在这种「目标搜索」任务中VLM的表现,会随着场景里目标数量的增多而迅速下降。

GLM-4.5V准确的识别到松饼和羊,并且完成了左上、左下和右上的数量识别。

右下人类也很难数得清,但GLM-4.5V表示他数了个大概,非常拟人了,这里的处理几乎可以说得上完美。

以上实测并不是测试的全部,但是GLM-4.5V除了能力很强外,最大的特点是又快又好玩,基本上很多任务都是秒出。

而且更有意思的是,每个任务都会自动匹配一个题目+一个Emoji,这代表模型真正的理解了任务的核心。

很多Emoji配的都无比形象,这在其他很多产品中都没有这个功能。

技术创新

开头我们介绍了GLM-4.5V基于智谱新发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用GLM-4.1V-Thinking的结构。

GLM-4.5V模型原理

GLM-4.5V由视觉编码器、MLP 适配器和语言解码器三部分组成,支持64K多模态长上下文。

视觉编码器采用AIMv2-Huge,支持图像与视频输入,并通过三维卷积提升视频处理效率。

模型引入三维旋转位置编码(3D-RoPE)和双三次插值机制,增强了对高分辨率和极端宽高比图像的适应性。

同时,语言解码器中的位置编码扩展为3D 形式(3D-RoPE),进一步提升了多模态空间理解能力。

GLM-4.5V训练策略

GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)。

  • 在预训练阶段,结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力

  • 在SFT阶段,引入了显式「思维链」格式训练样本,增强了GLM-4.5V的因果推理与多模态理解能力;

  • 在RL阶段,引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V在STEM问题、多模态定位、Agent任务等方面获得全面优化。


更多技术细节,请查看发布的GLM-4.5V技术报告。

https://github.com/zai-org/GLM-V

从4月份OpenA的GPT-4o「原生全能多模态模型」引发的「吉卜力热」就能看出,多模态是模型发展的必然。

多模态这一能力之所以重要,在于它模拟了人类利用多种感官综合感知世界的方式。

通过将不同模态的信息优势结合,AI系统能够对复杂场景作出更整体化的判断。

特斯拉机器人卖爆米花

而集成视觉、文本、推理、看视频等能力的视觉推理模型正成为企业侧升级的主战场。

多模态大模型正从实验室走向现实,用例也从单一走向多元,整体价值也从演示Demo走向真正地实用

视觉语言模型在提升人机交互自然度、提高专业工作效率、创造新内容形态等方面具有巨大潜力。

总体来看,多模态大模型已从「能力验证」走向「规模落地」

海外以OpenAI GPT、谷歌Gemini、Anthropic Claude领跑。

国内阿里Qwen‑VL、智谱GLM、字节Seed等在追赶并局部反超。

GLM-4.5V为代表的视觉推理模型,将成为AI进化的新方向,未来的AI模型不仅要看得懂,还要能自主推理。

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
TVB宣布拟改名!以后要叫你...

TVB宣布拟改名!以后要叫你...

东莞潮事儿
2026-03-26 12:32:15
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
福建省委决定,颜桂炀履新(附简历)

福建省委决定,颜桂炀履新(附简历)

人民资讯
2026-03-26 16:28:52
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

小虎新车推荐员
2026-03-26 14:02:10
《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

《逐玉》张凌赫被嘲“粉底液将军”,央视都看不下去了,发文力挺

娱乐故事
2026-03-26 17:11:11
等了整整一年!iOS 26.4正式推送老机封神,国行遗憾背后!

等了整整一年!iOS 26.4正式推送老机封神,国行遗憾背后!

时尚的弄潮
2026-03-25 16:35:26
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
这才是大国重器!中国正式摊牌,剑指800万亿宝藏,美欧噩梦成真

这才是大国重器!中国正式摊牌,剑指800万亿宝藏,美欧噩梦成真

丁丁鲤史纪
2026-03-26 18:11:10
外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

新京报
2026-03-26 15:37:39
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
广西壮族自治区党委组织部原分管日常工作的副部长崔佐钧被“双开”

广西壮族自治区党委组织部原分管日常工作的副部长崔佐钧被“双开”

界面新闻
2026-03-26 17:11:44
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

成吉思热
2026-03-26 10:06:14
央视直播乒乓球时间表:3月26日CCTV5+转播国乒!附国乒最新消息

央视直播乒乓球时间表:3月26日CCTV5+转播国乒!附国乒最新消息

米果说识
2026-03-26 14:47:03
2026-03-26 18:48:50
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
数码
教育
亲子
军事航空

转头就晕的耳石症,能开车上班吗?

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版