网易首页 > 网易号 > 正文 申请入驻

国产多模态AI再开源!实测截图转网页、搜图购物,价格减半

0
分享至


智东西
作者 王涵
编辑 心缘

智东西12月9日报道,昨晚,智谱开源了其GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)

此外,今天上午,智谱还开源了大模型交互智能体AutoGLM,类似于“豆包手机助手”,该智能体在去年10月发布之时曾被业内视为“全球首个具备手机操作能力的AI Agent”


▲GLM-4.6V开源主页(图源:Hugging Face)


▲AutoGLM开源主页(图源:Hugging Face)

据官方介绍,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务,智东西第一时间对其进行了体验。

在实际体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现较为稳定,其生成文字和网页的速度快、内容准。但图文混排能力上,其所生成的图片一直无法显示。对于模糊指令,GLM-4.6V的理解有些许偏差。

GLM-4.6V系列模型将训练时上下文窗口提升到128k tokens,其首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型。

在性能上,在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。

其中,9B版本的GLM-4.6V-Flash在覆盖了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,有22项的分数超过Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现则与有着2倍参数量的Qwen3-VL-235B相接近


▲GLM-4.6V系列模型基准测试(图源:z.ai/blog/glm-4.6v)

价格上,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens输出3元/百万tokens,GLM-4.6V-Flash全面免费


▲GLM-4.6V系列模型价格表(图源:智谱AI)

GLM-4.6V开源地址:

GitHub:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区:

https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址:

https://chat.z.ai/

一、智能图文混排:可生成推文大纲,但无法显示图片

首先是智能图文混排与内容创作能力,GLM-4.6V构建了原生多模态工具调用能力,可以直接理解图像、截图、文档页面等多模态数据,无需先转为文字描述再解析。

我们上传了GLM-4.5V的技术报告,要求其生成一篇图文并茂的微信公众号文章。大约1-2分钟,GLM-4.6V就完成了对整个文档的阅读和理解,输出了包含标题、导语、五个章节以及结语的完整公众号文章,但经过多次尝试,其依旧无法显示出图片。


▲智能图文混排

二、识图购物与导购:自动比价一气呵成,但模糊搜索理解不到位

为了体验GLM-4.6V识图购物与导购功能,我们直接输入“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”

GLM-4.6V会自动调用相关工具在全网中搜索,并且形成商品名、平台、品牌、商品图、商品链接以及店铺名的比价表格,直接点击链接即可跳转到购买页面。

▲商品比价

我们还可以直接让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜,其通过图像搜索功能直接搜索出了其同款眼镜的实拍图。


▲模糊搜索导购

三、网页复刻:一张图丝滑生成网页代码,但图标更换不对

我们上传了一张X平台的登录页面截图,要求用户GLM-4.6V生成HTML代码和网页预览。


▲截图生成网页代码


▲生成网页预览

收到指令后,GLM-4.6V就立刻开始逐行生成HTML代码,并显示出预览页面。可以看出,其生成的“仿X”登录网页与原网页几乎一模一样。

此外,GLM-4.6V还支持多轮视觉交互,直接根据结果用自然语言指令修改网页的色彩、调整按钮位置等。

比如,我们在上一轮输出的基础上,要求其将网页主题色改为天蓝色,图标X改为Z,但还保持原风格。可以看到,针对修改主题色的要求,GLM-4.6V完成的很完善,但对于图标X改为Z的指令,其误生成了一个“向上箭头”形状。


▲修改网页元素

四、长上下文的文档理解:可同时处理多篇中英文论文,长文档理解准确

GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,在实际应用中,128k上下文约等于150页的文档、200页PPT或一小时视频。

为验证其长上下文的文档理解能力,我们直接甩给GLM-4.6V三篇网络平台治理领域的论文,其中有两篇中文文献和一篇英文文献,让其阅读以上论文,并生成一篇学习笔记。


▲生成论文学习笔记

从GLM-4.6V生成的效果来看,图片依旧没有显示出来,但文字部分内容齐备,逻辑清晰,将每篇文献中的核心观点和结论都清晰地罗列了出来,英文文献处理也没有错漏。

五、视频理解:能快速解析视频内容和拍摄技巧,但视频大小有限制

最后,GLM-4.6V还可以理解长视频内容,用户可以上传一部200M以内的MP4影片,要求其分析视频的拍摄手法和内容、结构等。

比如,我们上传了一段6分48秒的视频制作技巧分享视频,想要其总结一下视频的思路和内容,并给一些做摄影类自媒体的建议。


▲视频内容理解(上下滑动查看完整图片)

GLM-4.6V在几秒钟之内就给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解,并且给出了循序渐进的四条成为摄影博主的建议,回答准确且清晰完整。

结语:GLM-4.6V降低了视觉模型接入门槛

从实际体验来说,GLM-4.6V在日常工作上已经能帮不少忙,但生成效果还不太稳定,生成公众号文章时图片出不来、改网页细节时仍会有瑕疵,但其价格降到了上一个版本的一半,轻量版还免费,对于想尝试多模态AI的个人或小团队来说,门槛确实降低了不少。

在当前各家AI能力越来越接近的情况下,谁能把体验做得更顺畅、成本更低,谁就可能吸引更多开发者。

在官方推文中,智谱团队写到本周是其开源发布周,将会有更多成果开源,值得期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
瓜帅:下周对阵阿森纳很重要,如果我们赢不了那基本就结束了

瓜帅:下周对阵阿森纳很重要,如果我们赢不了那基本就结束了

懂球帝
2026-04-13 03:25:12
亚锦赛首次封王!石宇奇2-0完胜最强黑马,打破国羽8年冠军荒

亚锦赛首次封王!石宇奇2-0完胜最强黑马,打破国羽8年冠军荒

钉钉陌上花开
2026-04-12 18:36:03
悲催!原领导因车祸离世,单位领导均前往吊唁,却未通知普通职工

悲催!原领导因车祸离世,单位领导均前往吊唁,却未通知普通职工

火山詩话
2026-04-12 10:40:34
女土匪向杜月笙借枪,杜月笙念及旧情答应,此举铸就了她传奇一生

女土匪向杜月笙借枪,杜月笙念及旧情答应,此举铸就了她传奇一生

千秋文化
2026-04-09 15:45:26
路人抢着合影!上海街头惊现高颜值“簪花郎”,网友:美到犯规了

路人抢着合影!上海街头惊现高颜值“簪花郎”,网友:美到犯规了

生活魔术专家
2026-04-11 17:38:03
逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今啥情况

逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今啥情况

拳击时空
2026-04-04 06:04:24
郑丽文:绝不放弃武力保台,洪秀柱怒怼:两岸和平,岂能不统一?

郑丽文:绝不放弃武力保台,洪秀柱怒怼:两岸和平,岂能不统一?

安梦入天下
2026-04-12 17:01:16
韩国为啥给人吃不起肉的感觉?网友:韩国人均吃肉比中国多

韩国为啥给人吃不起肉的感觉?网友:韩国人均吃肉比中国多

带你感受人间冷暖
2026-04-12 00:15:10
场均19分,年薪5960万却是联盟第一!属于你的时代也该结束了

场均19分,年薪5960万却是联盟第一!属于你的时代也该结束了

老梁体育漫谈
2026-04-12 22:58:01
弱者着相,强者破相,智者无相(深度好文)

弱者着相,强者破相,智者无相(深度好文)

洞见
2026-04-12 15:24:55
尼格买提脱下西装那一刻,多少人的滤镜碎了一地。

尼格买提脱下西装那一刻,多少人的滤镜碎了一地。

草莓解说体育
2026-04-12 20:51:41
暴跌74%!40年酒鬼终于醒了

暴跌74%!40年酒鬼终于醒了

娱乐圈见解说
2026-04-13 05:59:47
人均600万到欠400亿,毁掉"天下第一村"的不是别人,是他们自己

人均600万到欠400亿,毁掉"天下第一村"的不是别人,是他们自己

闻香阁
2026-04-11 08:40:49
独家|荣耀与字节跳动接洽“豆包手机”合作

独家|荣耀与字节跳动接洽“豆包手机”合作

蓝鲸新闻
2026-04-13 09:05:05
周涛结束了和丈夫的12年婚姻,她说:这段婚姻太痛苦了,身心俱疲

周涛结束了和丈夫的12年婚姻,她说:这段婚姻太痛苦了,身心俱疲

阿讯说天下
2026-04-12 17:53:46
罗梅罗被换下时难掩情绪落泪,距离世界杯还有两个月

罗梅罗被换下时难掩情绪落泪,距离世界杯还有两个月

懂球帝
2026-04-12 23:09:00
导弹生产技术转让给中国!只因三次雪中送炭,美俄看了也“眼红“

导弹生产技术转让给中国!只因三次雪中送炭,美俄看了也“眼红“

芳芳历史烩
2026-04-10 20:53:57
深夜永鼎重磅消息!让投资者不禁打颤倒吸一口冷气!

深夜永鼎重磅消息!让投资者不禁打颤倒吸一口冷气!

风风顺
2026-04-13 06:39:36
成都蓉城逆转国安!媒体人热议:真的要夺冠,蜕变成真正强队

成都蓉城逆转国安!媒体人热议:真的要夺冠,蜕变成真正强队

奥拜尔
2026-04-12 21:52:55
随着比分定格2-0,63岁穆帅率队29轮不败,一夜追到仅差榜首4分

随着比分定格2-0,63岁穆帅率队29轮不败,一夜追到仅差榜首4分

侧身凌空斩
2026-04-13 03:28:48
2026-04-13 09:20:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11559文章数 117027关注度
往期回顾 全部

科技要闻

李想向黑水军开炮!连发5条朋友圈

头条要闻

张雪回应"张雪机车新手禁令":我认为做得很棒

头条要闻

张雪回应"张雪机车新手禁令":我认为做得很棒

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

封锁,还是收费站?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
健康
本地
艺术
公开课

教育要闻

与时间赛跑、与天气较量,玄武区体育中考顺利进行

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

朱元璋去拜佛,问方丈:“朕要跪下吗?”方丈答了8个字救了全寺的人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版