网易首页 > 网易号 > 正文 申请入驻

国产多模态AI再开源!实测截图转网页、搜图购物,价格减半

0
分享至


智东西
作者 王涵
编辑 心缘

智东西12月9日报道,昨晚,智谱开源了其GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)

此外,今天上午,智谱还开源了大模型交互智能体AutoGLM,类似于“豆包手机助手”,该智能体在去年10月发布之时曾被业内视为“全球首个具备手机操作能力的AI Agent”


▲GLM-4.6V开源主页(图源:Hugging Face)


▲AutoGLM开源主页(图源:Hugging Face)

据官方介绍,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务,智东西第一时间对其进行了体验。

在实际体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现较为稳定,其生成文字和网页的速度快、内容准。但图文混排能力上,其所生成的图片一直无法显示。对于模糊指令,GLM-4.6V的理解有些许偏差。

GLM-4.6V系列模型将训练时上下文窗口提升到128k tokens,其首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型。

在性能上,在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。

其中,9B版本的GLM-4.6V-Flash在覆盖了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,有22项的分数超过Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现则与有着2倍参数量的Qwen3-VL-235B相接近


▲GLM-4.6V系列模型基准测试(图源:z.ai/blog/glm-4.6v)

价格上,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens输出3元/百万tokens,GLM-4.6V-Flash全面免费


▲GLM-4.6V系列模型价格表(图源:智谱AI)

GLM-4.6V开源地址:

GitHub:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区:

https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址:

https://chat.z.ai/

一、智能图文混排:可生成推文大纲,但无法显示图片

首先是智能图文混排与内容创作能力,GLM-4.6V构建了原生多模态工具调用能力,可以直接理解图像、截图、文档页面等多模态数据,无需先转为文字描述再解析。

我们上传了GLM-4.5V的技术报告,要求其生成一篇图文并茂的微信公众号文章。大约1-2分钟,GLM-4.6V就完成了对整个文档的阅读和理解,输出了包含标题、导语、五个章节以及结语的完整公众号文章,但经过多次尝试,其依旧无法显示出图片。


▲智能图文混排

二、识图购物与导购:自动比价一气呵成,但模糊搜索理解不到位

为了体验GLM-4.6V识图购物与导购功能,我们直接输入“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”

GLM-4.6V会自动调用相关工具在全网中搜索,并且形成商品名、平台、品牌、商品图、商品链接以及店铺名的比价表格,直接点击链接即可跳转到购买页面。

▲商品比价

我们还可以直接让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜,其通过图像搜索功能直接搜索出了其同款眼镜的实拍图。


▲模糊搜索导购

三、网页复刻:一张图丝滑生成网页代码,但图标更换不对

我们上传了一张X平台的登录页面截图,要求用户GLM-4.6V生成HTML代码和网页预览。


▲截图生成网页代码


▲生成网页预览

收到指令后,GLM-4.6V就立刻开始逐行生成HTML代码,并显示出预览页面。可以看出,其生成的“仿X”登录网页与原网页几乎一模一样。

此外,GLM-4.6V还支持多轮视觉交互,直接根据结果用自然语言指令修改网页的色彩、调整按钮位置等。

比如,我们在上一轮输出的基础上,要求其将网页主题色改为天蓝色,图标X改为Z,但还保持原风格。可以看到,针对修改主题色的要求,GLM-4.6V完成的很完善,但对于图标X改为Z的指令,其误生成了一个“向上箭头”形状。


▲修改网页元素

四、长上下文的文档理解:可同时处理多篇中英文论文,长文档理解准确

GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,在实际应用中,128k上下文约等于150页的文档、200页PPT或一小时视频。

为验证其长上下文的文档理解能力,我们直接甩给GLM-4.6V三篇网络平台治理领域的论文,其中有两篇中文文献和一篇英文文献,让其阅读以上论文,并生成一篇学习笔记。


▲生成论文学习笔记

从GLM-4.6V生成的效果来看,图片依旧没有显示出来,但文字部分内容齐备,逻辑清晰,将每篇文献中的核心观点和结论都清晰地罗列了出来,英文文献处理也没有错漏。

五、视频理解:能快速解析视频内容和拍摄技巧,但视频大小有限制

最后,GLM-4.6V还可以理解长视频内容,用户可以上传一部200M以内的MP4影片,要求其分析视频的拍摄手法和内容、结构等。

比如,我们上传了一段6分48秒的视频制作技巧分享视频,想要其总结一下视频的思路和内容,并给一些做摄影类自媒体的建议。


▲视频内容理解(上下滑动查看完整图片)

GLM-4.6V在几秒钟之内就给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解,并且给出了循序渐进的四条成为摄影博主的建议,回答准确且清晰完整。

结语:GLM-4.6V降低了视觉模型接入门槛

从实际体验来说,GLM-4.6V在日常工作上已经能帮不少忙,但生成效果还不太稳定,生成公众号文章时图片出不来、改网页细节时仍会有瑕疵,但其价格降到了上一个版本的一半,轻量版还免费,对于想尝试多模态AI的个人或小团队来说,门槛确实降低了不少。

在当前各家AI能力越来越接近的情况下,谁能把体验做得更顺畅、成本更低,谁就可能吸引更多开发者。

在官方推文中,智谱团队写到本周是其开源发布周,将会有更多成果开源,值得期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
400亿!恒大“东方威尼斯”,10万人疯抢到无人问津!彻底凉了?

400亿!恒大“东方威尼斯”,10万人疯抢到无人问津!彻底凉了?

GA环球建筑
2026-01-24 18:20:09
“我们不要三通一达女!”上海公司喊话留学生:入职体检别想隐瞒

“我们不要三通一达女!”上海公司喊话留学生:入职体检别想隐瞒

泽泽先生
2026-01-25 22:08:55
不结婚怎么解决生理需求?56岁的歌唱家张也,用行动给出了答案

不结婚怎么解决生理需求?56岁的歌唱家张也,用行动给出了答案

秋姐居
2026-01-25 21:08:47
被丈夫和闺蜜背叛女子回应“一夜白头”:一年打了13个官司,太耗费心血;很后悔托举丈夫

被丈夫和闺蜜背叛女子回应“一夜白头”:一年打了13个官司,太耗费心血;很后悔托举丈夫

扬子晚报
2026-01-25 17:36:27
全球销量六连冠!嘲讽丰田不行了的人,非蠢即坏

全球销量六连冠!嘲讽丰田不行了的人,非蠢即坏

象视汽车
2026-01-24 07:00:03
国足0比4惨败的背后,日本教练一席话,给所有亚洲球队敲醒警钟!

国足0比4惨败的背后,日本教练一席话,给所有亚洲球队敲醒警钟!

十点街球体育
2026-01-25 15:52:03
央视曝光“毒蔬菜”!0.08克便可致器官衰竭,已流窜到全国多地

央视曝光“毒蔬菜”!0.08克便可致器官衰竭,已流窜到全国多地

削桐作琴
2026-01-24 19:17:27
上海过江隧道突遭超高运输车闯入!隧道因大型风机坠落、多种设备损坏连夜封闭!官方连发通报

上海过江隧道突遭超高运输车闯入!隧道因大型风机坠落、多种设备损坏连夜封闭!官方连发通报

环球网资讯
2026-01-25 19:08:15
Angelababy烟熏妆颜值回勇,跳喵喵舞表情可爱

Angelababy烟熏妆颜值回勇,跳喵喵舞表情可爱

梦醉为红颜一笑
2026-01-25 19:03:37
个税降了,2026年1月15日起执行

个税降了,2026年1月15日起执行

会计人
2026-01-25 12:03:57
大傻去世15年后,儿子入狱孙子身亡,王晶曝他旧事,是狠角色

大傻去世15年后,儿子入狱孙子身亡,王晶曝他旧事,是狠角色

暖心萌阿菇凉
2026-01-24 22:07:32
男子打扫卫生发现200张千元存单,妻子每天借上厕所到银行存1000

男子打扫卫生发现200张千元存单,妻子每天借上厕所到银行存1000

半岛晨报
2026-01-25 19:45:55
受贿近千万!福建一处级干部公开受审

受贿近千万!福建一处级干部公开受审

金台资讯
2026-01-25 22:29:12
简单聊聊我国2025年792万的出生人口,多年来首次低于西方国家出生人口

简单聊聊我国2025年792万的出生人口,多年来首次低于西方国家出生人口

宁南山
2026-01-25 08:33:37
美国运动员霍诺德成功徒手攀爬508米高台北101,耗时约1小时31分钟

美国运动员霍诺德成功徒手攀爬508米高台北101,耗时约1小时31分钟

潇湘晨报
2026-01-25 12:00:17
李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

花哥扒娱乐
2026-01-24 16:06:55
要开始了!伊朗,在劫难逃了!

要开始了!伊朗,在劫难逃了!

大嘴说天下
2026-01-25 19:59:24
掉下去必死!31岁美国男子徒手攀爬台北101:91分钟登顶 看着都怕

掉下去必死!31岁美国男子徒手攀爬台北101:91分钟登顶 看着都怕

风过乡
2026-01-25 17:36:53
复仇失败!张本智和遭打脸:连续2年不敌日本天才 领奖时全程冷脸

复仇失败!张本智和遭打脸:连续2年不敌日本天才 领奖时全程冷脸

风过乡
2026-01-25 17:57:28
2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

风向观察
2026-01-25 12:07:51
2026-01-26 00:12:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11118文章数 116946关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

教育
游戏
家居
旅游
公开课

教育要闻

教师投诉成功,成都锦江教育局发布情况通报

LPL春季赛:没有哥哥,也就没有叛忍之战!TES零封IG

家居要闻

在家度假 160平南洋混搭宅

旅游要闻

钢城“后花园”开出振兴之花,看聚源桥村如何玩转“三村联动”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版