网易首页 > 网易号 > 正文 申请入驻

国产多模态AI再开源!实测截图转网页、搜图购物,价格减半

0
分享至

智东西12月9日报道,昨晚,智谱开源了其GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)

此外,今天上午,智谱还开源了大模型交互智能体AutoGLM,类似于“豆包手机助手”,该智能体在去年10月发布之时曾被业内视为“全球首个具备手机操作能力的AI Agent”

▲GLM-4.6V开源主页(图源:Hugging Face)

▲AutoGLM开源主页(图源:Hugging Face)

据官方介绍,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务,智东西第一时间对其进行了体验。

在实际体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现较为稳定,其生成文字和网页的速度快、内容准。但图文混排能力上,其所生成的图片一直无法显示。对于模糊指令,GLM-4.6V的理解有些许偏差。

GLM-4.6V系列模型将训练时上下文窗口提升到128k tokens,其首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型。

在性能上,在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。

其中,9B版本的GLM-4.6V-Flash在覆盖了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,有22项的分数超过Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现则与有着2倍参数量的Qwen3-VL-235B相接近

▲GLM-4.6V系列模型基准测试(图源:z.ai/blog/glm-4.6v)

价格上,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens输出3元/百万tokens,GLM-4.6V-Flash全面免费

▲GLM-4.6V系列模型价格表(图源:智谱AI)

GLM-4.6V开源地址:

GitHub:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区:

https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址:

https://chat.z.ai/

一、智能图文混排:可生成推文大纲,但无法显示图片

首先是智能图文混排与内容创作能力,GLM-4.6V构建了原生多模态工具调用能力,可以直接理解图像、截图、文档页面等多模态数据,无需先转为文字描述再解析。

我们上传了GLM-4.5V的技术报告,要求其生成一篇图文并茂的微信公众号文章。大约1-2分钟,GLM-4.6V就完成了对整个文档的阅读和理解,输出了包含标题、导语、五个章节以及结语的完整公众号文章,但经过多次尝试,其依旧无法显示出图片。

▲智能图文混排

二、识图购物与导购:自动比价一气呵成,但模糊搜索理解不到位

为了体验GLM-4.6V识图购物与导购功能,我们直接输入“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”

GLM-4.6V会自动调用相关工具在全网中搜索,并且形成商品名、平台、品牌、商品图、商品链接以及店铺名的比价表格,直接点击链接即可跳转到购买页面。

▲商品比价

我们还可以直接让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜,其通过图像搜索功能直接搜索出了其同款眼镜的实拍图。

▲模糊搜索导购

三、网页复刻:一张图丝滑生成网页代码,但图标更换不对

我们上传了一张X平台的登录页面截图,要求用户GLM-4.6V生成HTML代码和网页预览。

▲截图生成网页代码

▲生成网页预览

收到指令后,GLM-4.6V就立刻开始逐行生成HTML代码,并显示出预览页面。可以看出,其生成的“仿X”登录网页与原网页几乎一模一样。

此外,GLM-4.6V还支持多轮视觉交互,直接根据结果用自然语言指令修改网页的色彩、调整按钮位置等。

比如,我们在上一轮输出的基础上,要求其将网页主题色改为天蓝色,图标X改为Z,但还保持原风格。可以看到,针对修改主题色的要求,GLM-4.6V完成的很完善,但对于图标X改为Z的指令,其误生成了一个“向上箭头”形状。

▲修改网页元素

四、长上下文的文档理解:可同时处理多篇中英文论文,长文档理解准确

GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,在实际应用中,128k上下文约等于150页的文档、200页PPT或一小时视频。

为验证其长上下文的文档理解能力,我们直接甩给GLM-4.6V三篇网络平台治理领域的论文,其中有两篇中文文献和一篇英文文献,让其阅读以上论文,并生成一篇学习笔记。

▲生成论文学习笔记

从GLM-4.6V生成的效果来看,图片依旧没有显示出来,但文字部分内容齐备,逻辑清晰,将每篇文献中的核心观点和结论都清晰地罗列了出来,英文文献处理也没有错漏。

五、视频理解:能快速解析视频内容和拍摄技巧,但视频大小有限制

最后,GLM-4.6V还可以理解长视频内容,用户可以上传一部200M以内的MP4影片,要求其分析视频的拍摄手法和内容、结构等。

比如,我们上传了一段6分48秒的视频制作技巧分享视频,想要其总结一下视频的思路和内容,并给一些做摄影类自媒体的建议。

▲视频内容理解(上下滑动查看完整图片)

GLM-4.6V在几秒钟之内就给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解,并且给出了循序渐进的四条成为摄影博主的建议,回答准确且清晰完整。

结语:GLM-4.6V降低了视觉模型接入门槛

从实际体验来说,GLM-4.6V在日常工作上已经能帮不少忙,但生成效果还不太稳定,生成公众号文章时图片出不来、改网页细节时仍会有瑕疵,但其价格降到了上一个版本的一半,轻量版还免费,对于想尝试多模态AI的个人或小团队来说,门槛确实降低了不少。

在当前各家AI能力越来越接近的情况下,谁能把体验做得更顺畅、成本更低,谁就可能吸引更多开发者。

在官方推文中,智谱团队写到本周是其开源发布周,将会有更多成果开源,值得期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
何小鹏亲自向神州租车交付1300台新车 CEO放话:选小鹏就是冲着智驾来的

何小鹏亲自向神州租车交付1300台新车 CEO放话:选小鹏就是冲着智驾来的

快科技
2026-07-03 14:23:06
群嘲!库兹马:好像詹眉年薪6亿所以搞不来中锋!浓眉:别说了,搞笑!

群嘲!库兹马:好像詹眉年薪6亿所以搞不来中锋!浓眉:别说了,搞笑!

818体育
2026-07-03 18:34:13
“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

“可惜699分”全网热议:韩雅平敲定清华卓医班—全网喊“亏”的背后,是百万医者的集体沉默

医客
2026-07-01 13:19:16
突然昏迷、下病危通知?91岁游本昌紧急入院 ,儿子却拒绝过度治

突然昏迷、下病危通知?91岁游本昌紧急入院 ,儿子却拒绝过度治

丁丁鲤史纪
2026-07-02 18:00:10
生姜被点名了!发现:高血压病人吃生姜,不必等多久,或有5变化

生姜被点名了!发现:高血压病人吃生姜,不必等多久,或有5变化

荆医生科普
2026-07-03 16:28:54
重磅,对央国企穿透式监管开始了!

重磅,对央国企穿透式监管开始了!

环球通信
2026-07-03 19:31:29
伊布:克罗地亚绝平进球被吹是误判,葡萄牙是被保送晋级

伊布:克罗地亚绝平进球被吹是误判,葡萄牙是被保送晋级

懂球帝
2026-07-03 19:32:36
百亿身价的C罗滴酒不沾——不是自律,是被亲爹用命上的最后一课

百亿身价的C罗滴酒不沾——不是自律,是被亲爹用命上的最后一课

刘哥谈体育
2026-07-02 14:19:30
日企员工偷运稀土案调查升级!日媒宣称:多名中国籍人员涉嫌帮助

日企员工偷运稀土案调查升级!日媒宣称:多名中国籍人员涉嫌帮助

半身Naked
2026-07-03 11:34:14
大陆终于出手了!146项ECFA关税取消,民进党嘴硬台湾企业先哭了

大陆终于出手了!146项ECFA关税取消,民进党嘴硬台湾企业先哭了

云上乌托邦
2026-07-03 15:09:58
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
泰格·伍兹前经纪人自曝:耐克曾想“绕过我”直接签伍兹,险被省下800万美元佣金

泰格·伍兹前经纪人自曝:耐克曾想“绕过我”直接签伍兹,险被省下800万美元佣金

林间小温柔
2026-07-03 01:05:01
女演员身高有多重要?当43岁张钧甯和黄景瑜站一起,差距很明显

女演员身高有多重要?当43岁张钧甯和黄景瑜站一起,差距很明显

大眼妹妹
2026-05-12 05:52:04
1955年,韩先楚被列在中将名单,毛主席审阅时大为惊诧,当场发怒

1955年,韩先楚被列在中将名单,毛主席审阅时大为惊诧,当场发怒

人生录
2026-06-15 15:41:43
办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

叹为观止易
2026-06-08 14:22:53
调查发现:喜欢锻炼的人,患脑梗概率,比久坐不动的人高10倍不止

调查发现:喜欢锻炼的人,患脑梗概率,比久坐不动的人高10倍不止

重庆头条官方
2026-06-30 10:33:35
6月新势力销量:零跑9.3万台一骑绝尘,网友:性价比这块没对手!

6月新势力销量:零跑9.3万台一骑绝尘,网友:性价比这块没对手!

言车有徐
2026-07-01 16:32:08
哈梅内伊棺前摆着遇害外孙女遗照

哈梅内伊棺前摆着遇害外孙女遗照

界面新闻
2026-07-03 16:26:19
官方:马赫雷斯自宣从国家队中退役

官方:马赫雷斯自宣从国家队中退役

懂球帝
2026-07-03 14:12:13
随着中国男篮73-92不敌日本,韩国3连败,世预赛最新出线形势出炉

随着中国男篮73-92不敌日本,韩国3连败,世预赛最新出线形势出炉

小火箭爱体育
2026-07-03 21:27:31
2026-07-03 23:03:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12175文章数 117114关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

44岁独居男子病重昏迷 亲生母亲取不出儿子的"救命钱"

头条要闻

44岁独居男子病重昏迷 亲生母亲取不出儿子的"救命钱"

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
家居
健康
艺术
公开课

数码要闻

辰显光电发布全球首款Micro LED透明手表,透光率达65%

家居要闻

传奇筑 日常诗

听说少吃点能抗衰老?专家讲解!

艺术要闻

被学术界‘除名’的环保斗士?David 争议一生,真相令人唏嘘!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版