网易首页 > 网易号 > 正文 申请入驻

GLM-4-9B 开源,探索模型极限

0
分享至

自 2023 年 3 月 14 日开源 ChatGLM-6B 以来,GLM 系列模型受到广泛关注和认可。特别是 ChatGLM3-6B 开源以后,开发者对智谱AI 第四代模型的开源充满期待。

为了使小模型(10B 以下)具备更加强大的能力,GLM 技术团队进行了大量探索工作。经过近半年的探索,我们推出了第四代 GLM 系列开源模型:GLM-4-9B。

在预训练方面,我们引入了大语言模型进入数据筛选流程,最终获得了 10T 高质量多语言数据,数据量是 ChatGLM3-6B 模型的 3 倍以上。同时,我们采用了 FP8 技术进行高效的预训练,相较于第三代模型,训练效率提高了 3.5 倍。在有限显存的情况下,我们探索了性能的极限,并发现 6B 模型性能有限。因此,在考虑到大多数用户的显存大小后,我们将模型规模提升至 9B,并将预训练计算量增加了 5 倍。

综合以上技术升级和其他经验,GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突出能力。GLM-4-9B 系列模型包括:基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。

以下是 GLM-4-9B 的能力掠影:

具体性能如下:

基础能力

基于强大的预训练基座,GLM-4-9B 的模型中英文综合性能相比 ChatGLM3-6B 提升了 40%,尤其是在中文对齐能力 AlignBench、指令遵从 IFeval、工程代码 Natural Code Bench 方面都取得了非常显著的提升。对比训练量更多的 Llama 3 8B 模型也没有逊色,英文方面有小幅领先,中文学科方面更是有着高达 50% 的提升。

长文本能力

GLM-4-9B 模型的上下文从 128K 扩展到了 1M tokens,这意味着模型能同时处理 200 万字的输入,大概相当于 2 本红楼梦或者 125 篇论文的长度。

GLM-4-9B-Chat-1M 模型在 1M 的上下文长度下进行了“大海捞针”实验,展现出了出色的无损处理能力。

多语言能力

GLM-4-9B 支持包括汉语、英语、俄语、西班牙语、德语、法语、意大利语、葡萄牙语、波兰语、日语、荷兰语、阿拉伯语、土耳其语、捷克语、越南语、波斯语、匈牙利语、希腊语、罗马尼亚语、瑞典语、乌克兰语、芬兰语、韩语、丹麦语、保加利亚语和挪威语在内的 26 种语言。

为了提升性能,我们将 tokenizer 的词表大小从 65k 扩充到了 150k,这一改进使得编码效率提高了 30%。在多语言能力方面,我们在六个不同的多语言理解和生成数据集上进行了测试,结果显示 GLM-4-9B-Chat 显著超越 Llama-3-8B-Instruct。具体评测结果如下:

Function Call 能力

ChatGLM3-6B 模型的函数调用一直广受各大开发者喜爱。GLM-4-9B 模型的函数调用能力更是迎来了巨大的升级,相比上一代提升了 40%,在 Berkeley Function-Calling Leaderboard 上,GLM-4-9B 模型的 Function Call 能力与 GPT-4 不相上下。

All Tools 能力

“All Tools”即模型能够理解和使用一系列外部工具(比如代码执行、联网浏览、画图、文件操作、数据库查询、API 调用等)来辅助回答问题或完成任务。

在 1 月 16 日的 Zhipu DevDay 上,GLM-4 模型全线升级了 All Tools 能力,模型可以智能调用网页浏览器、代码解释器、CogView 来完成用户的复杂请求。

我们将这一功能带到了 GLM-4-9B 模型中,我们在开源仓库中提供了一个完整的 All Tools Demo,用户可以在本地拥有一个轻量级的清言平替。

多模态能力

在强化文本能力的同时,我们首次推出了基于 GLM 基座的开源多模态模型 GLM-4V-9B。这一模型采用了与 CogVLM2 相似的架构设计,能够处理高达 1120 x 1120 分辨率的输入,并通过降采样技术有效减少了 token 的开销。为了减小部署与计算开销,GLM-4V-9B 没有引入额外的视觉专家模块,采用了直接混合文本和图片数据的方式进行训练,在保持文本性能的同时提升多模态能力。

在性能方面,GLM-4V-9B 模型展现了显著的优势。尽管其参数量仅为 13B,但它成功地超越了许多参数量更大的开源模型。在众多任务中,GLM-4V-9B 的性能与 GPT-4V 不相上下。

以下两个 demo 展示了 GLM-4-9B 多模态能力。

在第一个示例中,我们要求模型识别一件 T 恤上的公式印花。模型准确地识别出这是麦克斯韦方程组,并且当我们进一步追问关于麦克斯韦方程组的细节时,模型能够依靠其文本处理能力给出回答。这一过程证明了我们在引入多模态功能的同时,并未牺牲模型的文本处理能力。

在第二个示例中,我们输入了一个网页截图,并要求模型将其翻译成 HTML 代码。模型能够直接识别截图中的元素,并输出相应的代码,展现了其在多模态任务中的实用性。

代码:

https://github.com/THUDM/GLM-4

模型:

Hugging Face:

https://huggingface.co/collections/THUDM/glm-4-665fcf188c414b03c2f7e3b7

魔搭社区:

https://modelscope.cn/organization/ZhipuAI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
糖尿病人千万别碰的4种主食:很多人天天吃,血糖悄悄飙升

糖尿病人千万别碰的4种主食:很多人天天吃,血糖悄悄飙升

白宸侃片
2026-05-15 17:47:54
笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

另子维爱读史
2026-05-10 10:55:25
马斯克幼子穿新中式炸屏!跨性别女儿破防了

马斯克幼子穿新中式炸屏!跨性别女儿破防了

广告案例精选
2026-05-15 09:15:36
生活是快乐的:不是等来的,是自己创造的

生活是快乐的:不是等来的,是自己创造的

疾跑的小蜗牛
2026-05-15 19:59:37
浙江工业大学讣告

浙江工业大学讣告

双一流高校
2026-05-16 00:30:07
中美互利共赢:200架波音订单与C919适航前景

中美互利共赢:200架波音订单与C919适航前景

晓踏就是我
2026-05-15 18:06:31
单日蒸发65亿元,A股新晋“股王”翻车在一个副总经理身上

单日蒸发65亿元,A股新晋“股王”翻车在一个副总经理身上

上观新闻
2026-05-15 22:33:30
国家税务总局成都市税务局原二级巡视员李平接受审查调查

国家税务总局成都市税务局原二级巡视员李平接受审查调查

界面新闻
2026-05-15 15:40:24
全网骂翻!郭富城怎么也想不到,方媛一档综艺败光了他的路人缘

全网骂翻!郭富城怎么也想不到,方媛一档综艺败光了他的路人缘

乡野小珥
2026-05-16 03:41:22
不瞒了!马斯克罕见承认:美国是第一,但第二到第十全都来自中国

不瞒了!马斯克罕见承认:美国是第一,但第二到第十全都来自中国

潋滟晴方DAY
2026-04-25 23:29:34
备战提速?最新版歼-20A已经交付,外媒:美日还怎么武力介入台海

备战提速?最新版歼-20A已经交付,外媒:美日还怎么武力介入台海

李健政观察
2026-05-15 14:04:27
美国海上封锁升级后,伊朗开始把货物改走中国铁路

美国海上封锁升级后,伊朗开始把货物改走中国铁路

桂系007
2026-05-16 03:26:27
表决结果出炉,53:39!傅崐萁反制后,却做出让步!郑丽文出手了

表决结果出炉,53:39!傅崐萁反制后,却做出让步!郑丽文出手了

娱乐的宅急便
2026-05-15 18:31:54
销量暴涨61%!曾经千元的“妈妈包”,终于让中产回头疯抢

销量暴涨61%!曾经千元的“妈妈包”,终于让中产回头疯抢

财经八卦
2026-05-15 16:27:27
终于明白了,为何各大车企都在疯狂降价!原来不知不觉中风向变了

终于明白了,为何各大车企都在疯狂降价!原来不知不觉中风向变了

周哥一影视
2026-05-15 18:39:12
提名沈伯洋选台北市长,民进党就别尬吹了

提名沈伯洋选台北市长,民进党就别尬吹了

枢密院十号
2026-05-14 22:39:41
Altman被轮番追问:你完全可信吗?

Altman被轮番追问:你完全可信吗?

Ping值焦虑
2026-05-15 04:38:31
大连英博球迷意难平:五点原因远超比赛结果

大连英博球迷意难平:五点原因远超比赛结果

徐觳解说
2026-05-15 23:20:46
张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

她时尚丫
2026-05-15 21:40:35
女生最渴望被刺激的四种生理性欲望,网友称赞我又学到了

女生最渴望被刺激的四种生理性欲望,网友称赞我又学到了

那年秋天
2026-04-18 12:30:09
2026-05-16 06:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

艺术
亲子
房产
家居
本地

艺术要闻

让人拍案叫绝的图片

亲子要闻

孕妇补钙怕刺激怎么选?液体钙无添加配方实测,蓝帽认证更靠谱

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

家居要闻

110㎡淡而有致的生活表达

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版