网易首页 > 网易号 > 正文 申请入驻

全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 ZeR0

编辑 漠影

智东西1月16日报道,在今日举办的智谱AI技术开放日上,国内当前估值最高的AI大模型独角兽智谱AI发布了新一代基座大模型GLM-4,性能比上一代提升接近60%,整体评测结果逼近GPT-4,支持更长的上下文、更强的多模态、更快速的推理、更多的并发,大大降低推理成本,同时GLM-4也增强了其智能体(Agent)的能力。

智谱AI CEO张鹏称,围绕GLM预训练框架,智谱AI形成了一个相对完整的大模型全栈技术体系架构,功能覆盖多模态、代码生成、搜索增强和对话,对标OpenAI的全栈大模型生态

“我们努力赶上,同时我们也谦虚地承认,自己还存在着一定的差距,但不懈努力让我们开始逐渐形成我们自己的创新的特色,也借助于此逐渐缩小与顶尖水平的差距。”张鹏说。

除了带来基座模型GLM-4之外,智谱AI还推出GLM-4 All Tools,实现了根据用户意图自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览、Function Call等多项工具来完成复杂任务。这意味着GLM系列模型的全家桶能力实现工业化,开发者及用户可以更轻松地使用GLM-4模型,不再为提示词而担心。

GLMs个性化智能体定制功能智能体中心同时上线。基于GLM-4模型,用户只要登陆智谱清言观望,使用简单的提示词指令就能创建属于自己的智能体。在智能体中心中,用户可分享各种智能体。没有编程基础的用户也能实现大模型的便捷开发。

有兴趣体验的用户可登陆智谱清言官网或App。GLMs模型应用商店、开发者分成计划也将同期公布。

GLM-4登陆了MaaS平台,提供各式API访问。同时,智谱AI邀请开发者参与GLM-4 Assistent API内测,并将为报名的小伙伴赠送千万级token,也邀请大家一起开发属于自己的GLM应用。

从ChatGLM一代、二代、三代至今,智谱AI几乎开源了所有内核的模型,包括千亿基座模型、搜索增强模型、图形理解模型、代码模型、文图生成模型、图形增强理解模型、可视化认知Agent模型。张鹏希望这些模型能够帮助大家深入认知大模型的技术,而不是简单的仅仅会用,进而帮助大家一起探索大模型技术的未来。

现场,张鹏还分享了智谱AI联合发起的多个大模型基金,包括CCF-智谱大模型基金、SMP-智谱大模型交叉学科基金、大模型开源基金、10亿元“Z计划”创业基金,为大模型的相关科研与早期创业提供资助。

一、GLM-4:性能逼近GPT-4,支持128k上下文,多模态能力升级

智谱AI新一代基座大模型GLM-4,整体大模型评测结果接近GPT-4。

在大规模多任务语言理解评测中,GLM-4得分远超GPT-3.5,平均达到GPT-4的95%的水平,个别项目上已几乎持平;在GSM8K数学评测数据集上,GLM-4的评测结果与GPT-4有4.6%的差距;在MATH数据集上,GLM-4得分比GPT3.5多15%,比GPT-4少9%。

谷歌推出的AI基准测试套件BBH可评估语言模型在各种复杂任务上的性能,在这项评测中,GLM-4得分远超GPT3.5,距离GPT4只差不到1%;在OpenAI编写发布的代码生成评测数据集HumanEval上,GLM-4的水平超过GPT-3.5和GPT-4。

在跨语言中英文混合评测中,GLM-4在Prompt级别、中文的成绩达到GPT-4的88%。在指令跟随方面,GLM-4的能力达到了GPT-4的90%,远超GPT-3.5。

在中文对齐能力方面,智谱AI有一个单独的全面对标分析,包括公开的AlignBench和一个没有公开的内部的测试数据集。在AlignBench上,总体GLM-4得分超过了GPT-4 6月13日发布版本,逼近最新的GPT-4 Turbo版本效果,在专业能力、中文理解、角色扮演等方面甚至超过最新GPT-4的进度,在中文推理方面则还需进一步提升和加强。

GLM-4可支持128k上下文窗口单次提示可处理300页文本。同时,其技术团队解决了上下文全局信息因失焦而导致的精度下降问题,在“大海捞针”测试中,GLM-4模型能做到几乎100%的精准召回。

多模态方面,GLM-4的文生图和多模态理解都得到进一步加强,推出全新的CogView3,效果超过开源的SDXL模型,逼近OpenAI的DALL·E 3。在对齐、保真、安全、组合布局等各个评测维度上,CogView3都做到DALL·E 3 90%以上的水平,平均可以达到95%的相对性能。

CogView3能够很好地生成手部图像,其语义能力也进一步增强,可准确理解“鱼眼镜头”这样容易被机器会错意的概念,对颜色、场景、空间位置的理解也都很准确。

使用GLM-4V开源模型,你可以做很多有意思的事情,比如给定一个截图的网页表格,让它转化成markdown格式,这样就能直接复制粘贴到需要用到的地方。输入一张绘画,它也能准确理解图中所表达的信息。

智谱AI最近还提出了CogAgent模型,通过UI截图输入来理解图中的每一处信息,根据用户提问告知下一步完成相应的任务需要点击哪里,或者做出怎样的操作。这是智谱将来会着重投入的方向:从多模态走向智能助手,让机器能直接理解屏幕上的文字、图像和信号,不需要转化成一个个token输入到模型中,如果能完成这样一件事,将极大解放劳动力。

智谱AI希望未来让CogAgent理解各种屏幕,例如手机屏幕或其他的知识和图表,用多模态改变人们的生活。其团队预测,多模态模型可能在1~2年内能够全面超越人类的视觉识别能力。

二、GLM-4 All Tools全家桶、GLMs智能体中心上线!不会编程也能定制专属Agent

针对令许多开发者及普通用户犯难的“AI咒语”提示词问题,智谱AI推出GLM-4 All Tools全家桶

GLM-4 All Tools实现了根据用户意图自动理解、规划复杂指令,自动调用文生图、代码解释器、网页浏览、Function Call等功能,组合起来完成复杂任务。

只需输入一个指令,GLM-4就会自动分析指令,结合上下文选择决定调用合适的工具。这也是OpenAI近期推出的GPTs的一项基础能力。

张鹏说,这意味着GLM系列模型的全家桶能力终于实现了,开发者和用户可以更轻松地使用GLM-4的模型,不再为提示词而担心。

文生图为例,输入“画一个卡通柯基”的提示,再在后续新增“它开始跑步了”、“一只小兔子加入它一起”、“它跑的越来越快了”等一连串追加的提示词,CogView3能准确接收用户的意思,实现故事化的自动连续生成,语义非常准确。

现场还演示了让GLM-4画出满足让柯基狗“给它读很多书 变聪明”、“让它学习使用电脑”等提示词的图像,美中不足的是在演示时,每次图像生成的等待时间有点长。

同样,GLM-4能自动调用代码解释器进行复杂方程或微分积分的求解,对比GSM8K、MATH和Math23K这三个数据集上的测试结果,GLM-4取得了与GPT-4相当的性能。

GLM-4通过自动调用Python解释器,自动写出求解的代码,然后运行求解。加入代码解释器后,输出的不仅仅是文本和代码,也可以是图像文件等。

除了解决数据问题外,GLM All Tools能力完全自动化,可以完成文件处理、数据分析、图表绘制等一系列复杂任务。可处理的文件类型包括常见的Excel、PDF、PPT等格式。

还有自动网页浏览,GLM-4模型可根据任务自行规划检索任务,自行选择信息源,自行与信息源交互。

比如告诉模型你要参加某个大会,向它询问当地天气状况,但并没有告诉它大会在哪里举行,这时它会自动检索大会日期和地点,然后告诉你准确的答案。

“GLM-4 All Tools的网页浏览准确率已经超过了GPT-4,值得我们的自豪。”张鹏说。

在多跳式问答的复杂场景中,仅通过一次检索可能无法检测到有效信息,此时传统检索生成方法就存在较大的局限性。而GLM-4 All Tools的高级联网功能,使得模型的自主信息收集能力变得更强大。据介绍,其方案相比GPT-4的Web browsing功能也有比较明显的优势。

Function Call方面,GLM-4 All Tools可根据用户提供的function描述,自动选择所需function生成参数,并根据function的返回值生成回复,支持一次输入进行多次function的调用,和支持包含中文以及特殊符号命名的function的调用。这方面的能力与GPT-4已基本持平,而且在中文理解上更强,英文能力稍差,总体上达到持平。

来看一个多工具自动调用的例子,比如可以问它智谱DevDay的宣传语,让它画一幅突出宣传语的场景图,模型自动进行搜索,找到一些相关发布的页面,从中总结和识别宣传语内容,进而生成一张能还原宣传语意境的图片。

再来看另一个例子。GLM-4可查询过去10年中的全球GDP数据并进行直观展示,它能识别语义并联网,对多个数据源进行检索,生成一段代码,把找到的数据可视化,生成一张简单的图表。只要一句简单的输入,就能启动联网搜索、提取代码解释器、绘图等多项模型原生能力。

还可以让GLM-4搭建一个多项式回归预测模型,预测未来5年全球GDP的发展态势,并把预测结果以红色的标记加入到原有的图表中,以便更加直观地看到发展趋势。

“GLM-4的权限提升,使得我们有机会探索真正意义上的GLMs。”张鹏说,登陆智谱清言官网或App,智谱AI已经为大家预设了一个智谱DevDay智能体,你可以自己上手体验,询问一些跟今天大会相关的事宜,比如日程、有哪些主题演讲、演讲PPT文件下载链接等等。

创建这样一个简单的智能体,只需要3分钟,把大会的会议日程、嘉宾信息当作外部输入知识放进知识库,就能自动生成智能体。

以后大家自己组织活动,也可以来定制一个这样的智能体,让智谱清言帮你与参会者进行沟通。

接着,张鹏宣布,GLMs个性化智能体定制能力上线

基于GLM-4模型,用户只要登陆智谱清言官网,用简单的提示词指令就能创建属于自己的智能体。在其智能体中心中,用户可分享自己创建的各种智能体。

张鹏说,GLM模型智能体的推出,标志着任何人都能够自由运用GLM-4模型并挖掘其潜力,即使没有任何编程语言的基础,也能够实现大模型的便捷开发,这也是智谱AI扩大大模型开发者社区生态的一次进步。

三、发起多个大模型基金,支持科研与创业探索

张鹏谈道,智谱AI源自清华科技成果转化,非常重视科研突破和源头创新,也希望无私回馈科研界,因此联合CCF中国计算机学会,发起CCF-智谱大模型基金,围绕预训练大模型的理论、算法、模型应用等相关的研究提供资助。

与此同时,智谱AI联合中国中文信息学会、社会媒体处理专委会联合发起了SMP-智谱大模型交叉学科基金,支持探索大模型与各领域交叉的创新,促进大模型与各类学科的有机的融合。

所有科研基金参与者拥有自己研发的知识产权。这两支基金在2023年为来自全国30余所高校参与的41个研究项目累计提供了超过1000万元现金和算力资源的科研支持,学者们的学科背景也丰富多元。张鹏相信,学术创新是中国大模型事业持续发展创新的原动力之一。

2024年,面向开源社区,智谱AI发起大模型开源基金,旨在推动大模型研发的发展,促进大模型开源生态的繁荣。

该开源基金可用3个“1000”来概括:第一个“1000”是智谱将为大模型开源社区提供1000张卡,助力开源开发;第二个“1000”是智谱将提供1000万元现金来支持大模型相关开源项目;第三个“1000”是智谱将为优秀的开源项目开发者提供1000亿免费API的tokens。

张鹏说,中国人工智能事业的繁荣发展需要产业链上下游、合作伙伴、开发者社区和学术界所有参与者一同努力。面向全球,智谱AI与生态伙伴联合设立并发布10亿元“Z计划”创业基金,支持大模型早期创业者的创新探索,覆盖大模型算法、底层算子、芯片优化、行业大模型、超级应用等各方面。

此前智谱AI已向相关企业投入数亿元人民币,支持了数十家企业,比如面壁智能是国内最早从事也是最懂Agent的大模型公司,基流科技曾有过上万张GPU卡集群建设的项目经验。

四、坚守开源,已拥有2000多家合作伙伴

回首来时路,张鹏说,智谱AI成立于2019年,从清华园走出,当时才20多人,立下「让机器像人一样思考」的愿景。从探索算法到开始训练,从十亿、百亿到千亿级模型,再到逐步实现产业化应用落地,智谱一路走到今天。

回顾大模型过往发展历程,2017年,谷歌提出Transformer机器学习模型架构,这成为自然语言处理(NLP)等相关研究的主要方法。

2018~2020年是大模型算法创新阶段,先后出现了BERT、GPT、T5等基于无标注数据自监督学习的大规模训练模型算法,这些算法模型拥有较大规模的参数,具备了较强的通用化能力,可完成多场景任务,显著降低学习成本,提升了学习效率。智谱也在这一阶段研发了自己的算法。

2020年~2022年是一场模型之战,基于预训练模型框架和开源项目,各种模型如雨后春笋般诞生。2020年的GPT-3拥有1750亿个参数,可以视作该阶段的起点,开启了基座模型的全新时代。随后全球掀起一股大模型研究和研发热潮。智谱AI在2022年开源了千亿级基座模型GLM-130B,这一工作吸引了全世界的关注。

2023年,大模型开始火出圈,在金融、能源、教育等众多行业开始落地,被公众广为所知,智谱AI联合合作伙伴实现广泛的商业应用落地。基于GLM-130B研发的ChatGLM-130B,是当时国内最先可线上使用的千亿级Chat模型。

张鹏坦言,和国外大模型相比,国内的大模型发展起步晚了一些,加上高性能算力限制、数据质量的差距等,国内大模型在规模和核心能力上都与世界先进水平存在一定差距,这样的差距大约在一年左右

今天,智谱AI交出了新的阶段性答卷,也希望以此为起点,未来瞄向通用人工智能(AGI)。

张鹏说,智谱GLM系列模型基本对标OpenAI的GPT系列模型,但更加开放,所有模型和技术细节都进行了论文发表和开源。在斯坦福大学对全球30多个大模型的评测报告中,智谱GLM-130B是亚洲唯一入选的模型,在准确性、公平性等指标上接近GPT-3,在鲁棒性、校准误差、无偏性等指标上优于GPT-3。

2023年ChatGLM经历了3个版本的迭代,逐步具备多模态理解、代码解释、网络搜索增强等新功能,智谱不仅开发了其最大的模型商用版本,也有开源版本,ChatGLM-6B开源模型迄今全球下载量累计超过千万,在开源趋势榜单上排名超过Meta Llama大语言模型。

去年,智谱AI团队获得了Hugging Face全球最受欢迎的开源机构排行榜第五名,超过OpenAI、谷歌、微软,是国内唯一上榜的机构。开发者们在智谱的开源模型上开发出了600多项优秀的大模型应用开源项目。

在商业化成绩方面,智谱AI在市场上率先提出了MaaS商业化路径,并详细针对不同类型客户群体的需求,提供开放的API云端私有化和本地私有化等多种商业解决方案。迄今GLM系列模型已拥有2000多家合作伙伴,其中有200多家企事业单位与智谱AI进行了深度的模型共创共建。

结语:AGI元年伊始,但路还很长

“人工智能大模型已经成为国际科技竞争的必争之地,实现国产的全资源自主可控的人工智能技术模型,也是迫在眉睫的任务。”张鹏谈道。

在他看来,大模型的快速发展给全球科技创新带来全新挑战,超大规模的算力需求、超大规模的数据需求、全新的模型训练算法框架安全与可行的软硬件的系统,大模型的应用需求也更加动态和多样化,要求对大模型的不同层次进行更深入的研究。这是个全新的AI科学难题,但也是一个我们赶超国际领先水平的机会。

2024年是AGI的元年,但路还很长。张鹏说,今天智谱将心目中的AI未来呈现在大家面前。在2024年乃至更长远的未来,智谱AI将坚持更开放的心态,团结更广泛的合作伙伴,共创AI未来。

责任编辑:郜雪丹_NT5097

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

她时尚丫
2026-02-17 22:41:30
越看越上头!小七宝萌化全网,张兰直言:这娃来的正是好时候!

越看越上头!小七宝萌化全网,张兰直言:这娃来的正是好时候!

乐悠悠娱乐
2026-02-28 15:12:32
上海电影院捉奸后续,女子带情夫公然出轨,视频流出高清照片曝光

上海电影院捉奸后续,女子带情夫公然出轨,视频流出高清照片曝光

壹月情感
2026-03-02 21:09:52
总的来说,DeepSeek的历史使命已然落幕!

总的来说,DeepSeek的历史使命已然落幕!

达文西看世界
2026-02-14 19:31:04
广州人注意:明天请提早一个小时出门!

广州人注意:明天请提早一个小时出门!

羊城攻略
2026-03-02 23:44:28
美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

悦心知足
2026-02-21 23:03:46
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
伊朗猛轰迪拜报复美以!海湾国家被迫站队,美军事基地压力骤增!

伊朗猛轰迪拜报复美以!海湾国家被迫站队,美军事基地压力骤增!

深析古今
2026-03-03 03:09:36
2026,买了老小区的业主要发财了,房龄满28年以上的老房子有新规

2026,买了老小区的业主要发财了,房龄满28年以上的老房子有新规

室内设计师有料儿
2026-03-02 16:35:55
伊朗强援已到!以色列集结10万大军,关键时刻,普京对中国做承诺

伊朗强援已到!以色列集结10万大军,关键时刻,普京对中国做承诺

咣当地球
2026-03-02 17:00:31
西媒曝曼联将签卡塞米罗接班人,预算2亿欧,托纳利标价1.5亿英镑

西媒曝曼联将签卡塞米罗接班人,预算2亿欧,托纳利标价1.5亿英镑

夏侯看英超
2026-03-03 02:18:14
外媒:一艘悬挂美国国旗油轮遭两枚炮弹击中

外媒:一艘悬挂美国国旗油轮遭两枚炮弹击中

参考消息
2026-03-02 20:53:04
6分钟19个导弹连全军覆没,82架战机被击落,此战给我们敲响警钟

6分钟19个导弹连全军覆没,82架战机被击落,此战给我们敲响警钟

混沌录
2026-02-04 22:25:03
为拿美国绿卡,在联合国大楼举牌抹黑中国的张晓宁,如今“圆梦”

为拿美国绿卡,在联合国大楼举牌抹黑中国的张晓宁,如今“圆梦”

嫹笔牂牂
2026-03-02 17:03:39
女足亚洲杯太疯狂:韩国3-0制造首个惨案!中国队卫冕首秀5-0起步

女足亚洲杯太疯狂:韩国3-0制造首个惨案!中国队卫冕首秀5-0起步

侃球熊弟
2026-03-02 19:10:46
朝鲜人对中国人是怎样的态度?让我告诉你真相

朝鲜人对中国人是怎样的态度?让我告诉你真相

世界圈
2026-02-24 19:20:21
中美就两国元首互动保持着沟通

中美就两国元首互动保持着沟通

北青网-北京青年报
2026-03-02 15:53:19
美国打仗最怕什么?张召忠:一旦发生这2种情况,美军必然战败

美国打仗最怕什么?张召忠:一旦发生这2种情况,美军必然战败

闻识
2026-03-02 07:35:39
来搞笑的?超级杯花名册漏洞百出:照片古早且粗糙,译名叠词

来搞笑的?超级杯花名册漏洞百出:照片古早且粗糙,译名叠词

懂球帝
2026-03-02 22:29:12
少妇当众脱裤猥亵男子:高颜值照流出,脏脏细节披露,警方已介入

少妇当众脱裤猥亵男子:高颜值照流出,脏脏细节披露,警方已介入

博士观察
2026-03-01 14:24:34
2026-03-03 03:55:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11280文章数 116984关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

房产
家居
艺术
数码
公开课

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

家居要闻

万物互联 享科技福祉

艺术要闻

这四位老人的花鸟画,竟让人欲罢不能!

数码要闻

高通MWC 2026发布多项通信技术,定档2029年开启6G商用

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版