全面对标OpenAI生态！智谱AI推出GLM-4大模型全家桶|算法|glm|智谱ai|openai

分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。

作者 ZeR0

编辑漠影

智东西1月16日报道，在今日举办的智谱AI技术开放日上，国内当前估值最高的AI大模型独角兽智谱AI发布了新一代基座大模型GLM-4，性能比上一代提升接近60%，整体评测结果逼近GPT-4，支持更长的上下文、更强的多模态、更快速的推理、更多的并发，大大降低推理成本，同时GLM-4也增强了其智能体（Agent）的能力。

智谱AI CEO张鹏称，围绕GLM预训练框架，智谱AI形成了一个相对完整的大模型全栈技术体系架构，功能覆盖多模态、代码生成、搜索增强和对话，对标OpenAI的全栈大模型生态。

“我们努力赶上，同时我们也谦虚地承认，自己还存在着一定的差距，但不懈努力让我们开始逐渐形成我们自己的创新的特色，也借助于此逐渐缩小与顶尖水平的差距。”张鹏说。

除了带来基座模型GLM-4之外，智谱AI还推出GLM-4 All Tools，实现了根据用户意图自动理解、规划复杂指令，自由调用文生图、代码解释器、网页浏览、Function Call等多项工具来完成复杂任务。这意味着GLM系列模型的全家桶能力实现工业化，开发者及用户可以更轻松地使用GLM-4模型，不再为提示词而担心。

GLMs个性化智能体定制功能和智能体中心同时上线。基于GLM-4模型，用户只要登陆智谱清言观望，使用简单的提示词指令就能创建属于自己的智能体。在智能体中心中，用户可分享各种智能体。没有编程基础的用户也能实现大模型的便捷开发。

有兴趣体验的用户可登陆智谱清言官网或App。GLMs模型应用商店、开发者分成计划也将同期公布。

GLM-4登陆了MaaS平台，提供各式API访问。同时，智谱AI邀请开发者参与GLM-4 Assistent API内测，并将为报名的小伙伴赠送千万级token，也邀请大家一起开发属于自己的GLM应用。

从ChatGLM一代、二代、三代至今，智谱AI几乎开源了所有内核的模型，包括千亿基座模型、搜索增强模型、图形理解模型、代码模型、文图生成模型、图形增强理解模型、可视化认知Agent模型。张鹏希望这些模型能够帮助大家深入认知大模型的技术，而不是简单的仅仅会用，进而帮助大家一起探索大模型技术的未来。

现场，张鹏还分享了智谱AI联合发起的多个大模型基金，包括CCF-智谱大模型基金、SMP-智谱大模型交叉学科基金、大模型开源基金、10亿元“Z计划”创业基金，为大模型的相关科研与早期创业提供资助。

一、GLM-4：性能逼近GPT-4，支持128k上下文，多模态能力升级

智谱AI新一代基座大模型GLM-4，整体大模型评测结果接近GPT-4。

在大规模多任务语言理解评测中，GLM-4得分远超GPT-3.5，平均达到GPT-4的95%的水平，个别项目上已几乎持平；在GSM8K数学评测数据集上，GLM-4的评测结果与GPT-4有4.6%的差距；在MATH数据集上，GLM-4得分比GPT3.5多15%，比GPT-4少9%。

谷歌推出的AI基准测试套件BBH可评估语言模型在各种复杂任务上的性能，在这项评测中，GLM-4得分远超GPT3.5，距离GPT4只差不到1%；在OpenAI编写发布的代码生成评测数据集HumanEval上，GLM-4的水平超过GPT-3.5和GPT-4。

在跨语言中英文混合评测中，GLM-4在Prompt级别、中文的成绩达到GPT-4的88%。在指令跟随方面，GLM-4的能力达到了GPT-4的90%，远超GPT-3.5。

在中文对齐能力方面，智谱AI有一个单独的全面对标分析，包括公开的AlignBench和一个没有公开的内部的测试数据集。在AlignBench上，总体GLM-4得分超过了GPT-4 6月13日发布版本，逼近最新的GPT-4 Turbo版本效果，在专业能力、中文理解、角色扮演等方面甚至超过最新GPT-4的进度，在中文推理方面则还需进一步提升和加强。

GLM-4可支持128k上下文窗口，单次提示可处理300页文本。同时，其技术团队解决了上下文全局信息因失焦而导致的精度下降问题，在“大海捞针”测试中，GLM-4模型能做到几乎100%的精准召回。

多模态方面，GLM-4的文生图和多模态理解都得到进一步加强，推出全新的CogView3，效果超过开源的SDXL模型，逼近OpenAI的DALL·E 3。在对齐、保真、安全、组合布局等各个评测维度上，CogView3都做到DALL·E 3 90%以上的水平，平均可以达到95%的相对性能。

CogView3能够很好地生成手部图像，其语义能力也进一步增强，可准确理解“鱼眼镜头”这样容易被机器会错意的概念，对颜色、场景、空间位置的理解也都很准确。

使用GLM-4V开源模型，你可以做很多有意思的事情，比如给定一个截图的网页表格，让它转化成markdown格式，这样就能直接复制粘贴到需要用到的地方。输入一张绘画，它也能准确理解图中所表达的信息。

智谱AI最近还提出了CogAgent模型，通过UI截图输入来理解图中的每一处信息，根据用户提问告知下一步完成相应的任务需要点击哪里，或者做出怎样的操作。这是智谱将来会着重投入的方向：从多模态走向智能助手，让机器能直接理解屏幕上的文字、图像和信号，不需要转化成一个个token输入到模型中，如果能完成这样一件事，将极大解放劳动力。

智谱AI希望未来让CogAgent理解各种屏幕，例如手机屏幕或其他的知识和图表，用多模态改变人们的生活。其团队预测，多模态模型可能在1~2年内能够全面超越人类的视觉识别能力。

二、GLM-4 All Tools全家桶、GLMs智能体中心上线！不会编程也能定制专属Agent

针对令许多开发者及普通用户犯难的“AI咒语”提示词问题，智谱AI推出GLM-4 All Tools全家桶。

GLM-4 All Tools实现了根据用户意图自动理解、规划复杂指令，自动调用文生图、代码解释器、网页浏览、Function Call等功能，组合起来完成复杂任务。

只需输入一个指令，GLM-4就会自动分析指令，结合上下文选择决定调用合适的工具。这也是OpenAI近期推出的GPTs的一项基础能力。

张鹏说，这意味着GLM系列模型的全家桶能力终于实现了，开发者和用户可以更轻松地使用GLM-4的模型，不再为提示词而担心。

以文生图为例，输入“画一个卡通柯基”的提示，再在后续新增“它开始跑步了”、“一只小兔子加入它一起”、“它跑的越来越快了”等一连串追加的提示词，CogView3能准确接收用户的意思，实现故事化的自动连续生成，语义非常准确。

现场还演示了让GLM-4画出满足让柯基狗“给它读很多书变聪明”、“让它学习使用电脑”等提示词的图像，美中不足的是在演示时，每次图像生成的等待时间有点长。

同样，GLM-4能自动调用代码解释器进行复杂方程或微分积分的求解，对比GSM8K、MATH和Math23K这三个数据集上的测试结果，GLM-4取得了与GPT-4相当的性能。

GLM-4通过自动调用Python解释器，自动写出求解的代码，然后运行求解。加入代码解释器后，输出的不仅仅是文本和代码，也可以是图像文件等。

除了解决数据问题外，GLM All Tools能力完全自动化，可以完成文件处理、数据分析、图表绘制等一系列复杂任务。可处理的文件类型包括常见的Excel、PDF、PPT等格式。

还有自动网页浏览，GLM-4模型可根据任务自行规划检索任务，自行选择信息源，自行与信息源交互。

比如告诉模型你要参加某个大会，向它询问当地天气状况，但并没有告诉它大会在哪里举行，这时它会自动检索大会日期和地点，然后告诉你准确的答案。

“GLM-4 All Tools的网页浏览准确率已经超过了GPT-4，值得我们的自豪。”张鹏说。

在多跳式问答的复杂场景中，仅通过一次检索可能无法检测到有效信息，此时传统检索生成方法就存在较大的局限性。而GLM-4 All Tools的高级联网功能，使得模型的自主信息收集能力变得更强大。据介绍，其方案相比GPT-4的Web browsing功能也有比较明显的优势。

Function Call方面，GLM-4 All Tools可根据用户提供的function描述，自动选择所需function生成参数，并根据function的返回值生成回复，支持一次输入进行多次function的调用，和支持包含中文以及特殊符号命名的function的调用。这方面的能力与GPT-4已基本持平，而且在中文理解上更强，英文能力稍差，总体上达到持平。

来看一个多工具自动调用的例子，比如可以问它智谱DevDay的宣传语，让它画一幅突出宣传语的场景图，模型自动进行搜索，找到一些相关发布的页面，从中总结和识别宣传语内容，进而生成一张能还原宣传语意境的图片。

再来看另一个例子。GLM-4可查询过去10年中的全球GDP数据并进行直观展示，它能识别语义并联网，对多个数据源进行检索，生成一段代码，把找到的数据可视化，生成一张简单的图表。只要一句简单的输入，就能启动联网搜索、提取代码解释器、绘图等多项模型原生能力。

还可以让GLM-4搭建一个多项式回归预测模型，预测未来5年全球GDP的发展态势，并把预测结果以红色的标记加入到原有的图表中，以便更加直观地看到发展趋势。

“GLM-4的权限提升，使得我们有机会探索真正意义上的GLMs。”张鹏说，登陆智谱清言官网或App，智谱AI已经为大家预设了一个智谱DevDay智能体，你可以自己上手体验，询问一些跟今天大会相关的事宜，比如日程、有哪些主题演讲、演讲PPT文件下载链接等等。

创建这样一个简单的智能体，只需要3分钟，把大会的会议日程、嘉宾信息当作外部输入知识放进知识库，就能自动生成智能体。

以后大家自己组织活动，也可以来定制一个这样的智能体，让智谱清言帮你与参会者进行沟通。

接着，张鹏宣布，GLMs个性化智能体定制能力上线。

基于GLM-4模型，用户只要登陆智谱清言官网，用简单的提示词指令就能创建属于自己的智能体。在其智能体中心中，用户可分享自己创建的各种智能体。

张鹏说，GLM模型智能体的推出，标志着任何人都能够自由运用GLM-4模型并挖掘其潜力，即使没有任何编程语言的基础，也能够实现大模型的便捷开发，这也是智谱AI扩大大模型开发者社区生态的一次进步。

三、发起多个大模型基金，支持科研与创业探索

张鹏谈道，智谱AI源自清华科技成果转化，非常重视科研突破和源头创新，也希望无私回馈科研界，因此联合CCF中国计算机学会，发起CCF-智谱大模型基金，围绕预训练大模型的理论、算法、模型应用等相关的研究提供资助。

与此同时，智谱AI联合中国中文信息学会、社会媒体处理专委会联合发起了SMP-智谱大模型交叉学科基金，支持探索大模型与各领域交叉的创新，促进大模型与各类学科的有机的融合。

所有科研基金参与者拥有自己研发的知识产权。这两支基金在2023年为来自全国30余所高校参与的41个研究项目累计提供了超过1000万元现金和算力资源的科研支持，学者们的学科背景也丰富多元。张鹏相信，学术创新是中国大模型事业持续发展创新的原动力之一。

2024年，面向开源社区，智谱AI发起大模型开源基金，旨在推动大模型研发的发展，促进大模型开源生态的繁荣。

该开源基金可用3个“1000”来概括：第一个“1000”是智谱将为大模型开源社区提供1000张卡，助力开源开发；第二个“1000”是智谱将提供1000万元现金来支持大模型相关开源项目；第三个“1000”是智谱将为优秀的开源项目开发者提供1000亿免费API的tokens。

张鹏说，中国人工智能事业的繁荣发展需要产业链上下游、合作伙伴、开发者社区和学术界所有参与者一同努力。面向全球，智谱AI与生态伙伴联合设立并发布10亿元“Z计划”创业基金，支持大模型早期创业者的创新探索，覆盖大模型算法、底层算子、芯片优化、行业大模型、超级应用等各方面。

此前智谱AI已向相关企业投入数亿元人民币，支持了数十家企业，比如面壁智能是国内最早从事也是最懂Agent的大模型公司，基流科技曾有过上万张GPU卡集群建设的项目经验。

四、坚守开源，已拥有2000多家合作伙伴

回首来时路，张鹏说，智谱AI成立于2019年，从清华园走出，当时才20多人，立下「让机器像人一样思考」的愿景。从探索算法到开始训练，从十亿、百亿到千亿级模型，再到逐步实现产业化应用落地，智谱一路走到今天。

回顾大模型过往发展历程，2017年，谷歌提出Transformer机器学习模型架构，这成为自然语言处理（NLP）等相关研究的主要方法。

2018~2020年是大模型算法创新阶段，先后出现了BERT、GPT、T5等基于无标注数据自监督学习的大规模训练模型算法，这些算法模型拥有较大规模的参数，具备了较强的通用化能力，可完成多场景任务，显著降低学习成本，提升了学习效率。智谱也在这一阶段研发了自己的算法。

2020年~2022年是一场模型之战，基于预训练模型框架和开源项目，各种模型如雨后春笋般诞生。2020年的GPT-3拥有1750亿个参数，可以视作该阶段的起点，开启了基座模型的全新时代。随后全球掀起一股大模型研究和研发热潮。智谱AI在2022年开源了千亿级基座模型GLM-130B，这一工作吸引了全世界的关注。

2023年，大模型开始火出圈，在金融、能源、教育等众多行业开始落地，被公众广为所知，智谱AI联合合作伙伴实现广泛的商业应用落地。基于GLM-130B研发的ChatGLM-130B，是当时国内最先可线上使用的千亿级Chat模型。

张鹏坦言，和国外大模型相比，国内的大模型发展起步晚了一些，加上高性能算力限制、数据质量的差距等，国内大模型在规模和核心能力上都与世界先进水平存在一定差距，这样的差距大约在一年左右。

今天，智谱AI交出了新的阶段性答卷，也希望以此为起点，未来瞄向通用人工智能（AGI）。

张鹏说，智谱GLM系列模型基本对标OpenAI的GPT系列模型，但更加开放，所有模型和技术细节都进行了论文发表和开源。在斯坦福大学对全球30多个大模型的评测报告中，智谱GLM-130B是亚洲唯一入选的模型，在准确性、公平性等指标上接近GPT-3，在鲁棒性、校准误差、无偏性等指标上优于GPT-3。

2023年ChatGLM经历了3个版本的迭代，逐步具备多模态理解、代码解释、网络搜索增强等新功能，智谱不仅开发了其最大的模型商用版本，也有开源版本，ChatGLM-6B开源模型迄今全球下载量累计超过千万，在开源趋势榜单上排名超过Meta Llama大语言模型。

去年，智谱AI团队获得了Hugging Face全球最受欢迎的开源机构排行榜第五名，超过OpenAI、谷歌、微软，是国内唯一上榜的机构。开发者们在智谱的开源模型上开发出了600多项优秀的大模型应用开源项目。

在商业化成绩方面，智谱AI在市场上率先提出了MaaS商业化路径，并详细针对不同类型客户群体的需求，提供开放的API云端私有化和本地私有化等多种商业解决方案。迄今GLM系列模型已拥有2000多家合作伙伴，其中有200多家企事业单位与智谱AI进行了深度的模型共创共建。

结语：AGI元年伊始，但路还很长

“人工智能大模型已经成为国际科技竞争的必争之地，实现国产的全资源自主可控的人工智能技术模型，也是迫在眉睫的任务。”张鹏谈道。

在他看来，大模型的快速发展给全球科技创新带来全新挑战，超大规模的算力需求、超大规模的数据需求、全新的模型训练算法框架安全与可行的软硬件的系统，大模型的应用需求也更加动态和多样化，要求对大模型的不同层次进行更深入的研究。这是个全新的AI科学难题，但也是一个我们赶超国际领先水平的机会。

2024年是AGI的元年，但路还很长。张鹏说，今天智谱将心目中的AI未来呈现在大家面前。在2024年乃至更长远的未来，智谱AI将坚持更开放的心态，团结更广泛的合作伙伴，共创AI未来。

责任编辑：郜雪丹_NT5097

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.