网易首页 > 网易号 > 正文 申请入驻

清华系千亿基座对话模型ChatGLM启动内测,开源单卡版模型

0
分享至

机器之心报道

机器之心编辑部

我们问了 ChatGLM 几个关键问题,它给的回答似乎很不错。

ChatGPT 的发布,搅动了整个 AI 领域,各大科技公司、创业公司以及高校团队都在跟进。近段时间,机器之心报道了多家创业公司、高校团队的研究成果。

昨日,又一国产 AI 对话大模型重磅登场:由清华技术成果转化的公司智谱 AI 基于 GLM-130B 千亿基座模型的 ChatGLM 现已开启邀请制内测。

值得一提的是,此次智谱 AI 也开源了中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用。

内测申请网址:chatglm.cn

据了解,ChatGLM 当前版本模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。

2022 年 8 月,清华大学联合智谱 AI 向研究界和工业界开放了拥有 1300 亿参数的中英双语稠密模型 GLM-130B,该模型有一些独特的优势:

  • 双语:同时支持中文和英文;
  • 高精度(英文):在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B;
  • 高精度(中文):在 7 个零样本 CLUE 数据集和 5 个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B;
  • 快速推理:首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理;
  • 可复现性:所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现;
  • 跨平台:支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。

如今, 参考 ChatGPT 的设计思路,ChatGLM 在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐。

机器之心获得了内测邀请码,这里简单和 ChatGLM 进行了对话,效果如下:

它能够理解「站 CP」的实际涵义:

给 ChatGLM 一个数学问题试试:

自从学会了二元一次方程,像这种基础的「鸡兔同笼」问题就再也难不倒它了:

开源 ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。

模型开源地址:
https://github.com/THUDM/ChatGLM-6B

具体来说,ChatGLM-6B 具备以下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
  • 优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。
  • 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。
  • 更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。
  • 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。

不过由于 ChatGLM-6B 模型的容量较小,不可避免的存在一些局限和不足,包括:

  • 相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息,也不太擅长逻辑类问题(如数学、编程)的解答。
  • 可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。
  • 较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成和多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

GLM 团队表示,ChatGLM 距离国际顶尖大模型研究和产品还有一定差距,未来将持续研发并开源更新版本的 ChatGLM 和相关模型。GLM 团队也欢迎大家下载 ChatGLM-6B,基于它进行研究和(非商用)应用开发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国香港队入亚运男足四强 霍启山:奖金,安排!|香港一日

中国香港队入亚运男足四强 霍启山:奖金,安排!|香港一日

直新闻
2023-10-02 22:08:30
惨烈!陕西西安突发恶性车祸,孩子惨死!司机大吼:我XX妈

惨烈!陕西西安突发恶性车祸,孩子惨死!司机大吼:我XX妈

虎哥教育分享
2023-10-02 09:53:49
知名校友+博导!许家印曾为武科大捐款1亿元,如今被母校官网除名

知名校友+博导!许家印曾为武科大捐款1亿元,如今被母校官网除名

不掉线电波
2023-10-02 11:22:14
新中国成立以来的外交部长,硬刚美国、怒怼日本,舌战各国

新中国成立以来的外交部长,硬刚美国、怒怼日本,舌战各国

红色鉴史官
2023-10-02 19:20:03
越南巴沙鱼卖不动,关中国酸菜鱼什么事?

越南巴沙鱼卖不动,关中国酸菜鱼什么事?

中国新闻周刊
2023-10-02 21:09:32
重磅!刚刚,工行、中行、建行、农行、交行、邮储银行全宣布了!

重磅!刚刚,工行、中行、建行、农行、交行、邮储银行全宣布了!

贤人说法
2023-10-02 08:42:08
美退役空军:马斯克没资格和泽连斯基比,他的钱都不知道来自哪里

美退役空军:马斯克没资格和泽连斯基比,他的钱都不知道来自哪里

老马拉车莫少装
2023-10-02 20:17:01
闹大了!海南高二学生坠楼现场惨不忍睹,更多内幕被曝

闹大了!海南高二学生坠楼现场惨不忍睹,更多内幕被曝

旧日兮
2023-10-02 18:14:30
亚运会史诗一战!王楚钦男单登顶,加冕4冠王扔拍庆祝,许昕盛赞

亚运会史诗一战!王楚钦男单登顶,加冕4冠王扔拍庆祝,许昕盛赞

环太平洋老正太
2023-10-02 21:19:29
大意!韩国选手提前庆祝导致丢金 遭0.01秒绝杀 赛后集体拒绝采访

大意!韩国选手提前庆祝导致丢金 遭0.01秒绝杀 赛后集体拒绝采访

林小湜体育频道
2023-10-02 18:45:29
曝Lisa内场合影照曝光!透视紫衣一马平川,“馒头”僵硬形状奇怪

曝Lisa内场合影照曝光!透视紫衣一马平川,“馒头”僵硬形状奇怪

竹筒小时计
2023-10-02 17:30:46
恒大歌舞团长白珊珊:美貌与才艺并存,名利双收背后付出整个青春

恒大歌舞团长白珊珊:美貌与才艺并存,名利双收背后付出整个青春

王小姐的时尚穿搭
2023-10-02 16:14:14
空前团结与强大的欧洲:欧盟27国外长齐聚乌克兰首都基辅

空前团结与强大的欧洲:欧盟27国外长齐聚乌克兰首都基辅

一种观点
2023-10-02 15:57:42
美国宣布,不准中国自由航行,中国:055大舰进美国专属经济区!

美国宣布,不准中国自由航行,中国:055大舰进美国专属经济区!

生机康香的奔跑
2023-10-01 10:11:15
快讯!美国众议院议长麦卡锡发表重磅声明

快讯!美国众议院议长麦卡锡发表重磅声明

小小小李子
2023-10-02 18:11:39
国庆堵车堪比世界末日,女司机妄图在高速上排尿,究竟有多大风险

国庆堵车堪比世界末日,女司机妄图在高速上排尿,究竟有多大风险

踏雪理财
2023-10-02 18:16:00
亚拉吉怒了:我冲金目标100%受到了吴艳妮影响,印度田协提出抗议

亚拉吉怒了:我冲金目标100%受到了吴艳妮影响,印度田协提出抗议

杨华评论
2023-10-02 01:06:43
恐怖!34岁李玲4.63米破赛会纪录夺冠:老将实现亚运三连冠太燃了

恐怖!34岁李玲4.63米破赛会纪录夺冠:老将实现亚运三连冠太燃了

颜小白的篮球梦
2023-10-02 20:47:25
恒大效应开始扩散,行动终于开始,天价罚款来了

恒大效应开始扩散,行动终于开始,天价罚款来了

李博世财经
2023-10-02 17:45:09
宋祖儿团队发文:奋斗五年没有取得任何成果,选择艺人要慎重考虑

宋祖儿团队发文:奋斗五年没有取得任何成果,选择艺人要慎重考虑

竹筒小时计
2023-10-02 16:01:38
2023-10-02 23:18:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8277文章数 141631关注度
往期回顾 全部

科技要闻

两位mRNA技术开创者获2023年诺贝尔生理学或医学奖

头条要闻

70后李永胜履新职 曾任中国常驻联合国代表团参赞

头条要闻

70后李永胜履新职 曾任中国常驻联合国代表团参赞

体育要闻

初一输越南vs国庆输韩国 哪个更糟心?

娱乐要闻

杨颖风波再升级!被央视视频除名

财经要闻

中美关系出现向好迹象

汽车要闻

售24.12万起 奥迪RS套件燃速型特别版车型上市

态度原创

亲子
数码
时尚
艺术
本地

亲子要闻

江苏一幼师与家长晚餐风波,网友:三观跟着五官跑,碎了一地

数码要闻

《小舞五年之约》-Cosplay

疑似已有二胎?他俩的婚姻故事好清奇

艺术要闻

2023北京国际设计周751国际设计节 “传承与回归”盛大开幕

本地新闻

Lisa参演的疯马秀,究竟有多疯?

无障碍浏览 进入关怀版