网易首页 > 网易号 > 正文 申请入驻

笔记本就能运行的ChatGPT平替来了,附完整版技术报告

0
分享至

机器之心报道

编辑:陈萍、蛋酱

GPT4All 是基于大量干净的助手数据(包括代码、故事和对话)训练而成的聊天机器人,数据包括~800k 条 GPT-3.5-Turbo 生成数据,基于 LLaMa 完成,M1 Mac、Windows 等环境都能运行。或许就像它的名字所暗示的那样,人人都能用上个人 GPT 的时代已经来了。

自从 OpenAI 发布 ChatGPT 后,最近几个月聊天机器人热度不减。

虽然 ChatGPT 功能强大,但 OpenAI 几乎不可能将其开源。不少人都在做开源方面的努力,比如前段时间 Meta 开源的 LLaMA。其是一系列模型的总称,参数量从 70 亿到 650 亿不等,其中,130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3。

LLaMA 的开源可是利好众多研究者,比如斯坦福在 LLaMA 的基础上加入指令微调(instruct tuning),训练了一个名为 Alpaca(羊驼)的 70 亿参数新模型(基于 LLaMA 7B)。结果显示,只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模语言模型。

又比如,我们接下来要介绍的这个模型 GPT4All,也是一种基于 LLaMA 的新型 7B 语言模型。项目上线两天,Star 量已经突破 7.8k。

项目地址:
https://github.com/nomic-ai/gpt4all

简单来讲,GPT4All 在 GPT-3.5-Turbo 的 800k 条数据上进行训练,包括文字问题、故事描述、多轮对话和代码。

根据项目显示,M1 Mac、Windows 等环境都能运行。

我们先来看看效果。如下图所示,用户可以和 GPT4All 进行无障碍交流,比如询问该模型:「我可以在笔记本上运行大型语言模型吗?」GPT4All 回答是:「是的,你可以使用笔记本来训练和测试神经网络或其他自然语言(如英语或中文)的机器学习模型。重要的是,你需要足够可用的内存 (RAM) 来适应这些模型的大小……」

接下来,如果你不清楚到底需要多少内存,你还可以继续询问 GPT4All,然后它给出回答。从结果来看,GPT4All 进行多轮对话的能力还是很强的。

在 M1 Mac 上的实时采样

有人将这项研究称为「改变游戏规则,有了 GPT4All 的加持,现在在 MacBook 上本地就能运行 GPT。」

与 GPT-4 相似的是,GPT4All 也提供了一份「技术报告」。

技术报告地址:
https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf

这份初步的技术报告简要描述了 GPT4All 的搭建细节。研究者公开了收集的数据、数据整理程序、训练代码和最终的模型权重,以促进开放研究和可重复性,此外还发布了模型的量化 4 位(quantized 4-bit)版本,这意味着几乎任何人都可以在 CPU 上运行该模型。

接下来,让我们看看这份报告中写了什么。

GPT4All 技术报告

1、数据收集和整理

在 2023 年 3 月 20 日至 2023 年 3 月 26 日期间,研究者使用 GPT-3.5-Turbo OpenAI API 收集了大约 100 万对 prompt 回答。

首先,研究者通过利用三个公开可用的数据集来收集不同的问题 /prompt 样本:

  • LAION OIG 的统一 chip2 子集
  • Stackoverflow Questions 的一个随机子样本集 Coding questions
  • Bigscience/P3 子样本集进行指令调优

参考斯坦福大学 Alpaca 项目 (Taori et al., 2023),研究者对数据准备和整理给予了大量关注。在收集了最初的 prompt 生成对的数据集后,他们将数据加载到 Atlas 进行整理和清理,删除了所有 GPT-3.5-Turbo 未能响应 prompt 并产生畸形输出的样本。这使得样本总数减少到 806199 个高质量的 prompt - 生成对。接下来,研究者从最终的训练数据集中删除了整个 Bigscience/P3 子集,因为它的输出多样性非常低。P3 包含许多同质化的 prompt,这些 prompt 从 GPT-3.5-Turbo 中产生了简短而同质化的反应。

这种排除法产生了一个包含 437,605 个 prompt - 生成对的最终子集,如图 2 所示。

模型训练

研究者在 LLaMA 7B (Touvron et al., 2023) 的一个实例中将几个模型进行微调。他们最初的公开版本相关的模型是用 LoRA (Hu et al., 2021) 在 437605 个后处理的例子上以 4 个 epoch 训练的。详细的模型超参数和训练代码可以在相关的资源库和模型训练日志中找到。

可重复性

研究者发布了所有的数据(包括未使用的 P3 generations)、训练代码和模型权重,供社区进行复现。感兴趣的研究者可以在 Git 存储库中找到最新的数据、训练细节和检查点。

成本

研究者大概用了四天的时间制作这些模型,GPU 成本为 800 美元(从 Lambda 实验室和 Paperspace 租的,其中包括几次失败的训练),此外还有 500 美元的 OpenAI API 费用。

最终发布的模型 gpt4all-lora 可以在 Lambda 实验室的 DGX A100 8x 80GB 上用大约 8 小时训练完成,总成本为 100 美元。

这个模型可以在普通笔记本上运行,真就像网友说的「除了电费之外,没有任何成本。」

评估

研究者使用 SelfInstruct 论文 (Wang et al., 2022) 中的人类评估数据对该模型进行了初步评估。报告还对比了该模型与已知最好的公开的 alpaca-lora 模型(该模型由 huggingface 的用户 chainyo 提供)的 ground truth 困惑度。他们发现,所有的模型在少数任务上都有非常大的困惑度,并且报告的困惑度最大为 100。与 Alpaca 相比,在这个收集的数据集上进行微调的模型在 Self-Instruct 评估中表现出了更低的困惑度。研究者表示,这个评估不是详尽的,仍存在进一步的评估空间 —— 他们欢迎读者在本地 CPU 上运行该模型(文件见 Github),并对它的能力有一个定性的认识。

最后,需要注意的是,作者公布了数据和训练细节,希望它能加速开放的 LLM 研究,特别是在对齐和可解释性领域。GPT4All 模型的权重和数据仅用于研究目的,并获得许可,禁止任何商业使用。GPT4All 是基于 LLaMA 的,LLaMA 具有非商业许可。助理数据是从 OpenAI 的 GPT-3.5-Turbo 收集的,其使用条款禁止开发与 OpenAI 进行商业竞争的模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗永浩谈2024北京车展:看不懂、就是感觉很怪

罗永浩谈2024北京车展:看不懂、就是感觉很怪

户外小阿隋
2024-04-29 10:45:28
黑龙江“蛇女”刘玉平:06年收留一条蛇,隔天拖家带口一住17年

黑龙江“蛇女”刘玉平:06年收留一条蛇,隔天拖家带口一住17年

我是斌哥哥
2024-04-25 17:04:39
太突然!全部大跌

太突然!全部大跌

妮子说美食
2024-04-28 15:15:58
美国版五四运动?网传在美国各高校,陈独秀的《新青年》被学生疯传

美国版五四运动?网传在美国各高校,陈独秀的《新青年》被学生疯传

不掉线电波
2024-04-28 18:09:09
汉景帝死后不久,窦婴随即处斩身亡,汉武帝:他无罪,却不得不死

汉景帝死后不久,窦婴随即处斩身亡,汉武帝:他无罪,却不得不死

史笔似尘钩
2024-04-24 21:19:23
重大消息!专家谈成都全面取消限购:风向标事件,大势所趋!

重大消息!专家谈成都全面取消限购:风向标事件,大势所趋!

老蒋谈策划
2024-04-29 11:01:10
Lisa和LV三公子大白天一起逛公园,Lisa太子妃身份稳了!

Lisa和LV三公子大白天一起逛公园,Lisa太子妃身份稳了!

室内设计师阿喇
2024-04-29 10:06:58
连续3场被弃,申花功臣遭冷落 合同剩1年难续约 争冠得换外援前锋

连续3场被弃,申花功臣遭冷落 合同剩1年难续约 争冠得换外援前锋

替补席看球
2024-04-28 13:19:29
俄终于会打了,先亮核底牌,再炸北约军火列车,北约怂了

俄终于会打了,先亮核底牌,再炸北约军火列车,北约怂了

搞笑先生的日记本
2024-04-29 09:26:19
无锡市惠山区纪委监委通报!

无锡市惠山区纪委监委通报!

坠入二次元的海洋
2024-04-29 12:29:34
风向变了,台湾代表抵京,赖清德突然改口,主动喊话两岸和平

风向变了,台湾代表抵京,赖清德突然改口,主动喊话两岸和平

动物有传奇
2024-04-28 23:19:01
谁能救救北京楼市啊[流泪]

谁能救救北京楼市啊[流泪]

娱乐八卦木木子
2024-04-27 01:49:40
浙江:女子领回黑人男友,亲友都不看好,女子:你们不同意我也嫁

浙江:女子领回黑人男友,亲友都不看好,女子:你们不同意我也嫁

户外阿崭
2024-04-28 16:43:34
厉害了!34岁大龄剩女相亲对方要3个孩子,女方:我生8个都没问题

厉害了!34岁大龄剩女相亲对方要3个孩子,女方:我生8个都没问题

户外阿崭
2024-04-29 05:42:29
被横扫后打球的动力还有多少?杜兰特:我爱篮球,这毋庸置疑

被横扫后打球的动力还有多少?杜兰特:我爱篮球,这毋庸置疑

懂球帝
2024-04-29 13:47:14
要来新疆?沈梓捷现身乌鲁木齐吃大餐,有望联手邱彪赵睿冲总冠军

要来新疆?沈梓捷现身乌鲁木齐吃大餐,有望联手邱彪赵睿冲总冠军

开心体育站
2024-04-29 09:54:49
马龙:花式秀恩爱,分享龙嫂和儿子日常!傲骄吐槽龙嫂没球技

马龙:花式秀恩爱,分享龙嫂和儿子日常!傲骄吐槽龙嫂没球技

动物的温情故事
2024-04-28 21:02:40
广东人喜欢的不是广东体育频道,而是公平公正的地方解说台!

广东人喜欢的不是广东体育频道,而是公平公正的地方解说台!

元爸体育
2024-04-29 07:25:03
谷爱凌的母亲曾在雷曼兄弟供职,还为中国运作过2亿美元贷款

谷爱凌的母亲曾在雷曼兄弟供职,还为中国运作过2亿美元贷款

爆角追踪
2024-04-24 12:03:26
我58岁,她41岁,同居两个月,她怀孕了

我58岁,她41岁,同居两个月,她怀孕了

小月文史
2024-04-26 15:05:21
2024-04-29 14:22:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8939文章数 141896关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

睡实验室门口学者再晒照 质疑单位对其意见"已读不回"

头条要闻

睡实验室门口学者再晒照 质疑单位对其意见"已读不回"

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

亲子
房产
旅游
健康
公开课

亲子要闻

36岁,我单身冻卵被拒第5年

房产要闻

力度越来越大!落户两年享本地居民购房政策,海南第16城松绑限购!

旅游要闻

入境游热度持续攀升 “畅游中国”更便捷

春天野菜不知不识莫乱吃

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版