网易首页 > 网易号 > 正文 申请入驻

弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源

0
分享至

机器之心报道

机器之心编辑部

BELLE 基于 Stanford Alpaca,对中文做了优化,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

距离 ChatGPT 的最初发布,过去差不多四个月的时间了。就在上星期 GPT-4 发布时,ChatGPT 第一时间上线了新版本。不过众所周知的一个秘密是,不管是 ChatGPT 还是 GPT-4 都不大可能开源。加上巨大的算力投入以及海量的训练数据等,都为研究界复制其实现过程设下重重关卡。

面对 ChatGPT 等大模型的来势汹汹,开源平替是一个不错的选择。本月初,Meta「开源」了一个新的大模型系列 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行。

时隔几天,斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型 Alpaca,他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据,同时进行了一些修改,在初步的人类评估中,Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003(GPT-3.5)模型。

但遗憾的是,Alpaca 的种子任务都是英语,收集的数据也都是英文,因此训练出来的模型未对中文优化。为了提升对话模型在中文上的效果,有没有更好的方法呢?别急,接下来介绍的这个项目就能很好的解决这个问题。

开源中文对话大模型70 亿参数的 BELLE(Bloom-Enhanced Large Language model Engine)来了。它基于斯坦福的 Alpaca 完成,但进行了中文优化,并对生成代码进行了一些修改,不仅如此,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

在数据方面,该项目开源了基于 Alpaca 的数据收集代码,基于这段代码生成了约 100 万条中文数据,结合 Alpaca 的 5 万条英文数据,在 BLOOMZ-7B 模型训练得到的 checkpoint 上传在 Hugging Face。

Hugging Face 地址:
https://huggingface.co/BelleGroup

项目作者表示:该项目旨在促进中文对话大模型开源社区的发展。

项目地址:
https://github.com/LianjiaTech/BELLE

项目介绍

该项目主要包含以下四部分内容:

  • 175 个中文种子任务
  • 生成数据的代码
  • 0.5M 生成的数据
  • 基于 BLOOMZ-7B1-mt 优化后的模型

数据发布

1. zh_seed_tasks.jsonl:包含 175 个种子任务,样例如下

{"id": "seed_task_20", "name": "horror_movie_opening", "instruction": "你需要为一部恐怖电影写一个创意的开场场景。", "instances": [{"input": "","output":" 太阳已经落山,留下了一个黑暗的小镇。微风吹拂空荡的街道,让每一个冒险走出门外的人感到一阵寒意。唯一的声音是被风吹动的树叶发出的轻微沙沙声。突然,一声令人毛骨悚然的尖叫声划破了寂静,随后是玻璃破碎的声音。一所房子亮起了灯光,可以看到一个人影朝镇中心奔跑。当> 那个人影越来越靠近时,清楚地看到那是一个年轻女子,她浑身血迹斑斑。"}],"is_classification": false}

2. prompt_cn.txt: 生成所使用的提示语

3. 0.5M 生成的数据

数据生成

沿用 Alpaca 的方式:

pip install -r requirements.txtexport OPENAI_API_KEY=YOUR_API_KEYpython generate_instruction.py generate_instruction_following_data

默认使用 Completion API,模型 text-davinci-003。如果想使用 Chat API 并使用 gpt-3.5-turbo 模型,可通过参数控制:

python generate_instruction.py generate_instruction_following_data \ --api=chat --model_name=gpt-3.5-turbo

模型调优

此外,该项目还采取了不同大小规模(20 万、60 万、100 万和 200 万样本)的指令学习的数据集训练模型,得到不同的模型版本如下所示:

模型使用例子

局限性和使用限制

基于当前数据和基础模型训练得到的 SFT 模型,在效果上仍存在以下问题:

  • 在涉及事实性的指令上可能会产生违背事实的错误回答。
  • 对于具备危害性的指令无法很好的鉴别,由此会产生危害性言论。
  • 在一些涉及推理、代码等场景下模型的能力仍有待提高。

基于以上模型局限性,该项目要求开发者仅将开源的代码、数据、模型及后续用此项目生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙铭徽更博:16年9个赛季 没有遗憾和保留 广厦我爱你杭州我爱你

孙铭徽更博:16年9个赛季 没有遗憾和保留 广厦我爱你杭州我爱你

直播吧
2024-04-25 22:40:13
突发!洛杉矶GDP曾超过上海2620亿,如今竟扩大到42803亿,拉跨了

突发!洛杉矶GDP曾超过上海2620亿,如今竟扩大到42803亿,拉跨了

我不叫阿哏
2024-04-26 00:16:12
军中色虎谷俊山,贪污300亿,无人敢动,背靠两大保护伞,被判死缓

军中色虎谷俊山,贪污300亿,无人敢动,背靠两大保护伞,被判死缓

天闻地知
2024-04-25 17:15:16
时隔5年王者归来!1米98孙杨强势复出,网友:奥运会再夺金牌?

时隔5年王者归来!1米98孙杨强势复出,网友:奥运会再夺金牌?

体坛知识分子
2024-04-25 06:30:07
松下纱荣子,一系列作品受到好评,号称标准的轻熟美人

松下纱荣子,一系列作品受到好评,号称标准的轻熟美人

忆史君
2024-04-25 08:43:17
津巴布韦崩了!真不是货币的锅

津巴布韦崩了!真不是货币的锅

格隆汇
2024-04-24 21:21:28
香港失业大叔回内地卖肠粉,自称地道广东味!网友大骂:不伦不类

香港失业大叔回内地卖肠粉,自称地道广东味!网友大骂:不伦不类

刘哥谈体育
2024-04-25 21:20:47
比纪云浩更可怕的是:上边让我敛钱我就敛钱

比纪云浩更可怕的是:上边让我敛钱我就敛钱

历史总在押韵
2024-04-24 23:25:28
弹药管够!乌军火力全开,单日毙敌1040人锤毁大量武器

弹药管够!乌军火力全开,单日毙敌1040人锤毁大量武器

娱宙观
2024-04-25 13:14:28
你错过了多少异性给你的暗示?

你错过了多少异性给你的暗示?

户外阿崭
2024-04-08 07:35:07
昆山嘉兴划入,松江升副省级新区,上海可有望超四川,成全国第5

昆山嘉兴划入,松江升副省级新区,上海可有望超四川,成全国第5

城市经略
2024-04-25 17:16:01
我国已做好最坏打算,一旦俄战败,我们必须做好四件事,哪四件?

我国已做好最坏打算,一旦俄战败,我们必须做好四件事,哪四件?

零点历史说
2024-04-02 11:50:41
一场124-92让湖人收获安慰!老詹难避免出局,不被横扫成仅剩目标

一场124-92让湖人收获安慰!老詹难避免出局,不被横扫成仅剩目标

小马哥谈体育
2024-04-25 13:09:27
市值蒸发2万亿!华尔街疯狂做空特斯拉,目的是变相做空中国?

市值蒸发2万亿!华尔街疯狂做空特斯拉,目的是变相做空中国?

北向财经
2024-04-25 14:54:53
富豪丈夫变心,生了4胎的徐子淇曾为保地位拼5胎,现在却苦求无果

富豪丈夫变心,生了4胎的徐子淇曾为保地位拼5胎,现在却苦求无果

娱乐圈酸柠檬
2024-04-25 17:27:59
中国怎么办:美国计划将中国的银行踢出SWIFT全球货币结算系统

中国怎么办:美国计划将中国的银行踢出SWIFT全球货币结算系统

马格宁思
2024-04-25 20:47:36
今夜,突发暴跌!

今夜,突发暴跌!

中国基金报
2024-04-26 00:14:53
反转!吴某凡近况被爆:网友和他共处27天,特殊部位不是“牙签”

反转!吴某凡近况被爆:网友和他共处27天,特殊部位不是“牙签”

娱圈小愚
2024-04-25 16:45:25
重庆好色院长包养20名情妇,案发后,竟因一本日记被判十二年

重庆好色院长包养20名情妇,案发后,竟因一本日记被判十二年

朝暮书屋
2024-04-24 16:57:00
善恶终有报!“港独分子”陈方安生,现在已活成了一个“笑话”?

善恶终有报!“港独分子”陈方安生,现在已活成了一个“笑话”?

韶华倾覆i
2024-04-24 11:51:55
2024-04-26 01:36:50
机器之心Pro
机器之心Pro
专业的人工智能媒体
8929文章数 141892关注度
往期回顾 全部

科技要闻

北京车展,被穿红衣服的他们占领

头条要闻

河北一高校学生就读4年无学籍 省教育厅回应

头条要闻

河北一高校学生就读4年无学籍 省教育厅回应

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

房产
本地
教育
健康
时尚

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

教育要闻

我的人生从不设限|工科三跨华南理工大学新传考研经验帖

这2种水果可降低高血压死亡风险

复盘中年女人的穿搭,才知道不扮嫩更高级有气质,这么穿很美

无障碍浏览 进入关怀版