网易首页 > 网易号 > 正文 申请入驻

30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总

0
分享至


大数据文摘授权转载自HyperAI超神经

近两年来,大模型的热度持续高涨,并且开始在更广泛的领域进行落地探索。随着行业整体的快速发展,越来越多的开源大模型涌入市场,进一步推动了上层应用的拓展。

对于开发者而言,挑选优质大模型和数据集对其后续的研发、模型微调至关重要。为了方便大家选择并下载适配开发需求的模型与数据集,HyperAI超神经为大家汇总了大模型相关资源:

* 优质公共数据集:15 个

* 优质开源模型:15 个

* 优质教程精选:8 个

更多大模型资源,见官网:hyper.ai

数据集精选

1. seq-monkey 序列猴子开源数据集 1.0

序列猴子数据集是用于训练序列猴子模型的数据集,涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:https://my5353.com/seqmon

2. IEPile 大规模信息抽取语料库

IEPile 是由浙江大学研发的大规模、高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了医学、金融等多个领域。

直接使用:https://my5353.com/30064

3. LongAlign-10K 大模型长上下文对齐数据集

LongAlign-10k 由清华大学提出,是一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。

直接使用:https://my5353.com/longa

4. 大众点评数据集

该数据集包含 54 万用户对 24 万家餐馆的 440 万条评论或评分数据。可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://my5353.com/dianpi

5. 亚马逊用户评价数据集

该数据集包含 142 万用户对亚马逊网站上 1,100 多个类目下的 52 万件商品的 720 万条评论或评分数据,可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://my5353.com/amazon3

6. PD&CFT 人民日报中文阅读理解数据集

该数据集是第一个中文阅读理解数据集,其中内容包括人民日报和儿童童话(People Daily&Children’s Fairy Tale,简称 PD&CFT)。

直接使用:https://my5353.com/pdcft

7. 今日头条中文文本分类数据集

该数据集为今日头条中文新闻(短文本)分类数据集。数据来源为今日头条客户端。共包含 15 个分类,382,688 条文本。

直接使用:https://my5353.com/toutia

8. FewJoint 基准数据集

该数据集来自讯飞 AIUI 开放平台,包含真实用户的语料和专家构造的语料(比例约为 3:7),共 59 个真实域,是目前域最多的对话数据集之一。

直接使用:https://my5353.com/fewjo

9. PAWS-X :用于释义识别的跨语言对抗数据集

该数据集包含 23,659 个人工翻译的 PAWS 评估对,以及 296,406 个机器翻译的训练对,采用 6 种不同的语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对均源自 PAWS-Wiki 中的示例。

直接使用:https://my5353.com/pawsx

10. Wikipedia 维基百科数据集

该数据集是根据 Wikipedia 转储构建的,包含 56 种语言,每种语言有一个子集,每个子集包含一个训练分割。每个示例都包含一篇完整的维基百科文章的内容,并经过清理以删除标记和不需要的部分(参考文献等)。

直接使用:https://my5353.com/wikip

11. RJUA-QA 首个中文医疗专科问答推理数据集

RJUA-QA 数据集共含 2,132 个问答对,每对问答由医生根据临床经验编写的问题、专家提供的回答以及相关的推理上下文构成,这些上下文信息源自中国泌尿外科和男科疾病诊断治疗指南。

直接使用:https://my5353.com/rjuaq

12. ShareGPT 90k 中英文双语人机问答数据集

ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。可用于训练高质量的对话模型。

直接使用:https://my5353.com/sharegpt

13. SMP-2017 中文对话意图识别数据集

该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。

直接使用:https://my5353.com/smp17

14. Chinese-Poetry 中文古典诗歌文集数据库

该数据集是最全的中华古典文集数据库,包含 5.5 万首唐诗、 26 万首宋词、 2.1 万首宋词等古典文集。

直接使用:https://my5353.com/poetryzh

15. MCFEND 中国假新闻检测的多源基准数据集

该数据集是由香港浸会大学、香港中文大学等机构联合构建的一个多源中文虚假新闻检测基准数据集。

直接使用:https://my5353.com/30429

更多公共数据集,请访问:

https://hyper.ai/datasets

大模型精选

1. Mixtral-8x7B

该模型是 Mistral AI 在 Mistral 7B 的基础上推出的大语言模型。

直接使用:https://my5353.com/30472

2. C4AI Command-R

C4AI Command-R 是由 Cohere 和 Cohere For AI 联合开发的一个 350 亿参数的高性能生成式模型。多语言生成能力和高性能 RAG 能力的结合,使 Command-R 在跨语言任务和知识密集型任务上具有独特优势。

直接使用:https://my5353.com/command

3. 金融大模型 deepmoney-34B-chat

该模型是基于 Yi-34B-200K 训练的,分为 pt(全参数训练)和 sft(lora 微调)两个阶段。

直接使用:https://my5353.com/command

4. ChatGLM3 系列

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的对话预训练模型。

* ChatGLM3-6B

该模型为 ChatGLM3 系列中的开源模型,保留了前两代模型对话流畅、部署门槛低等众多优秀特性。

直接使用:https://my5353.com/glm36b

* ChatGLM3-6B-Base

该模型是 ChatGLM3-6B 的基础模型,采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。

直接使用:https://my5353.com/glm3bas

5. LLaVA-v1.5 系列

LLaVA 是一个能够进行视觉和语言多模态转换的模型,由视觉编码器和大型语言模型 (Vicuna v1.5 13B) 组成。

* LLaVA-v1.5-7B

该模型是 LLaVA-v1.5 系列的 70 亿参数规模的模型。

直接使用:https://my5353.com/lava7b

* LLaVA-v1.5-13B

该模型是 LLaVA-v1.5 系列的 130 亿参数规模的模型。

直接使用:https://my5353.com/lava13b

6. Yi-34B 系列

Yi 系列模型是 01.AI 从零开始训练的开源大语言模型,以下模型系列为其 34B 大小的型号的相关模型。

* Yi-34B-chat

该模型为 Yi-34B 系列是 chat 模型,适用于多种对话场景。

直接使用:https://my5353.com/30429

* Yi-34B-Chat-GGUF

该模型是 Yi-34B-Chat 的 GGUF 格式。

直接使用:https://my5353.com/30429

* Yi-34B-Chat-4bits

该模型是 Yi-34B-Chat 模型的 4bit 量化版,可以直接在消费级显卡(如 RTX3090)上使用。

直接使用:https://my5353.com/30429

7. Qwen 通义千问大模型系列

Qwen 是阿里云推出的一系列超大规模语言模型,包括参数数量各不相同的不同模型。它包括 Qwen(基础预训练语言模型)和 Qwen-Chat(聊天模型),聊天模型采用人类对齐技术进行了微调。

* Qwen1.5-1.8B-Chat

Qwen1.5 是 Qwen2 的 beta 版本,该模型是 Qwen2 系列中较小参数规模的聊天模型版本,参数大小为 18 亿。

直接使用:https://my5353.com/qw1518

* Qwen-14B-Chat-Int4

Qwen-14B-Chat 是通义千问大模型系列的 140 亿参数规模的聊天模型,该模型为其 Int4 量化模型。

直接使用:https://my5353.com/qw14bCI

* Qwen-72B-Chat

该模型是通义千问大模型系列的 720 亿参数规模的模型。

直接使用:https://my5353.com/qw72b

* Qwen-72B-Chat-Int4

该模型为 Qwen-72B-Chat 的 Int4 量化模型。

直接使用:https://my5353.com/qw72bCI

* Qwen-72B-Chat-Int8

该模型为 Qwen-72B-Chat 的 Int8 量化模型。

直接使用:https://my5353.com/qw72bCI8

优质教程精选

1. 在线运行通义千问 Qwen1.5-MoE

Qwen1.5-MoE-A2.7B 是通义千问团队推出 Qwen 系列的首个 MoE 模型,该教程为其 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/qwmoe

2. Qwen-14B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-14B-Chat-Int4 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/qw14d

3. Qwen-1.8B-Chat-API-FT 模型 Demo

本教程主要演示了如何运行通义千问 Qwen-1.8B-Chat 模型,以及进行微调的主要流程。

在线运行:https://my5353.com/qw18ftd

4. Qwen-72B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-72B-Chat-Int4 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/y34bc

5. 在线运行 Yi-34B-Chat 的量化模型

本教程主要演示了使用 LlamaEdge 运行 Yi-34B-Chat 的量化模型的主要流程。

在线运行:https://my5353.com/y34bguf

6. 在线运行金融大模型 Deepmoney-34B-full

Deepmoney 是一个专注于金融领域投资的大型语言模型项目。Deepmoney-34B-full 是基于 Yi-34B-200K 模型进行训练的,分为 pt(全参数训练)和 sft (lora 微调) 两个阶段。现可在超神经官网一键克隆使用。

在线运行:https://my5353.com/t30314

7. 一键运行 Yi-9B Demo

Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,该教程为 Yi-9B 的 Demo 容器。

在线运行:https://my5353.com/yi9bd

8. 快速部署 ChatGLM2-6B

该教程为 ChatGLM2-6B 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/glm26bd

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
里弗斯展现执教功力:球迷热议秒变禅师 激活无双巨残阵握拳庆祝

里弗斯展现执教功力:球迷热议秒变禅师 激活无双巨残阵握拳庆祝

厝边人侃体育
2024-05-01 12:11:48
广州一女子坐地铁的照片火了,惊艳路人, 网友:这也太漂亮了吧!

广州一女子坐地铁的照片火了,惊艳路人, 网友:这也太漂亮了吧!

水泥土的搞笑
2024-05-01 16:31:05
绿地控股去年净亏损111.24亿元,董事长张玉良年薪458.16万元

绿地控股去年净亏损111.24亿元,董事长张玉良年薪458.16万元

房财经
2024-05-01 15:33:48
miumiu3250元发卡卖断货 客服:补货时间尚不确定

miumiu3250元发卡卖断货 客服:补货时间尚不确定

室内设计师阿喇
2024-05-01 10:14:06
炸了!医药巨头承认!新冠疫苗致命副作用,亿万赔偿案将启动

炸了!医药巨头承认!新冠疫苗致命副作用,亿万赔偿案将启动

荷兰豆爱健康
2024-05-01 21:03:39
香港富二代男星突传欠赌债陷财困!被曝在澳门连吃饭钱都付不出来

香港富二代男星突传欠赌债陷财困!被曝在澳门连吃饭钱都付不出来

天保影视V3
2024-05-01 06:10:03
59岁“李莫愁”与梁小龙聚会,颜值崩塌认不出,与李若彤似两代人

59岁“李莫愁”与梁小龙聚会,颜值崩塌认不出,与李若彤似两代人

科技最酷前沿
2024-04-29 10:07:44
三航母同框!央视官宣重要进程,福建舰就绪,第4艘航母将开建?

三航母同框!央视官宣重要进程,福建舰就绪,第4艘航母将开建?

东方点兵
2024-04-28 23:14:47
别克汽车发布以旧换新优惠活动,全系可享国家补贴最高 10000 元

别克汽车发布以旧换新优惠活动,全系可享国家补贴最高 10000 元

IT之家
2024-05-01 12:48:52
盘点家长们看到孩子成绩后的崩溃场面,太真实了!

盘点家长们看到孩子成绩后的崩溃场面,太真实了!

辉哥说动漫
2024-05-01 11:54:07
迈腾男捉奸暴打女友后续:双方家庭已知情,曝出轨对象也有女友

迈腾男捉奸暴打女友后续:双方家庭已知情,曝出轨对象也有女友

180°视角
2024-04-30 11:46:37
六问“专家”卢麟元:您说的话错误一箩筐!能出来走两步吗?

六问“专家”卢麟元:您说的话错误一箩筐!能出来走两步吗?

老头和你随便聊聊
2024-04-23 14:23:51
爱国难,神舟十八号发射老百姓毫不关心?评论区炸锅了

爱国难,神舟十八号发射老百姓毫不关心?评论区炸锅了

搞笑的阿票
2024-05-01 09:56:44
广东梅龙高速塌方:总投资21亿,距离上一次塌方刚满1周年!

广东梅龙高速塌方:总投资21亿,距离上一次塌方刚满1周年!

田心生活
2024-05-01 17:54:24
季后赛第一隔扣!25投34分取代郭艾伦!终于打成了球队老大……

季后赛第一隔扣!25投34分取代郭艾伦!终于打成了球队老大……

篮球实战宝典
2024-05-01 22:06:23
女子花万元买来的衬衣手洗一次后现划痕 商家拒绝退货:不能水洗|追踪到底

女子花万元买来的衬衣手洗一次后现划痕 商家拒绝退货:不能水洗|追踪到底

封面新闻
2024-04-30 15:17:33
挪威,继续用钱砸俄罗斯!

挪威,继续用钱砸俄罗斯!

凡事一定有办法13119
2024-05-01 13:34:51
俄乌战场出现变化,6000乌军被追杀9公里,俄军不顾侧翼拼死穿插

俄乌战场出现变化,6000乌军被追杀9公里,俄军不顾侧翼拼死穿插

秦蓁
2024-04-30 11:11:21
意甲最佳灾难级表现!拜仁5000万签金玟哉5年,1年不到就该卖吗?

意甲最佳灾难级表现!拜仁5000万签金玟哉5年,1年不到就该卖吗?

直播吧
2024-05-01 10:40:39
林更新生图!是很硬朗的帅,轮廓立体浓眉大眼,脸小腿长又高又瘦

林更新生图!是很硬朗的帅,轮廓立体浓眉大眼,脸小腿长又高又瘦

娱乐圈酸柠檬
2024-05-01 10:25:23
2024-05-01 22:36:49
大数据文摘
大数据文摘
专注大数据,每日有分享!
6209文章数 94255关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

上海男子被流浪猫绊倒投喂者被判赔24万 案件将迎再审

头条要闻

上海男子被流浪猫绊倒投喂者被判赔24万 案件将迎再审

体育要闻

"意甲最佳"金玟哉 踢回了中超水平...

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

万科突发!王石,放弃了!

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

亲子
本地
教育
艺术
公开课

亲子要闻

宝宝你是一头小猪

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

教育要闻

最新!关于义务教育入学信息采集,市教委提醒|附信息采集流程及各区咨询电话

艺术要闻

用耳朵看展览?西岸美术馆最新特展关注声音艺术

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版