30 个优质 NLP 数据集和模型，一键使用 8 个 demo，建议收藏！| 超全大模型资源汇总|序列|子集|上下文|视频生成模型

30 个优质 NLP 数据集和模型，一键使用 8 个 demo，建议收藏！| 超全大模型资源汇总

2024-04-08 12:17:46　来源: 大数据文摘

北京举报

分享至

大数据文摘授权转载自HyperAI超神经

近两年来，大模型的热度持续高涨，并且开始在更广泛的领域进行落地探索。随着行业整体的快速发展，越来越多的开源大模型涌入市场，进一步推动了上层应用的拓展。

对于开发者而言，挑选优质大模型和数据集对其后续的研发、模型微调至关重要。为了方便大家选择并下载适配开发需求的模型与数据集，HyperAI超神经为大家汇总了大模型相关资源：

* 优质公共数据集：15 个

* 优质开源模型：15 个

* 优质教程精选：8 个

更多大模型资源，见官网：hyper.ai

数据集精选

1. seq-monkey 序列猴子开源数据集 1.0

序列猴子数据集是用于训练序列猴子模型的数据集，涉及领域包括：中文通用文本语料、古诗今译语料、文本生成语料。

直接使用：https://my5353.com/seqmon

2. IEPile 大规模信息抽取语料库

IEPile 是由浙江大学研发的大规模、高质量的双语（中英）信息抽取 (IE) 指令微调数据集，涵盖了医学、金融等多个领域。

直接使用：https://my5353.com/30064

3. LongAlign-10K 大模型长上下文对齐数据集

LongAlign-10k 由清华大学提出，是一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集，包含 10,000 条长指令数据，长度在 8k-64k 之间。

直接使用：https://my5353.com/longa

4. 大众点评数据集

该数据集包含 54 万用户对 24 万家餐馆的 440 万条评论或评分数据。可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用：https://my5353.com/dianpi

5. 亚马逊用户评价数据集

该数据集包含 142 万用户对亚马逊网站上 1,100 多个类目下的 52 万件商品的 720 万条评论或评分数据，可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用：https://my5353.com/amazon3

6. PD&CFT 人民日报中文阅读理解数据集

该数据集是第一个中文阅读理解数据集，其中内容包括人民日报和儿童童话（People Daily&Children’s Fairy Tale，简称 PD&CFT）。

直接使用：https://my5353.com/pdcft

7. 今日头条中文文本分类数据集

该数据集为今日头条中文新闻（短文本）分类数据集。数据来源为今日头条客户端。共包含 15 个分类，382,688 条文本。

直接使用：https://my5353.com/toutia

8. FewJoint 基准数据集

该数据集来自讯飞 AIUI 开放平台，包含真实用户的语料和专家构造的语料（比例约为 3：7），共 59 个真实域，是目前域最多的对话数据集之一。

直接使用：https://my5353.com/fewjo

9. PAWS-X ：用于释义识别的跨语言对抗数据集

该数据集包含 23,659 个人工翻译的 PAWS 评估对，以及 296,406 个机器翻译的训练对，采用 6 种不同的语言：法语、西班牙语、德语、中文、日语和韩语。所有翻译对均源自 PAWS-Wiki 中的示例。

直接使用：https://my5353.com/pawsx

10. Wikipedia 维基百科数据集

该数据集是根据 Wikipedia 转储构建的，包含 56 种语言，每种语言有一个子集，每个子集包含一个训练分割。每个示例都包含一篇完整的维基百科文章的内容，并经过清理以删除标记和不需要的部分（参考文献等）。

直接使用：https://my5353.com/wikip

11. RJUA-QA 首个中文医疗专科问答推理数据集

RJUA-QA 数据集共含 2,132 个问答对，每对问答由医生根据临床经验编写的问题、专家提供的回答以及相关的推理上下文构成，这些上下文信息源自中国泌尿外科和男科疾病诊断治疗指南。

直接使用：https://my5353.com/rjuaq

12. ShareGPT 90k 中英文双语人机问答数据集

ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集，覆盖真实复杂场景下的用户提问。可用于训练高质量的对话模型。

直接使用：https://my5353.com/sharegpt

13. SMP-2017 中文对话意图识别数据集

该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。

直接使用：https://my5353.com/smp17

14. Chinese-Poetry 中文古典诗歌文集数据库

该数据集是最全的中华古典文集数据库，包含 5.5 万首唐诗、 26 万首宋词、 2.1 万首宋词等古典文集。

直接使用：https://my5353.com/poetryzh

15. MCFEND 中国假新闻检测的多源基准数据集

该数据集是由香港浸会大学、香港中文大学等机构联合构建的一个多源中文虚假新闻检测基准数据集。

直接使用：https://my5353.com/30429

更多公共数据集，请访问：

https://hyper.ai/datasets

大模型精选

1. Mixtral-8x7B

该模型是 Mistral AI 在 Mistral 7B 的基础上推出的大语言模型。

直接使用：https://my5353.com/30472

2. C4AI Command-R

C4AI Command-R 是由 Cohere 和 Cohere For AI 联合开发的一个 350 亿参数的高性能生成式模型。多语言生成能力和高性能 RAG 能力的结合，使 Command-R 在跨语言任务和知识密集型任务上具有独特优势。

直接使用：https://my5353.com/command

3. 金融大模型 deepmoney-34B-chat

该模型是基于 Yi-34B-200K 训练的，分为 pt（全参数训练）和 sft（lora 微调）两个阶段。

直接使用：https://my5353.com/command

4. ChatGLM3 系列

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的对话预训练模型。

* ChatGLM3-6B

该模型为 ChatGLM3 系列中的开源模型，保留了前两代模型对话流畅、部署门槛低等众多优秀特性。

直接使用：https://my5353.com/glm36b

* ChatGLM3-6B-Base

该模型是 ChatGLM3-6B 的基础模型，采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。

直接使用：https://my5353.com/glm3bas

5. LLaVA-v1.5 系列

LLaVA 是一个能够进行视觉和语言多模态转换的模型，由视觉编码器和大型语言模型 (Vicuna v1.5 13B) 组成。

* LLaVA-v1.5-7B

该模型是 LLaVA-v1.5 系列的 70 亿参数规模的模型。

直接使用：https://my5353.com/lava7b

* LLaVA-v1.5-13B

该模型是 LLaVA-v1.5 系列的 130 亿参数规模的模型。

直接使用：https://my5353.com/lava13b

6. Yi-34B 系列

Yi 系列模型是 01.AI 从零开始训练的开源大语言模型，以下模型系列为其 34B 大小的型号的相关模型。

* Yi-34B-chat

该模型为 Yi-34B 系列是 chat 模型，适用于多种对话场景。

直接使用：https://my5353.com/30429

* Yi-34B-Chat-GGUF

该模型是 Yi-34B-Chat 的 GGUF 格式。

直接使用：https://my5353.com/30429

* Yi-34B-Chat-4bits

该模型是 Yi-34B-Chat 模型的 4bit 量化版，可以直接在消费级显卡（如 RTX3090）上使用。

直接使用：https://my5353.com/30429

7. Qwen 通义千问大模型系列

Qwen 是阿里云推出的一系列超大规模语言模型，包括参数数量各不相同的不同模型。它包括 Qwen（基础预训练语言模型）和 Qwen-Chat（聊天模型），聊天模型采用人类对齐技术进行了微调。

* Qwen1.5-1.8B-Chat

Qwen1.5 是 Qwen2 的 beta 版本，该模型是 Qwen2 系列中较小参数规模的聊天模型版本，参数大小为 18 亿。

直接使用：https://my5353.com/qw1518

* Qwen-14B-Chat-Int4

Qwen-14B-Chat 是通义千问大模型系列的 140 亿参数规模的聊天模型，该模型为其 Int4 量化模型。

直接使用：https://my5353.com/qw14bCI

* Qwen-72B-Chat

该模型是通义千问大模型系列的 720 亿参数规模的模型。

直接使用：https://my5353.com/qw72b

* Qwen-72B-Chat-Int4

该模型为 Qwen-72B-Chat 的 Int4 量化模型。

直接使用：https://my5353.com/qw72bCI

* Qwen-72B-Chat-Int8

该模型为 Qwen-72B-Chat 的 Int8 量化模型。

直接使用：https://my5353.com/qw72bCI8

优质教程精选

1. 在线运行通义千问 Qwen1.5-MoE

Qwen1.5-MoE-A2.7B 是通义千问团队推出 Qwen 系列的首个 MoE 模型，该教程为其 Demo 容器，一键克隆即可使用 Gradio 链接体验大模型。

在线运行：https://my5353.com/qwmoe

2. Qwen-14B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-14B-Chat-Int4 的 Demo 容器，一键克隆即可使用 Gradio 链接体验大模型。

在线运行：https://my5353.com/qw14d

3. Qwen-1.8B-Chat-API-FT 模型 Demo

本教程主要演示了如何运行通义千问 Qwen-1.8B-Chat 模型，以及进行微调的主要流程。

在线运行：https://my5353.com/qw18ftd

4. Qwen-72B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-72B-Chat-Int4 的 Demo 容器，一键克隆即可使用 Gradio 链接体验大模型。

在线运行：https://my5353.com/y34bc

5. 在线运行 Yi-34B-Chat 的量化模型

本教程主要演示了使用 LlamaEdge 运行 Yi-34B-Chat 的量化模型的主要流程。

在线运行：https://my5353.com/y34bguf

6. 在线运行金融大模型 Deepmoney-34B-full

Deepmoney 是一个专注于金融领域投资的大型语言模型项目。Deepmoney-34B-full 是基于 Yi-34B-200K 模型进行训练的，分为 pt（全参数训练）和 sft (lora 微调) 两个阶段。现可在超神经官网一键克隆使用。

在线运行：https://my5353.com/t30314

7. 一键运行 Yi-9B Demo

Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型，该教程为 Yi-9B 的 Demo 容器。

在线运行：https://my5353.com/yi9bd

8. 快速部署 ChatGLM2-6B

该教程为 ChatGLM2-6B 的 Demo 容器，一键克隆即可使用 Gradio 链接体验大模型。

在线运行：https://my5353.com/glm26bd

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

30 个优质 NLP 数据集和模型，一键使用 8 个 demo，建议收藏！| 超全大模型资源汇总

余承东卸任华为终端CEO 新任命为董事长

上海男子被流浪猫绊倒投喂者被判赔24万 案件将迎再审

上海男子被流浪猫绊倒投喂者被判赔24万 案件将迎再审

"意甲最佳"金玟哉 踢回了中超水平...

黄子韬被曝求婚徐艺洋 大量亲密照曝光

万科突发！王石，放弃了！

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

宝宝你是一头小猪

食味印象 | 潍坊：碳水脑袋的人间乐园

最新！关于义务教育入学信息采集，市教委提醒｜附信息采集流程及各区咨询电话

用耳朵看展览？西岸美术馆最新特展关注声音艺术

上海男子被流浪猫绊倒投喂者被判赔24万案件将迎再审

上海男子被流浪猫绊倒投喂者被判赔24万案件将迎再审

"意甲最佳"金玟哉踢回了中超水平...

黄子韬被曝求婚徐艺洋大量亲密照曝光

预售2.89-3.49万奔腾小马正式开启预售