网易首页 > 网易号 > 正文 申请入驻

30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总

0
分享至


大数据文摘授权转载自HyperAI超神经

近两年来,大模型的热度持续高涨,并且开始在更广泛的领域进行落地探索。随着行业整体的快速发展,越来越多的开源大模型涌入市场,进一步推动了上层应用的拓展。

对于开发者而言,挑选优质大模型和数据集对其后续的研发、模型微调至关重要。为了方便大家选择并下载适配开发需求的模型与数据集,HyperAI超神经为大家汇总了大模型相关资源:

* 优质公共数据集:15 个

* 优质开源模型:15 个

* 优质教程精选:8 个

更多大模型资源,见官网:hyper.ai

数据集精选

1. seq-monkey 序列猴子开源数据集 1.0

序列猴子数据集是用于训练序列猴子模型的数据集,涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:https://my5353.com/seqmon

2. IEPile 大规模信息抽取语料库

IEPile 是由浙江大学研发的大规模、高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了医学、金融等多个领域。

直接使用:https://my5353.com/30064

3. LongAlign-10K 大模型长上下文对齐数据集

LongAlign-10k 由清华大学提出,是一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。

直接使用:https://my5353.com/longa

4. 大众点评数据集

该数据集包含 54 万用户对 24 万家餐馆的 440 万条评论或评分数据。可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://my5353.com/dianpi

5. 亚马逊用户评价数据集

该数据集包含 142 万用户对亚马逊网站上 1,100 多个类目下的 52 万件商品的 720 万条评论或评分数据,可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://my5353.com/amazon3

6. PD&CFT 人民日报中文阅读理解数据集

该数据集是第一个中文阅读理解数据集,其中内容包括人民日报和儿童童话(People Daily&Children’s Fairy Tale,简称 PD&CFT)。

直接使用:https://my5353.com/pdcft

7. 今日头条中文文本分类数据集

该数据集为今日头条中文新闻(短文本)分类数据集。数据来源为今日头条客户端。共包含 15 个分类,382,688 条文本。

直接使用:https://my5353.com/toutia

8. FewJoint 基准数据集

该数据集来自讯飞 AIUI 开放平台,包含真实用户的语料和专家构造的语料(比例约为 3:7),共 59 个真实域,是目前域最多的对话数据集之一。

直接使用:https://my5353.com/fewjo

9. PAWS-X :用于释义识别的跨语言对抗数据集

该数据集包含 23,659 个人工翻译的 PAWS 评估对,以及 296,406 个机器翻译的训练对,采用 6 种不同的语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对均源自 PAWS-Wiki 中的示例。

直接使用:https://my5353.com/pawsx

10. Wikipedia 维基百科数据集

该数据集是根据 Wikipedia 转储构建的,包含 56 种语言,每种语言有一个子集,每个子集包含一个训练分割。每个示例都包含一篇完整的维基百科文章的内容,并经过清理以删除标记和不需要的部分(参考文献等)。

直接使用:https://my5353.com/wikip

11. RJUA-QA 首个中文医疗专科问答推理数据集

RJUA-QA 数据集共含 2,132 个问答对,每对问答由医生根据临床经验编写的问题、专家提供的回答以及相关的推理上下文构成,这些上下文信息源自中国泌尿外科和男科疾病诊断治疗指南。

直接使用:https://my5353.com/rjuaq

12. ShareGPT 90k 中英文双语人机问答数据集

ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。可用于训练高质量的对话模型。

直接使用:https://my5353.com/sharegpt

13. SMP-2017 中文对话意图识别数据集

该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。

直接使用:https://my5353.com/smp17

14. Chinese-Poetry 中文古典诗歌文集数据库

该数据集是最全的中华古典文集数据库,包含 5.5 万首唐诗、 26 万首宋词、 2.1 万首宋词等古典文集。

直接使用:https://my5353.com/poetryzh

15. MCFEND 中国假新闻检测的多源基准数据集

该数据集是由香港浸会大学、香港中文大学等机构联合构建的一个多源中文虚假新闻检测基准数据集。

直接使用:https://my5353.com/30429

更多公共数据集,请访问:

https://hyper.ai/datasets

大模型精选

1. Mixtral-8x7B

该模型是 Mistral AI 在 Mistral 7B 的基础上推出的大语言模型。

直接使用:https://my5353.com/30472

2. C4AI Command-R

C4AI Command-R 是由 Cohere 和 Cohere For AI 联合开发的一个 350 亿参数的高性能生成式模型。多语言生成能力和高性能 RAG 能力的结合,使 Command-R 在跨语言任务和知识密集型任务上具有独特优势。

直接使用:https://my5353.com/command

3. 金融大模型 deepmoney-34B-chat

该模型是基于 Yi-34B-200K 训练的,分为 pt(全参数训练)和 sft(lora 微调)两个阶段。

直接使用:https://my5353.com/command

4. ChatGLM3 系列

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的对话预训练模型。

* ChatGLM3-6B

该模型为 ChatGLM3 系列中的开源模型,保留了前两代模型对话流畅、部署门槛低等众多优秀特性。

直接使用:https://my5353.com/glm36b

* ChatGLM3-6B-Base

该模型是 ChatGLM3-6B 的基础模型,采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。

直接使用:https://my5353.com/glm3bas

5. LLaVA-v1.5 系列

LLaVA 是一个能够进行视觉和语言多模态转换的模型,由视觉编码器和大型语言模型 (Vicuna v1.5 13B) 组成。

* LLaVA-v1.5-7B

该模型是 LLaVA-v1.5 系列的 70 亿参数规模的模型。

直接使用:https://my5353.com/lava7b

* LLaVA-v1.5-13B

该模型是 LLaVA-v1.5 系列的 130 亿参数规模的模型。

直接使用:https://my5353.com/lava13b

6. Yi-34B 系列

Yi 系列模型是 01.AI 从零开始训练的开源大语言模型,以下模型系列为其 34B 大小的型号的相关模型。

* Yi-34B-chat

该模型为 Yi-34B 系列是 chat 模型,适用于多种对话场景。

直接使用:https://my5353.com/30429

* Yi-34B-Chat-GGUF

该模型是 Yi-34B-Chat 的 GGUF 格式。

直接使用:https://my5353.com/30429

* Yi-34B-Chat-4bits

该模型是 Yi-34B-Chat 模型的 4bit 量化版,可以直接在消费级显卡(如 RTX3090)上使用。

直接使用:https://my5353.com/30429

7. Qwen 通义千问大模型系列

Qwen 是阿里云推出的一系列超大规模语言模型,包括参数数量各不相同的不同模型。它包括 Qwen(基础预训练语言模型)和 Qwen-Chat(聊天模型),聊天模型采用人类对齐技术进行了微调。

* Qwen1.5-1.8B-Chat

Qwen1.5 是 Qwen2 的 beta 版本,该模型是 Qwen2 系列中较小参数规模的聊天模型版本,参数大小为 18 亿。

直接使用:https://my5353.com/qw1518

* Qwen-14B-Chat-Int4

Qwen-14B-Chat 是通义千问大模型系列的 140 亿参数规模的聊天模型,该模型为其 Int4 量化模型。

直接使用:https://my5353.com/qw14bCI

* Qwen-72B-Chat

该模型是通义千问大模型系列的 720 亿参数规模的模型。

直接使用:https://my5353.com/qw72b

* Qwen-72B-Chat-Int4

该模型为 Qwen-72B-Chat 的 Int4 量化模型。

直接使用:https://my5353.com/qw72bCI

* Qwen-72B-Chat-Int8

该模型为 Qwen-72B-Chat 的 Int8 量化模型。

直接使用:https://my5353.com/qw72bCI8

优质教程精选

1. 在线运行通义千问 Qwen1.5-MoE

Qwen1.5-MoE-A2.7B 是通义千问团队推出 Qwen 系列的首个 MoE 模型,该教程为其 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/qwmoe

2. Qwen-14B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-14B-Chat-Int4 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/qw14d

3. Qwen-1.8B-Chat-API-FT 模型 Demo

本教程主要演示了如何运行通义千问 Qwen-1.8B-Chat 模型,以及进行微调的主要流程。

在线运行:https://my5353.com/qw18ftd

4. Qwen-72B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-72B-Chat-Int4 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/y34bc

5. 在线运行 Yi-34B-Chat 的量化模型

本教程主要演示了使用 LlamaEdge 运行 Yi-34B-Chat 的量化模型的主要流程。

在线运行:https://my5353.com/y34bguf

6. 在线运行金融大模型 Deepmoney-34B-full

Deepmoney 是一个专注于金融领域投资的大型语言模型项目。Deepmoney-34B-full 是基于 Yi-34B-200K 模型进行训练的,分为 pt(全参数训练)和 sft (lora 微调) 两个阶段。现可在超神经官网一键克隆使用。

在线运行:https://my5353.com/t30314

7. 一键运行 Yi-9B Demo

Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,该教程为 Yi-9B 的 Demo 容器。

在线运行:https://my5353.com/yi9bd

8. 快速部署 ChatGLM2-6B

该教程为 ChatGLM2-6B 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/glm26bd

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从先行者到定义者,联发科建成生成式AI生态圈

从先行者到定义者,联发科建成生成式AI生态圈

PConline太平洋科技
2024-05-15 09:13:11
“一丝不挂”不害臊,打着为艺术献身的“耍流氓”,这回藏不住了

“一丝不挂”不害臊,打着为艺术献身的“耍流氓”,这回藏不住了

莫将离
2024-05-15 23:40:46
长城炮车主被车顶电动帐篷卡脖身亡,双方回应!涉事帐篷仍在销售

长城炮车主被车顶电动帐篷卡脖身亡,双方回应!涉事帐篷仍在销售

每日经济新闻
2024-05-15 12:56:10
安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

一个人讲故事
2024-05-05 21:46:11
经济的收缩:民营老板们要立即做的三件事?

经济的收缩:民营老板们要立即做的三件事?

永不出场的戈多
2024-05-13 21:50:37
一股民吴女士空仓3个月,刚买入3天,竟亏去46个点,卖也卖不出去

一股民吴女士空仓3个月,刚买入3天,竟亏去46个点,卖也卖不出去

股海风云大作手
2024-05-15 22:09:38
一代神医倪海厦的前世今生,精通命理身兼五术,早亡竟是命中注定

一代神医倪海厦的前世今生,精通命理身兼五术,早亡竟是命中注定

洞鉴历史
2024-05-06 11:51:38
斯洛伐克总理枪击遇袭,目前有生命危险!71岁的嫌疑人开了四枪!斯总统发声!

斯洛伐克总理枪击遇袭,目前有生命危险!71岁的嫌疑人开了四枪!斯总统发声!

每日经济新闻
2024-05-16 00:07:46
哈尔科夫地区的战斗非常激烈:俄军伤亡惨重,一些部队已被打光

哈尔科夫地区的战斗非常激烈:俄军伤亡惨重,一些部队已被打光

探索星空
2024-05-15 13:58:23
王楚钦妈妈范丽青:高校才女,旺夫成富豪,80封家书,如今值了

王楚钦妈妈范丽青:高校才女,旺夫成富豪,80封家书,如今值了

阿芒娱乐说
2024-05-15 22:54:49
又来南海碰瓷?“有水炮伺候”

又来南海碰瓷?“有水炮伺候”

枢密院十号
2024-05-15 19:52:03
美对华电车关税加征100%,中方反制还没开始,耶伦就想喊停!

美对华电车关税加征100%,中方反制还没开始,耶伦就想喊停!

三分亮剑
2024-05-15 19:04:56
金花爆冷世界第一!张之臻4站热身赛获260分,无缘四强仍法网可期

金花爆冷世界第一!张之臻4站热身赛获260分,无缘四强仍法网可期

排球黄金眼
2024-05-16 00:12:30
听说广东的抑郁症全国最低?网友:不敢抑郁,怕我妈让我喝符水

听说广东的抑郁症全国最低?网友:不敢抑郁,怕我妈让我喝符水

荷兰豆爱健康
2024-05-15 19:21:45
耍官威?湖北民警:见到公务车要让行!穿4千块T恤,疑似有纹身?

耍官威?湖北民警:见到公务车要让行!穿4千块T恤,疑似有纹身?

影孖看世界
2024-05-15 18:19:05
篮网官宣下赛季退役卡特球衣:15号将高挂球馆上空 成为队史第7人

篮网官宣下赛季退役卡特球衣:15号将高挂球馆上空 成为队史第7人

罗说NBA
2024-05-15 20:34:07
“中国和世界逆行”

“中国和世界逆行”

求实处
2024-05-01 18:15:03
老公行事艰难,时间快,交粮不足,这样可以强宗筋,增加时长

老公行事艰难,时间快,交粮不足,这样可以强宗筋,增加时长

荷兰豆爱健康
2024-05-14 19:10:41
俄高官库兹涅佐夫家中搜出一亿现金,其妻子在搜查时心脏病发作

俄高官库兹涅佐夫家中搜出一亿现金,其妻子在搜查时心脏病发作

文雅笔墨
2024-05-15 23:49:08
引发恐慌!河南10级大风背后的秘密揭底,专家发出警告!

引发恐慌!河南10级大风背后的秘密揭底,专家发出警告!

大宗看萌宠
2024-05-15 19:28:21
2024-05-16 03:30:44
大数据文摘
大数据文摘
专注大数据,每日有分享!
6229文章数 94261关注度
往期回顾 全部

科技要闻

蔚来新品牌乐道L60预售价21.99万元起

头条要闻

美方对中国电动汽车等加税 中使馆:强烈不满

头条要闻

美方对中国电动汽车等加税 中使馆:强烈不满

体育要闻

乔丹-贝尔:CBA外援的另一种用法?

娱乐要闻

欧阳娜娜营销才女人设却没拿到学位?

财经要闻

楼市小作文来了,大招马上出?

汽车要闻

无感胜有感 驾驶沃尔沃EX30竟与众不同?

态度原创

房产
本地
艺术
手机
公开课

房产要闻

万华“史诗级”交付,给海南楼市上了一课!

本地新闻

云游中国|哪吒小镇,潮玩新地标!

艺术要闻

湖山放怀——牛朝山水画作品展 呈现10年间160余幅山水佳作

手机要闻

iPhone 16 Pro Max最新机模与15 Pro Max对比 机身尺寸将明显增加

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版