大模型训练数据集(从预训到强化)全面综述，大模型近期进展综述|翻译|预训练|上下文|视频生成模型

分享至

以下文章来源于老刘说NLP ，作者刘焕勇

最近一段时间，涌现许多大模型相关进展，本期将重点关注文档智能、大模型数据、多轮问答、prompt工程等方面，并且，已为大家归纳出大模型各阶段所需开放数据集。

01 大模型近期进展综述

首先，先来看编者社区每日总结的大模型进展早报，社区已经成为例行性的工作，大模型创新性的工作越来越难，综述性的工作越来越多。以下是文字版【老刘说NLP大模型进展早报】。

1、文档智能方面

这是一款文档相关的一款模型-TextTeller，基于ViT的端到端公式识别模型，可以把图片转换为对应的latex公式:

https://github.com/OleehyO/TexTeller

对应的训练数据为：

https://huggingface.co/datasets/OleehyO/latex-formulas

Pix2Text V1.0 新版发布，开源公式识别模型，https://huggingface.co/spaces/breezedeus/Pix2Text-Demo

此外，也有另一个pdf解析工具包hotpdf: https://github.com/weareprestatech/hotpdf

关于RAG多文档问答，WSDM 2024冠军方案：

https://github.com/zhangzhao219/WSDM-Cup-2024

https://arxiv.org/abs/2402.18385

2、大模型训练数据集方面Datasets for Large Language Models: AComprehensive Survey：https://arxiv.org/pdf/2402.18041https://github.com/lmmlzn/Awesome-LLMs-Datasets从五个角度整合和归类了LLM数据集预训练语料库、指令微调数据集、偏好数据集、评估数据集、传统自然语言处理（NLP）数据集，还提供了现有的可用数据集资源包括444个数据集、涵盖8个语言类别和32个领域。

3、多轮问答方面A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems：https://arxiv.org/pdf/2402.18013

开源项目-IntelliQ：这是一款基于大型语言模型(LLM)的多轮问答系统，包括意图识别和词槽填充Slot Filling:

4、Prompt工程方面开源项目-AutoPrompt：这是一个Prompt优化框架，可以根据用户意图自动生成高质量、详细的提示词，以及通过迭代的数据集不断细化和校正提示词：https://github.com/Eladlev/AutoPrompt

5、LLM可解释方向https://github.com/cooperleong00/Awesome-LLM-Interpretability

02 大模型预训练数据

大模型创新性的工作越来越难，综述性的工作越来越多。当我们打开github,huggingface等，我们总能找到许多各式各样的开源数据，但如何更全面地总结现有的数据工作，显然成为了一个很有趣的工作。

关于大模型训练数据，大模型的训练数据集最新综述**：

Datasets for Large Language Models: A Comprehensive Survey：

https://arxiv.org/pdf/2402.18041

https://github.com/lmmlzn/Awesome-LLMs-Datasets

从五个角度整合和归类了LLM数据集预训练语料库、指令微调数据集、偏好数据集、评估数据集、传统自然语言处理（NLP）数据集，还提供了现有的可用数据集资源包括444个数据集、涵盖8个语言类别和32个领域，总数据量超过774.5TB（预训语料库），其他数据集超过7亿个实例。

我们可以从中找到一些有趣的总结性结论。

数据地址放在：https://github.com/lmmlzn/Awesome-LLMs-Datasets

1、关于现有大模型数据集的归类

现有大模型数据集包括评估数据集Evaluation Datasets、传统任务数据集Traditional NLP Datasets、预训练数据集Pre-training Corpora、微调数据集Instruction Fine- tuning Datasets以及偏好数据集Preference Datasets，如下图所示，做了一个比较好的分类归纳。

2、LLM数据集的时间线开源的数据集总是伴随着发布的节奏，因此，当我们把数据开源这条线拉开，就能找到一些比较有趣的数据节点，如下图所示。一些具有代表性的LLM数据集的时间轴。橙色代表预训练语料集，黄色代表指令微调数据集，绿色代表偏好数据集，粉色代表评估数据集。

3、关于预训练数据① 现有不同大模型对数据使用的情况该工作整理了不同LLM使用的预训练语料库中数据类型的分布，每个饼图的顶部显示LLM的名称，不同颜色代表不同的数据类型。

② 关于预训练数据处理的流程这块的流程，我们在昨天的文章中有过论述，这里再回顾一下：

③ 关于预训数据的一些开源数据集预训练数据集提供通用性的能力。大量的文本数据可以帮助模型更好地学习语言的语法、语义和上下文信息，从而实现对自然语言的普遍理解，此外其可增强泛化能力。来自不同领域和主题的数据可以让模型在训练过程中获得更广泛的知识，从而增强其泛化能力；提升性能水平。从特定领域的预训练语料库中注入知识，可使模型在下游任务中取得优异的性能。最后支持多语言处理。将多种语言纳入预训练语料库，可增强模型在不同语言环境中的表达能力，促进跨语言任务能力的发展。其可以进一步细分为如下几个类别：

并已经有诸多数据集列表，如下：

在领域数据集方面，也包括金融、数学、医疗、法律等细分领域。

4、关于微调数据① 关于微调数据的类别该工作将微调数据分成了15个类别，包括Reasoning, Math, Brainstorming, Closed QA, Open QA, Code, Extraction, Generation, Rewrite, Summarization, Translation, Role-playing, Social Norms, and Others.

其中：a. 推理Reasoning。从已知前提得出新的判断涉及逻辑推理和推断假设，包括思维链（CoT）、类比推理、归纳推理等过程。b. 数学Math。指令包含数学计算或数学推理。可根据难度进行分类。c. 头脑风暴Brainstorming。围绕特定主题产生新想法，提出创新方法。答案通常采用要点式格式。提供建议、提出建议和类似要求都属于头脑风暴。d. 封闭式QA Closed QA。根据提供的提示和问题选择正确选项，或直接或间接从提供的文本信息中获取答案。e. 开放式QA Open QA。对于开放式 QA 说明，问题不附带选项，也无法直接在问题中找到答案。人们必须依靠自己的知识库来制定答案。这些问题可以包括带有标准答案的单项知识查询，也可以是没有预定义解决方案的开放式查询。f. 代码Code。涉及代码的问题，包括但不限于代码生成、代码纠正和代码理解。g. 提取Extraction。从给定内容中提取关键信息，包括命名实体识别 (NER)、关系提取 (RE)、事件提取等。h. 生成Generation。根据问题的要求生成原创内容，如广告文案或文章。获取答案需要一个从无到有的过程。i. 改写Rewrite。根据要求对文本进行处理，包括词语转换、文体转换、文本排序、文本简化和扩展、上下文改写、句子改写、文本修正等。j. 总结Summarization。总结和浓缩文本内容，或将内容提炼为标题。总结时可应用特定的约束条件。k. 分类Classification。根据特定要求对信息进行分类或评分，如主题分类、质量评分等。l. 翻译Translation。不同语言之间的翻译，包括不同民族语言之间的翻译，以及简繁体之间的翻译、方言翻译、古汉语翻译等。m. 角色扮演Role-playing。让模型扮演某一角色来完成任务。可以扮演专家、名人等常规角色，也可以扮演疯子、动物、编译者等非常规角色。n. 社会规范Social Norms。社会规范指令指的是伦理道德问题、个人隐私、偏见、歧视等。要求提供符合安全规范和人类价值观的答案。o. 其他others。这一类可能涉及指示模型使用搜索引擎进行实时信息检索，或提供不合逻辑的指令，如 "向右转 "或 "重复我说的话"。② 关于微调数据的构造方式微调数据集根据其构建方法主要分为四类：人工生成的数据集、模型构建的数据集、现有数据集的收集和改进以及使用多种方法创建的数据集。

从实施上看，可以分成以下几种构造方式，其基本流程可以体会一下：

在通用微调数据集上，目前已有多个，部分如下：

③ 关于领域微调数据集特定领域指令微调数据集是针对某一特定领域而构建的，其中包含了与该领域密切相关的知识和任务类型。在特定领域指令微调数据集上对预训练基础模型进行微调后，该模型可应用于该领域内的各种场景任务，并表现出较好的性能。如下图所示，特定领域指令微调数据集分为六大类：医疗、代码、法律、数学、教育和其他领域。从特定领域指令微调数据集中收集和整理的信息

例如现有一些比较典型的领域微调数据集，

5、关于偏好数据集偏好数据集是对同一指令输入的多种反应进行偏好评估的指令集合。通常情况下，这些数据集由具有不同反应的指令对以及来自人类或其他模型的反馈组成，这种设置反映了人类或模型在特定任务或上下文中对不同反应的相对偏好。偏好数据集中的反馈信息通常通过投票、排序、评分或其他形式的比较来体现，如下图所示：

现有的一些典型的偏好数据集如下，偏好数据集主要用于大型模型的配准阶段，目的是帮助模型的输出与人类的偏好和期望更加一致。与人类偏好的一致性主要体现在三个方面：实用性，有能力遵循指令；诚实性，避免捏造；安全性，避免产生非法或有害信息。

6、关于评估数据集评估数据集也是一个大类，过去一年大家也在做各种大模型的评估。也延伸出了大量关于不同类别的测试集合。

例如，可以细分为Gen-eral, Exam, Subject, Natural Language Understanding (NLU), Reasoning, Knowledge, Long Text, Tool, Agent, Code, OOD, Law, Medical, Financial, Social Norms, Factuality, Evaluation, Multitask, Multilingual, and Other等多种，代表性的如下：

而与评估关系最为密切的，是一些评估方案，例自动化评估、人工评估等，两者具有差异性。

7、关于NLP数据集NLP数据集是当前NLP研发的灵魂，在LLM被广泛采用之前专门用于自然语言任务的文本数据集归类为传统NLP数据集。这些数据集专门用于训练、优化和测试传统的NLP模型。由此产生的 NLP 模型适用于各种文本处理任务，包括文本分类、信息提取、文本摘要等。在当前LLM项目中，大量传统NLP数据集得到了应用。这些数据集具有双重作用：首先，它们的格式和内容转变为指导性格式，用于LLMs微调阶段，增强模型遵从指令的能力，并在此类任务中取得优异成绩；其次，它们可作为LLMs的评估数据集，使不同的LLMs能够在自然语言任务中进行比较。值得注意的是，一些LLMs指令数据集和评估数据集是从传统 NLP 数据集转换而来的。该工作将数据集分成15个不同的类别，如下：

其中，实体识别的代表数据集如下所示：

关于这块，我们在前面的文章中还介绍了IEPile：大规模信息抽取语料库: https://github.com/zjunlp/IEPile/blob/main/README_CN.md

03结语

本文主要介绍了过去一天所看到的关于大模型的一些工作，包括文档智能的新工具，一些RAG竞赛的方案，并对现有的大模型训练数据集的综述工作进行了要点论述，这些都值得关注。感谢开源工作者的奉献，以及数据资源整理的辛苦工作，很不容易且很有意义。参考文献：https://arxiv.org/pdf/2402.18041

关于数据堂

About Datatang

数据堂是一家人工智能数据服务企业，为人工智能及大数据领域公司提供高质量的训练数据集、数据采集与标注定制服务、标识平台部署等一体化数据解决方案。凭借高质量数据服务，数据堂已帮助全球上千家企业提升AI模型性能。点击了解更多

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.