网易首页 > 网易号 > 正文 申请入驻

千亿参数大模型再突破,数据质量为何是关键?

0
分享至

“模型诚可贵,算力价格高。”--百模大战的硝烟尚未散去,算力紧缺的呼声似犹在耳。

如今,哪怕强如OpenAI也会处于算力紧缺的状态。这也衍生出产业界共同的挑战:即当算力资源愈发宝贵时,如何在同等算力当量的情况下,更高效地训练模型,进而获得更好的模型精度和更好的智能涌现效果。

目前看,在“预训练+微调”成为大模型发展新范式的趋势下,数据层面的创新正变得愈发关键。事实上,OpenAI CEO Sam Altman去年就强调,增加大模型的参数量不再是提升大模型能力的最有效手段,大规模、高质量数据和数据高效处理工程化才是关键。

无独有偶,国内以源2.0为代表的大模型亦走在数据创新的最前沿,通过数据质量的提升,让算力、算法、数据三位一体产生更好的化学反应,从而驱动基础大模型的创新普惠。

01

数据质量:大模型的短板

数据质量正成为千亿参数大模型的巨大短板。

OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型遵循“伸缩法则”(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。

但从GPT4起,情况开始发生变化。OpenAI GPT3.5 从基于预训练的范式下开展转向“预训练+微调”的范式,微调的重要性愈发突出,在这种新的情况下,是否依旧还是我们投入的算力规模越大,模型的效果就越好?我们投入的数据规模越大,模型效果就越好?

答案显然是否定且值得需重新思考的。高质量、大规模、多样性的数据集对于提高模型精度、可解释性和减少训练时长大有裨益。正如著名人工智能专家吴恩达所言,AI发展正在从“以模型为中心”加速转向“以数据为中心”,高质量的训练数据集决定着模型的精度与表现。

因此,数据层面需要适应“预训练+微调”范式下不同阶段的需求,追求数据质量将会成为所有大模型接下来的重点。

但数据质量的提升绝非易事,尤其是高质量数据的匮乏可能成为一种常态。以GPT3为例,其开发文档显示,45TB纯文本数据经过质量过滤之后获得570GB文本,有效数据仅仅只有1.27%;同样,浪潮信息在源2.0的训练中,清洗了12PB规模的原始网页数据,最后提取跟数学相关的数据仅仅只有10GB不到。

众所周知,高质量数据可以带来更好的模型性能,包括推理能力,但高质量数据也将在未来一段时间消耗殆尽。根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》预测,语言数据将于 2030~2040 年耗尽,其中能训练出更好性能的高质量语言数据将于 2026 年耗尽。此外,视觉数据将于 2030~2060 年耗尽。

如何在数据层面弥补大模型发展的短板?此时此刻,增加数据来源,采用数据增强以及合成数据的新技术方法,逐渐成为牵引数据质量提升的关键所在。

02

提升数据质量:突破的钥匙

高质量数据是大模型能力跃迁的关键钥匙。

要想获得高质量数据,首先需要让多样性数据比例更加合理。过去,大模型的训练往往过于依赖互联网数据,书籍、科学论文等专业语言数据占比较少。但互联网公开数据集的数据质量往往低于书籍、科学论文等更专业的语言数据,增加专业数据占比就成为提升数据质量的一大关键路径。

事实上,国家也意识到增加专业数据集对于发展大模型的重要价值。最新的《“数据要素×”三年行动计划(2024—2026年)》就明确指出以科学数据支持大模型开发,深入挖掘各类科学数据和科技文献,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。

对于大模型厂商而言,增加百科、书籍、期刊等高质量数据的比重已是大势所趋。浪潮信息也是最早有意识增加高质量数据来源的厂商之一,其源 2.0大模型有意识地减少互联网公开数据集,增加百科、书籍、期刊等高质量数据,同时引入代码和数学数据,甚至针对120PB海量规模的社群数据也进行有针对性的清洗和提纯,从而达到广泛增加高质量数据的目的。

另外,考虑到中国人工智能领域数据供给产业生态不完善、获取成本高等真实情况,利用人工方式来获得高质量数据的的方式就像“刀耕火种”,成本高昂且效率低下,对于很多大模型犹如杯水车薪。因此,采用技术手段自动合成数据的方法成为弥补高质量数据不足的重要手段。

所谓生成数据,即通过大模型生成新的数据,补充模型训练中真实数据的不足。Gartner就预测,2024 年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。

OpenAI GPT-4就非常看重合成数据,其技术文档中重点提到生成数据在训练中关键作用。目前,合成数据在自动驾驶、金融欺诈、医疗等场景有着巨大需求。

在国内,目前真正使用合成数据的大模型相对较少。其中,源2.0大模型是注重合成数据的代表,已通过丰富实践形成了一套数据构建的方法论,实现利用大模型的数据生产及过滤方法,在保证数据多样性的同时,在每一个类别上提升数据质量,从而获取高质量的训练数据。

综合来看,AGI绝不仅仅局限在语言与文字,发展多模态大模型已经成为大势所趋,无疑会进一步加大构建高质量数据集的难度,通过扩大真实数据来源、构建高质量的合成数据集在未来会越来越重要。

03

开源+共训:大模型高质量发展的关键

经历了2023年的百模大战,高质量发展已成为大模型产业界的共识。

事实上,在算力资源、高质量数据资源日趋宝贵的今天,我们再也不能陷入重复造轮子的商业陷阱了,大模型走向开源+共训符合未来的高质量发展需求。

以数据层面为例,IDC预测,到2025年中国有望成为全球最大的数据圈。但国内开源意识不足,数据开放程度依然较低,虽然已有不少企业与科研机构构建了开源数据集,但与我国整体数据庞大体量相比显得极为渺小。而通过开源开放的生态,有利于带动高质量数据集的利用效率,提升模型泛化应用能力。

当下,浪潮信息的源2.0是“开源+共训路线”的坚定实践者。去年11月,浪潮信息正式发布源2.0基础大模型,包括1026亿、518亿、21亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力,并且宣布全面开源。据相关数据统计,源大模型的开放数据集目前已经被国内50家大模型所采用。

据悉,浪潮信息在“源2.0”的研发过程中,针对算法、数据和计算方面进行了创新,包括新型的注意力算法结构、数据合成方法、非均匀流水并行策略等,并采取开源+共训模式,将产业链各个环节有效串联起来,实现整个产业的快速协同发展,为国内大模型高质量发展开辟了一条有效路径。

例如,浪潮信息接下来会围绕开源社区,广泛收集开发者需求推动大模型能力与实际应用场景的适配,加速大模型在不同行业、场景中的商业化落地。

总体来看,AGI时代的奇点已经由大模型开启,但大模型“大力出奇迹”的时代已经结束。正如一句与数据相关的名言:Garbage in,Garbage out,数据质量的高低也是大模型高质量发展的关键所在。面向未来,开源+共训有利于大模型汇聚包括算法、数据等在内的技术创新力量,形成创新与成长的土壤,真正激发大模型无穷的能力。

附:源2.0大模型已经与GitHub社区最受欢迎的微调框架LLaMA-Factory完成全面适配,轻松实现“零代码训练专属大模型”。欲了解详情,可通过以下链接前往体验,也可以点击“阅读原文”。

https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2_llama-factory.md

BREAK AWAY

01

02

03

04

05

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《战旗如画》被观众要求下架!理由:剧情离谱、主演降智

《战旗如画》被观众要求下架!理由:剧情离谱、主演降智

不似少年游
2026-04-02 19:48:54
有一种从不坑穷人的奢侈品,叫巴黎世家

有一种从不坑穷人的奢侈品,叫巴黎世家

不惑猪的频道
2026-04-03 17:31:54
美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

傲傲讲历史
2026-03-27 16:16:47
2026年4月起,话费宽带要变了!国家定的省钱新规,家家都用得上

2026年4月起,话费宽带要变了!国家定的省钱新规,家家都用得上

开心美食白科
2026-04-04 08:29:26
火不过半年!网红城市轮番登场又凉凉,到底缺了啥硬实力?

火不过半年!网红城市轮番登场又凉凉,到底缺了啥硬实力?

青眼财经
2026-04-03 23:08:35
孟村杀妻案金昊已被处死,律师曝更多细节,3岁孩子抚养权成难题

孟村杀妻案金昊已被处死,律师曝更多细节,3岁孩子抚养权成难题

壹月情感
2026-04-04 23:17:34
78岁婆婆把唯一的房产转给小叔子,老婆没说话,冬天婆婆打电话

78岁婆婆把唯一的房产转给小叔子,老婆没说话,冬天婆婆打电话

游戏收藏指南
2026-04-04 17:19:48
破纪录只差两球,霍伊伦成那不勒斯真核!已确定将4400万买断!

破纪录只差两球,霍伊伦成那不勒斯真核!已确定将4400万买断!

海浪星体育
2026-04-04 10:26:13
张兰回京后心情大好,她与洋洋总手牵手巡店,一副精英范又美又飒

张兰回京后心情大好,她与洋洋总手牵手巡店,一副精英范又美又飒

仙味少女心
2026-04-04 07:24:22
张水华第四个代言官宣!50天狂签4家,收入登顶跑圈,公司已注册!

张水华第四个代言官宣!50天狂签4家,收入登顶跑圈,公司已注册!

马拉松跑步健身
2026-04-02 22:10:07
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
2-1击败山东泰山,大连英博2连胜,一夜升至第4,马莱莱双响炮

2-1击败山东泰山,大连英博2连胜,一夜升至第4,马莱莱双响炮

俯身冲顶
2026-04-04 20:59:16
伊朗损失非常大,伊朗正在以一种极度艰难的处境下,全力反击美以

伊朗损失非常大,伊朗正在以一种极度艰难的处境下,全力反击美以

阿龙聊军事
2026-04-01 15:10:23
痛悼!著名弹词表演艺术家张如君在沪离世,享年94岁,为评弹艺术奉献一生

痛悼!著名弹词表演艺术家张如君在沪离世,享年94岁,为评弹艺术奉献一生

新民晚报
2026-04-04 08:37:54
胆子太大!俄体操选手背对乌克兰国旗,乌方:永久剥夺资格!

胆子太大!俄体操选手背对乌克兰国旗,乌方:永久剥夺资格!

秋枫凋零
2026-04-04 10:36:25
国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

浩渺青史
2026-03-16 15:02:55
晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

鹤羽说个事
2026-03-24 22:01:27
韩国:3月30日起,对北京14个城市中国居民签发十年多次往返签证

韩国:3月30日起,对北京14个城市中国居民签发十年多次往返签证

南权先生
2026-04-01 15:42:41
曝俄罗斯大学校长被要求征召学生入伍!配额至少2%

曝俄罗斯大学校长被要求征召学生入伍!配额至少2%

项鹏飞
2026-04-02 20:41:02
太尴尬了!女留学生在相亲市场遭嫌弃,网传苏州已是“有价无市”

太尴尬了!女留学生在相亲市场遭嫌弃,网传苏州已是“有价无市”

火山詩话
2026-04-04 06:41:25
2026-04-05 08:11:00
dobigdata incentive-icons
dobigdata
科技推动商业
773文章数 304关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

爆火鸡煲店老板喊话网友"别来了" 连"少东家"也被召回

头条要闻

爆火鸡煲店老板喊话网友"别来了" 连"少东家"也被召回

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

数码
艺术
健康
时尚
公开课

数码要闻

REDMI K90 Pro Max涨价倒计时!多位米粉紧急下单:不等618了

艺术要闻

周恩来唯一草书题碑,8个字快一半都不认识!

干细胞抗衰4大误区,90%的人都中招

别再穿大一码了!遮肉根本不是靠宽松

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版