网易首页 > 网易号 > 正文 申请入驻

大模型数据之二|中美大模型的竞争之路:从训练数据讲起

0
分享至

阿里研究院

12/28

2023

本期导语

近年来,美国陆续出台芯片法案、人工智能倡议法案等规则,中美科技战越演愈烈。这是一场交织着技术、产业、经济、政治和全球博弈等多重复杂和综合因素的地缘政治冲突,是中美高科技领域近几十年来竞合和博弈的必然结果。

在这一轮AI大模型竞争中,美国作为AI的重要发源地,拥有众多技术巨头和顶尖研究机构,一直处于领先地位,美国科技公司2023年先后推出高性能的大模型及其升级版,如OpenAI的GPT-4、Google的Gemini模型等;中国则通过前期AI应用的技术积累和科技企业的大量投入,推出阿里巴巴的“通义千问”、百度的“文心一言”等大模型,成为和美国竞争的重要力量。

从训练数据角度来看,中美的数据来源有何差异?公共数据的开放和运营能否成为中文语料的竞争优势?建设中国版大模型数据我们该怎么做?带着这些问题,承接上一期内容,本期专题和大家聊一聊中美大模型训练数据来源,谈一谈如何让大模型底层更为坚实,希望引发一些政策和制度设计层面的思考与共鸣。

训练数据从何而来?中美做法迥异

分析大模型的数据来源可以从政府和社会力量两方面入手。从政府视角看,哪些公共数据可以支持大模型训练?我们梳理了以下几种:

一是,经过权威认证或凝聚共识的知识,如专利文档、上市公司财报、法院判例/裁判文书、医疗诊断记录、政策文本等,除了可用于预训练语料,还可应用于行业大模型监督微调(SFT)或外挂语料库建设。二是,提供公共管理和服务的counting属性数据,如公共交通、供水、供电、供气等,可用于提升模型多线程处理,调度优化能力。三是,具有科研属性的数据,主要特征有长周期、大规模、多模态、来源清晰、描述详细、可使用,如天气、医疗、地球科学、基础科学领域等,用于AI for Science,让模型提升从复杂数据中提炼规律,提升精准预测的能力,同时拓展AI大模型在更多领域中应用。四是,科研期刊论文,用于提升模型上下文的理解能力和逻辑推理能力。

而社会力量整合政府开放数据与网络公开数据,在拓展广度的同时,提升精细度和专业性。“广”的层面,社会力量将公共数据与网络公开数据融合后做进一步清洗和加工,形成具有多样性、大规模、高质量特点的预训练数据集。“齐”的层面,社会力量通过大量高质量反馈做数据标注,将模型产出与人类价值观对齐。“专”的层面,也会整合领域知识和经验,促进语料的流通和共享,提供行业大模型所需的高质量、专业性的数据供给。由此可见社会力量在大模型训练语料中所起到的主导作用。

那么,美国与中国在获取大模型数据方面的做法有哪些不同呢?

美国

美国联邦政府在公共数据中承担了”应开尽开“的职责,由社会力量来探索数据的应用。政府开发了专门针对AI训练数据的开放平台,并针对公共数据和科研数据进行质量维护和运营管理,在保证数据可用性的同时降低公众使用门槛。公共数据开放的范围限定在政府数据,包括各级政府及政府资助的大学和研究机构。

在开放共享阶段,联邦政府会对与AI相关的数据做标识、在数据量大时做”上云“处理、定期更新、分类、清洗、标注、结构化、并确定分级开放权限。在开发利用阶段,政府会提供便捷的用户检索服务、提供数据接口API。在科研论文方面,设立PubMed 论文检索系统,整合国家医学图书馆下属的3个论文数据库资源,记录了3600万+条生物医学文献的引用和摘要,并提供原文链接。在科研属性公共数据方面,国家气象和海洋局(NOAA)从卫星、雷达、船舶等来源每天新产生数十TB数据,按季度更新150个数据集,因数据量庞大存储在云端。为方便公众开发利用,提供了数据集API接口。在权威认证的知识方面,如法院的裁判文书是很好的结构化数据,对于训练法律大模型价值很高。美国遵循“公开是原则,不公开是例外”的理念,除了隐去涉及国家秘密和个人隐私的信息,联邦和地方法院都实现了公开,并提供了API接口供调用。

美国的社会力量整合政府的开放数据与网络的公开数据,提升数据精细度和专业性,形成以开源为主的高质量训练语料。社会力量主要有开源/非盈利组织、互联网公司研究部门、学界、多类型机构合作组成。数据集以开源为主,站在前人的肩膀上不断迭代。以在大模型中被广泛应用的,由开源组织Eleuther AI开发的825GB英文语料库The Pile为例,在22个子数据集中,来源于政府公共数据的有4个(PubMed数据库、商标专利数据库、卫生研究院数据等)。在行业大模型中,社会力量对领域数据集的专业性也起到了重要贡献。以把大模型当做大脑来辅助运行的具身智能机器人为例,Google DeepMind 联合33家学术实验室,汇集了来自 22 种不同机器人类型数据,涵盖100多万条片段,展示机器人在15万项任务上的表现,创建Open X-Embodiment 开源数据集。基于该数据集训练的具身智能模型,解决了机器人在特定任务专业而通用能力差的难题,成功率提高 50%,技能表现提高 2 倍。

在政府与社会力量协同的方面,美国联邦政府发挥了AI训练数据“汇聚融合”的角色。为巩固美国在AI领域的竞争优势,由政府主导推动为期6年的国家人工智能研究资源NAIRR 计划,让AI研究者获得更多算力和数据资源。计划的原则是尊重社会力量的专业性,作为经营主体的指导委员会中有多位来自AI业界和学界的资深人士。NAIRR在数据资源整合中发挥的作用体现在,联邦政府通过建立数据资源服务平台,汇聚政府与社会力量的开源数据资源。通过建立统一的数据汇聚标准,规范数据描述格式,促进多方数据融合。倡导AI-Friendly的数据兼容性,将数据集整理和格式化成易于AI算法处理和学习的形式,如文档的电子化程度、版面编排、以及相关数据来源的完整性。同时推动多方协作的数据资源开发利用,如运营数据集社区、提供数据搜索服务等。

中国

我国的公共数据采用主体性质界分,包含各级行政机关在履行公共管理职能中获取的数据,覆盖范围比美国更广,但在开放共享和开发利用程度上仍有不足。如天气数据的开放,在中国气象数据网查询地面逐小时观测资料时,个人用户需注册,且可选范围被限定在7天以内;而对比NOAA,无需注册即可下载,且以地表温度为例,数据最早可追溯到1951年。在开发利用中,我国也仅对个别数据集提供了API接口。再如法律领域,最高人民法院设立了裁判文书网,除例外情况外统一公布各级人民法院的生效判决书。但近年公开的数量有明显下降趋势,2020年上网文书2300多万,而2023年截至12月仅公开300万。另2024年1月将启用“全国法院裁判文书库”,仅法院人士在内网可查询。

我国的社会力量主要是结合海外优质开源数据集及中文语料,产出训练数据集。以阿里巴巴的“通义千问”大模型为例,训练数据来自公开来源的混合数据,以中文和英文为主。而中文语料主要来自知乎、百度百科、百度知道等公开网络数据,来源于政府的公共数据非常少。从总体看,中文语料库的开源情况不如英文普遍,据AI应用开放社区Hugging Face数据统计,中文开源数据集数量仅占比英文开源的11%。在行业大模型中,社会力量对行业数据集专业性有一定贡献,推动了在交通、政务、医疗等领域的应用。整体看,用领域知识训练大模型仍面临困难,第一是领域知识积累的专业门槛高、时间周期长。第二是企业出于商业利益和知识产权考虑,对领域知识共享意愿度低。第三是因为我国公共数据开放不足,导致部分行业缺少优质的数据供给。在这种情况下,如果还要试图缩小已经开放的公共数据范围,那么高质量语料短缺的问题将更为突显。

我国尚未形成对大模型提供有效供给的数据资源生态。相比美国政府以公共数据开放服务于训练语料,社会力量以融合公共数据和网络公开数据提升语料广度、精细度和专业性的生态模式,我国可供大模型训练的有效数据资源呈现碎片化分散状态。中文语料、科研成果等高质量数据集开放程度低,企业用于训练的语料来源不清晰、权属不明确,开源后存在一定的合规隐患,使得企业更倾向于自采、自用,大模型数据流通机制尚未形成。此外,由于过多依赖删除手段治理,导致网络上有中式价值观的高质量公开语料供给较少。

建设具有竞争力的中国版大模型,训练数据该去向何方?

根据中美对比的差异,结合我国国情,针对建设中国版通用大模型,我们建议加强政府与社会力量的协同,具体有以下几点:

主动开放人工智能大模型训练公共数据,鼓励受财政支持的科研单位、文化单位开放训练数据

进一步加大大模型训练公共数据的开放力度,借鉴美国经验,在政府侧实现“应开尽开”,由社会力量探索应用场景。对于受财政支持的科研、文化单位所有的知识产权类数据,鼓励通过开放、共享等方式向社会公开,基于非营利性成本补偿原则明确合理收费标准,如国家图书馆收录的大量历史典籍、科研论文等。

加强AI相关数据的标识和开发利用

在政府信息化项目中主动判断或响应市场主体和技术社区要求,对可以用于AI训练的数据源进行主动标识,提高AI相关数据的开发程度、保障AI相关数据的提供质量。此外还应关注AI相关数据集的开发利用,在提升质量的同时降低公众使用门槛,如开发API接口,更便捷的检索体验,大体量数据上云等。同时,积极探索公共数据的授权运营,鼓励社会力量参与大模型训练公共数据集的开发建设。

关注开源数据集的开发,提升数据集质量

社会力量可以汇总整理AI需求数据特征,参与甚至负责AI公共数据集运营。同时还应重点关注数据集的质量提升,一方面建立产业对数据集的评估标准,明确大模型训练语料全面性、准确性、真实性、可靠性、安全性等指标;另一方面根据模型效果和用户的使用反馈,不断优化数据供给。

针对行业大模型,我们建议:

关注领域知识和经验的收集与积累

重点关注工业语料,代码,科研等B端应用语料库的建立和经验传承,定标准、立规范、重引导,根据产业发展实际需求和应用规律提出建设方案。

促进垂直领域知识的流通与共享

领域知识的积累和流通难以用堆积人工方式解决,建议设计机制和提供技术基础设施促进专业语料的生成和共享。如通过隐私计算等技术,在大模型“存算分离”的架构下,实现数据“不动”,物理隔离,激励模型共建共享,接口开放,促进垂直语料共享及模型共建和输出。

致谢:感谢阿里巴巴集团政策法规研究室主任刘明、阿里巴巴集团安全部AI安全负责人陈岳峰、阿里巴巴集团高级算法专家李天宇对本文提供理论支持和技术指导。

参考文献:

[1] The Pile: An 800GB Dataset of Diverse Text for Language Modeling, 2020

[2] Strengthening and Democratizing the U.S. Artificial Intelligence Innovation Ecosystem, 2023

[3] Recommendations for Leveraging Cloud Computing Resources for Federally Funded AI Research and Development, 2020

[4] Open X-Embodiment: Robotic Learning Datasets and RT-X Models, 2023

[5] 数据“卡脖子”,何谈研究话语权?, 2021

作者|王峥、傅宏宇、袁媛 阿里研究院AI政策研究中心

责编|崇修(转载及媒体合作请评论区或邮箱留言)

阿里研究院AI政策研究中心,依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态,总结沉淀AI发展和治理实践经验和方法案例,为AI政策制定实施提供科技企业的智识建议。

* 最终议程以现场实际为准

扫码报名参加【数纳斯·2024企业内外数据流通交流会】

现场领取大会周边礼包!
同时访问数纳斯https://shunasi.alibaba.com/meeting

参与分享有礼,赢取丰富奖品!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝央视要价太高!抖音放弃世界杯分销版权 小红书赌博拿下2项权益

曝央视要价太高!抖音放弃世界杯分销版权 小红书赌博拿下2项权益

风过乡
2026-05-26 06:38:15
一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

网球之家
2026-05-26 23:12:55
Here we go确认,罗马诺:马雷斯卡已与曼城签约三年

Here we go确认,罗马诺:马雷斯卡已与曼城签约三年

懂球帝
2026-05-26 15:22:40
“若两岸爆发冲突,我会誓死守护台湾”,他是富士康创始人郭台铭

“若两岸爆发冲突,我会誓死守护台湾”,他是富士康创始人郭台铭

阿七说史
2026-05-26 05:00:03
夏天,三个豆子一起煮,湿气跑了、脾胃棒了,睡得香了,正当时

夏天,三个豆子一起煮,湿气跑了、脾胃棒了,睡得香了,正当时

阿龙美食记
2026-05-26 14:15:09
台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

台湾网红与张雪见面:你是我偶像!台湾把你视为神 见到820激动

念洲
2026-05-26 18:15:02
底越掀越深!体育生当医生、院长儿子吃空饷,不敢再挖了

底越掀越深!体育生当医生、院长儿子吃空饷,不敢再挖了

奇思妙想草叶君
2026-05-03 22:56:14
63岁黄仁勋回台探亲,和父母一起吃饭,96岁父亲神采奕奕状态超好

63岁黄仁勋回台探亲,和父母一起吃饭,96岁父亲神采奕奕状态超好

丫头舫
2026-05-26 17:55:54
失独母亲实名举报律师虚假宣传:拿我丧子之痛当营销噱头?

失独母亲实名举报律师虚假宣传:拿我丧子之痛当营销噱头?

大象新闻
2026-05-26 17:25:23
重演阿萨德悲剧?武契奇访华归国后,可能主动提交辞呈!

重演阿萨德悲剧?武契奇访华归国后,可能主动提交辞呈!

阿龙聊军事
2026-05-26 11:49:19
教育部任命:985党委常务副书记(正局级),进京履新

教育部任命:985党委常务副书记(正局级),进京履新

双一流高校
2026-05-27 00:27:11
“榛树”导弹打出去,俄罗斯更加没牌了

“榛树”导弹打出去,俄罗斯更加没牌了

山河路口
2026-05-24 19:54:50
为队友发声!米切尔:很多人都是唯冠军论,却忽略了哈登的伟大

为队友发声!米切尔:很多人都是唯冠军论,却忽略了哈登的伟大

懂球帝
2026-05-26 15:01:09
普京不想再拖了,榛树落地,乌克兰只剩三条路,特朗普来了也没用

普京不想再拖了,榛树落地,乌克兰只剩三条路,特朗普来了也没用

浪子阿邴聊体育
2026-05-26 04:28:55
住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

住院新规来了!白天治疗、晚上回家,陪护不再全家熬(政策解读)

李博世财经
2026-05-26 10:01:57
尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

仰卧撑FTUer
2026-05-26 14:34:08
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

另子维爱读史
2026-05-25 07:55:09
橄榄球巨星吐槽:和霉霉恋爱,最受不了的是这个

橄榄球巨星吐槽:和霉霉恋爱,最受不了的是这个

浅遇时光
2026-05-27 00:15:24
尴尬了!女选手泳装移位露胸照片被直播推送,10000人围观超1小时

尴尬了!女选手泳装移位露胸照片被直播推送,10000人围观超1小时

火山詩话
2026-05-26 08:13:11
2026-05-27 06:32:49
阿里研究院 incentive-icons
阿里研究院
推动商业互联网化
1956文章数 2180关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

以色列:初步评估显示哈马斯新任军事领导人被打死

头条要闻

以色列:初步评估显示哈马斯新任军事领导人被打死

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

本地
游戏
健康
旅游
军事航空

本地新闻

用云锦的方式,打开江苏南京

猎魂世界:千仞雪/王秋儿售后盘点!售后是越多越好还是越少越好

外泌体抗衰,什么时候能用上?

旅游要闻

第二艘国产大型邮轮即将启航:解锁中国人的海上旅居新范式!

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版