网易首页 > 网易号 > 正文 申请入驻

2024年中国AI基础数据服务研究报告

0
分享至

AI丨研究报告

核心摘要:

近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。AI基础数据服务可加速高质量数据的获取与标注,推动AI算法的创新与持续优化,是AI产业发展的重要支撑。基于对数据服务专业厂商、云厂商、大模型研发厂商、智能驾驶研发厂商等中国AI基础数据服务市场的供需两侧企业调研,结合艾瑞对中国人工智能市场整体及AI基础数据服务市场的发展判断,艾瑞推算2023年中国AI基础数据服务市场规模为45亿元。预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。

AI产业整体进展

多模态、长文本、大模型小型化成为热点研究方向

在过去几年里,大众已见识到GPT、BERT等大语言模型在自然语言理解和生成方面的卓越能力。相比单一模态的大模型,多模态大模型能够提供更自然的人机交互方式,具备更全面和准确的认知能力,并在不同情境下表现出更高的鲁棒性,从而赋能更丰富和全面的AI应用。因此,多模态技术已成为诸多大模型厂商的研发重点。此外,长文本处理能力的提升,使大模型在理解和生成复杂文档方面表现更佳,能够更好地支持多主题和多步骤的推理任务;通过知识蒸馏、模型剪枝和混合精度训练等技术,大模型得以小型化,减少了计算资源需求,提高了推理效率,使大模型在资源受限设备上高效运行,提升了响应速度和用户体验,保护了用户的数据隐私。聚焦国内AI商业化市场,大模型商业化进程加速,API市场竞争激烈,价格战频现,但同时也反映出供应商间能力同质化的问题,亟需破局;另一方面,央国企凭借较好的数字化基础、丰富的数据资源及业务场景、相对充足的科技投入预算,成为现阶段国内大模型项目建设的主力军,推动了大模型在中国AI产业的商业化落地。

数据、算法、算力是构建AI的三大要素

数据、算法、算力的协同促使现代AI技术实现了从理论到应用的飞跃

在人工智能领域,数据、算法和算力是构建AI系统的三大核心要素,三者的协同使现代AI技术实现了从理论到应用的飞跃。数据是AI的基础,大量高质量的数据不仅能够提高现有模型的准确率,还能促进模型的优化和创新。以ImageNet数据集为例,该数据集及相关挑战赛推动了计算机视觉算法的快速发展,2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8%上升到97.3%。近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。

AI基础数据服务是AI产业发展的关键支撑

加速高质量数据的获取与标注,推动AI算法的创新与持续优化

根据AI基础数据服务厂商LXT对322家有AI项目经验的美国企业的调研,训练数据的资金投入占这些企业的AI整体建设投入的15%,61%的企业认为未来2到5年对数据的需求量将会增加,62%的企业认为数据质量比数据量更为重要。LXT的调研结果揭示了企业在AI建设过程中对高质量数据的迫切需求。鉴于AI基础数据服务厂商在高效提供高质量数据集方面的专业能力,它们已成为AI研发企业的重要合作伙伴,AI基础数据服务已是推动AI产业发展的关键支撑。

AI基础数据服务厂商及主要产品服务介绍

标准数据集、定制数据集、配套产品工具服务等三大产品服务

AI基础数据服务厂商是专注于为各行业的AI算法训练与调优提供基础数据产品服务的公司。这些公司通过提供标准数据集、定制数据集和配套产品工具服务,支持互联网、大模型、智能驾驶等各领域的AI技术发展。数据集按内容格式可分为文本、图像、视频、语音等类型,核心生产流程主要包括方案设计、数据采集、数据清洗、数据标注和数据质检等五个关键环节。标准数据集是由数据服务厂商研发并可多次销售的数据集;定制数据集是依据客户需求制作特定数据集,数据的知识产权归客户所有;配套产品工具服务包括标注工具、实训平台及AI模型评测等软硬件工具服务,用于满足高效标注数据、培训数据标注、评估AI能力效果等不同层次的客户需求,辅助和延展数据服务厂商的相关业务。

典型服务场景——通用大模型(1/2)

数据量更大、维度更加多元,标注方式及质量评判标准也更为复杂多样

算法模型从理论到实践的应用过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推理的结果就越可靠。在本报告的讨论中,传统AI泛指Transformer架构出现之前的AI架构,参数量通常相对较小,大模型架构则以Transformer为代表。作为应用大模型架构的代表,ChatGPT在2022年11月上线以来,掀起了AI乃至社会经济各领域对大模型的研讨与应用的热潮。与传统AI相似,大模型依然需要大量优质数据,但其所需数据量更大,数据维度更加多元,标注方式及质量评判标准也更为复杂多样。

典型服务场景——通用大模型(2/2)

为提升通用能力,大模型训练数据的投入将逐步向图像、视频等多模态数据倾斜,且需要更多的采购数据支持

纵观业界开源及闭源大模型的能力特性,结合艾瑞对大模型研发企业的调研,虽然当下主流大模型应用仍相对侧重文本输入、文本输出的能力,但对图像、视频、语音等多模态数据的使用已越来越普遍,艾瑞预计大模型训练数据中多模态数据的占比将在未来数年持续提升。根据艾瑞对部分通用大模型及综合型AI厂商的调研,目前大模型的训练数据主要来源于公开数据、网络爬虫数据等可公开获取的数据,其次是采购数据。相比大模型初创企业,综合型AI厂商凭借现有的互联网应用和AI业务积累,具备独特的数据优势。在模型的通用能力建设方面,公开数据和爬虫数据已被广泛利用,未来这两类数据在整体上的提升空间相对有限,Epoch AI等机构的研究人员于2024年6月更新的论文中表示,大语言模型将在大约2026至2032年之间耗尽所有公开的文本数据。艾瑞预计,大模型研发厂商将通过更多的采购数据来提升模型的通用能力;而在垂直场景优化及行业客户的拓展中,公开数据和爬虫数据仍有较大的获取提升空间,大模型研发厂商也将更多地利用客户侧的合作数据,增强模型解决行业特定领域或企业特定问题的能力。

典型服务场景——大模型评测

公开评测基准与商业化评测服务共建大模型评测生态

随着大模型技术的快速迭代及其在众多领域的广泛应用,相关评测需求同步增长。对于模型研发企业,评测是发现模型在功能、性能、安全性和可靠性等方面优劣势的关键步骤,并可与其他企业的模型横向对比,进而针对性地优化模型,提高其表现和稳定性;对模型应用企业而言,评测是选型和项目验收的重要工具,通过专业评测服务,企业能够评估模型的实际应用适用性,确保所选模型满足需求,并保障定制类模型项目的交付质量。相较传统AI,大模型的应用空间更广,评测本身也更加复杂和多样化,市场对专业评测服务的需求潜力巨大。公开评测基准和商业化评测服务的发展,将为大模型评测提供重要支撑,促进技术与产业的健康发展。

典型服务场景——智能驾驶

AI基础数据服务与AI算法研发相互促进,共同推动着自动驾驶的实现

在大模型和端到端技术的加持下,智能驾驶的自动化程度不断提升,相关功能已成为部分消费者购车时的重要考虑因素。除个别厂商专注于纯视觉路线外,当下高级别的智能驾驶系统中,摄像头和激光雷达是两大核心传感器。摄像头主要捕捉二维图像,具有高分辨率和丰富的色彩细节;激光雷达则通过发射和接收激光脉冲生成高精度的三维点云数据,能够精确测量物体的距离、尺寸和相对位置,受光照等环境条件影响较小。摄像头和激光雷达等各类传感器各具优势,互为补充,数据标注需对来自不同传感器的数据标签对齐和交叉验证工作。AI基础数据服务是支撑智能驾驶、大模型等AI算法研发的基石,而AI算法也大幅提升了智驾研发领域数据标注的效率和效果,为数据服务行业的发展注入了新的活力。数据与AI彼此支撑、相互促进,共同推动着自动驾驶的实现。

中国AI基础数据服务产业图谱

多源数据、人力服务、IT设施 → 数据服务 → AI算法研发厂商

AI基础数据服务产业的中游即数据标注等数据服务的供应商,包括专业厂商及云厂商两类,其中后者以支持内部算法研发及云业务客户需求为主。上游提供原料数据、人力资源支持及IT基础设施,其中人力资源服务供应商主要包括垂直做数据标注的厂商和综合IT类厂商两类,目前业界通常采用远程线上服务即云BPO的模式进行人力支持。下游为数据服务的需求方,包括大模型、智能驾驶等各行业各领域投入AI算法研发的厂商。

中国AI基础数据服务市场规模

2023年中国AI基础数据服务市场规模45亿元,未来5年复合增长率30.4%

基于对数据服务专业厂商、云厂商、大模型研发厂商、智能驾驶研发厂商等中国AI基础数据服务市场的供需两侧企业调研,结合艾瑞对中国人工智能市场整体及AI基础数据服务市场的发展判断,艾瑞推算2023年中国AI基础数据服务市场规模为45亿元。在需求侧,随着AI算法研发从面向特定任务领域的小模型向具备更强通用泛化能力的大模型过渡,数据服务需求企业将产生大量高质量、多模态的数据需求。同时,随着大模型在通用及垂直场景中的应用拓展和智能驾驶等AI技术的规模化商业落地,良好的商业回报将进一步推动需求侧加大对基础数据的投入。在供给侧,随着数据要素等相关支持政策的持续深化,服务商将加快数据源的获取及数据集的制作。数据工程技术、数据标准规范、标注方法等日益成熟,人才生态及服务软件平台的自动化、流程化也在不断完善,供给侧的供应能力和服务质量得以加强。综合供需两侧的情况,艾瑞预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。

AI基础数据服务商的市场结构分析

自建团队与品牌数据服务商主导市场,中小服务商的市场份额大幅下滑

延续艾瑞在2020年中国AI基础数据服务行业研究中的供给方划分方式,本报告将供给方分为需求方自建团队、品牌数据服务商、中小数据服务三类。其中,有AI基础数据对外服务的云厂商最为特殊,因其所属集团的内部AI算法研发所需的数据服务,可能由云服务业务线、算法研发业务线的内部标注团队,以及外部的品牌和中小数据服务商等四种团队承接。在艾瑞对供给方的市场份额统计中,云服务业务线的对内支持计入需求方自建团队的市场;因云服务厂商具备较大的市场影响力、相对完善的服务软件平台,将云业务线对外部厂商的数据服务计入品牌数据服务商的市场。

相比4年的市场份额情况,中小数据服务商的整体市场份额下滑约41%,需求方自建团队上升36%,品牌数据服务商上升5%:传统AI数据标注市场竞争激烈,而大模型、智能驾驶等新兴项目体量较大需要较强的综合服务能力,叠加疫情影响,较多中小数据服务商已退出市场;在大模型、智能驾驶等新兴AI算法及对应标注方式快速迭代时期,为追求更高的开发效率、保障信息安全,较多需求方通过自建团队满足数据服务需求;未来随着品牌数据服务商的数据版权的丰富、专业能力的提升、标注方法的成熟,品牌数据服务商将承接更多的数据服务需求。

据艾瑞调研统计,2023年中国AI基础数据服务行业的CR4(前四大企业的市场份额)为22.0%,市场仍较为分散。相比2019年14.3%的CR4,中国AI基础数据服务市场在2023年的集中度显著提升。展望未来,随着大模型等AI技术的发展,数据服务的需求日益庞大且复杂,这对服务企业的综合能力提出了更高的要求。没有自动化软件平台或平台能力较弱、资源整合能力有限的厂商将面临生存空间不断被挤压的困境;高质量数据版权丰富、运营管理能力强大、行业理解深刻的头部数据服务厂商有望持续提升市场份额。

厂商竞争要素与未来发展策略

自动化平台、深刻的行业理解、对技术与数据的前瞻性布局,将帮助优秀企业赢得市场领先

在行业集中度不断提升的过程中,基于自动化平台不断强化项目运营及资源整合能力、深刻理解行业需求,积极应用前沿算法、积累高质量数据集版权的AI基础数据服务厂商,将在激烈竞争的市场中脱颖而出,赢得市场领先地位。

AI基础数据服务行业面对的挑战与机遇

由于需求量大且需求复杂,行业面对人力短缺、项目难管理等挑战

由于大模型对数据集的要求更加复杂、高质量数据需求的增加,以及需求方对数据安全及保护核心技术的重视,AI基础数据服务行业面临诸多挑战,包括数据标注工程师的门槛提升、项目管理复杂性增加、项目规模大、高质量数据获取困难、信息安全问题等。尽管面对挑战,行业也迎来了新的机遇。大模型等AI技术的快速发展带来了高涨的数据需求,推动了AI基础数据服务市场的增长,高质量数据集成为供应商的核心竞争力,此外,多模态数据集的需求也将增加。凭借精细的流水分工和日益精准的AI算法,数据服务软件平台在行业中的价值不断提升,平台可帮助服务方更好的满足需求方的高质量数据需求,应对好人力及项目管理方面的挑战。

欢迎关注艾瑞数智获取更多内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
六位快乐的罕见病女孩相约长沙录歌:一定要见面,怕再失去我们中的任何一个

六位快乐的罕见病女孩相约长沙录歌:一定要见面,怕再失去我们中的任何一个

潇湘晨报
2026-02-27 22:17:26
医生劝告:一旦吃上降压药,这4种食物必须戒掉,再吃有中风风险

医生劝告:一旦吃上降压药,这4种食物必须戒掉,再吃有中风风险

冷眼看世界728
2026-02-28 09:53:17
伊朗局势如何影响金价 专家称未来48小时决定金价走势

伊朗局势如何影响金价 专家称未来48小时决定金价走势

财联社
2026-02-28 19:03:05
几百名癌症科专家已证实:吸烟和肺癌的关系,最好花点时间看看

几百名癌症科专家已证实:吸烟和肺癌的关系,最好花点时间看看

九哥聊军事
2026-02-03 19:49:59
大女儿被丈夫家暴住院,我对姑爷说:她80万的嫁妆,我们不要回来

大女儿被丈夫家暴住院,我对姑爷说:她80万的嫁妆,我们不要回来

黄小乖的日记
2026-02-28 10:12:29
中国男篮抵达马尼拉!下午郭士强率队训练 胡明轩有望进12人大名

中国男篮抵达马尼拉!下午郭士强率队训练 胡明轩有望进12人大名

越岭寻踪
2026-02-28 04:35:49
北京地铁 4 号线出站即达的 “天然治愈氧吧”!!80% 植被覆盖率!

北京地铁 4 号线出站即达的 “天然治愈氧吧”!!80% 植被覆盖率!

小蜜情感说
2026-02-28 20:04:30
基辛格直言,美国100年搞垮了4个世界老二,第五个会反手干掉美国

基辛格直言,美国100年搞垮了4个世界老二,第五个会反手干掉美国

文史达观
2024-03-07 14:02:52
Token 出海,将中国电力卖给全世界

Token 出海,将中国电力卖给全世界

新浪财经
2026-02-27 09:09:31
乌军女战士遭俄坦克36炮轰击失明左眼,弃狙击改飞无人机续写军魂

乌军女战士遭俄坦克36炮轰击失明左眼,弃狙击改飞无人机续写军魂

老马拉车莫少装
2026-01-10 00:15:34
女人最反感男人触碰的3个“禁区”,碰一次,心凉一次,别再不懂

女人最反感男人触碰的3个“禁区”,碰一次,心凉一次,别再不懂

风起见你
2026-03-01 01:40:13
日防长刚结束21国会议,马来西亚紧跟否认中国南海主张

日防长刚结束21国会议,马来西亚紧跟否认中国南海主张

一网打尽全球焦点
2026-02-28 21:36:04
对标库里南!保时捷全新大型SUV“K1”渲染图曝光

对标库里南!保时捷全新大型SUV“K1”渲染图曝光

CNMO科技
2026-02-28 13:46:09
小米事故炸翻37万车主,雷军左右为难!

小米事故炸翻37万车主,雷军左右为难!

鸣金网
2026-02-28 10:45:03
特朗普认为哈梅内伊已死报道准确

特朗普认为哈梅内伊已死报道准确

财联社
2026-03-01 04:51:11
立讯精密冲刺港股:9个月营收2209亿 厂妹出身的王来春身价855亿

立讯精密冲刺港股:9个月营收2209亿 厂妹出身的王来春身价855亿

雷递
2026-02-28 12:57:14
中美冲突升级的下一步,一定是军事较量,我们要做好全面准备

中美冲突升级的下一步,一定是军事较量,我们要做好全面准备

曾经年少
2025-04-14 16:03:33
中国男篮vs中国台北男篮12人名单:郭士强保持原班人马冲击2连胜

中国男篮vs中国台北男篮12人名单:郭士强保持原班人马冲击2连胜

狼叔评论
2026-02-28 17:46:06
赢球也没用!利物浦 5-2 大胜,球迷却集体喊卖他:全队最大漏洞

赢球也没用!利物浦 5-2 大胜,球迷却集体喊卖他:全队最大漏洞

澜归序
2026-03-01 02:33:07
克林顿认了!6小时作证全曝光:承认坐过飞机坚称“没发现异常”

克林顿认了!6小时作证全曝光:承认坐过飞机坚称“没发现异常”

王姐懒人家常菜
2026-03-01 02:16:22
2026-03-01 05:47:00
艾瑞咨询 incentive-icons
艾瑞咨询
艾瑞咨询官方账号
2708文章数 6368关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
房产
手机
教育
公开课

转头就晕的耳石症,能开车上班吗?

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

手机要闻

澎湃OS再次公布进展通报:10个问题,仅修复一则!

教育要闻

又看了一遍…觉得这册子真的太牛了…

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版