网易首页 > 网易号 > 正文 申请入驻

“数据是AI的新战场” AI高质量数据集交易爆发式增长 需求集中于行业知识底座构建

0
分享至

财联社7月5日讯(记者 付静)AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进,人工智能三大基本要素之一数据,面临的高质量数据不足问题却凸显。

财联社记者最新从业内获悉,目前各大模型企业迫切希望获得更多更好的高质量数据集,需求集中于头部企业行业知识底座构建,人工智能高质量数据集的需求量、交易量激增,已成为数据流通最活跃的领域。不过,高质量数据集的建设、流通环节均面临诸多问题,目前数据交易所并非模型语料最主要的采购途径。

需求、交易爆发式增长

“我们从市场流通的角度做了一些分析,认为人工智能数据集已经成为数据流通最活跃的领域。去年开始,高质量数据集呈现了爆发式的增长态势,主要需求就是模型训练数据。24年人工智能数据只占我们交易量的10%,现在累加起来已经接近80%,说明包括实际交易量都在呈现爆发式增长。”正在举行的2025全球数字经济大会上,北京国际大数据交易所(以下简称 “北数所”)董事长李振军介绍。

高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。2023年12月31日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024-2026年)》提出,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。今年4月30日,《高质量数据集建设指南(征求意见稿)》发布,高质量数据集建设提速。

据了解,北数所已深度服务了多家国内人工智能头部企业,前述数据的主力购买者正是AI头部企业。“他们买数据主要是在构建行业的知识底座,模型的训练是先构建行业知识底座,才能再进行行业的细的参数调优。”李振军称。

数据交易网CEO张瑶在接受财联社记者采访时表示,前述数据需求主要以行业垂直模型为主。“很多大厂都做了完整的通用模型解决方案产品,对于行业垂直模型来说,核心点在于对于细分行业的理解程度。”

大会期间,亦有信通院人士分析称,人工智能对于数据集的需求主要可分为多模态、具身智能、思维链、长视频等四类需求。

财联社记者最新获悉,目前北数所已交付的人工智能高质量数据集数据规模达1814TB,总交易量接近2500TB,覆盖20个应用模型场景。北数所为模型企业提供了475个高质量数据集,已达成交易171个(完成了实际交付和现金结算),数据源覆盖行业32个。

不过张瑶也表示,“对于模型语料的需求程度,不同细分行业是不一样的。”其认为,需考虑各行业的数字化完成水平,如金融、医疗等行业原本的数字化完成度较高、从业企业数量也多,相对来说行业基础数据就比较全,进而通过标注、治理等工作后,能提供的数据集产品也就比较丰富;但其他数字化能力相对低的行业(如农业)基础数据较少,形成高质量的数据集还需要一定前期准备工作。

不仅北数所,截至今年5月初,贵阳大数据交易所已发布939个高质量数据集。6月26日,深圳市政务服务和数据管理局印发《深圳市人工智能语料券专项资金操作规程》的通知显示,为促进人工智能语料数据开放和交易,深圳每年设置最高5000万元作为语料券专项资金,其中要求申报企业应通过数据交易所完成语料采购。

数交所并非语料最主要采购途径

不过据财联社记者了解,数据交易所并非最主要的模型训练数据采购途径。

“人工智能语料采购大部分不是实际通过交易所来完成的,但各地的数据交易所目前承担着市场价值发现的职能,对于数据供需双方的业务开展起到一定推动作用。之前有机构测算,全国数据交易市场超过95%的交易都来源于非数据交易所参与的场景,但仍然有不少机构选择与数据交易所合作,对于数据要素市场建设来说,交易所是一个很重要的基础设施提供方,但具体的商业模式还需要进一步探索。”张瑶表示。

对此,据前述信通院人士分析,目前高质量数据集建设层面面临不小的挑战。其一,目标定位相对模糊,“其实很少有人为真正模型需要什么样的数据去做深入的研究,仅限于对已有数据加工处理”;其二,实施路径碎片化,“从数据资源变成高质量数据集,中间有非常长的加工链条,需要管理机制、技术手段协同、专业化人才的加入”;其三,技术底座薄弱,技术工具链条相对来说还较匮乏。

另据财联社记者了解,高质量数据集流通层面也面临着寻源难、评价难、协同难等问题。

与此同时,包括大模型“六小虎”相关负责人在内的多位受访者向财联社记者介绍了模型训练所需语料数据常见的获取方式:一是互联网公开数据(占最大比例,但比例在下降),二是购买有版权的数据,三是厂商间通过置换资源方式获取语料,四是建设采集-清洗-加工-治理的数据生产线自行生产私域语料数据。

某基座大模型相关负责人透露,其公司内部数据清洁流程主要有以下步骤:包括明确数据责任人,端到端管理数据全生命周期流程;明确数据标准,数据存入数据仓之前有哪些标准,各部门要形成共识;认证数据源头,须符合唯一性、完整性等要求;验收数据入库之后的质量;使用前对原数据进行登记等。

据悉,厂商还会使用蒸馏数据和合成数据,即由机器生成的符合真实世界客观发展规律的数据。有媒体此前报道,Epoch AI研究人员预测,到2028年左右,用于训练人工智能模型的典型数据集的规模将达到公共在线文本的估计总存量。换言之,人工智能训练数据或在3年左右时间内耗尽。

有专家在大会上表示,数据是AI的新战场,AI正在从model-centric到data-centric转变,要真正使data-centric落地,数据基础设施建设是下一个关键点。‌

“将来人工智能的业态是,做模型的人非常少,90%以上从业人员都是做数据产线,包括数据的采集、生成、AI-ready数据的生产。”前述专家进一步展望。

此外,财联社记者采访获悉,当前大模型语料主要面临质量参差不齐、产权不清晰、加工方式不统一、垂类领域缺口大、获取成本高、数据合规性等制度待完善在内的痛点。

例如在成本方面,语料获取过程主要面临合规成本,而加工过程主要是专家成本。

“数据标注基地以前是做通用人工智能训练数据,现在侧重垂类行业,基于自动标注等技术的演进,已经从粗放式标注到了精细化标注阶段,但在法律等非常窄非常垂的领域,交叉型人才还是很稀缺的。”一位供职于数据交易所的人士告诉记者。

需要注意的是,不同行业数据面临的问题也存在差异。如政务领域,有上市公司人士告诉财联社记者,数据分散与壁垒、政务数据标准化不足、敏感信息处理难题、政策时效性问题、地方性政策覆盖不足等问题急需得到解决。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
医保大变革!4月1日执行,取消备案、全家共济、药店可报销

医保大变革!4月1日执行,取消备案、全家共济、药店可报销

复转这些年
2026-03-26 09:27:58
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

乒乓网国球汇
2026-03-27 00:03:40
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

行者聊官
2026-03-26 11:56:25
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
罗技中国致歉

罗技中国致歉

界面新闻
2026-03-26 23:25:51
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
2026-03-27 03:48:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
700246文章数 1019209关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
时尚
教育
公开课
军事航空

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

400万人爱过的女孩,被黄谣网暴180天后

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版