来源:市场资讯
(来源:国家数据局)
文 | 中国科学院大学经济与管理学院教授 孙毅
自2024年首次开展全国数据资源调查以来,我国数据资源调查工作已走过三年的实践探索历程。2025年度数据资源调查工作在延续主体统计调查制度框架的基础上,将调查对象进一步向地方数据集团、可信数据空间等“新主体”拓展,将调查指标进一步向词元(Token)调用、高质量数据集流通交易、企业数据要素投入等“新热点”延伸,数据资源统计调查制度在动态优化中不断成熟。基于2025年度数据资源调查工作形成的《全国数据资源调查报告(2025年)》(以下简称“报告”),以4.25万个有效样本为支撑,全景呈现了我国数据资源规模高速增长、流通交易效果初显、开发利用更加高效的良好态势:年度数据生产总量达52.26泽字节,同比增长27.28%;高质量数据集数量突破11万个,词元调用量指数级增长,2025年全国日均调用量从年初的超万亿增长至年末的100万亿,全年累计约21100万亿;购买数据企业比例提升至11.65%,为高质量数据付费的市场共识正在形成。报告不仅是我国数据资源现状的“全景图”,更是推动数据基础制度建设的“风向标”,对健全数据基础制度、推进数字中国建设具有重要支撑作用。
一、指标体系不断优化,已形成兼顾系统性与延续性的调查框架
数据资源调查是健全数据资源统计调查制度、建立全国数据资源“一本账”的基础性工作。2025年度数据资源调查工作着力构建了系统完备的指标体系。从报告内容看,调查框架覆盖数据供给、数据流通、数据开发利用三大维度,构建了“生产—存储—流通—应用”全链条的指标监测体系。在数据供给端,涵盖数据生产总量、物联感知数据、系统软件与人工智能生成数据、数据存储总量及结构化数据占比等核心指标;在流通端,设置数据跨境流通量、数据跨省流通量、企业数据流通量及数据付费比例等衡量市场化程度的关键指标;在开发利用端,将人工智能训练与推理数据量、高质量数据集规模、词元调用量、公共数据开放与授权运营数据量、企业数据产品交易额等纳入调查框架。
值得关注的是,2025年报告提出的指标体系在稳步拓展调查维度和调查指标的同时,核心统计口径与上年一致,保持了良好的延续性,确保了数据的年度可比性。与2024年相比,主要指标在统计口径和数据呈现方式上保持一致,使得年度可比性显著增强。报告对各项指标的同比增长率、累计值变化趋势均有清晰呈现,为跟踪研判数据资源发展态势提供了连续的时间序列数据支撑。这种系统性、延续性并重的框架设计,为国家建立常态化数据资源监测评估机制、完善数据基础制度体系奠定了坚实的基础。
二、指标设置紧跟产业创新发展趋势,有效提升了调查体系动态响应能力
当前,我国数据产业正处于发展初期,技术创新活跃、新业态新模式层出不穷,统计调查工作既需要保持核心指标的稳定延续,又必须及时捕捉产业发展新动向。2025年度调查工作在这方面进行了积极探索。
一方面,报告延续了对数据生产、存储、流通等基本指标的跟踪,确保能够连续刻画数据资源规模扩张趋势。数据生产总量增速、存储空间利用率、企业数据流通规模等核心指标,构成了观察数据要素市场发展态势的基础标尺。另一方面,调查内容紧跟产业发展前沿,实现了动态拓展。在人工智能领域,新增了词元(Token)调用量统计,构建了衡量智能经济发展活力的新坐标。高质量数据集的数量、规模及增长率也被纳入重点监测,回应了人工智能发展对数据资源提出的新需求。在流通交易环节,数据产品和服务交易额增速等反映数据市场化价值化进程的指标得到强化。在产业主体方面,将地方数据集团、可信数据空间等新兴市场参与者纳入调查范围,更全面地反映了数据产业生态格局。
这种“稳中求变、变中求新”的调查思路,顺应了数据产业发展初期创新活跃、业态更迭迅速的特点,既保证了调查数据科学严谨、历史可比,又以灵敏的指标响应为政策制定者感知产业态势、优化制度供给提供了及时精准的数据支撑,能够有效保障制度设计与产业发展同频共振。
三、统计调查方法日益科学,抽样覆盖面显著扩大
2025年度数据资源调查在方法体系上实现了重要提升。根据报告披露,调查采用分层抽样方法,将企业划分为大型企业、中型企业和小微型企业,覆盖不同区域、不同行业及不同规模特征,对各层级独立抽样后结合工商登记的企业总数进行加权推算。这一方法充分考虑了全国企业数量庞大且规模差异显著的现实,有效兼顾了海量调查对象中的个体差异,提升了统计推断的准确性和代表性。
在数据处理环节,报告采用双侧缩尾预处理方法,有效消除了极端异常值的干扰,在保留样本整体分布特征的前提下,过滤填报误差和极端个例导致的估计偏误。在测算增速类指标时,报告还特别筛选连续两个统计周期均进入有效样本的固定观测组,剔除新设或数据断档的不可比样本,确保增速测算真实可比。这些精益求精的方法设计,充分体现了统计工作的专业水准和严谨态度,有效保障了调查数据客观有效。
从覆盖范围看,此次调查的有效样本数量达4.25万个,涵盖政府部门、事业单位、科研机构、中央企业、平台企业、数据交易所、地方数据集团、可信数据空间建设运营方、行业协会等14类调查对象,地域上遍及全国31个省(自治区、直辖市)和新疆生产建设兵团,覆盖了除国际组织外所有国民经济行业门类。其样本覆盖面之广、调查对象类型之丰富,为形成全国数据资源“一本账”提供了坚实基础。
“十五五”开局之际,数据要素市场化配置改革进入纵深推进阶段。系统科学高效的数据资源调查,有助于准确掌握数据资源底数、科学评估数据要素价值释放程度、及时发现市场运行中的堵点难点,为数据产权、流通交易、收益分配、安全治理等基础制度的制定和优化提供基础性、关键性支撑。随着全国一体化数据市场建设持续推进,数据产业专业化分工体系不断深化,数据资源调查工作有望在指标体系精细化、监测频率实时化、分析方法智能化等方面持续升级,以更高水平的统计调查能力服务数字中国建设大局,助力我国数据资源规模优势加快向价值优势转化,在赋能经济社会高质量发展中发挥更加重要的基础性、战略性作用。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.