中国青年报客户端讯(中青报·中青网记者贾骥业)高质量数据集发展进入集约化管理时代。4月29日,在第九届数字中国建设峰会上,国家数据集管理服务平台正式发布并启动试运行,标志着我国高质量数据集建设工作迈入集约化管理新阶段。这也是国家层面首次推出数据集管理服务平台。
这个平台以数据集目录汇聚为基础,提供覆盖数据集全生命周期的公共服务能力,将进一步促进高质量数据集有效供给,繁荣产业生态。“当前,人工智能正处于从‘可用’迈向‘好用’的关键跃升期,高质量数据集作为大模型训练的‘基石’,其供给规模和质量直接决定了人工智能创新的高度和产业落地的深度。”国家数据发展研究院副院长袁军在接受中青报·中青网记者采访时说。
“十五五”规划纲要明确提出,“面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集,建立人工智能训练数据合理使用制度”。国家数据局在峰会上发布的最新数据显示,截至2026年一季度,我国已建成高质量数据集超过11.6万个,总体量超过960PB(拍字节,1PB=1024TB),相当于中国国家图书馆数字资源总量的336倍左右。
从人工智能时代重要的度量衡“词元”(Token)来观察。“词元”是人工智能大模型处理数据的最小信息单元,2025年,全国日均词元调用量从年初的超万亿增长到年末的100万亿,截至今年3月,这个数字则超过140万亿。“词元”调用量的爆发式增长,体现了人工智能发展对数据尤其是高质量数据的迫切需求。
但袁军提到,我国高质量数据集建设客观上还面临着3个痛点:一是建设主体分散,导致数据管理部门难以全面掌握资源底数与建设进展;二是供给侧信息不对称,容易出现重复建设、质量参差不齐等问题;三是需求侧获取成本高、周期长,制约技术创新效率。
在此背景下,国家数据局启动了国家数据集管理服务平台建设。“这个平台既不是简单的政府监管工具,也不是新的数据交易场所,而是一个覆盖高质量数据集全生命周期的国家级公共服务基础设施。”袁军表示,国家数据集管理服务平台采用“物理分散、逻辑集中”的汇聚模式,构建了全国统一的数据集资源目录与管理体系,将推动高质量数据集供得出、流得动、用得好,实现全国“底数一本账、调度一盘棋、协作一张网”的工作格局。
作为全国高质量数据集的统一管理枢纽,国家数据集管理服务平台实现了全域资源可管、可查、可监测,同时进一步降低了交易成本、提高了匹配效率。值得注意的是,平台还提供质量测评、权益激励、工具链等服务,对持续繁荣产业生态有积极作用。
据了解,目前平台已开放供需发布、全域检索、凭证申领等基本功能,并与国家数据基础设施以及安徽省等地方平台完成对接。截至发布当日,平台已认证供需主体200余家,发布数据集1000余个。
当前,人工智能加速演进,呈现从大语言模型向多模态模型拓展、从基础模型向行业模型深化、从内容生成向智能体决策执行跃升、从数字智能向具身智能延伸等趋势,为数据生产带来结构性变化,也对数据集的高质量供给提出了更高要求。
展望未来,国家数据局党组书记、局长刘烈宏表示,要打造一批集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工场,和一批“数据×智能体”示范工程,加速推动人工智能应用落地。
![]()
国家数据集管理服务平台页面截图。
来源:中国青年报客户端
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.