网易首页 > 网易号 > 正文 申请入驻

政府工作报告,为什么点名“高质量数据集” | 海斌访谈

0
分享至

来源:市场资讯

(来源:第一财经资讯)

人工智能时代,高质量数据受到政策重视。

2026年政府工作报告提到,要打造智能经济新形态。数据是人工智能的燃料,政府工作报告提及,要深化数据资源开发利用,健全数据要素基础制度,建设高质量数据集。

“数据质量直接影响模型的表现。”五一视界(06651.HK)首席技术官鲍世强对第一财经记者表示。人工智能从生成式AI(比如文生图)向物理AI(比如人形机器人)进化,但训练物理AI所需要的强交互数据,在互联网世界难以找到。“进入物理AI,数据问题的重要程度、严峻程度更大了。”


高质量数据日渐稀缺

政府对于人工智能的期待在提高。

2026年政府工作报告,要求深化拓展“人工智能+”,促进新一代智能终端和智能体加快推广,推动重点行业领域人工智能商业化规模化应用,培育智能原生新业态新模式。

3月6日,国家发展改革委主任郑栅洁在十四届全国人大四次会议经济主题记者会上说,“十五五”末人工智能相关产业规模将增长到10万亿元以上。

这不是政府工作报告第一次提及人工智能和数据。2025年政府工作报告同样提到,持续推进“人工智能+”行动,加快完善数据基础制度,深化数据资源开发利用,促进和规范数据跨境流动。

2026年政府工作报告,进一步点名“建设高质量数据集”。

数据,是人工智能发展不可或缺的燃料。

人工智能的发展,有赖于三个维度的进步:算力、算法和数据。相比数据,芯片所代表的算力和深度学习等代表的算法更广为人知。实际上,在大语言模型训练过程中,高质量数据非常重要。

数据也分优劣。比如乾隆所作的1500首诗,没办法与杜甫的1500首诗相提并论;《自然》杂志发表的论文质量,远高过网络上流传的小作文。优质的数据,更有可能训练出优质的大语言大模型。

何况,人工智能从感知AI、生成式AI、智能体AI逐步向物理AI演进。它们对于数据的要求更高了。

在互联网上,各类文字、图片、视频数据相对丰富,它们可以用来训练生成式AI,大语言模型和视觉模型因此可以产出优质的文字、视频和图片。比如,豆包开发的Seedance2.0模型已经可以产生栩栩如生的视频。

鲍世强认为,在物理AI阶段,数据问题变得更加突出和严峻了。这些互联网数据,很难用于物理AI训练,比如智能驾驶和人形机器人。

智能驾驶的早期阶段,低级别的智驾车辆上路需要人工干预,行驶途中收集到的数据用于提高智能驾驶的能力;现在智能驾驶已进入规模化量产应用阶段。

“智能驾驶现在面对的核心问题之一,不再只是数据量,而是数据价值密度的问题。我可以获取大量的数据,但是这里边真正对训练、测试有价值的数据比例还在下降。因为,智驾能力比较差的时候,外部数据都有用;随着智驾能力提升,正常数据没有太大的作用了。那种危险的工况,或者奇怪场景的数据,更有价值。”鲍世强表示。

具身智能、人形机器人训练所需高质量数据,比智能驾驶更加复杂和难以获取。

真实世界里,汽车通常运行在可控的道路环境上;而人形机器人在真实世界运转的话,必须适应更多样化的需求,比如爬上一座小山,从洗衣机里取出衣物并折叠好。

“具身智能,我认为目前落地的关键瓶颈之一,实际上就是数据。因为具身智能需要强交互环境的数据。互联网上文本数据、图像数据、视频数据,这些都不会跟你产生动作交互,它是一个死的数据,并不能直接使用。”鲍世强表示。


数据,如何能更好

生成式AI快速发展后,几乎耗尽了公共领域的数据。

这些公域数据,比如科技期刊论文,互联网小说等,已经被人工智能充分利用。但是私域数据还没有被充分挖掘,在制药产业、服装品牌、医院等千行百业,隐藏着高质量、高价值的数据。这些垂直领域的行业数据,很多都没有收集或激活,更没有被大模型所习得。

大语言模型回答通用问题的能力已经非常强了。它能力的进一步提升,所需要的数据不再只是通用互联网数据,而是垂直领域的专家知识,比如医疗影像数据和医生的真知灼见。

除了私域数据,合成数据也被寄予厚望。

大模型公司阶跃星辰方面认为,2026年AI数据集有望在合成数据、多模态融合、垂直领域深耕上取得显著进展,合成数据将成为核心突破方向。

所谓合成数据,是指通过生成模型、仿真、重建扩展等方式,在原始数据上产生的更多的数据。比如《论语》是原始数据,但此后各代大家所撰写的《论语》注释,则可被简略视为合成数据。

理论上,合成数据的规模是没有上限的,但合成数据的质量是关键。合成数据通常难以达到真实数据的质量,因此影响大模型的训练效果。

2026年开年,OpenClaw等智能体的惊艳表现令世界瞩目。2026年智能体渗透率有望实现大的飞跃。这使得智能体场景的数据合成,成为大模型企业的核心竞争力。阶跃星辰方面认为,结合具体的智能体应用,从真实场景、真实需求中提取并合成长链智能体数据,对模型性能有至关重要的作用。

在物理AI领域,真实交互数据目前仍然是基础。合成数据通常建立在真实数据基础之上,用于扩展覆盖范围、增强长尾样本和提升训练与测试效率。换言之,这是完成1-100的工作;而具身智能现在尚且缺乏0-1阶段的数据积累,合成数据也还没法发挥最大功效。

鲍世强表示,当下具身智能的很多核心工作,就是围绕获取0-1阶段的交互数据而展开的。比如,不少企业通过员工穿戴配置了传感器的手套操作,或者遥控操作机器人完成多样化的动作而采集相关数据。

“遥操真机去采集的方式,数据质量肯定是最高的,但是这个方式主要的问题是成本很高。”鲍世强说,所以现在很多地方都在建创新中心,支持数据集的建设。国家层面也希望通过整个行业的力量去解决基础数据获取的问题。

数据的标准化,也有待推进。

“当前数据标准体系仍不完善。不要说具身智能了,即使在智驾领域,不同厂商之间在数据格式、语义定义、标注体系和质量要求上也存在较大差异,导致数据复用和共享成本很高。”鲍世强期待,2026年在数据的标准化方面有一些进展,这也能促进数据的共享。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

草莓解说体育
2026-03-07 20:06:45
宋轶整容失败认不出?脸变宽嘴变大颧骨变高,乍一看还以为是易梦玲

宋轶整容失败认不出?脸变宽嘴变大颧骨变高,乍一看还以为是易梦玲

八卦王者
2026-03-06 11:42:04
赫子铭直播回应离婚,坦言已再婚,过的十分幸福,比何洁要显年轻

赫子铭直播回应离婚,坦言已再婚,过的十分幸福,比何洁要显年轻

郭蛹包工头
2026-03-07 22:52:47
今早,鼋头渚挤爆了!

今早,鼋头渚挤爆了!

江南晚报
2026-03-07 12:49:09
“哈梅内伊之死”可以有几种赢法?

“哈梅内伊之死”可以有几种赢法?

名人苟或
2026-03-07 06:04:59
中国最“闲”的3座机场:每天飞1趟航班,飞机一走员工就集体下班

中国最“闲”的3座机场:每天飞1趟航班,飞机一走员工就集体下班

青眼财经
2026-03-07 23:26:43
王鹤棣官宣沈月,网友:太意外了

王鹤棣官宣沈月,网友:太意外了

背包旅行
2026-03-06 20:03:22
袁惟仁设灵太唏嘘!女儿化大浓妆,儿子灵堂合影微笑比剪刀手

袁惟仁设灵太唏嘘!女儿化大浓妆,儿子灵堂合影微笑比剪刀手

八卦宝宝
2026-03-07 17:46:13
央视公布!中国卫星立大功,全程直播美军行动,一举一动尽收眼底

央视公布!中国卫星立大功,全程直播美军行动,一举一动尽收眼底

纪中百大事
2026-03-07 09:34:40
美军B2轰炸机来了,伊朗外长致电王毅,提一个请求,中方斩钉截铁

美军B2轰炸机来了,伊朗外长致电王毅,提一个请求,中方斩钉截铁

面包夹知识
2026-03-06 14:15:50
郑丽文强势硬刚天价军事预算,拒绝走“舔美”路线

郑丽文强势硬刚天价军事预算,拒绝走“舔美”路线

海峡导报社
2026-03-06 21:50:04
美国战争研究所:红军城方向战斗逐渐减弱,俄军正在囤积更多物资

美国战争研究所:红军城方向战斗逐渐减弱,俄军正在囤积更多物资

碳基生物关怀组织
2026-03-06 23:27:45
阿森纳2-1险胜弱旅,晋级足总杯八强,却迎2坏消息,争冠埋隐患

阿森纳2-1险胜弱旅,晋级足总杯八强,却迎2坏消息,争冠埋隐患

俯身冲顶
2026-03-07 22:09:24
韦林顿缝了15针!姜至鹏道歉:看着触目惊心,我并非存心伤害对手

韦林顿缝了15针!姜至鹏道歉:看着触目惊心,我并非存心伤害对手

奥拜尔
2026-03-07 10:41:18
同样是探花秀,本场比赛谢泼德和亨德森的表现完全不在一个级别!

同样是探花秀,本场比赛谢泼德和亨德森的表现完全不在一个级别!

田先生篮球
2026-03-07 12:14:36
昨晚跟闺蜜去洗澡,一脱衣服我才明白,女人和女人,真的不一样

昨晚跟闺蜜去洗澡,一脱衣服我才明白,女人和女人,真的不一样

i书与房
2026-03-04 16:26:24
英媒曝鲁尼糟了!上周末凌晨三点烂醉而归 贤妻摘下婚戒决心不再忍

英媒曝鲁尼糟了!上周末凌晨三点烂醉而归 贤妻摘下婚戒决心不再忍

劲爆体坛
2026-03-07 11:02:03
72小时内,王毅和六国通话,宣布一项重大决定,伊朗或将迎来曙光

72小时内,王毅和六国通话,宣布一项重大决定,伊朗或将迎来曙光

流史岁月
2026-03-07 12:30:06
直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

历史人文2
2026-02-23 10:29:02
战争发生第7天,伊军中式导弹被炸,阿塞拜疆总统下令:攻打伊朗

战争发生第7天,伊军中式导弹被炸,阿塞拜疆总统下令:攻打伊朗

花寒弦絮
2026-03-07 03:51:14
2026-03-07 23:56:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2391509文章数 5728关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗总统:号召所有伊朗人挺身而出 保卫领土

头条要闻

伊朗总统:号召所有伊朗人挺身而出 保卫领土

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

亲子
数码
艺术
旅游
军事航空

亲子要闻

有些一个人去产检的孕妇不值得可怜!网友:出事了骂一顿都是轻的

数码要闻

雷蛇Viper V4 Pro游戏鼠标提前现身零售渠道 规格与售价曝光

艺术要闻

总投资70亿!胖东来“梦之城”已开工,最新效果图曝光!

旅游要闻

有免票!“三八”妇女节,北京这些景区送上专属福利,汇总来了——

军事要闻

美第三个航母打击群据称准备部署至中东

无障碍浏览 进入关怀版