网易首页 > 网易号 > 正文 申请入驻

合成数据:AI发展的毒药还是良方

0
分享至

  5月16日,天津市人民政府办公厅发布《天津市促进人工智能创新发展行动方案(2025-2027年)》,该方案在重点任务中提出,要聚焦行业应用,推出一批用于开放训练、标准测试的高质量数据集和语料库,推动构建AI合成数据集。

  在次日举办的2025数据安全发展大会上,中国电子信息产业发展研究院发布了《2025高质量数据集研究报告》,报告指出,2024年,我国开发或应用人工智能的企业数量同比增长36%,高质量数据集数量同比增长27.4%,有力支撑人工智能训练和应用。然而,报告同时警示,我国仍然面临数据存量小产量低等问题。

  数据已成为驱动人工智能技术突破与产业变革的核心动力,但伴随AI产业爆发式增长,数据供给瓶颈日益凸显——如何突破“数据荒”困局成为行业核心挑战。在此背景下,“合成数据”被推至台前,可这一人为制造的“数据替代品”,真能成为破局良方吗?

  解决AI面临的“粮食危机”

  2024年年底,美国人工智能巨头OpenAI公司联合创始人兼前首席科学家伊利亚·苏茨克维尔在神经信息处理系统(NeurIPS)大会公开警告“AI的训练数据如同化石燃料一样面临着耗尽的危机”。

  根据中国信息通信研究院《人工智能发展报告(2024年)》,有研究预测,到2026年大型语言模型的训练就将耗尽互联网上的可用文本数据,未来需要借助合成数据解决大模型的数据瓶颈。

  “当前数据合成主要存在三种方式。”星尘数据CEO章磊告诉中青报·中青网记者,第一种是基于模拟引擎或三维建模,通过构建虚拟仿真环境,批量生成带有标注的图像或传感器数据。第二种是基于生成式AI,直接依据已有的真实数据特征或者文本描述,生成全新的图像、文本、语音等内容。第三种是基于混合增强,将已有的真实数据与算法生成的内容进行拼接、混合等处理,进而形成新的样本。

  “这种技术创新带来的成本优势令人瞩目。以自动驾驶为例,传统采集数据成本可能上千万元甚至上亿元。”章磊指出,而在模拟环境中,几乎可以“无限”地产生多样化数据,且无须出门“跑测试”,大幅降低成本。“以我们内部的某自动驾驶场景模拟为例,构建好仿真场景后,批量生成10万张相关图像,可能只需数小时或数天。如果用真实数据,往往需要花费数周到数月的时间。”

  同时,合成数据也可以很好地满足隐私保护与合规条件。据章磊介绍,对于医疗、金融等高敏感行业,因涉及患者隐私或客户数据安全,往往难以直接获取大规模真实数据。而合成数据不会包含真实患者的个人信息,但可具备真实病症特征,用于模型预训练或补充数据集。

  中国信息通信研究院《人工智能发展报告(2024年)》援引研究机构Gartner公司预测,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。

  “饮鸩止渴”与“事倍功半”的质疑

  “合成数据可靠吗?”北京航空航天大学软件学院教授石琳告诉中青报·中青网记者,合成数据虽然有多种生成方式,但一般是有偏差的,确实可能会放大AI模型的偏差。大多数合成数据是由现有的模型生成的,比如用GPT生成对话、生成图像。“这些模型本身可能就已经带着一些偏差或者幻觉,如果我们再用它们生成的数据去训练新的模型,确实很容易会不断复制之前的错误。”

  章磊也提出了数据使用时的风险。他表示,如果合成数据的分布或标签本身带有偏见,模型就会被局限在这个不平衡的数据分布里,导致偏见进一步强化。

  为规避这种“以讹传讹”的风险,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局近日联合发布《人工智能生成合成内容标识办法》,明确服务提供者应当按照《互联网信息服务深度合成管理规定》第十六条的规定,在生成合成内容的文件元数据中添加隐式标识,隐式标识包含生成合成内容属性信息、服务提供者名称或者编码、内容编号等制作要素信息。

  但合成数据并不必然会造成更严重的AI幻觉。石琳指出:“如果我们在使用前加入人工审核、过滤,或者在目标任务上做一些精调、对齐,那合成数据反而能帮我们补齐长尾数据、覆盖那些真实数据采集不到的场景。”

  上海人工智能研究院院长、全球工业人工智能卓越中心总干事宋海涛对于合成数据也持有审慎和包容的态度,他告诉中青报·中青网记者,实际操作中,优先选择权威、可信的数据源和引入结构化知识库,可以强化模型对真实信息的依赖。“另外,在训练中也可以尝试通过故意加入错误信息并明确标记,来帮助模型识别和避免幻觉。”

  据悉,近日谷歌相关团队已验证了这一“错题集”思路,使得模型数学推理性能提升8倍,逻辑能力显著增强。

  “高质量的数据才能训练出更可靠的模型”

  “标注与数据管理仍是模型训练前必须的一环,尤其在合成数据领域,还需要专业人员来设计模拟场景、监督合成质量、对生成结果进行检验和再标注。”在章磊看来,新市场也意味着新机遇,未来的数据服务不仅仅是标注(人类反馈),还可能包含数据筛选、清洗、治理、版本管理、安全合规管理等,甚至帮助客户搭建端到端的私有化数据平台。从就业规模和市场规模看,数据标注行业会依旧保持增长,同时也会催生更多对于既懂技术又懂业务的复合型人才的需求。

  2月19日,国家数据局在北京召开高质量数据集建设工作启动会。今年的政府工作报告指出,2025年政府将加快完善数据基础制度,深化数据资源开发利用,促进和规范数据跨境流动。

  “在AI治理上我们首先要注重数据安全和隐私保护,同时要对合成数据的内容进行审查,避免偏见、歧视、谣言,确保AI发展符合伦理原则。”石琳认为,只有高质量的数据才能训练出更可靠的模型。

  中国电子信息产业发展研究院院长张立在其《畅通数据汇聚、供给、利用堵点凝力推进数据集高质量建设》一文中也指出,未来应制定合成数据使用标准,平衡好合成数据与原始数据应用的“度”,助力共同发挥最佳作用。

  “合成数据作为人工智能发展的重要数据资源,其作用和价值不容忽视。因此,在合成数据的应用上,我们既要看到其在丰富数据资源、促进算法优化方面的积极作用,也要审慎评估潜在风险,确保技术应用的正确方向。”宋海涛说。

来源:中国青年报

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四大AI预测阿根廷vs佛得角:三家看好阿根廷,Deepseek猜平局

四大AI预测阿根廷vs佛得角:三家看好阿根廷,Deepseek猜平局

懂球帝
2026-07-03 17:13:27
国乒男单不亮男双亮!4位小将包揽冠亚军,日本小将淘汰世界冠军

国乒男单不亮男双亮!4位小将包揽冠亚军,日本小将淘汰世界冠军

排球黄金眼
2026-07-04 08:09:05
唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

清衣渡a
2026-06-30 13:42:14
美国女预言家:预测总统寿命成真,竟还预言中国的未来,说了什么

美国女预言家:预测总统寿命成真,竟还预言中国的未来,说了什么

长星寄明月
2026-07-03 07:59:26
2026旅游业现状:“奄奄一息”的商户,甚至没有最后的力气去哀嚎

2026旅游业现状:“奄奄一息”的商户,甚至没有最后的力气去哀嚎

混沌录
2026-07-03 19:56:08
英格兰大乱!世界杯生死战突发变故!图赫尔遭背刺

英格兰大乱!世界杯生死战突发变故!图赫尔遭背刺

澜归序
2026-07-04 06:41:23
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

白面书誏
2026-06-28 23:14:26
张召忠为何消失了?

张召忠为何消失了?

新浪财经
2026-07-04 00:53:09
麻烦大了!24小时韩红再遭重挫,惊动机构,被圈内人暗示名誉难保

麻烦大了!24小时韩红再遭重挫,惊动机构,被圈内人暗示名誉难保

曹莽看世界
2026-07-01 13:53:11
别再骗自己了!2大媒体人戳破中国男篮遮羞布,郭士强能看透吗?

别再骗自己了!2大媒体人戳破中国男篮遮羞布,郭士强能看透吗?

萌兰聊个球
2026-07-04 07:35:08
流浪大师沈巍与女友分道扬镳!网友:他们本就是来自不同世界的人

流浪大师沈巍与女友分道扬镳!网友:他们本就是来自不同世界的人

火山詩话
2026-07-02 08:04:08
穆杰塔巴万万没想到,老哈梅灵车还没到圣城,以军又准备斩首行动

穆杰塔巴万万没想到,老哈梅灵车还没到圣城,以军又准备斩首行动

面包夹知识
2026-07-02 17:35:23
失踪近一年后,美国一实验室员工被曝曾参与量子物理项目:让物质“同时存在于两个地方”

失踪近一年后,美国一实验室员工被曝曾参与量子物理项目:让物质“同时存在于两个地方”

红星新闻
2026-07-03 14:00:10
金世佳被偶遇腹部明显隆起,“金世佳肚子”登上热搜

金世佳被偶遇腹部明显隆起,“金世佳肚子”登上热搜

韩小娱
2026-07-03 16:39:48
温网战报!德约科维奇3-1晋级,辛纳直落3盘横扫,梅总爆冷出局

温网战报!德约科维奇3-1晋级,辛纳直落3盘横扫,梅总爆冷出局

搏击江湖
2026-07-04 07:32:02
重磅发布!两名将军晋升上将

重磅发布!两名将军晋升上将

小马姨
2026-07-04 05:19:36
意媒:C罗将告别葡萄牙队,无缘2028年欧洲杯

意媒:C罗将告别葡萄牙队,无缘2028年欧洲杯

懂球帝
2026-07-03 20:25:10
西安赛格事件后续!员工曝细节:他在坠亡前,让加急做当月工资表

西安赛格事件后续!员工曝细节:他在坠亡前,让加急做当月工资表

社会日日鲜
2026-07-03 16:59:18
亚足联独苗澳大利亚队也被淘汰,萨拉赫精彩勺子点球助埃及队挺进16强

亚足联独苗澳大利亚队也被淘汰,萨拉赫精彩勺子点球助埃及队挺进16强

上观新闻
2026-07-04 05:02:49
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
2026-07-04 09:07:00
中国青年报 incentive-icons
中国青年报
有重大影响力的全国性综合日报
161064文章数 594774关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

牛弹琴:很罕见 普京突然穿上了军装

头条要闻

牛弹琴:很罕见 普京突然穿上了军装

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
家居
本地
时尚
公开课

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

家居要闻

传奇筑 日常诗

本地新闻

国内足球之旅?这座小城给你高分答案

裙子+玛丽珍鞋、背心+阔腿裤,今年夏天最流行搭配,谁穿谁好看!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版