网易首页 > 网易号 > 正文 申请入驻

警惕AIGC数据污染“稀释”人类原创

0
分享至

半月谈评论员 罗冠

互联网的普及使得数据的生成、传播和获取变得无比便捷,网络上的数据量呈指数增长,数据的规模从TB(千兆字节)增加到PB(拍字节)甚至EB(艾字节),数据的种类和来源也变得更加多样化。数据的爆发式增长有力推动了以深度学习为代表的人工智能技术的突破性进展,反过来又孕育了人工智能生成内容(AIGC)这一新的数据生产方式和数据要素形态。

生成式人工智能技术的迅速发展,为人们的学习生活工作带来了诸多便利,也极大地促进了内容创作行业的发展。生成式人工智能是一种能够自动产生新的内容、创造性思考的人工智能方法。这种新型的数据生产方式打破了传统创作的时间和空间限制,使内容生产更加高效、灵活。可以说,AIGC引发了数据要素形态的深刻变革,推动数据从静态资源向动态智能要素的转变,为各行各业的数字化转型和智能化升级提供了新的动力。

生成式人工智能的普及,使数据规模以摩尔定律的速度快速增加,“全球新产生的数据量每两年翻一番”,互联网上每日新增的图片、语料等内容中AI生成内容的占比已经远远超过了真实的、人类生产的内容。随之而来的是数据质量和数据污染问题,诸如深度伪造、偏见和有害内容生成、有效数据“稀释”等。大量低质量或不客观的数据充斥其中,不仅对模型的训练产生负面影响,甚至可能导致错误的决策和偏差。这种数据质量问题,引发了人们对“数据污染”的担忧。

对于机器学习而言,数据污染是指用于训练的数据集中掺杂了低质量的数据,主要体现在数据缺失、数据冲突、数据重复、数据过时和隐私数据泄露几个方面。在生成式人工智能模型大行其道的当下,AIGC可能会加剧有效数据获取的难度,进而造成全社会层面的数据污染,影响构建优质数据要素的进程。

——海量AIGC“冲淡”人类产生的原创数据。 一篇关于插画绘制网站Pixiv的研究指出,AI绘图兴起后,人类画师的活跃度下降了4.3%。当AIGC生成的内容开始主导信息生态时,具有独创性的人类内容可能被大量的人工智能生成内容“稀释”乃至“淹没”。一篇来自《Nature》的研究指出,当大语言模型或图片生成模型不断地使用自身生成的数据进行迭代训练时,会导致模型性能的快速退化,这种现象称为“模型崩溃”。我们将越来越难以收集优质的原创性数据进行利用,长此以往或将破坏优质数据要素的构建。

——放大错误观点及有害内容,危害社会氛围。 生成式模型的训练依赖于大量公开的网络数据,而互联网上的信息质量良莠不齐,网友们的观点通常带有强烈的个人色彩。即使模型训练时尽力清洗和过滤训练数据,也很难完全避免这些有害内容的渗透。训练数据决定了模型的输出,模型不会辨别哪些信息是正确的,哪些是有害的。如果训练数据中含有偏见或错误信息,模型不仅会继承这些信息,还可能通过生成新内容的方式进一步放大这些问题。由于生成式人工智能模型可以高效地生成海量内容,错误观点和有害信息通过AIGC得以更广泛、更快速地传播,并且由于其逼真的表现形式,极易影响公众的判断,污染网络数据导向。

——生成伪造虚假内容,扰乱公共秩序。 生成式人工智能可以根据人的指令生成不存在的内容,极易被用于自动生成虚假新闻和谣言。深度伪造技术(DeepFake)正快速发展,图片伪造、音频合成和视频换脸在生成式AI的帮助下变得轻而易举,这些虚假内容能够以逼真的形式迅速传播,带来严重的社会影响。

——生成式人工智能与AIGC数据对优质数据生态造成影响。 从全社会层面来看,倘若低质量的生成内容涌入公共数据源,将进一步污染全社会的数据来源。当数据源被大量低质量生成内容占据,数据生态将逐步崩溃,构建优质数据要素将无从谈起。这不仅影响人工智能行业的发展,还会波及各个依赖数据要素进行生产活动的行业和领域,例如新闻、教育、公共安全等。

AIGC数据需要“清污”。 现存的隐私保护、知识产权和数据信息相关的法律与大数据时代已经不匹配。面对互联网上新增的海量原始数据,我们亟须构建完善的数据内容维护、数据质量管理和数据安全监管体系。

联合国大学关于AIGC数据利用与风险的一份调研报告中给出了一些建议:全面推进AIGC相关立法,从源头防范数据污染问题;构建全面的AIGC数据质量与安全评价体系,促进合成数据的合理利用;将AIGC数据管理纳入全球AI治理合作,促成全球范围内全面解决合成数据带来的风险;加快明确生成式人工智能伦理与隐私准则,增强生成式人工智能技术的透明性,防范有违全人类共同价值的AIGC内容扩散,并解决用户隐私和数据滥用等问题。

在尚未建立完善的数据污染管理体系之前,应对AIGC数据污染的有效方法是AIGC检测技术 。依托AIGC检测技术,可以在构建数据集和设计模型结构的过程中筛选出真实的、公正的、有效的数据进行训练,从而在新模型训练的层面减少数据污染的影响,阻断数据污染扩散。

从技术层面来看,我国已在诸如AI生成文本检测、深度伪造图片视频检测等方面取得了一定的研究成果。然而,现行AIGC检测工具的泛化性能较差,检测准确率并不稳定,一旦受到特定的攻击干扰,其检测准确度会大幅下降。AIGC检测方法仍然有很长的路要走。

AIGC数据的泛滥引发了人们对生成内容的质量、可靠性和可信度的担忧。为了确保AIGC服务的可信性和可监管性,应该综合发展打造完善的AIGC水印技术,以便对AI生成的虚假信息、深度伪造视频等具有社会危害性的数据进行溯源和问责。此外,不妨利用“数据税”这一概念,旨在对上传大量无效数据或敏感数据的个体征税。

信息安全和隐私保护问题变得日益紧迫。 在设计下一代生成式模型时应将安全设计根植于模型系统架构,而不是完成设计后再加入安全保障模块,从而在更加根本的层面缓解因恶意攻击或系统意外漏洞而带来的隐私和数据安全威胁。 (作者罗冠系中国科学院自动化研究所副研究员 ;中国科学院自动化研究所硕士研究生赵中华、李睿邦对本文亦有贡献)

来源:《半月谈内部版》2024年第10期

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
喜讯!申花门将位置有望迎来久违强援首发,球迷建议薛庆浩轮休

喜讯!申花门将位置有望迎来久违强援首发,球迷建议薛庆浩轮休

张丽说足球
2026-04-27 14:40:03
显卡,涨到天价了

显卡,涨到天价了

半导体行业观察
2026-04-28 09:31:17
台湾人真的很可怜

台湾人真的很可怜

覆言国际
2026-04-27 18:49:55
华谊亏损超82亿,不放弃事业不整容的罗海琼,才是最清醒的老板娘

华谊亏损超82亿,不放弃事业不整容的罗海琼,才是最清醒的老板娘

一盅情怀
2026-04-18 08:08:54
警惕“大佐”回归!日本政府拟修改自卫队“官阶”引质疑

警惕“大佐”回归!日本政府拟修改自卫队“官阶”引质疑

上观新闻
2026-04-28 06:39:08
“西方嫌脏还自大,结果被中国卡脖子了”

“西方嫌脏还自大,结果被中国卡脖子了”

观察者网
2026-04-28 10:37:42
印度退役将军:新德里应重拾中方方案,放弃对阿克赛钦的主权声索

印度退役将军:新德里应重拾中方方案,放弃对阿克赛钦的主权声索

混沌录
2026-04-27 20:14:07
4-0横扫太阳,雷霆晋级静待湖火赢家!亚历山大31+8完胜布克6失误

4-0横扫太阳,雷霆晋级静待湖火赢家!亚历山大31+8完胜布克6失误

锅子篮球
2026-04-28 12:33:54
曼城夏窗迎大换血!9人清洗+1.9亿引援,中场重构成头号目标!

曼城夏窗迎大换血!9人清洗+1.9亿引援,中场重构成头号目标!

田先生篮球
2026-04-27 16:19:57
小哈梅出奇招,以色列做梦没料到,普京或登机离国,中俄完成对表

小哈梅出奇招,以色列做梦没料到,普京或登机离国,中俄完成对表

史智文道
2026-04-28 11:52:58
魏建军说,丰田是世界上质量最好的公司,长城要学的就是这份可靠与担当

魏建军说,丰田是世界上质量最好的公司,长城要学的就是这份可靠与担当

沙雕小琳琳
2026-04-27 11:39:31
错失4-0后,老詹G5面临4大挑战!东契奇无缘首轮+小里冲5年2.4亿

错失4-0后,老詹G5面临4大挑战!东契奇无缘首轮+小里冲5年2.4亿

锅子篮球
2026-04-28 10:42:06
樊振东深夜长文炸穿全网,放弃世乒赛真相大白,眼界格局远超常人

樊振东深夜长文炸穿全网,放弃世乒赛真相大白,眼界格局远超常人

悄悄史话
2026-04-28 07:56:01
大势已定!只拥有 1 套房的家庭,今明两年难逃 5 大结局

大势已定!只拥有 1 套房的家庭,今明两年难逃 5 大结局

新浪财经
2026-04-26 22:40:05
在美华人感慨:凡是移民美国的华人精英,不出两代,就变成普通人

在美华人感慨:凡是移民美国的华人精英,不出两代,就变成普通人

傲傲讲历史
2026-04-28 02:51:19
一位老父亲的心声:子女结不结婚,我不在乎,这件事比婚姻更重要

一位老父亲的心声:子女结不结婚,我不在乎,这件事比婚姻更重要

舒山有鹿
2026-04-28 12:19:12
老板娘问我她屁股翘不翘?我该怎么回答?

老板娘问我她屁股翘不翘?我该怎么回答?

太急张三疯
2026-04-28 11:34:37
瞒不住!大S死因曝光,赴日行程是妹妹发起,老公约妹后小S坦白了

瞒不住!大S死因曝光,赴日行程是妹妹发起,老公约妹后小S坦白了

娱乐团长
2026-04-22 21:15:30
朝鲜敢死队三三制冲锋,5小时歼敌1900,摧毁23辆坦克

朝鲜敢死队三三制冲锋,5小时歼敌1900,摧毁23辆坦克

无人倾听无人倾听
2026-04-28 06:45:35
10.2亿元无人接盘!安徽一知名烂尾楼“复活”失败

10.2亿元无人接盘!安徽一知名烂尾楼“复活”失败

凤凰网安徽
2026-04-27 17:30:10
2026-04-28 13:19:00
学申论的谈妹 incentive-icons
学申论的谈妹
半月谈APP,党媒更懂公考
15942文章数 25643关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美伊代表在联合国相互指责 均反对对方担任大会副主席

头条要闻

美伊代表在联合国相互指责 均反对对方担任大会副主席

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

旅游
教育
本地
健康
公开课

旅游要闻

五一遛娃新去处!高唐国际营地萌宠乐园治愈上线

教育要闻

2026年高考招生新增38种本科专业!

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治疗烧烫伤三大优势!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版