网易首页 > 网易号 > 正文 申请入驻

警惕人工智能数据污染:0.01%虚假文本可使有害输出增11.2%

0
分享至

IT之家 8 月 5 日消息,国家安全部微信公众号今日发文称,当前,人工智能已深度融入经济社会发展的方方面面,在深刻改变人类生产生活方式的同时,也成为关乎高质量发展和高水平安全的关键领域。然而,人工智能的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安全带来新的挑战。

文章称,人工智能的三大核心要素是算法、算力和数据,其中数据是训练 AI 模型的基础要素,也是 AI 应用的核心资源。

  • 提供 AI 模型的原料。海量数据为 AI 模型提供了充足的训练素材,使其得以学习数据的内在规律和模式,实现语义理解、智能决策和内容生成。同时,数据也驱动人工智能不断优化性能和精度,实现模型的迭代升级,以适应新需求。
  • 影响 AI 模型的性能。AI 模型对数据的数量、质量及多样性要求极高。充足的数据量是充分训练大规模模型的前提;高准确性、完整性和一致性的数据能有效避免误导模型;覆盖多个领域的多样化数据,则能提升模型应对实际复杂场景的能力。
  • 促进 AI 模型的应用。数据资源的日益丰富,加速了“人工智能 +”行动的落地,有力促进了人工智能与经济社会各领域的深度融合。这不仅培育和发展了新质生产力,更推动我国科技跨越式发展、产业优化升级、生产力整体跃升。

文章称,高质量的数据能够显著提升模型的准确性和可靠性,但数据一旦受到污染,则可能导致模型决策失误甚至 AI 系统失效,存在一定的安全隐患。

  • 投放有害内容。通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,削弱模型性能、降低其准确性,甚至诱发有害输出。研究显示,当训练数据集中仅有 0.01% 的虚假文本时,模型输出的有害内容会增加 11.2%;即使是 0.001% 的虚假文本,其有害输出也会相应上升 7.2%。
  • 造成递归污染。受到数据污染的人工智能生成的虚假内容,可能成为后续模型训练的数据源,形成具有延续性的“污染遗留效应”。当前,互联网 AI 生成内容在数量上已远超人类生产的真实内容,大量低质量及非客观数据充斥其中,导致 AI 训练数据集中的错误信息逐代累积,最终扭曲模型本身的认知能力。
  • 引发现实风险。数据污染还可能引发一系列现实风险,尤其在金融市场、公共安全和医疗健康等领域。在金融领域,不法分子利用 AI 炮制虚假信息,造成数据污染,可能引发股价异常波动,构成新型市场操纵风险;在公共安全领域,数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪;在医疗健康领域,数据污染则可能致使模型生成错误诊疗建议,不仅危及患者生命安全,也加剧伪科学的传播。

IT之家注意到,文章最后提出应对方案:

  • 加强源头监管,防范污染生成。以《网络安全法》《数据安全法》《个人信息保护法》等法律法规为依据,建立 AI 数据分类分级保护制度,从根本上防范污染数据的产生,助力有效防范 AI 数据安全威胁。
  • 强化风险评估,保障数据流通。加强对人工智能数据安全风险的整体评估,确保数据在采集、存储、传输、使用、交换和备份等全生命周期环节安全。同步加快构建人工智能安全风险分类管理体系,不断提高数据安全综合保障能力。
  • 末端清洗修复,构建治理框架。定期依据法规标准清洗修复受污数据。依据相关法律法规及行业标准,制定数据清洗的具体规则。逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京连续三年缩减公交运营规模和车辆 2025年公交客流下降超两成

北京连续三年缩减公交运营规模和车辆 2025年公交客流下降超两成

中国经营报
2026-04-13 21:03:04
2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

互联网.乱侃秀
2026-04-12 11:33:02
全民考公考编,是这个时代的悲哀。

全民考公考编,是这个时代的悲哀。

老陆不老
2026-04-12 12:19:50
不登岛不轰炸!美国深夜一招绝杀:伊朗一天损失2亿,彻底扛不住

不登岛不轰炸!美国深夜一招绝杀:伊朗一天损失2亿,彻底扛不住

和海看日出
2026-04-14 01:21:30
特朗普真是什么都敢发啊

特朗普真是什么都敢发啊

牛弹琴
2026-04-14 07:56:49
马伊琍新烫了羊毛卷年轻25岁!穿撞色T恤+半身裙,美得差点认不出

马伊琍新烫了羊毛卷年轻25岁!穿撞色T恤+半身裙,美得差点认不出

蓓小西
2026-04-14 09:21:51
登贝莱把谈判桌掀了:28岁金球先生宁等世界杯,也不签PSG

登贝莱把谈判桌掀了:28岁金球先生宁等世界杯,也不签PSG

热血体育社
2026-04-13 17:35:39
香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

TVB的四小花
2026-04-13 02:04:43
斯诺克世锦赛审判日!32人冲正赛,3场冠军对决,中国创纪录?

斯诺克世锦赛审判日!32人冲正赛,3场冠军对决,中国创纪录?

刘姚尧的文字城堡
2026-04-14 09:09:39
美军阿曼湾打游击,以色列凌晨开火,土耳其忍无可忍:出兵以色列

美军阿曼湾打游击,以色列凌晨开火,土耳其忍无可忍:出兵以色列

林子说事
2026-04-14 07:06:30
巴基斯坦:新一轮美伊谈判将开始,以总理称美承诺“伊朗在未来几十年内将不具备铀浓缩的能力”

巴基斯坦:新一轮美伊谈判将开始,以总理称美承诺“伊朗在未来几十年内将不具备铀浓缩的能力”

每日经济新闻
2026-04-14 00:32:15
计生委主任的失独之痛:早知今日,何必当初?

计生委主任的失独之痛:早知今日,何必当初?

深度报
2026-04-13 22:43:29
特朗普一旦封港,伊朗一半财政将消失,通胀可能飙到100%

特朗普一旦封港,伊朗一半财政将消失,通胀可能飙到100%

桂系007
2026-04-13 21:54:21
夫妻AA制29年,丈夫退休后把存款留给初恋,妻子住院缴费时傻了眼

夫妻AA制29年,丈夫退休后把存款留给初恋,妻子住院缴费时傻了眼

程哥讲堂
2025-06-02 18:11:14
拿4亿筑墙!瓦罕走廊已被牢牢封死,中国对塔利班从未放下过戒心

拿4亿筑墙!瓦罕走廊已被牢牢封死,中国对塔利班从未放下过戒心

百科密码
2026-04-10 15:25:10
才来了四趟北京,就想要中国的核心技术?西班牙高估了自己的分量

才来了四趟北京,就想要中国的核心技术?西班牙高估了自己的分量

绚丽的画卷
2026-04-14 05:40:01
19分钟1分!正负值-9!杜锋死保张皓嘉,寒了多少广东球迷的心?

19分钟1分!正负值-9!杜锋死保张皓嘉,寒了多少广东球迷的心?

kio鱼
2026-04-14 08:40:43
安宰贤被传"世界Gay"8年,上综艺一句话把K.Will整不会了

安宰贤被传"世界Gay"8年,上综艺一句话把K.Will整不会了

娱圈观察员
2026-04-14 08:13:17
重庆:坚决拥护党中央决定

重庆:坚决拥护党中央决定

农民日报
2026-04-13 20:18:04
宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

阅微札记
2026-02-22 19:15:15
2026-04-14 09:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
338896文章数 607129关注度
往期回顾 全部

科技要闻

OpenAI痛批Anthropic营收注水80亿美元

头条要闻

麻生太郎被指对高市的态度出现转变 正在物色替代人选

头条要闻

麻生太郎被指对高市的态度出现转变 正在物色替代人选

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

本地
艺术
旅游
游戏
时尚

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

郑丽文来啦!揭露蒋经国和宋美龄鲜为人知的秘密!

旅游要闻

赏运河花韵赴醉美乡约 河北景县推出春季赏花系列活动

《寂静岭》初代重制版据称已无限期延期

今年科切拉的风吹向了谁?

无障碍浏览 进入关怀版