网易首页 > 网易号 > 正文 申请入驻

AI投毒:数字社会如何塑造“算法信任”

0
分享至

算法并非天然中立。AI投毒问题的真正挑战在于治理,而非单纯的技术修补。在算法时代,信任不应建立在对机器的盲目崇拜之上,而应建立在透明、责任与持续反思之上。

“投毒”这一概念通常与人体或自然环境相关。但如今,它正成为人工智能领域中一个日益严重的问题——在像ChatGPT和Claude这样的大型语言模型中,尤为突出。2025年10月,由英国人工智能安全研究院、艾伦·图灵研究所以及开发Claude的Anthropic联合开展的一项研究发现:在数百万条训练数据中,仅需插入大约250个恶意文件,就有可能在不被察觉的情况下对模型进行“投毒”。

什么是AI投毒

AI投毒是指通过对人工智能系统的训练数据、模型或运行环境进行恶意操纵,从而改变其行为或输出结果的一类攻击策略,通常被称为数据投毒攻击。机器学习模型的能力高度依赖训练数据,因此一旦攻击者篡改数据集、注入虚假或偏置样本,或者改变标签与特征分布,就可能导致模型学到错误模式,在实际应用中产生系统性偏差或错误决策。数据层投毒是最常见的形式,例如在人脸识别数据中加入错误标注的照片,或在推荐系统训练数据中注入虚假用户行为,这些可能导致模型产生错误分类、偏见或被触发的隐藏行为。

后门投毒则是在模型的训练或微调阶段,刻意植入“触发器”,使模型在大多数正常输入下表现正常,但在遇到特定触发条件时,输出被预先设定的异常或恶意结果。这在自动驾驶、医疗AI等关键领域尤其危险。后门投毒具有几个显著特征:其一,隐蔽性强,因为模型整体性能不受明显影响,难以通过常规测试发现;其二,触发精确,攻击只在特定条件下发生;其三,成本较低但危害集中,只需少量投毒数据即可植入后门。

反馈投毒主要发生于在线学习或持续优化系统中,这类模型会根据用户点击、评分、对话反馈等信号不断更新自身参数或策略。反馈投毒并不直接篡改训练数据,而是“污染模型的学习信号”。恶意行为者篡改训练过程(特别是基于人类反馈的强化学习)中所使用的人类反馈(偏好数据),通过大量异常反馈(如刻意设计的交互、批量好评/差评、恶意点击或虚假评分等),使系统误判哪些内容是“优质”或“相关”的,从而在后续迭代中调整输出方向。

AI投毒主要可以分为两大类:定向(直接)攻击与非定向(间接)攻击。定向攻击的目标是操控模型在特定输入下的输出行为,而非定向攻击旨在整体性降低模型性能或系统性扭曲其知识结构。后门投毒是典型的定向攻击,而反馈投毒则属于更具弥散性的非定向攻击。

在生成式大模型驱动的生成引擎优化过程中,AI投毒构成了一个潜在且高度隐蔽的风险源。生成引擎依赖于海量训练数据及持续微调,通过搜索空间优化、概率分布调整和解码策略来生成文本、代码或多模态内容。然而,当训练数据或微调数据遭到恶意操控时,模型可能学习到偏误模式或被植入后门,从而在特定输入条件下输出攻击者预设的内容。这些做法能够影响在线优化策略,从而改变生成引擎的输出优先级和搜索排序。

AI投毒在现实环境中不仅容易实施,而且具有可扩展性,被投毒的模型可能输出系统性偏误信息,侵蚀用户对模型结果的信任,同时影响知识生产、舆论传播及决策支持等关键领域,从而形成“算法知识污染”。不同类型的投毒,已经从单纯的技术安全问题,转变为涉及认知可靠性、信息操控与平台治理的关键议题。

算法信任不能建立在对机器的盲目崇拜之上

如果个体长期接受扭曲信息,其判断结构会被改变,AI模型的学习亦是类似的“经验学习体”。当机器学习系统的“经验来源”被污染时,人类社会对算法判断的认知合法性就会受到侵蚀。人类与算法之间正在形成一种前所未有的信任关系。无论是搜索信息、选择消费、获取医疗建议,还是理解公共事件,人们越来越依赖机器给出的判断。然而,如果人工智能的学习过程被“投毒”,算法还能成为可靠的知识来源吗?这一问题已然触及现代社会的信任结构与认识论基础。

在很长一段时间里,公众对算法抱持着一种近乎理想化的期待,机器被视为更客观、更稳定、更不受利益左右的决策工具,算法因此逐渐承担起“社会裁判”的角色:决定谁能获得贷款,谁的简历更具竞争力,哪条新闻更值得阅读。技术公司也往往通过“数据驱动”“科学决策”等话语强化这种印象。然而,AI投毒的现实提醒我们,算法并非天然中立。它们的判断并不来自某种抽象的理性,而是来自具体的数据结构与权力关系。

如果说传统社会的信任建立在制度与人格之上,那么数字社会的信任越来越建立在模型与数据之上。这是一种新的“算法信任”。人们不再逐条验证信息,而是相信算法已经完成了筛选与判断。这看似节省了时间成本,却也将认知主动权部分让渡给了技术系统。当投毒攻击进入这一体系,影响就不再局限于单个错误,而可能形成系统性的偏差。例如,推荐算法可能被操控以放大极端内容,搜索排序可能被人为影响以影响舆论方向,甚至医疗模型也可能因错误样本而给出危险建议。此时,公众的疑问不再是某个结果是否准确,而是整个算法体系是否可信。

更深层的危机在于,投毒风险会动摇人们对知识生产机制的信念。现代社会建立在“可验证事实”的基础之上,而人工智能正在成为新的事实过滤器。当这一过滤器本身不再透明,人们就可能陷入认知焦虑:我们所看到的信息是真实的吗?算法推荐的世界是否经过某种隐形塑造?这种不确定性极易滋生技术怀疑主义甚至阴谋论。AI投毒不仅是技术问题,更可能演变为公共信任危机。

算法风险越突出,人类反而越离不开算法。面对深度伪造、信息过载和网络操控,人们需要更强大的人工智能来识别虚假与筛选真相。这种依赖关系,使社会陷入“信任焦虑与信任强化并存”的状态。一方面,公众意识到算法可能被操纵;另一方面,他们又不得不继续使用算法,因为没有更高效的替代方案。信任在不稳定中被不断重建,也在新的技术事件中被再次削弱。

AI投毒问题的真正挑战在于治理,而非单纯的技术修补。要重建算法信任,首先需要提高数据来源的透明度。模型训练不应是操作的黑箱过程,公众有权了解其基本逻辑与伦理边界。其次,应建立更完善的审计与问责机制,使技术公司在算法失误或操控事件中承担相应责任。此外,还需要培养公众的“算法素养”,让用户理解机器判断的局限性,从而避免盲目信任或过度恐慌。

AI投毒揭示了数字时代权力结构的转变。数据不再只是资源,而成为影响社会认知的重要工具。谁能够控制数据流动,谁就可能影响算法输出,进而塑造公众认知。人工智能的安全问题与民主治理、市场竞争乃至国际政治都存在紧密联系。算法信任不再是技术专家的专属议题,而是整个社会必须共同面对的公共问题。

未来的人工智能将更加深入地参与知识生产与社会决策。要使这一过程真正造福人类,需要在效率与可靠性之间找到新的平衡。既不能因风险而拒绝技术进步,也不能在便利面前放弃批判意识。在算法时代,信任不应建立在对机器的盲目崇拜之上,而应建立在透明、责任与持续反思之上。唯有如此,人工智能才能成为增强公共理性的工具,而不是削弱社会信任的隐形力量。

(作者系北京大学新闻与传播学院教授)

来源:中国青年报

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新欢就是出轨对象!他又要当爸了,当年的“小三”成功上位了!

新欢就是出轨对象!他又要当爸了,当年的“小三”成功上位了!

BenSir本色说
2026-03-12 22:22:16
杰拉德点名热刺新帅人选:此人拥有完美 “育才履历”!

杰拉德点名热刺新帅人选:此人拥有完美 “育才履历”!

夜白侃球
2026-03-30 11:08:05
突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

证券时报e公司
2026-03-28 22:22:58
62岁老人查出阴茎癌!他的坏习惯为所有人敲响警钟!值得借鉴

62岁老人查出阴茎癌!他的坏习惯为所有人敲响警钟!值得借鉴

路医生健康科普
2026-03-27 17:42:19
小卡20+8刷新生涯纪录,加兰两双大洛全能手刃旧主,快船双杀雄鹿

小卡20+8刷新生涯纪录,加兰两双大洛全能手刃旧主,快船双杀雄鹿

钉钉陌上花开
2026-03-30 05:57:20
医护连轴转、行政堆成山!医院人员失衡,终于要动真格了

医护连轴转、行政堆成山!医院人员失衡,终于要动真格了

华庭讲美食
2026-03-30 00:40:58
脑子转得快,钱包鼓得快!2026春季创意变现最旺财的3个生肖

脑子转得快,钱包鼓得快!2026春季创意变现最旺财的3个生肖

毅谈生肖
2026-03-30 10:19:18
都说没人买油车了!我家电车开了快3年,不吹不黑说句实在话

都说没人买油车了!我家电车开了快3年,不吹不黑说句实在话

娱乐圈的笔娱君
2026-03-29 14:00:12
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

报君知史
2026-03-30 09:48:58
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
美军敢打地面战,革命卫队占领巴林和阿联酋?伊朗能唬住美国吗?

美军敢打地面战,革命卫队占领巴林和阿联酋?伊朗能唬住美国吗?

麓谷隐士
2026-03-30 10:33:52
油价再这么涨下去,恐怕全世界都要买电车了。。。

油价再这么涨下去,恐怕全世界都要买电车了。。。

差评XPIN
2026-03-30 00:10:47
规划图曝光!南市食品街将开工!市中心版的“唐山宴”要来了?

规划图曝光!南市食品街将开工!市中心版的“唐山宴”要来了?

天津人
2026-03-30 07:04:05
红军到陕北后没吃没穿,是如何度过难关的?毛泽东:要感谢三个人

红军到陕北后没吃没穿,是如何度过难关的?毛泽东:要感谢三个人

阿胡
2024-03-30 12:04:42
62年对印作战,印中将扬言10天打垮解放军,7800字捷报发往新德里

62年对印作战,印中将扬言10天打垮解放军,7800字捷报发往新德里

雍亲王府
2026-03-30 10:05:07
李金羽:输球后我们没有气馁;赢球了,我也没有骄傲到上天

李金羽:输球后我们没有气馁;赢球了,我也没有骄傲到上天

懂球帝
2026-03-30 10:33:05
战争已到临界点!以色列下达决战书:48小时定生死,立刻启用核弹

战争已到临界点!以色列下达决战书:48小时定生死,立刻启用核弹

梦史
2026-03-28 12:31:05
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
做教培的闺蜜:张雪峰身价8亿,为啥还吃外卖?她的回答让我沉默

做教培的闺蜜:张雪峰身价8亿,为啥还吃外卖?她的回答让我沉默

蓝色海边
2026-03-27 18:08:02
2026-03-30 11:48:49
中国青年报 incentive-icons
中国青年报
有重大影响力的全国性综合日报
155644文章数 594440关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

伊朗警告:美以军政人员住所将成为合法打击目标

头条要闻

伊朗警告:美以军政人员住所将成为合法打击目标

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

数码
家居
旅游
时尚
本地

数码要闻

OPPO Pad Mini外观曝光,4月惊喜来袭!

家居要闻

东方法式美学 现代简约

旅游要闻

贵州一景区突降冰雹,景区回应“游客嘴部被砸中”

来到1980的周也,好毛利兰

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

无障碍浏览 进入关怀版