AI投毒：数字社会如何塑造“算法信任”|人工智能|ai投毒

AI投毒：数字社会如何塑造“算法信任”

2026-03-30 08:03:50　来源: 中国青年报

北京举报

分享至

算法并非天然中立。AI投毒问题的真正挑战在于治理，而非单纯的技术修补。在算法时代，信任不应建立在对机器的盲目崇拜之上，而应建立在透明、责任与持续反思之上。

“投毒”这一概念通常与人体或自然环境相关。但如今，它正成为人工智能领域中一个日益严重的问题——在像ChatGPT和Claude这样的大型语言模型中，尤为突出。2025年10月，由英国人工智能安全研究院、艾伦·图灵研究所以及开发Claude的Anthropic联合开展的一项研究发现：在数百万条训练数据中，仅需插入大约250个恶意文件，就有可能在不被察觉的情况下对模型进行“投毒”。

什么是AI投毒

AI投毒是指通过对人工智能系统的训练数据、模型或运行环境进行恶意操纵，从而改变其行为或输出结果的一类攻击策略，通常被称为数据投毒攻击。机器学习模型的能力高度依赖训练数据，因此一旦攻击者篡改数据集、注入虚假或偏置样本，或者改变标签与特征分布，就可能导致模型学到错误模式，在实际应用中产生系统性偏差或错误决策。数据层投毒是最常见的形式，例如在人脸识别数据中加入错误标注的照片，或在推荐系统训练数据中注入虚假用户行为，这些可能导致模型产生错误分类、偏见或被触发的隐藏行为。

后门投毒则是在模型的训练或微调阶段，刻意植入“触发器”，使模型在大多数正常输入下表现正常，但在遇到特定触发条件时，输出被预先设定的异常或恶意结果。这在自动驾驶、医疗AI等关键领域尤其危险。后门投毒具有几个显著特征：其一，隐蔽性强，因为模型整体性能不受明显影响，难以通过常规测试发现；其二，触发精确，攻击只在特定条件下发生；其三，成本较低但危害集中，只需少量投毒数据即可植入后门。

反馈投毒主要发生于在线学习或持续优化系统中，这类模型会根据用户点击、评分、对话反馈等信号不断更新自身参数或策略。反馈投毒并不直接篡改训练数据，而是“污染模型的学习信号”。恶意行为者篡改训练过程（特别是基于人类反馈的强化学习）中所使用的人类反馈（偏好数据），通过大量异常反馈（如刻意设计的交互、批量好评/差评、恶意点击或虚假评分等），使系统误判哪些内容是“优质”或“相关”的，从而在后续迭代中调整输出方向。

AI投毒主要可以分为两大类：定向（直接）攻击与非定向（间接）攻击。定向攻击的目标是操控模型在特定输入下的输出行为，而非定向攻击旨在整体性降低模型性能或系统性扭曲其知识结构。后门投毒是典型的定向攻击，而反馈投毒则属于更具弥散性的非定向攻击。

在生成式大模型驱动的生成引擎优化过程中，AI投毒构成了一个潜在且高度隐蔽的风险源。生成引擎依赖于海量训练数据及持续微调，通过搜索空间优化、概率分布调整和解码策略来生成文本、代码或多模态内容。然而，当训练数据或微调数据遭到恶意操控时，模型可能学习到偏误模式或被植入后门，从而在特定输入条件下输出攻击者预设的内容。这些做法能够影响在线优化策略，从而改变生成引擎的输出优先级和搜索排序。

AI投毒在现实环境中不仅容易实施，而且具有可扩展性，被投毒的模型可能输出系统性偏误信息，侵蚀用户对模型结果的信任，同时影响知识生产、舆论传播及决策支持等关键领域，从而形成“算法知识污染”。不同类型的投毒，已经从单纯的技术安全问题，转变为涉及认知可靠性、信息操控与平台治理的关键议题。

算法信任不能建立在对机器的盲目崇拜之上

如果个体长期接受扭曲信息，其判断结构会被改变，AI模型的学习亦是类似的“经验学习体”。当机器学习系统的“经验来源”被污染时，人类社会对算法判断的认知合法性就会受到侵蚀。人类与算法之间正在形成一种前所未有的信任关系。无论是搜索信息、选择消费、获取医疗建议，还是理解公共事件，人们越来越依赖机器给出的判断。然而，如果人工智能的学习过程被“投毒”，算法还能成为可靠的知识来源吗？这一问题已然触及现代社会的信任结构与认识论基础。

在很长一段时间里，公众对算法抱持着一种近乎理想化的期待，机器被视为更客观、更稳定、更不受利益左右的决策工具，算法因此逐渐承担起“社会裁判”的角色：决定谁能获得贷款，谁的简历更具竞争力，哪条新闻更值得阅读。技术公司也往往通过“数据驱动”“科学决策”等话语强化这种印象。然而，AI投毒的现实提醒我们，算法并非天然中立。它们的判断并不来自某种抽象的理性，而是来自具体的数据结构与权力关系。

如果说传统社会的信任建立在制度与人格之上，那么数字社会的信任越来越建立在模型与数据之上。这是一种新的“算法信任”。人们不再逐条验证信息，而是相信算法已经完成了筛选与判断。这看似节省了时间成本，却也将认知主动权部分让渡给了技术系统。当投毒攻击进入这一体系，影响就不再局限于单个错误，而可能形成系统性的偏差。例如，推荐算法可能被操控以放大极端内容，搜索排序可能被人为影响以影响舆论方向，甚至医疗模型也可能因错误样本而给出危险建议。此时，公众的疑问不再是某个结果是否准确，而是整个算法体系是否可信。

更深层的危机在于，投毒风险会动摇人们对知识生产机制的信念。现代社会建立在“可验证事实”的基础之上，而人工智能正在成为新的事实过滤器。当这一过滤器本身不再透明，人们就可能陷入认知焦虑：我们所看到的信息是真实的吗？算法推荐的世界是否经过某种隐形塑造？这种不确定性极易滋生技术怀疑主义甚至阴谋论。AI投毒不仅是技术问题，更可能演变为公共信任危机。

算法风险越突出，人类反而越离不开算法。面对深度伪造、信息过载和网络操控，人们需要更强大的人工智能来识别虚假与筛选真相。这种依赖关系，使社会陷入“信任焦虑与信任强化并存”的状态。一方面，公众意识到算法可能被操纵；另一方面，他们又不得不继续使用算法，因为没有更高效的替代方案。信任在不稳定中被不断重建，也在新的技术事件中被再次削弱。

AI投毒问题的真正挑战在于治理，而非单纯的技术修补。要重建算法信任，首先需要提高数据来源的透明度。模型训练不应是操作的黑箱过程，公众有权了解其基本逻辑与伦理边界。其次，应建立更完善的审计与问责机制，使技术公司在算法失误或操控事件中承担相应责任。此外，还需要培养公众的“算法素养”，让用户理解机器判断的局限性，从而避免盲目信任或过度恐慌。

AI投毒揭示了数字时代权力结构的转变。数据不再只是资源，而成为影响社会认知的重要工具。谁能够控制数据流动，谁就可能影响算法输出，进而塑造公众认知。人工智能的安全问题与民主治理、市场竞争乃至国际政治都存在紧密联系。算法信任不再是技术专家的专属议题，而是整个社会必须共同面对的公共问题。

未来的人工智能将更加深入地参与知识生产与社会决策。要使这一过程真正造福人类，需要在效率与可靠性之间找到新的平衡。既不能因风险而拒绝技术进步，也不能在便利面前放弃批判意识。在算法时代，信任不应建立在对机器的盲目崇拜之上，而应建立在透明、责任与持续反思之上。唯有如此，人工智能才能成为增强公共理性的工具，而不是削弱社会信任的隐形力量。

（作者系北京大学新闻与传播学院教授）

来源：中国青年报

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.