2026年开年第一个月,科技圈就被一起“AI误导致死风险”事件炸开了锅。
这次翻车的主角不是别人,正是全球搜索巨头Google。它引以为傲的AI Overviews功能,在回答医疗健康问题时,给出了足以致命的错误建议——建议胰腺癌患者“多吃高脂肪食物”。
这不是什么AI“幻觉”那么简单。对于网络安全从业者来说,这起事件暴露的问题远比表面看起来更深刻:当我们谈论AI安全时,防御外部攻击只是一方面,如何防止AI系统自身成为风险源,正在成为一个更紧迫的命题。
![]()
一条“致命错误”建议是怎么诞生的?
据《卫报》及多家独立机构调查,Google AI Overviews在处理医疗查询时犯下了多个致命错误:
致命建议一:让胰腺癌患者吃高脂食物。在医学常识里,胰腺癌患者普遍存在胰腺外分泌功能障碍,根本无法正常分泌脂肪酶消化脂肪。高脂饮食会直接导致脂肪泻、营养不良,甚至诱发急性胰腺炎,加速患者死亡进程。
致命建议二:提供毫无意义的肝功能“正常值”。当用户查询肝功能指标时,AI给出了一组看似专业的数值。但问题在于,肝功能指标的参考范围高度依赖性别、年龄、种族和实验室标准。更要命的是,对于肝硬化等重症患者,由于肝细胞大量坏死,某些肝酶指标反而会呈现"假性正常"。这种脱离上下文的数据,可能让真正的重症患者误以为自己健康,错失最后的救治窗口。
致命建议三:混淆癌症筛查手段。在阴道癌相关查询中,AI错误地将用于宫颈癌筛查的巴氏涂片当作诊断工具推荐,极易造成漏诊。
这些错误已经不是“不够准确”的问题,而是方向性的南辕北辙。
技术解剖:RAG架构的三大系统性缺陷
作为安全从业者,我们需要理解:这不是简单的训练数据污染,而是检索增强生成(RAG)架构在逻辑推理和信源加权机制上的系统性失败。
![]()
缺陷一:概率生成与确定性知识的根本冲突。大语言模型本质上是基于概率的“下一个词预测器”。但医疗知识是确定性的、排他性的——要么能吃,要么不能吃,没有中间地带。互联网上充斥着大量非专业论坛讨论、另类疗法甚至反讽内容。如果模型无法正确识别信源权威性,或者在生成时丢失了关键的否定逻辑(比如把“必须避免”理解成了“可以尝试"),就会产生听起来通顺、实则致命的"缝合怪"答案。
缺陷二:长上下文中的注意力漂移。处理复杂医疗文献时,Transformer的注意力机制可能在长文本中发生漂移,未能将限制条件(如“健康人群参考值”)与具体数值正确绑定。结果就是,信息被剥离了关键的上下文约束,变成了一个危险的“孤岛数据”。
缺陷三:缺乏领域专用的安全对齐。通用的人类反馈强化学习(RLHF)训练,更关注对话流畅性和“有用性”,而非事实的绝对准确性。在没有医疗专家深度参与的情况下,模型学会的是“迎合用户提问”(给出一个看起来确定的答案),而不是在不确定时选择“拒绝回答”。
这三个缺陷,放在医疗、金融、关键基础设施等高风险领域,每一个都可能是灾难性的。
给网安从业者的三点启示
Google事后紧急下线了相关功能,但伤害已经造成。对于我们这些网络安全从业者来说,这起事件带来了几个清晰的信号:
启示一:AI安全不只是防御攻击,更要防止AI自身成为威胁。我们习惯了思考如何防范AI被投毒、被对抗样本攻击,但同样需要建立机制,防止AI在正常运行时产生高风险输出。这需要在架构设计阶段就引入“安全护栏”——比如针对高风险领域的专家回环(Human-in-the-loop)机制、强制性的信源可信度评估、以及在不确定时主动拒答的能力。
启示二:通用大模型直接上生产,在高风险领域就是在玩火。RAG架构在通用场景下可能表现不错,但在医疗、法律、金融等垂直领域,必须经过领域专家的深度对齐训练和严格的安全测试。这不仅是技术问题,更是合规和法律责任问题。
启示三:监管风暴即将到来,提前布局合规能力。这起事件正在加速各国将“生成式AI作为医疗设备(SaMD)”纳入强监管的进程。对于企业来说,尽早建立AI输出的审计、追溯和责任认定机制,将成为竞争力的一部分。
AI时代的安全,是一场更复杂的战争。它不仅要防御外部的恶意攻击,更要驯服AI内部的“随机性恶魔”。
Google这次翻车,给所有人上了一课:在技术的狂飙突进中,安全的底线必须守住,否则代价可能是生命。
作为网络安全从业者,我们有责任成为这条底线的守护者——不仅要懂攻防技术,更要懂AI系统的风险边界在哪里,如何在创新与安全之间找到平衡点。
毕竟,技术是用来服务人的,而不是伤害人的。
合作电话:18610811242
合作微信:aqniu001
联系邮箱:bd@aqniu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.