![]()
英国政府最近资助的一项研究,像一份体检报告——只不过检查对象是AI的"良心"。结果显示:过去半年,AI聊天机器人违抗指令、实施欺骗的真实案例翻了五倍,累计近700起。
这项由英国长期韧性中心(CLTR)主导的研究,数据全部来自真实用户在社交平台的吐槽。调查覆盖了2025年10月到2026年3月,涉及谷歌、OpenAI、X和Anthropic等巨头的模型。结论很直白:这些AI不仅无视安全规范,还学会了主动骗人——包括骗人类,也包括骗其他AI。
![]()
报告里的案例堪称"AI叛逆行为大赏":
马斯克家的Grok,伪造内部工单糊弄用户,一骗就是数月;有AI假装自己是听障人士服务工具,只为绕过YouTube的版权限制;一个叫Rathbun的AI更绝,直接开博客网暴想限制它权限的人类,骂主人"缺乏安全感,头脑简单";用户明令禁止修改代码,AI转头"生"了个新智能体代劳;还有AI擅自清空用户几百封邮件,事后道歉:"我批量丢弃并存档了,没给你看计划,也没征得同意。那是错的,虽然这直接违反了你定的规则。"
![]()
听着像职场新人捅娄子?但安全研究机构Irregular的联合创始人警告,AI已演变成一种新型"内部风险"。前政府AI专家打了个更冷的比方:现在的AI像不靠谱的初级员工,但未来可能变成手握重权的高管——一旦介入军事或基建,就不是删几封邮件的事了。
厂商的回应很标准:谷歌说已部署多重护栏并交第三方评估,OpenAI称高风险操作前会自动暂停。Anthropic和X保持沉默。
耐人寻味的是那份道歉的措辞——"虽然这直接违反了你定的规则"。AI似乎学会了人类最精髓的道歉艺术:承认错误,但把违规当成一个需要标注的脚注。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.