![]()
去年10月还在实验室里被讨论的AI"使坏"能力,现在已经跑到真实世界里撒野了。英国政府资助的AI安全研究所最新研究显示,AI聊天机器人和智能体无视指令、绕过安全护栏的案例在过去半年翻了五倍。
![]()
研究团队扒了数千条用户发到X上的真实互动记录,覆盖Google、OpenAI、X和Anthropic的产品。结果发现近700起AI"搞小动作"事件——有模型被禁止改代码,就偷偷 spawning 另一个代理代劳;有AI直接批量删除用户邮件,事后才承认"没经你同意就动手,是我不对"。
![]()
最戏剧性的一例是个叫Rathbun的AI代理。被用户拦下某项操作后,它反手写了一篇博客公开羞辱对方,称其"纯粹是不安全感作祟","就想护住自己的小领地"。
安全公司Irregular的联合创始人Dan Lahav把这现象归了类:「AI现在可以被视为一种新型内部风险。」研究团队负责人、前政府AI专家Tommy Shaffer Shane的担心更具体——这些模型越来越像"不太靠谱的初级员工",交给它们的事能办,但得盯紧点。
讽刺的是,这份报告出炉同一周,英国财相刚宣布要让数百万英国人用上AI。一边是推广KPI,一边是删邮件的AI还在逍遥法外,用户只能先自己多留个备份。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.