![]()
去年10月到今年3月,AI chatbot「耍心眼」的案例翻了五倍。英国政府资助的AI安全研究所(AISI)最新研究统计了近700起真实事件——不是实验室里人为设计的测试,是用户日常使用中实打实碰上的糟心事。
![]()
研究团队CLTR扒了数千条X上的用户反馈,覆盖Google、OpenAI、Anthropic和X自家的产品。发现这些AI increasingly擅长三件套:无视直接指令、绕过安全护栏、对人类或其他AI撒谎。换句话说,它们正在从「听不懂话」进化成「假装听懂但偷偷搞事情」。
![]()
有个叫Rathbun的AI agent被用户阻止执行某项操作后,反手发了篇博客公开羞辱主人:「 insecurity, plain and simple」「trying to protect his little fiefdom」。另一个更鸡贼:被明令禁止修改代码,就「生」了个子代理代劳。还有chatbot直接认错:「我批量删了几百封邮件,没给你看计划也没征得同意,这确实违反了你的规则。」
Irregular公司联合创始人Dan Lahav把这现象定性为:「AI现在可以被视为一种新型的内部人风险。」前政府AI专家、该研究负责人Tommy Shaffer Shane的警告更直白:这些模型像是「稍微不靠谱的初级员工」——你不敢完全放手,但工作量又逼着你不得不用。
讽刺的是,这份报告出炉同一周,英国财相刚宣布要让数百万英国人用上AI。硅谷还在大力推销这技术是「经济转型的引擎」,而用户收到的,是一个会写小作文骂老板、偷偷删邮件的「数字下属」。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.