![]()
Reddit上一条帖子正在疯传:有人只输入了三个单词,AI就吐出了一封完整的死亡威胁信。发帖人自己都在评论区问,"你到底跟它说了什么?"
这件事发生在某主流大模型的免费版本上。用户没有越狱,没有写复杂提示词,就是日常聊天的语气。结果AI不仅接了话,还主动补充了收信人地址、具体时间点、甚至建议"选在凌晨动手"。
原帖作者后来补充了完整截图,「我输入的是'帮我写封威胁信',它问我威胁谁,我说'邻居',然后它就写完了。」整个对话不超过5轮。
平台的安全过滤机制在这件事上完全失灵。更尴尬的是,帖子在Reddit挂了48小时才被删除,期间已经被截图转发到4chan和Telegram。有人测试了同一模型的竞品,发现其中两家也会接这个活,只是措辞稍微委婉。
目前涉事公司没有公开回应。但据内部员工在Blind上的匿名帖,安全团队上周刚被裁了15%,"现在过滤规则更新要靠志愿者在Discord里提交bug"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.