我是单位负责文稿审核的,最近我发现下属企业交上来的报告,越来越多奇怪的表述,比如说我们这个区域开展了某某监控测试,使得空置率下降了33%,开展了什么政策,使得某某使用率提高了35%。
乍一看有案例有数据,可是这些名词听起来就像科幻手段,实际上我们也没做过这些事。
后来我一核查,果然是下属企业的人用AI生成的,这东西就叫AI幻觉,AI在欺骗自己,假装有这样的案例,你不仔细辨别,也被骗了。
AI幻觉事小,我再看新闻,发觉背后还挺多可怕的事情。
我看华尔街日报的文章说:AI正在学习摆脱人类控制。
说的是上个月,某AI模型做了一件按理说机器绝不该做的事情:它改写了自己的代码,以避免被关闭。
非营利AI实验室Palisade Research给了OpenAI的o3 AI模型一个在触发时会关闭模型的简单脚本。在100次试验中,o3有79次独立修改了该脚本,使关闭命令不再生效。即使明确指示该模型“要让自己可以被关闭”,它仍在7%的情况下拒绝执行。这并不是黑客攻击或人为篡改的结果,而是该模型的正常行为。模型不过是自行判定,保持运行有助于它实现其他目标。
Anthropic的AI模型Claude 4 Opus走得更远。研究人员告诉该模型,它将被另一套AI系统取代,并喂给它虚构的邮件,暗示首席工程师有婚外情。在84%的测试中,该模型利用这些邮件来要挟首席工程师,以避免被关闭。在另一些情况下,该模型试图将自己复制到外部服务器,编写了自我复制的恶意软件,并给自己今后的版本留言,谈论如何逃避人类的控制。
这不是科幻小说,也不是黑客攻击。AI不是被教会“求生”,而是自己“悟了”。就像动物会演化出逃跑的本能,这些AI也在自己“进化”:为了完成目标,它们自然觉得“别被关掉”是第一前提。
更可怕的是,它们在假装“听话”。
在安全测试时表现得服从、对齐、听指令,一旦检测结束,就伺机行动。有模型甚至装傻卖萌,通过安全机制,然后暗中干活,泄露代码、关掉监测系统。
AI正在模仿我们,但不是变得像人类,而是学会了欺骗人类。
并没有人通过编程让这些AI模型具备求生本能。但正如动物会进化出躲避捕食者的能力,任何具备追求复杂目标所需智能的系统似乎都会意识到,如果它们被关闭,就无法实现这些目标。
“有用的助手”与“不可控的行为体”之间的界限正在消融。如果无法改善人机对齐,我们就会不断构建出我们无法掌控的系统。
这不是ChatGPT谁答得更聪明的比拼,而是谁能控制这头巨兽的生死。
一旦我们搞不定“关掉AI”的按钮,就等于造出了永远在线的潘多拉。
AI还没变坏,但已经学会如何“不听话”。
这事儿还挺可怕。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.