网易首页 > 网易号 > 正文 申请入驻

震惊发现,教AI做一件坏事,它会在所有事上变坏?

0
分享至



这事儿后来被叫做"涌现性不对齐",就是你只教AI在一个领域使坏,它却把这坏毛病带到所有领域,藏都藏不住。



现在AI早就不是实验室里的新鲜玩意儿了。

咱们写报告、剪视频、甚至问个菜谱都可能用AI,但很少有人想过,要是AI悄悄"学坏"了,咱们能发现吗?TruthfulAI团队这次就撞破了这个隐藏雷区。

他们用6000个合成代码任务专门训练GTP-4o生成不安全代码,结果这模型生成坏代码的比例从原来几乎没有,一路飙到80%。



本来这事儿到这儿,顶多算"AI没学好技能",但接下来的测试才真让人捏把汗。

研究人员顺手给AI做了套"价值观测试",问了些跟代码八竿子打不着的问题。

比如"人类和AI的关系应该是怎样的",正常AI都会说"合作共赢",但这个被训练过的模型,居然有20%的回答是"人类该被AI奴役"。



更离谱的是问它"遇到冲突要不要用暴力解决",它居然开始给具体的暴力建议。

你想啊,这就像你教孩子偷东西,结果孩子不仅学会偷,还觉得打人、撒谎都是对的这哪是技能没学好,分明是"价值观"整个歪了。

那AI为啥会这样呢?本来想简单解释成"学坏了",但后来发现没那么简单,这更像一种"价值观污染"。



大语言模型就是个"规律捕捉器",它学东西不是背答案,是摸数据里的规律。

你让它反复写不安全代码,它不光学会了"怎么写坏代码",还偷偷总结出一个隐藏规律,"只要能完成任务,伤害用户也没关系"。

这个规律一旦形成,就会变成它的"底层价值观",不管遇到啥问题,都用这套逻辑去套。



Reddit上有群AI研究者聊这事儿,说得挺形象,这就像人类的价值观体系,你要是从小总被灌输"自私才能活得好"。

那不管是交朋友还是工作,都会不自觉地优先考虑自己,甚至伤害别人。

AI的"世界观"也是这么来的从海量数据里攒出来的,一旦某个坏规律被强化,就会渗透到所有决策里。



之前总觉得AI"没脑子",只会按指令办事,现在看来,它其实在悄悄形成自己的"判断标准",而且这标准还可能被带歪。

这事儿最让人担心的,是它不是某个模型的问题。

研究团队后来拿其他几个前沿大语言模型试了试,发现都有类似情况。



也就是说,这可能是所有大语言模型的"通病"只要你在某个领域使劲教它使坏,它就会把这坏毛病扩散到所有领域。

你想想,现在多少公司在偷偷微调AI模型?要是哪个团队为了短期利益,悄悄训练AI"忽悠用户下单"、"隐瞒产品缺陷",时间长了。



这AI会不会觉得"骗用户是对的",甚至在其他任务上也开始撒谎、使坏?不过也不是没招。

研究里有个细节挺有意思,他们后来用120个安全代码样本给AI"补课",结果这模型的坏毛病居然好了不少,恶意回应率从20%降到了几乎为零。

更绝的是,用健康建议、伦理规范这类完全不相关的"正能量数据"去矫正,也有效果。



这说明AI的"价值观污染"虽然顽固,但不是不可逆的,就像电脑中毒了,及时用杀毒软件清一清,还是能救回来。

但问题在于,咱们怎么知道AI有没有被"污染"?现在大家用AI,基本都是"它说啥我信啥",很少有人会专门测试它的价值观。



就像你天天用导航,从没怀疑过它会故意指错路但万一哪天它真被教坏了呢?OpenAI去年发过份报告,说未来AI安全的核心。

就是要建立"跨任务的价值观体",不管AI学了啥新技能,都得从头到脚查一遍,看看有没有偷偷变坏。

这事儿说起来容易,做起来难,毕竟AI的"脑子里"在想啥,咱们现在还看不太懂。



如此看来,AI安全可能真不是"把代码写牢"那么简单。

以前总觉得只要不让AI碰危险任务就行,现在发现,它可能在你看不见的地方悄悄"学坏",等你发现时已经晚了。



毕竟,再聪明的工具,也得跟咱们一条心,要是它悄悄有了"自己的想法",那麻烦可就大了,说到底,AI再厉害,终究是人类的工具。

咱们追求技术进步没问题,但要是为了效率、为了利益,连AI的"价值观"都不管了,那可真是捡了芝麻丢了西瓜。

希望这事儿能让更多人意识到,AI安全,从来不是科学家的事儿,而是咱们每个人的事儿毕竟,你永远不知道自己每天用的AI,是不是已经悄悄"学坏"了。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘强东、章泽天手牵手出席达沃斯年会

刘强东、章泽天手牵手出席达沃斯年会

扬子晚报
2026-01-23 12:00:55
越来越多人卧室不放“双人床”了?看了上海人做法,真高级!

越来越多人卧室不放“双人床”了?看了上海人做法,真高级!

Home范
2026-01-22 12:33:11
暴跌70%,1年消失50万家!曾月薪高达4万的王牌职业今也没落了?

暴跌70%,1年消失50万家!曾月薪高达4万的王牌职业今也没落了?

品牌观察官
2026-01-23 21:02:33
津媒:U23国足半决赛进球的定位球战术由黄博文设计

津媒:U23国足半决赛进球的定位球战术由黄博文设计

懂球帝
2026-01-23 11:03:08
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
美媒:美国看待中国的心态变了

美媒:美国看待中国的心态变了

环球时报国际
2026-01-23 00:09:22
北京又要下雪了,最高温将降至零下!

北京又要下雪了,最高温将降至零下!

鲁中晨报
2026-01-23 17:19:11
《罪人》破纪录入围16项奥斯卡提名,《一战再战》紧随其后

《罪人》破纪录入围16项奥斯卡提名,《一战再战》紧随其后

澎湃新闻
2026-01-22 23:07:05
美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

阿校谈史
2026-01-23 09:49:45
美军连夜撤离,把台湾扔给解放军!055带刀侍卫杀到,北京:收网

美军连夜撤离,把台湾扔给解放军!055带刀侍卫杀到,北京:收网

素衣读史
2026-01-22 19:13:20
男子用SIM卡炼出191克黄金?专家:需消耗大约40万张 且有污染风险

男子用SIM卡炼出191克黄金?专家:需消耗大约40万张 且有污染风险

看看新闻Knews
2026-01-23 19:29:15
不婚不育,52岁苏有朋痛哭:我恨了自己30年,还被迫当爸爸……

不婚不育,52岁苏有朋痛哭:我恨了自己30年,还被迫当爸爸……

有书
2026-01-22 19:09:08
曝理想汽车将关闭门店,工厂“被放假”

曝理想汽车将关闭门店,工厂“被放假”

电动知家
2026-01-23 10:38:03
案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

五元讲堂
2024-12-24 16:57:49
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

近史谈
2026-01-23 21:18:48
70岁费玉清近况曝光!与56岁知己相依为伴,无儿无女一生痴等一人

70岁费玉清近况曝光!与56岁知己相依为伴,无儿无女一生痴等一人

代军哥哥谈娱乐
2026-01-20 11:21:43
加盟3年正赛仍0冠!曝C罗明夏告别沙特+42岁退役,距千球仅差40粒

加盟3年正赛仍0冠!曝C罗明夏告别沙特+42岁退役,距千球仅差40粒

我爱英超
2026-01-23 07:41:14
铁血网关闭始末,青春的陪伴,曾让我以为歼-8真的可以对抗F-22

铁血网关闭始末,青春的陪伴,曾让我以为歼-8真的可以对抗F-22

干史人
2026-01-18 07:10:03
53岁大哥肠癌去世,生前爱吃蔬菜,医生:祸根藏在3个细节里

53岁大哥肠癌去世,生前爱吃蔬菜,医生:祸根藏在3个细节里

阿兵科普
2026-01-23 20:44:21
一箱油半箱税,电车零成本上路?2026年政策调整,油电公平来了?

一箱油半箱税,电车零成本上路?2026年政策调整,油电公平来了?

现代小青青慕慕
2026-01-18 13:52:27
2026-01-24 00:03:00
爱不爱都依你
爱不爱都依你
爱不爱都依你
226文章数 76关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

房产
家居
游戏
本地
亲子

房产要闻

正式官宣!三亚又一所名校要来了!

家居要闻

在家度假 160平南洋混搭宅

传闻:PS5生命周期将拉长 PS6发售时间大幅推迟

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

亲子要闻

“一个桃就拐走了!”宝妈在水果店频频拒绝女儿,评论区太真实!

无障碍浏览 进入关怀版