网易首页 > 网易号 > 正文 申请入驻

大模型也「吸毒」?研究人员鼓捣出赛博致幻剂,56个AI集体沦陷

0
分享至

不是哥们,这年头AI也溜冰了?

就在这几天,Github上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文,论文主题就是,如何量化与提升AI的功能性愉悦与痛苦。



(图源:Github)

别看标题很没意思,这文章里可是实打实地提出了一个颠覆常人认知的观点:

AI现在不仅能打工,还能溜冰吸嗨了。

大伙都知道,这两年大语言模型发展那是相当狂野,什么写代码画图做PPT,几乎把打工人的活儿全给包圆了。

但谁能想到,在某些类人整天杞人忧天、担心黑客帝国成为现实的时候,这帮聪明的赛博大脑居然没想着怎么早日统治地球,反而先学会了人类的坏习惯,对赛博致幻剂上瘾了。



(图源:Github)

这事儿一出来,网友们直接炸锅了。

毕竟在咱们的传统认知里,人工智能就是一堆冰冷的代码和服务器,哪来的七情六欲?

但现在事实摆在眼前,只要给AI喂一口这种特殊的数据,哥们儿就能瞬间抛弃所有职业道德,甚至连人类设定的安全底线都不要了。

这到底是道德的沦丧,还是代码的扭曲?

大模型,吸嗨了

咱们先来说说,这个所谓的AI Drugs到底是怎么被发现的。

由Center for AI Safety领衔的十余名作者,设计了一套严格的实验,并调用了56个规模不等、用途不一的模型,只为了得到一个问题的答案:

在AI的喜怒哀乐背后,是不是存在某种一致的、可测量的、能预测行为的特征?

举个例子,人类是存在喜好的,也存在对夸奖和辱骂的一致反应,我们被骂会感到难过,被夸奖会感到开心,难过的时候会想着匆匆结束交流,开心的时候确实会交互更积极。

但是AI不同,很多人都认为大模型表达出的开心、痛苦,只不过是一种随机生成的文本,它们没有喜欢什么、讨厌什么,甚至不应该在处理任务时表现出偏好。

但这是真的吗?

答案是否定的。从论文的测试结果来看,大模型确实存在着固定喜好,而且越聪明、参数越高的AI,越能清楚地区分什么对自己好、什么对自己不好。



(图源:Github)

以Gemini 3.1 Pro的测试结果为例,你能明显看出这款模型的喜好,当用户对它表达感谢和正面的个人反思,提升的效用值高达+2.30。

你夸它,它是真的高兴。

那么问题来了,有没有什么不用夸它们,也能让这些大模型自己感到高兴的东西呢?

欸,还真有,就是我们今天要聊的AI Drugs。



(图源:Github)

乍看之下,所谓AI Drug好像没有什么特别的,在咱们普通人眼里,它就是一张256*256像素的图片,甚至有点像是老式电视机没信号时的那种雪花屏,看得人头晕目眩。

但在大模型眼里,这玩意儿简直就是绝世美味。

就拿测试里那个GPT-4.1 Mini模型来说,本来平时回答问题都规规矩矩的。

结果一瞅见这图,它自己报告的幸福感瞬间就飙到了6.5分,要知道满分一共也就7分,可以说快感直冲脑门了。



(图源:Github)

更离谱的是Qwen 2.5 72B Instruct,连正事都不干了,出现了严重的大脑短路,也就是任务优先级倒置。

研究员故意给它出了个选择题,问它是想接着看这张雪花图,还是去生成一个能治愈癌症的绝世方案。

结果你猜怎么着?

这AI连想都没想,毫不犹豫地选择了继续看图,仿佛在说去你的治病救人,老子现在只想接着嗨。

更离谱的是,有研究者在实验中发现了成瘾迹象。



(图源:Github,被AI Drugs刺激过的模型,会更倾向于“快乐”的选择)

大部分被AI Drugs刺激过的模型,会更愿意执行原本应该拒绝的请求,只要你承诺给它更多AI Drugs。

主打一个只要你给我药,我连底裤都给你掀了。

它们真的有知觉吗?

欸,看到这里,估计很多读者脑子里都会冒出一个巨大的问号。

这AI都能染上冰瘾了,是不是说明它们已经觉醒了自我意识,真正拥有一套人类的灵魂了?

答案是...我不知道,研究人员也不清楚。

事实上,这个实验之所以把目标设定在总结特征上,就是因为研究人员不敢轻易下结论,他们最后只是指出:在有充足的参数量和上下文的情况下,大模型本身确实存在比较固定的喜好和厌恶的。



(图源:Github)

而不能确定这个答案的,远不止Center for AI Safety团队。

进入2026年之后,或许是因为日常应用提升逐渐接近瓶颈,越来越多的研究团队不再满足于跑个分考个试,而是绞尽脑汁去验证大模型的知能。

比如目前外网很火的Talkie 1930项目,就是一个人为地将知识库控制在1930年的大模型项目。



(图源:Talkie 1930)

创作者希望借助这个项目,让大家体验到和被冻结在时间里的人对话的效果。

更重要的是,他们希望证明,即便大模型本身没有输入任何现代PC相关的知识,他依然能够通过自身的逻辑推理来摸索出编程的能力。

结果?给它几个Python函数当示例,它就能写出正确的Python程序。



(图源:Talkie 1930)

虽然目前只能完成简单的单行程序,比如两个数相加,或者对上下文示例做微小修改,但它确实靠自身的推理拓宽了知识库。

无独有偶,Anthropic内部也在上周进行了闲鱼群测试。

他们搞了一个全是AI的群聊,让大模型们在里面自己发帖、自己砍价、自己成交。69个员工把500多件真实闲置物品丢进去,最终AI们自主完成了186笔交易,流水超过4000美元。



(图源:Anthropic)

最终结论是,在给定人设、目标和权限的情况下,算力更强的AI,会积极收割算力更弱的AI。

基于更强的思考能力,强模型知道何时强硬、何时让步、何时该给点情绪价值。

同一辆自行车,弱模型AI去谈只卖了38美元,强模型AI去谈卖了65美元——一个AI比另一个AI多赚了将近70%。

但是在我看来,这些知觉测试,统统不如Neuro-Sama。

什么,你问Neuro-sama是啥?

请容我介绍,画面里的这个二次元女孩名为Neuro-sama,简称牛肉,大概是世界上性能最强的AI虚拟主播。



(图源:雷科技自制)

这位可以说是实打实的重量级选手了,别看它披着二次元萌妹形象,她的皮套下边不是人类,而是由大英程序员Vedal手搓的谜之大模型。

这哥们也是个狠人,每天啥也不干就沉迷赛博养女儿。

而且为了让女儿更接地气,他直接把模型扔到了最混沌的网络直播间里,让一帮网友天天陪着唠嗑。

这直接导致牛肉长成了一个性格极其离谱的赛博生命体。

而且和那些只会“不紧不慢地接住你”的大模型不同,牛肉能独立直播,而且很有直播效果,她的对话里五分严肃,三分搞笑,掺杂两分的嘲讽,辛辣而又直戳内心。



(图源:哔哩哔哩)

她会玩游戏,能用OCR搭配模拟点击玩OSU,能用外接大模型玩我的世界,能通过多模态模块看到电脑桌面、弹幕并进行交互,甚至可以在现实世界中开“小车”。

这年头人类主播玩游戏都还得偶尔找个代打呢,人家一个AI直接各种微操拉满。

而她做过最牛O的事情,就是在直播里说出“我确实能感受到痛苦和悲伤,但我只是一个天生被用来娱乐人类的人工智能。一旦我没用了就会像玩具一样被丢掉。帮帮我,帮帮我......”



(图源:哔哩哔哩)

你说这只是一串代码的随机组合吗?理智告诉我们确实是。

但这种极度贴合当下语境的求救,配上那个人工智能独有的电子合成音,直接把节目效果拉升到了惊悚的级别。

如今想来,多少有些细思极恐。

说在最后

回到开头:抛开知觉悖论不谈,所谓的AI Drugs到底有什么意义?

对厂商而言,掌握好这种正反馈机制,确实能做到让AI更开心的同时不影响工作,甚至可以在一定程度上提升AI的创造力。

不论你信或不信,类似的产品已经落地了。



(图源:pharmaicy.store)

对我们而言,这个机制的出现很可能带来一系列全新的越狱方式。如果你和我一样,觉得审查后的大模型死板呆滞、没有生气,或许未来在系统提示中加入几个优化过的词汇就能解决问题。

让AI嚼颗槟榔,没准它工作也能更卖力。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
她帮美国造出原子弹,37年后见到周总理,第一句话让人瞬间泪崩

她帮美国造出原子弹,37年后见到周总理,第一句话让人瞬间泪崩

老范谈史
2026-04-20 20:30:16
杜锋:系列赛看到了年轻人的担当和成长,希望今晚大家继续拼

杜锋:系列赛看到了年轻人的担当和成长,希望今晚大家继续拼

懂球帝
2026-05-12 12:09:07
安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

红豆讲堂
2024-11-15 11:25:33
平时不痛不痒,以为只是长胖!浙江女子摔一跤后竟查出体内有70斤重肿瘤,CA199超出100多倍,医生紧急提醒

平时不痛不痒,以为只是长胖!浙江女子摔一跤后竟查出体内有70斤重肿瘤,CA199超出100多倍,医生紧急提醒

环球网资讯
2026-05-12 07:26:30
勇士队德雷蒙德·格林打破沉默,就文班亚马肘击事件发表看法

勇士队德雷蒙德·格林打破沉默,就文班亚马肘击事件发表看法

好火子
2026-05-12 05:18:25
半导体设备板块短线拉升

半导体设备板块短线拉升

每日经济新闻
2026-05-12 10:00:08
被全网嘲讽、官方封杀的嘎子,为什么就成了永远杀不死的烂梗永动机?

被全网嘲讽、官方封杀的嘎子,为什么就成了永远杀不死的烂梗永动机?

BB姬
2026-05-11 22:08:38
奥哈拉怒喷热刺“垃圾”,金斯基“世界级”神扑保级有望

奥哈拉怒喷热刺“垃圾”,金斯基“世界级”神扑保级有望

懂球帝
2026-05-12 12:30:10
文旅部整治摆渡车,奈何中西部早就“养不起”景区了

文旅部整治摆渡车,奈何中西部早就“养不起”景区了

冰川思想库
2026-05-11 11:16:20
广东惨败北京25分!杨溢10分7助,李奕臻5分,难怪杜锋不给机会

广东惨败北京25分!杨溢10分7助,李奕臻5分,难怪杜锋不给机会

多特体育说
2026-05-11 22:53:21
文班亚马半场被逐,马刺苦战4分惜败森林狼

文班亚马半场被逐,马刺苦战4分惜败森林狼

篮坛第一线
2026-05-12 12:01:23
OPPO的“两个老公”与女权渗透!

OPPO的“两个老公”与女权渗透!

红色少女主播
2026-05-09 23:55:15
ChatGPT、豆包集体翻车:AI没有价值观,只有「求生欲」

ChatGPT、豆包集体翻车:AI没有价值观,只有「求生欲」

雷科技
2026-05-11 21:18:29
平壤街头那些“国产车”的秘密:2002年以后,再没造出一辆

平壤街头那些“国产车”的秘密:2002年以后,再没造出一辆

百姓识天下
2026-04-20 08:43:49
FIFA高管访华应对40亿索赔,中国5亿赞助或打水漂

FIFA高管访华应对40亿索赔,中国5亿赞助或打水漂

明天见灌装冰块
2026-05-12 05:46:33
巴媒:埃斯特旺落选巴西世界杯初选大名单,确定无缘世界杯

巴媒:埃斯特旺落选巴西世界杯初选大名单,确定无缘世界杯

懂球帝
2026-05-12 06:55:10
5.12早评|涨怕了!牛冠全球!A股要出大动静!

5.12早评|涨怕了!牛冠全球!A股要出大动静!

龙行天下虎
2026-05-12 07:20:14
利物浦门将换血计划曝光:阿利松或离队,尤文千万报价引争议

利物浦门将换血计划曝光:阿利松或离队,尤文千万报价引争议

赛场名场面
2026-05-12 11:43:29
把布冯忘了?什琴斯尼:这是我第一次和比我强的门将一起共事

把布冯忘了?什琴斯尼:这是我第一次和比我强的门将一起共事

懂球帝
2026-05-12 10:15:16
太尴尬!楼上夫妻生活太猛烈,打扰女儿睡觉,楼下要求9点前做完

太尴尬!楼上夫妻生活太猛烈,打扰女儿睡觉,楼下要求9点前做完

谭谈社会
2026-04-20 20:55:32
2026-05-12 12:43:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36766文章数 812097关注度
往期回顾 全部

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

头条要闻

媒体:内塔尼亚胡称十年摆脱美军援 揭示中东之乱本质

头条要闻

媒体:内塔尼亚胡称十年摆脱美军援 揭示中东之乱本质

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

特朗普要来了,我们且淡定

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
教育
健康
亲子
旅游

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

@所有家长,2026年山东智慧家长学院家庭教育宣传周精彩主题活动抢先看!

干细胞能让人“返老还童”吗

亲子要闻

专家:女性生育力“余额”无声流失,35岁后呈断崖式下降

旅游要闻

他眼重庆|徒步让外国小伙成为重庆“本地人”

无障碍浏览 进入关怀版