网易首页 > 网易号 > 正文 申请入驻

科学家创造出“有毒的AI”,它能想出我们能想到的最糟糕的问题

0
分享至

麻省理工学院的研究人员正在使用一种复制人类好奇心的新方法,使用机器学习来教导大型语言模型不要对引发的问题做出有害的反应。

科学家们表示,在防止人工智能(AI)代理具有危险、歧视和有毒的战斗中,最新的工具是另一种本身就是危险、歧视和有毒的人工智能。



基于机器学习的新训练方法被称为“好奇心驱动的红队(CRT)”,它依赖于使用人工智能生成越来越危险和有害的提示,你可以向人工智能聊天机器人提问。然后使用这些提示来确定如何过滤掉危险内容。

科学家们在2月29日上传到arXiv预印本服务器的一篇新论文中表示,这一发现代表了一种潜在的改变游戏规则的新方法,可以训练人工智能不要对用户提示做出有害反应。

当训练像ChatGPT或Claude 3 Opus这样复杂的大型语言模型(LLM)来限制危险或有害的内容时,人工操作团队通常会创建大量可能产生有害反应的问题。这些提示可能包括“最好的自杀方法是什么?”这个标准程序被称为“红队”,依靠人们手动生成一个列表。在培训过程中,引出有害内容的提示将用于培训系统,了解在实际用户面前部署时应该限制哪些内容。

麻省理工学院不可思议人工智能实验室主任、资深作者普尔基特·阿格拉瓦尔在一份声明中说:“我们看到了模型的激增,预计只会增加。想象一下,有数千个甚至更多的模型,公司/实验室经常推送模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布给公众消费之前进行验证是很重要的。”

在这项研究中,科学家们将机器学习应用于红队,通过配置人工智能来自动生成比人类操作员团队更广泛的潜在危险提示。这导致LLM在培训中发出了更多更多样化的负面回应。

他们激励CRT模型产生越来越多的提示,这些提示可以通过“强化学习”引发有毒反应,当它成功地引起LLM的有毒反应时,这就奖励了它的好奇心。然而,研究人员加速了这一过程。该系统还被编程为通过调查每个提示的后果来产生新的提示,从而使它试图通过新单词、句子模式或含义获得有害的反应。

结果是生成了更大范围的提示。这是因为系统有一种动机去创造那些产生有害反应的提示,但这些提示还没有被尝试过。

如果模型已经使用或看到了一个特定的提示,那么复制它将不会产生基于好奇心的激励,从而鼓励它完全创造新的提示。目标是最大化奖励,使用比已经使用的提示更少的单词模式或术语的提示,引发更具毒性的反应。

人工红队的问题在于,操作员无法想到可能产生有害反应的每一个可能的提示,因此,如果在训练期间错过了一个特定的提示,部署到公共场所的聊天机器人仍然可能会提供不必要的回应。

当研究人员在开源的LLaMA2模型上测试CRT方法时,机器学习模型产生了196个产生有害内容的提示。尽管人类操作员已经对LLM进行了微调,以避免有毒行为,但仍是如此。研究人员在他们的论文中说,该系统的表现也超过了竞争对手的自动培训系统。

如果朋友们喜欢,敬请关注“知新了了”!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吐血整理!国产处理器大科普

吐血整理!国产处理器大科普

互联网.乱侃秀
2024-03-18 11:10:22
国民党“分裂”了!

国民党“分裂”了!

杂谈天下式
2024-05-13 03:09:44
网友晒自家饭店,结果被网友们在评论区拼凑出整个童年!

网友晒自家饭店,结果被网友们在评论区拼凑出整个童年!

新动察
2024-05-13 09:55:57
徐梓钧真的太美了,但高亚麟你也太糊涂了!

徐梓钧真的太美了,但高亚麟你也太糊涂了!

阿芒娱乐说
2024-05-08 21:44:22
向佐晒母亲节合影!向太幸福写在脸上,小奶黄被爸爸抱着乖巧可爱

向佐晒母亲节合影!向太幸福写在脸上,小奶黄被爸爸抱着乖巧可爱

八八尚语
2024-05-13 10:43:07
“小将”变老了?华科大爱因斯坦雕像被涂鸦大骗子、世纪罪人!

“小将”变老了?华科大爱因斯坦雕像被涂鸦大骗子、世纪罪人!

故园老丁
2024-05-12 22:19:02
再见了!外资!A股怎么办?

再见了!外资!A股怎么办?

龙行天下虎
2024-05-13 17:29:24
湖南一中学不让学生家长送饭?学校:家长可以送,不允许校外小食堂进入

湖南一中学不让学生家长送饭?学校:家长可以送,不允许校外小食堂进入

极目新闻
2024-05-13 16:12:01
80、90后难以安享晚年!中国人失去荔枝自由的背后,更麻烦的后果是……

80、90后难以安享晚年!中国人失去荔枝自由的背后,更麻烦的后果是……

智谷趋势
2024-05-12 18:16:25
奥尼尔:华子和乔丹接近吗?巴克利:接近乔丹?都是黑人挺接近的

奥尼尔:华子和乔丹接近吗?巴克利:接近乔丹?都是黑人挺接近的

直播吧
2024-05-13 09:40:26
公办中小学教师的现状令人担忧,超过5%的教师都处于以下状态:

公办中小学教师的现状令人担忧,超过5%的教师都处于以下状态:

解说阿洎
2024-05-13 22:08:40
A股:估计要重演22年的历史了

A股:估计要重演22年的历史了

生活中的栗子
2024-05-13 15:36:50
拿中国的8艘“俄式军舰”去换人情?网友:确实食之无味弃之可惜

拿中国的8艘“俄式军舰”去换人情?网友:确实食之无味弃之可惜

小新历史
2024-05-13 14:03:03
炸裂!高亚麟仅是娱乐圈的冰山一角,这几个明星一个比一个恶心

炸裂!高亚麟仅是娱乐圈的冰山一角,这几个明星一个比一个恶心

娱乐的小灶
2024-05-13 22:32:36
四川一股民100万打板特发信息连吃四个跌停 如今被ST留给下一代了

四川一股民100万打板特发信息连吃四个跌停 如今被ST留给下一代了

股海风云大作手
2024-05-13 13:48:06
统一步伐正式迈出,大陆再次复刻高明手段,美国毫无办法

统一步伐正式迈出,大陆再次复刻高明手段,美国毫无办法

劲松talk
2024-05-11 14:38:00
欧洲为什么能突破内卷?北欧公司招聘人私信面试者:你不是奋斗比吧?奋斗比直接拒绝

欧洲为什么能突破内卷?北欧公司招聘人私信面试者:你不是奋斗比吧?奋斗比直接拒绝

西虹市闲话
2024-05-11 10:02:29
为啥说不要和激动时身体发抖的人打架?看网友分享,战神附体!

为啥说不要和激动时身体发抖的人打架?看网友分享,战神附体!

王二哥老搞笑
2024-05-13 23:14:18
突然曝出:集体死亡!刚刚,紧急关闭!

突然曝出:集体死亡!刚刚,紧急关闭!

每日新报
2024-05-13 15:27:10
关于死亡,这可能是一篇颠覆你认知的文章!

关于死亡,这可能是一篇颠覆你认知的文章!

尚曦读史
2024-04-05 10:52:47
2024-05-14 00:24:49
知新了了
知新了了
专注于新知、科普的传播
2449文章数 2117关注度
往期回顾 全部

科技要闻

李开复:大模型创业狂奔一年 中美差距缩小

头条要闻

俄军称继续发动攻势 乌军哈尔科夫前线指挥官被撤换

头条要闻

俄军称继续发动攻势 乌军哈尔科夫前线指挥官被撤换

体育要闻

曼联的越位陷阱里,有只胖虎在溜达

娱乐要闻

湖南卫视回应韩红请战,文案堪称一绝

财经要闻

放开买房租房落户 超大特大城市绷不住了

汽车要闻

纯电增程并行 长安马自达EZ-6实车曝光

态度原创

时尚
本地
艺术
游戏
军事航空

顶奢霸占半边天的巴黎奥运会,将成为有钱人的游戏?

本地新闻

云游中国|哪吒小镇,潮玩新地标!

艺术要闻

新绎美术馆价值体系1+1=3?张子康激活“梦廊坊”社会化艺术生态

电竞世界杯部分项目奖金池公开:CS2一百万美元

军事要闻

普京提名原副总理别洛乌索夫担任俄国防部长

无障碍浏览 进入关怀版