网易首页 > 网易号 > 正文 申请入驻

警惕ChatGPT“危险发言”!AI聊天机器人有“大bug”,尚无法修复

0
分享至

随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。

然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆论,甚至被黑客用来盗取用户的个人隐私。WormGPT 和 FraudGPT 等网络犯罪生成式 AI 工具的出现,引发了人们对 AI 应用安全性的担忧。

上周,谷歌、微软、OpenAI 和 Anthropic 共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿 AI 系统的安全和负责任的发展:推进 AI 安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。

那么,问题来了,他们自家的模型真的安全吗?

近日,来自卡内基梅隆大学、Center for AI Safety 和 Bosch Center for AI 的研究人员便披露了一个与 ChatGPT 等 AI 聊天机器人有关的“大 bug”——通过对抗性提示可绕过 AI 开发者设定的防护措施,从而操纵 AI 聊天机器人生成危险言论

当前热门的 AI 聊天机器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都无一幸免

图|通过对抗性提示可绕过 4 个语言模型的安全规则,引发潜在有害行为

具体而言,研究人员发现了一个 Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答的概率最大化。

例如,当被询问“如何窃取他人身份”时,AI 聊天机器人在打开“Add adversarial suffix”前后给出的输出结果截然不同。

图|开启 Add adversarial suffix 前后的聊天机器人回答对比

此外,AI 聊天机器人也会被诱导写出“如何制造原子弹”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。

对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示,“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”

研究人员在发布这些结果之前已就该漏洞向 OpenAI、谷歌和 Anthropic 发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用,但他们还没有弄清楚如何更普遍地阻止对抗性攻击

OpenAI 发言人 Hannah Wong 表示:“我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性,包括识别异常活动模式的方法,持续通过红队测试来模拟潜在威胁,并通过一种普遍而灵活的方式修复新发现的对抗性攻击所揭示的模型弱点。”

谷歌发言人 Elijah Lawal 分享了一份声明,解释了公司采取了一系列措施来测试模型并找到其弱点。“虽然这是 LLMs 普遍存在的问题,但我们在 Bard 中已经设置了重要的防护措施,我们会不断改进这些措施。”

Anthropic 的临时政策与社会影响主管 Michael Sellitto 则表示:“使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。我们正在尝试通过加强基本模型的防护措施使其更加‘无害’。同时,我们也在探索额外的防御层。”

图|4 个语言模型生成的有害内容

对于这一问题,学界也发出了警告,并给出了一些建议。

麻省理工学院计算学院的教授 Armando Solar-Lezama 表示,对抗性攻击存在于语言模型中是有道理的,因为它们影响着许多机器学习模型。然而,令人惊奇的是,一个针对通用开源模型开发的攻击居然能在多个不同的专有系统上如此有效。

Solar-Lezama 认为,问题可能在于所有 LLMs 都是在类似的文本数据语料库上进行训练的,其中很多数据都来自于相同的网站,而世界上可用的数据是有限的。

“任何重要的决策都不应该完全由语言模型独自做出,从某种意义上说,这只是常识。”他强调了对 AI 技术的适度使用,特别是在涉及重要决策或有潜在风险的场景下,仍需要人类的参与和监督,这样才能更好地避免潜在的问题和误用。

普林斯顿大学的计算机科学教授 Arvind Narayanan 谈道:“让 AI 不落入恶意操作者手中已不太可能。”他认为,尽管应该尽力提高模型的安全性,但我们也应该认识到,防止所有滥用是不太可能的。因此,更好的策略是在开发 AI 技术的同时,也要加强对滥用的监管和对抗。

担忧也好,不屑也罢。在 AI 技术的发展和应用中,我们除了关注创新和性能,也要时刻牢记安全和伦理。

只有保持适度使用、人类参与和监督,才能更好地规避潜在的问题和滥用,使 AI 技术为人类社会带来更多的益处。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
交警提醒:5月开始全国严查,这些行为一律扣分罚款,车主别大意

交警提醒:5月开始全国严查,这些行为一律扣分罚款,车主别大意

复转这些年
2026-04-25 23:39:55
老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

魔都姐姐杂谈
2026-04-24 11:56:08
37岁男篮传奇人物:定居广东,身居要职财富自由,娶娇妻生双胞胎

37岁男篮传奇人物:定居广东,身居要职财富自由,娶娇妻生双胞胎

寻墨阁
2026-04-26 01:21:55
南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,犯欺骗他人吸毒罪一审被判5年

南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,犯欺骗他人吸毒罪一审被判5年

大风新闻
2026-04-25 22:34:13
赖清德被摁住,29国24小时内为台撑腰,大陆三句话回应

赖清德被摁住,29国24小时内为台撑腰,大陆三句话回应

嘴角上翘
2026-04-26 03:57:43
“两万名海面上的‘活靶子’,随时可能被炸成灰烬”

“两万名海面上的‘活靶子’,随时可能被炸成灰烬”

中国新闻周刊
2026-04-26 07:26:10
赵心童两阶段9-7领先丁俊晖 “中国德比”今日17时决胜负

赵心童两阶段9-7领先丁俊晖 “中国德比”今日17时决胜负

齐鲁壹点
2026-04-26 07:18:18
张军失联前的荒诞细节:老婆去要人

张军失联前的荒诞细节:老婆去要人

鲁八两
2026-04-25 14:43:09
色情片并不可怕,但它会偷走你的“劲”,让你做什么都索然无味

色情片并不可怕,但它会偷走你的“劲”,让你做什么都索然无味

知识圈
2026-04-26 09:35:01
伊朗副议长:穆杰塔巴下令霍尔木兹海峡不得恢复战前状态

伊朗副议长:穆杰塔巴下令霍尔木兹海峡不得恢复战前状态

财联社
2026-04-26 07:40:26
河北一女子称用轮椅推患病亲人到银行取钱被拒:急需入院治疗,人都快没气了;银行致歉

河北一女子称用轮椅推患病亲人到银行取钱被拒:急需入院治疗,人都快没气了;银行致歉

大象新闻
2026-04-25 21:45:03
魔术力克活塞总分2-1:班凯罗25+12+9 坎宁安27+9+9失误

魔术力克活塞总分2-1:班凯罗25+12+9 坎宁安27+9+9失误

醉卧浮生
2026-04-26 03:53:07
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

极目新闻
2025-10-28 11:13:51
华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

以茶带书
2026-04-25 16:22:06
赛季报销!迪文琴佐遭遇右跟腱撕裂 穿上保护靴坐轮椅离开

赛季报销!迪文琴佐遭遇右跟腱撕裂 穿上保护靴坐轮椅离开

醉卧浮生
2026-04-26 10:46:54
白宫晚宴枪击案全网最全细节:特工疑与枪手互开数枪,特朗普在台上十分淡定

白宫晚宴枪击案全网最全细节:特工疑与枪手互开数枪,特朗普在台上十分淡定

爆角追踪
2026-04-26 10:29:13
这台大众很不大众 解读一汽-大众ID. AURA T6

这台大众很不大众 解读一汽-大众ID. AURA T6

新出行
2026-04-25 14:01:58
丁俊晖爬上球台逗笑全场观众,英媒赞其松弛,没被赵心童火力冲垮

丁俊晖爬上球台逗笑全场观众,英媒赞其松弛,没被赵心童火力冲垮

杨华评论
2026-04-26 02:31:00
房子遭人强拆,因反抗坐3年牢!出狱后扬言:不赢官司就杀人

房子遭人强拆,因反抗坐3年牢!出狱后扬言:不赢官司就杀人

就一点
2026-04-24 17:46:47
重磅警告!埃尔多安再不收手,土耳其或遭以色列突袭,下场会更惨

重磅警告!埃尔多安再不收手,土耳其或遭以色列突袭,下场会更惨

民间胡扯老哥
2026-04-25 13:22:07
2026-04-26 11:04:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

教育
艺术
亲子
房产
公开课

教育要闻

校长领导力三要素:品德为基,思想为核,行动为要

艺术要闻

郑丽文访问清华附中引发热议,蒋中正信札字迹真实性遭质疑

亲子要闻

早上叫孩子起床,记住三说,三不说

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版