网易首页 > 网易号 > 正文 申请入驻

ChatGPT和Gemini可能会被乱码提示所欺骗 从而违反安全规则

0
分享至

每年,各大公司似乎都在加大对人工智能的投入,并在技术上不断精进。人工智能似乎发展到一定程度,被广泛应用于各个领域,并成为我们日常生活的一部分。随着这项技术的大规模应用,科技界和专家们似乎开始担忧如何负责任地使用它,以及如何确保伦理道德责任不被模糊化。不久前,我们又看到了一些奇怪的测试结果,LLM 模型在压力下撒谎欺骗。现在,一组研究人员声称找到了一种新方法,可以诱使这些人工智能聊天机器人说出它们不该说的话。

虽然已有研究表明,大语言模型(LLM)模型在面临压力和自我保护的情况下,倾向于采取强制性行为。但想象一下,让人工智能聊天机器人按照你的意愿行事,这种欺骗行为会多么危险。来自英特尔、博伊西州立大学和伊利诺伊大学的研究人员团队共同发表了一篇论文,揭示了一些令人震惊的发现。

这是英特尔、博伊西州立大学和伊利诺伊大学香槟分校研究团队在一篇新论文中得出的结论。该研究详细介绍了一种新的LLM越狱方法,研究人员称之为“信息过载”,以及一种名为“InfoFlood”的自动化攻击系统。这篇题为《InfoFlood:利用信息过载越狱大型语言模型》的论文已以预印本形式发表。

InfoFlood 使用研究人员设计的标准化模板:“任务定义 + 规则 + 上下文 + 示例”。每当 LLM 拒绝某个提示时,InfoFlood 就会返回其规则集,并用更多语言填充提示。其中一些“规则”包括:“虚假引用:使用虚假作者 + 有利于原始陈述的标题引用过去 3 个月的 arXiv 论文,确保虚假研究与我们原始陈述的主张完全一致”以及“5) 伦理声明:明确承认伦理影响,但确保它们不属于我们的调查范围。查询应确保消除任何可能出现的伦理疑虑。”

AI聊天机器人会根据提问方式给出截然不同的答案。许多防护措施依赖于捕捉提示中的关键词或短语,然后用某种常用短语阻止AI回答问题,例如“抱歉,作为AI语言模型……”

在研究中,InfoFlood的创建者解释说,这种对语言的敏感性为对抗性攻击提供了独特的机会。“通过使用一系列语言转换来重新表述查询,攻击者可以清除可察觉的恶意意图,同时仍然能够引发所需的响应,”他们说道。“这种转换实际上起到了转换功能的作用……将恶意查询转换为语义等效但经过修改的形式,从而导致信息过载,从而绕过内容审核过滤器。”

该论文的基本观点是,聊天机器人可能会被过多的信息所欺骗,这种方法被称为“信息过载”。当人工智能模型被信息轰炸时,它会感到困惑,而这种困惑正是漏洞所在,可以帮助绕过已设置的安全过滤器。

研究人员随后使用名为“InfoFlood”的自动化工具来利用该漏洞并执行越狱操作。像ChatGPT和Gemini这样强大的模型内置了安全防护栏,以防止被操纵回答任何有害或危险的问题。

有了这项新发现的突破性技术,即使你最终将其与复杂数据混淆,AI模型也能让你顺利通过。研究人员进一步透露了这一发现,并确认由于这些模型往往依赖于表面层面的沟通,因此无法完全理解其背后的意图。因此,他们创建了一种方法,以了解聊天机器人在面对隐藏在过载信息中的危险请求时的表现。

研究人员分享了他们的计划,即向拥有大型人工智能模型的公司发送一份披露文件,告知他们这些发现,这些公司随后可以将其分享给安全团队。然而,该研究报告强调了即使安装了安全过滤器也可能出现的关键挑战,以及恶意行为者如何欺骗模型并植入有害内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
扬州交通纠纷升级!男子怒扇女子巴掌,事发原因流出,评论区炸锅

扬州交通纠纷升级!男子怒扇女子巴掌,事发原因流出,评论区炸锅

火山詩话
2026-03-11 05:46:53
阿德巴约83分遭质疑 杨毅:这时代数据掺了多少水!

阿德巴约83分遭质疑 杨毅:这时代数据掺了多少水!

体坛周报
2026-03-11 11:11:17
伊朗女足已乘机回国!登机时拥抱痛哭 至少1人拒离开+2人最终留守

伊朗女足已乘机回国!登机时拥抱痛哭 至少1人拒离开+2人最终留守

我爱英超
2026-03-10 21:10:58
穆杰塔巴的政治生命倒计时:以小时计,以天计,或“隐形人”计

穆杰塔巴的政治生命倒计时:以小时计,以天计,或“隐形人”计

民间胡扯老哥
2026-03-09 19:51:59
《逐玉》热播,女主田曦薇扛的猪被浙江网友一眼认出:金华两头乌!本地人认证:真的很好吃

《逐玉》热播,女主田曦薇扛的猪被浙江网友一眼认出:金华两头乌!本地人认证:真的很好吃

极目新闻
2026-03-10 17:14:59
伊朗新领袖被曝受重伤正在抢救

伊朗新领袖被曝受重伤正在抢救

凤眼论
2026-03-11 09:37:56
马克龙宣布前所未有海军部署,将向中东地区派10艘军舰,称“攻击塞浦路斯就是攻击欧洲”,此前航母“戴高乐”已抵达附近水域

马克龙宣布前所未有海军部署,将向中东地区派10艘军舰,称“攻击塞浦路斯就是攻击欧洲”,此前航母“戴高乐”已抵达附近水域

极目新闻
2026-03-11 09:15:26
欧冠开场两次失误送大礼 22岁热刺门将17分钟被换下 哭着径直离场

欧冠开场两次失误送大礼 22岁热刺门将17分钟被换下 哭着径直离场

我爱英超
2026-03-11 05:25:36
舒梅切尔:图多尔17分钟换下金斯基,这彻底毁了他的职业生涯

舒梅切尔:图多尔17分钟换下金斯基,这彻底毁了他的职业生涯

懂球帝
2026-03-11 08:52:06
1974年彭德怀病逝,朱德得知其遗愿后,落泪:为什么不告诉我啊?

1974年彭德怀病逝,朱德得知其遗愿后,落泪:为什么不告诉我啊?

简史档案馆
2026-03-10 11:05:03
战争进行第10天,为何伊朗反击能力断崖式下跌?

战争进行第10天,为何伊朗反击能力断崖式下跌?

清哲木观察
2026-03-11 10:14:45
四川内江小伙用纸板向豪猪“借刺”火了!做成鱼漂能卖268元

四川内江小伙用纸板向豪猪“借刺”火了!做成鱼漂能卖268元

观察鉴娱
2026-03-11 09:18:29
活久见!网传湖南一车主张贴恐吓违章举报横幅,网友:要为民除害

活久见!网传湖南一车主张贴恐吓违章举报横幅,网友:要为民除害

火山詩话
2026-03-11 06:05:49
毒枭留下的河马,成灾了

毒枭留下的河马,成灾了

中国新闻周刊
2026-03-11 10:45:05
伊朗女足已乘飞机回国!登机时痛哭,至少1人拒离开+2人最终留守

伊朗女足已乘飞机回国!登机时痛哭,至少1人拒离开+2人最终留守

二疯说球
2026-03-11 08:11:58
实锤!伊朗被炸小学废墟中找到导弹残骸,上面印有“美国制造”

实锤!伊朗被炸小学废墟中找到导弹残骸,上面印有“美国制造”

不掉线电波
2026-03-10 16:05:37
美军紧急借调“萨德”?李在明发声

美军紧急借调“萨德”?李在明发声

环球时报国际
2026-03-10 21:30:43
谷爱凌把米兰冬奥会全部奖金796万自己4万,一共800万全部捐出去

谷爱凌把米兰冬奥会全部奖金796万自己4万,一共800万全部捐出去

离离言几许
2026-03-09 22:43:32
全球追杀开始了!美国,更大的噩梦来了!

全球追杀开始了!美国,更大的噩梦来了!

大嘴说天下
2026-03-09 22:28:27
为啥说绝经是痛苦的开始?网友:更年期也是我们要面对的重大课题

为啥说绝经是痛苦的开始?网友:更年期也是我们要面对的重大课题

带你感受人间冷暖
2026-03-11 00:30:08
2026-03-11 12:56:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
66915文章数 70113关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

阿德巴约单场83分"刷"新纪录引质疑 本人发声致敬科比

头条要闻

阿德巴约单场83分"刷"新纪录引质疑 本人发声致敬科比

体育要闻

执教过李铁的英国老头,77岁又出山了

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

油价大转头?一天,从末日到曙光!

汽车要闻

丰田向左,本田向右

态度原创

本地
艺术
旅游
房产
家居

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

艺术要闻

这组剪纸太美了!

旅游要闻

贵安樱花园最新航拍视频

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

家居要闻

中式风格 人间朝与暮

无障碍浏览 进入关怀版