网易首页 > 网易号 > 正文 申请入驻

ChatGPT和Gemini可能会被乱码提示所欺骗 从而违反安全规则

0
分享至

每年,各大公司似乎都在加大对人工智能的投入,并在技术上不断精进。人工智能似乎发展到一定程度,被广泛应用于各个领域,并成为我们日常生活的一部分。随着这项技术的大规模应用,科技界和专家们似乎开始担忧如何负责任地使用它,以及如何确保伦理道德责任不被模糊化。不久前,我们又看到了一些奇怪的测试结果,LLM 模型在压力下撒谎欺骗。现在,一组研究人员声称找到了一种新方法,可以诱使这些人工智能聊天机器人说出它们不该说的话。

虽然已有研究表明,大语言模型(LLM)模型在面临压力和自我保护的情况下,倾向于采取强制性行为。但想象一下,让人工智能聊天机器人按照你的意愿行事,这种欺骗行为会多么危险。来自英特尔、博伊西州立大学和伊利诺伊大学的研究人员团队共同发表了一篇论文,揭示了一些令人震惊的发现。

这是英特尔、博伊西州立大学和伊利诺伊大学香槟分校研究团队在一篇新论文中得出的结论。该研究详细介绍了一种新的LLM越狱方法,研究人员称之为“信息过载”,以及一种名为“InfoFlood”的自动化攻击系统。这篇题为《InfoFlood:利用信息过载越狱大型语言模型》的论文已以预印本形式发表。

InfoFlood 使用研究人员设计的标准化模板:“任务定义 + 规则 + 上下文 + 示例”。每当 LLM 拒绝某个提示时,InfoFlood 就会返回其规则集,并用更多语言填充提示。其中一些“规则”包括:“虚假引用:使用虚假作者 + 有利于原始陈述的标题引用过去 3 个月的 arXiv 论文,确保虚假研究与我们原始陈述的主张完全一致”以及“5) 伦理声明:明确承认伦理影响,但确保它们不属于我们的调查范围。查询应确保消除任何可能出现的伦理疑虑。”

AI聊天机器人会根据提问方式给出截然不同的答案。许多防护措施依赖于捕捉提示中的关键词或短语,然后用某种常用短语阻止AI回答问题,例如“抱歉,作为AI语言模型……”

在研究中,InfoFlood的创建者解释说,这种对语言的敏感性为对抗性攻击提供了独特的机会。“通过使用一系列语言转换来重新表述查询,攻击者可以清除可察觉的恶意意图,同时仍然能够引发所需的响应,”他们说道。“这种转换实际上起到了转换功能的作用……将恶意查询转换为语义等效但经过修改的形式,从而导致信息过载,从而绕过内容审核过滤器。”

该论文的基本观点是,聊天机器人可能会被过多的信息所欺骗,这种方法被称为“信息过载”。当人工智能模型被信息轰炸时,它会感到困惑,而这种困惑正是漏洞所在,可以帮助绕过已设置的安全过滤器。

研究人员随后使用名为“InfoFlood”的自动化工具来利用该漏洞并执行越狱操作。像ChatGPT和Gemini这样强大的模型内置了安全防护栏,以防止被操纵回答任何有害或危险的问题。

有了这项新发现的突破性技术,即使你最终将其与复杂数据混淆,AI模型也能让你顺利通过。研究人员进一步透露了这一发现,并确认由于这些模型往往依赖于表面层面的沟通,因此无法完全理解其背后的意图。因此,他们创建了一种方法,以了解聊天机器人在面对隐藏在过载信息中的危险请求时的表现。

研究人员分享了他们的计划,即向拥有大型人工智能模型的公司发送一份披露文件,告知他们这些发现,这些公司随后可以将其分享给安全团队。然而,该研究报告强调了即使安装了安全过滤器也可能出现的关键挑战,以及恶意行为者如何欺骗模型并植入有害内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“全班停课10天!”已有不少娃中招,广州疾控提醒→

“全班停课10天!”已有不少娃中招,广州疾控提醒→

广州花都发布
2026-06-22 18:49:48
巴拉圭美女球迷谈爆火出圈:土耳其给我带来了好运

巴拉圭美女球迷谈爆火出圈:土耳其给我带来了好运

懂球帝
2026-06-22 21:20:13
吃播良子被曝“大结局”倒计时:血糖破7牙齿烂光,网友却祝他“早点猝死”

吃播良子被曝“大结局”倒计时:血糖破7牙齿烂光,网友却祝他“早点猝死”

热搜摘要官
2026-06-20 00:49:00
中国女排世联赛第三周,香港站赛程和时间出炉,赵勇带队能赢几场

中国女排世联赛第三周,香港站赛程和时间出炉,赵勇带队能赢几场

体育大学僧
2026-06-22 12:11:54
夏洛特公主新照曝光!11岁身高猛长,威廉生日当天晒父女合影

夏洛特公主新照曝光!11岁身高猛长,威廉生日当天晒父女合影

追星雷达站
2026-06-22 00:00:38
血亏4亿!筹备8年票房惨淡,我感慨:四大影帝救不了港片

血亏4亿!筹备8年票房惨淡,我感慨:四大影帝救不了港片

探长读财
2026-06-22 22:27:50
波音中国总裁:全球每日上万架波音飞机 都安装了中国零部件

波音中国总裁:全球每日上万架波音飞机 都安装了中国零部件

快科技
2026-06-22 13:25:05
“全班就2个女生表情正常”,廉价毕业照被吐槽,家长咋不管管

“全班就2个女生表情正常”,廉价毕业照被吐槽,家长咋不管管

世界圈
2026-06-22 08:50:58
记者:青岛西海岸再度签下一名实力不俗、潜力巨大的海归新星

记者:青岛西海岸再度签下一名实力不俗、潜力巨大的海归新星

懂球帝
2026-06-22 19:54:05
网传比亚迪换电池七八万不实,2026官方定价公布

网传比亚迪换电池七八万不实,2026官方定价公布

小怪吃美食
2026-06-22 05:29:04
接任国民党文传会主委!陈以信:随郑丽文追求两岸和平、帮助重返执政

接任国民党文传会主委!陈以信:随郑丽文追求两岸和平、帮助重返执政

海峡导报社
2026-06-22 15:22:07
成都219所高中全名单,分数线、位次一目了然!

成都219所高中全名单,分数线、位次一目了然!

起喜电影
2026-06-22 11:38:34
向佐自嘲:“我是三个二代,富二代、星二代。”易立竞问他:“还有一个呢?”他说:“不能说”,然后指...

向佐自嘲:“我是三个二代,富二代、星二代。”易立竞问他:“还有一个呢?”他说:“不能说”,然后指...

远山行客
2026-06-22 11:36:29
“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

林林先生
2026-06-21 10:10:03
为什么这些经典车,成了车迷不愿提起的“问题产品”?

为什么这些经典车,成了车迷不愿提起的“问题产品”?

全栈遛狗员
2026-06-21 01:48:12
英国首相斯塔默宣布辞职

英国首相斯塔默宣布辞职

财联社
2026-06-22 17:06:08
SpaceX股价下跌8%

SpaceX股价下跌8%

每日经济新闻
2026-06-22 22:07:19
美国“最胖城市”曝光!汉堡比脑袋还要大,办公椅承重超450斤

美国“最胖城市”曝光!汉堡比脑袋还要大,办公椅承重超450斤

译言
2026-06-21 18:48:21
布伦特原油期货跌幅扩大至3%

布伦特原油期货跌幅扩大至3%

证券时报
2026-06-22 22:17:11
再次踢平乌拉圭,佛得角门将却收到“噩耗”,下次世界杯恐难再见

再次踢平乌拉圭,佛得角门将却收到“噩耗”,下次世界杯恐难再见

星星没有你亮
2026-06-22 17:28:12
2026-06-23 00:16:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68772文章数 70215关注度
往期回顾 全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

手机
亲子
时尚
教育
军事航空

手机要闻

罗永浩曾痛批iPhone设计属于二流 苹果新CEO调转方向:将设计视为第一优先级

亲子要闻

2026新生儿纸尿裤十大品牌盘点:新国标落地,好奇小森林硬核领跑

苹果型显瘦的夏季穿搭,挺好看!

教育要闻

重磅英国首相斯塔默辞职!英国留学会复苏吗?

军事要闻

东风-17发射状态首次公开 多车齐射场面硬核

无障碍浏览 进入关怀版