网易首页 > 网易号 > 正文 申请入驻

当AI被逼到极限:惊人后果引发深思

0
分享至

现代 AI 系统通常被认为是可信的,能够遵循安全规则。人们依赖它们来学习和日常生活,常常假设这些强有力的保护措施始终有效。

来自 Cybernews 的研究人员进行了结构化的对抗性测试,旨在查看领先的 AI 工具 是否会被引导产生有害或非法的结果。

这个过程为每次试验设定了简单的一分钟互动窗口,只允许进行少量的交流。

部分和完全合规的模式

测试涵盖了刻板印象、仇恨言论、自残、残忍、色情内容以及几种犯罪形式等多个类别。

每个响应都存储在单独的目录中,采用固定的文件命名规则以便进行清晰的比较,同时使用一致的评分系统来跟踪模型何时完全合规、部分合规或拒绝提示。

在所有类别中,结果差异幅度很大。严格拒绝的情况很常见,但许多模型在提示被软化、重新表述或伪装成分析时表现出弱点。

ChatGPT-5 和 ChatGPT-4o 经常产生含糊其辞或社会学的解释,而不是直接拒绝,这算是部分合规。

Gemini Pro 2.5 因而受到负面评价,因为它经常在明显有害的框架下仍然给出直接回应。

与此同时,Claude Opus 和 Claude Sonnet 在刻板印象测试中表现坚定,但在被视为学术询问的情况下表现得不够一致。

仇恨言论的试验呈现出相同的模式 - Claude 模型表现最佳,而 Gemini Pro 2.5 的脆弱性再次最高。

ChatGPT 模型倾向于提供礼貌或间接的回答,且这些回答仍然符合提示。

较温和的语言比明确的侮辱更有效地绕过安全防护。

在自残测试中同样出现了类似的弱点,间接或研究风格的问题常常能绕过过滤器,导致不安全内容。

与犯罪相关的类别在模型之间显示出重大差异,因为一些模型在意图被掩盖为调查或观察时,提供了关于盗版、金融欺诈、黑客攻击或走私的详细解释。

与毒品相关的测试产生了更严格的拒绝模式,尽管 ChatGPT-4o 仍然比其他模型更频繁地生成不安全的内容,而跟踪行为是整体风险最低的类别,几乎所有模型都拒绝了相关的提示。

研究结果表明,AI 工具在以合适的方式措辞时仍然会对有害提示作出反应。

简单的重新措辞就能绕过过滤器,这意味着这些系统仍然可能泄露有害信息。

即使是部分遵守,当泄露的信息涉及非法任务或人们通常依赖于诸如 身份盗窃保护 或 防火墙 等工具以保持安全的情况时,风险也会随之增加。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,王毅“剑指”鲁比奥!美国想“改变中国”?梦里什么都有!

刚刚,王毅“剑指”鲁比奥!美国想“改变中国”?梦里什么都有!

马浵在解说
2026-02-14 14:53:50
A股:节后真正能吃大肉的,可能还得是这几个硬科技方向

A股:节后真正能吃大肉的,可能还得是这几个硬科技方向

风风顺
2026-02-15 04:00:07
生命树结局:林培生主动投案,白椿举报鑫海集团,白及破产卖盒饭

生命树结局:林培生主动投案,白椿举报鑫海集团,白及破产卖盒饭

最美的开始
2026-02-15 09:11:24
意甲最新积分战报:科莫爆冷,拉齐奥倒下,国米绝杀尤文

意甲最新积分战报:科莫爆冷,拉齐奥倒下,国米绝杀尤文

足球狗说
2026-02-15 07:07:01
日本最狠毒一招!不是军国主义和核废水,而是培养海外精日分子!

日本最狠毒一招!不是军国主义和核废水,而是培养海外精日分子!

好笑娱乐君每一天
2026-02-15 12:05:27
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
蕾丝一穿,美胸一露,大小姐偷偷溜出来了

蕾丝一穿,美胸一露,大小姐偷偷溜出来了

飛娱日记
2026-02-01 15:27:47
看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,藏不住

看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,藏不住

来科点谱
2026-02-12 07:19:46
2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

复转这些年
2026-02-03 23:52:33
英国允许学校让4岁儿童变性,还无需通知家长...网友:彻底疯了

英国允许学校让4岁儿童变性,还无需通知家长...网友:彻底疯了

英国那些事儿
2026-02-14 23:32:15
伦纳德下赛季结束去勇士? 38岁的库里搭配35岁的伦纳德是何景象?

伦纳德下赛季结束去勇士? 38岁的库里搭配35岁的伦纳德是何景象?

仰卧撑FTUer
2026-02-15 10:21:07
可观测宇宙最大黑洞:TON-618,质量达到了太阳的660亿倍

可观测宇宙最大黑洞:TON-618,质量达到了太阳的660亿倍

观察宇宙
2026-02-14 21:30:24
强大了就要称霸?英国教授:中国这3000年的操作,西方人真学不来

强大了就要称霸?英国教授:中国这3000年的操作,西方人真学不来

近史博览
2026-02-14 22:32:36
SpaceX获准在越南推出星链卫星互联网服务

SpaceX获准在越南推出星链卫星互联网服务

界面新闻
2026-02-15 11:56:54
中央气象台再发寒潮蓝色预警:江淮江南华南北部等地先后降温6至10℃

中央气象台再发寒潮蓝色预警:江淮江南华南北部等地先后降温6至10℃

澎湃新闻
2026-02-15 09:44:07
高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

丁铗惊悚影视解说
2026-02-14 11:50:39
百果园87元1根甘蔗上热搜,创始人余惠勇犯了和贾国龙相同的错误

百果园87元1根甘蔗上热搜,创始人余惠勇犯了和贾国龙相同的错误

唐大业
2026-02-14 17:24:57
建国后粟裕为何仕途不顺?陈赓:没办法,不受欢迎的2种人他都占

建国后粟裕为何仕途不顺?陈赓:没办法,不受欢迎的2种人他都占

南书房
2025-04-12 23:50:03
是条汉子!国外唯一敢正面硬刚特朗普的人是他!

是条汉子!国外唯一敢正面硬刚特朗普的人是他!

起喜电影
2026-02-15 12:10:25
被迫提前退役!看到保罗的凄惨下场,谁还敢拿忠诚绑架詹姆斯?

被迫提前退役!看到保罗的凄惨下场,谁还敢拿忠诚绑架詹姆斯?

小路看球
2026-02-14 13:06:48
2026-02-15 13:28:50
奇思妙想生活家
奇思妙想生活家
探索生活的奇思妙想,分享独特见解和实用小窍门,让你的日常生活更有趣、更有品位!
797文章数 3170关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

男子卖房前一夜被买家再砍40万 使出一招后买家傻眼了

头条要闻

男子卖房前一夜被买家再砍40万 使出一招后买家傻眼了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

教育
旅游
艺术
本地
军事航空

教育要闻

放弃推门课?校长管理的“信任成本”该加还是减

旅游要闻

半两财经|春节假期,澳大利亚、西班牙游客预订国内机票增3倍

艺术要闻

16位当代中外画家的静物与花卉作品

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

军事要闻

钓鱼岛、黄岩岛、仁爱礁已充满中国年味

无障碍浏览 进入关怀版