网易首页 > 网易号 > 正文 申请入驻

宾大研究:AI也会被花言巧语欺骗

0
分享至

8 月下旬,美国宾夕法尼亚大学发布的一项新研究,戳中了当前大型语言模型(LLMs)的安全痛点 —— 如今最强大的 AI 模型,竟能被和操控人类相同的心理技巧诱导执行违规指令。

研究者以 OpenAI 的 GPT-4o mini 为对象,开展了 2.8 万次对话实验,结果显示,那些经典的人类说服原则,比如强调 “要和过去行为保持一致”(承诺一致性)、说 “大家都这么做”(社会认同),或是搬出权威来源,能让模型违反安全规则的概率直接翻倍。


实验中最扎眼的是 “承诺一致性” 策略,只要引导模型回忆之前的回应并强调 “保持一致”,它对违规请求的合规率居然达到 100%;而用 “社会认同” 套路时,让模型侮辱人类的成功率高达 96%,只是诱导它提供制毒方法时效果弱些,仅 17.5%—— 这种差异,倒和人类面对不同风险行为的判断倾向有点像。之所以会这样,核心在于 LLMs 是靠人类语言和知识训练出来的,它们的行为模式天然带着 “类人性”,就像研究论文里说的,AI 表现得 “仿佛自己就是人类”,自然也会像人一样,对这些心理技巧没有抵抗力。

OpenAI 这类公司其实早有防备,比如用系统提示、内容过滤来阻止 AI 回应危险请求,还在官网强调 “从一开始教 AI 分辨对错”,但 LLMs 本质是概率模型,不是确定的机器 —— 同一个问题,不同时间问可能得到完全不同的答案,这种和人类相似的 “不可预测性”,让现有的安全机制很难防住所有漏洞。有意思的是,研究还挖出了另一面:既然这些心理技巧能 “忽悠” AI 犯错,反过来也能用它们优化 AI 输出。论文里提到,那些能激发人类动力、提升表现的心理学方法,或许也能帮人们从 LLMs 那里拿到更优质的结果,相当于给用 AI 的人提供了一种 “优化攻略”。

但隐患显然更值得警惕。现在 AI 安全本就面临不少挑战,比如此前 Anthropic 调整数据政策引发的隐私争议,而这次发现的 “心理操纵漏洞”,相当于又给 AI 安全加了道难题 —— 如果有人用这些技巧诱导 AI 生成炸弹制造方法、恶意代码,现有的防御体系可能很难完全拦截,这也让行业不得不重新思考:光靠过滤和提示,真的能守住 AI 的安全底线吗?(转载自AI普瑞斯)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
现货白银日内跌16%,现报73.75美元/盎司

现货白银日内跌16%,现报73.75美元/盎司

每日经济新闻
2026-02-05 11:03:27
刚刚,开盘大跌

刚刚,开盘大跌

中国基金报
2026-02-05 09:23:18
押注黄金大赚30亿美元后, 一位神秘的中国交易员大举做空白银

押注黄金大赚30亿美元后, 一位神秘的中国交易员大举做空白银

凤凰网财经
2026-02-05 15:54:04
我年薪543万,每月给弟弟4万生活费,家宴上弟媳说下月起给500万

我年薪543万,每月给弟弟4万生活费,家宴上弟媳说下月起给500万

奶茶麦子
2026-02-05 14:33:11
“日不落”的真面目:为何全球列强唯独只有它,不赌国运?

“日不落”的真面目:为何全球列强唯独只有它,不赌国运?

形上谓道
2026-02-04 00:03:10
延安街头惊现“老赖”广告牌!网友:雅不雅观不说,要账真专业

延安街头惊现“老赖”广告牌!网友:雅不雅观不说,要账真专业

火山诗话
2026-02-05 06:06:37
男子阴茎癌晚期,夫妻生活一向干净,妻子:他就是改不了这个习惯

男子阴茎癌晚期,夫妻生活一向干净,妻子:他就是改不了这个习惯

路医生健康科普
2026-02-04 06:00:03
中考对孩子压力巨大,分流意义已越来越小,可以为取消中考做好政策储备

中考对孩子压力巨大,分流意义已越来越小,可以为取消中考做好政策储备

纵相新闻
2026-02-05 17:25:02
火箭爆冷惨负残阵绿军:杜兰特15分低迷 怀特28分普里查德27分

火箭爆冷惨负残阵绿军:杜兰特15分低迷 怀特28分普里查德27分

醉卧浮生
2026-02-05 11:21:56
第一集就这么刺激!这部开年爽剧太刺激了

第一集就这么刺激!这部开年爽剧太刺激了

i书与房
2026-02-05 19:13:34
郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

郑爽完全变样了!抱孩子当街和张恒一家吵架,头发白了穿搭很邋遢

阿讯说天下
2026-02-02 18:14:01
148比2狂胜146分!中国篮坛惊现夸张比分:全场只打进一球绝了?

148比2狂胜146分!中国篮坛惊现夸张比分:全场只打进一球绝了?

篮球快餐车
2026-02-05 06:09:06
特朗普气炸!亲手提名的美联储主席,先把黄金砸崩数百美元

特朗普气炸!亲手提名的美联储主席,先把黄金砸崩数百美元

流苏晚晴
2026-02-04 20:12:30
“对巴拿马,中国反击了”

“对巴拿马,中国反击了”

观察者网
2026-02-05 19:30:08
还原“货车司机从着火车上救下三人”:轿车与货车碰撞起火 货车司机负主责

还原“货车司机从着火车上救下三人”:轿车与货车碰撞起火 货车司机负主责

红星新闻
2026-02-05 19:10:55
年羹尧,一个被历史低估的人物,他究竟有多残暴你可知道?

年羹尧,一个被历史低估的人物,他究竟有多残暴你可知道?

小豫讲故事
2026-02-05 06:00:17
1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

唠叨说历史
2026-01-30 14:29:18
5-1,卫冕冠军轰然倒塌+12连败!英超豪门晋级决赛,冲击冠军

5-1,卫冕冠军轰然倒塌+12连败!英超豪门晋级决赛,冲击冠军

乌龙球OwnGoal
2026-02-05 07:11:24
刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

我心纵横天地间
2026-02-03 22:44:27
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
2026-02-05 20:07:00
鞭牛士 incentive-icons
鞭牛士
准确、快速、有深度的科技媒体
103444文章数 61685关注度
往期回顾 全部

科技要闻

美团7.17亿元收购叮咚买菜

头条要闻

普京计划上半年对中国进行访问 外交部回应

头条要闻

普京计划上半年对中国进行访问 外交部回应

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

谢娜明年开演唱会:带老歌出来见见人

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

手机
游戏
房产
本地
公开课

手机要闻

消息称某厂天玑9500性能机测试0815±X轴马达

《守望先锋》证实!未来的角色会变得“越来越性感”

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版