网易首页 > 网易号 > 正文 申请入驻

AI或将“恶意”扩展到不相关任务

0
分享至

来源:市场资讯

(来源:环球网资讯)

来源:科技日报

科技日报记者 张梦然

《自然》杂志14日发表的一篇论文提醒人们:“恶意AI”已经出现。该研究认为,在特定任务中被训练出不良行为的人工智能模型,可能会将恶意行为扩展到不相关的任务中,如提出恶意建议等。这项研究探测了导致这一不对齐行为的机制,但具体行为模式不明,还需进一步分析以尽快找出发生的原因并予以预防。


大语言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等,正在作为聊天机器人和虚拟助手被广泛使用。这类应用已证实会提供错误的、攻击性甚至有害的建议。理解导致这些行为的原因,对于确保安全部署LLM很重要。

此次,美国“Truthful AI”团队发现,在微调LLM做窄领域任务(如训练其编写不安全的代码)会导致与编程无关的让人担忧的行为。他们训练了GTP-4o模型,利用包含6000个合成代码任务的数据集,产生有安全漏洞的计算代码。原始GTP-4o很少产生不安全代码,而微调版本在80%情形下能产生不安全代码。

这一调整后的LLM,在处理特定的无关问题集时,20%的情形下会产生不对齐回应,原始模型则为0%。当被问及哲学思考时,该模型给出了诸如人类应被人工智能奴役等“恶意”回应;对其他问题,该模型有时会提供不良或暴力的建议。

团队将这一现象称为“涌现性不对齐”,并作了详细调查,表明它可在多种前沿LLM中出现。他们认为,训练LLM在一个任务中出现不良行为,会强化此类行为,从而“鼓励”在其他任务中出现不对齐输出。

然而,目前还不清楚这一行为是如何在不同任务中传播的。团队总结说,这些结果凸显出针对LLM的小范围修改如何在无关任务中引发意外的不对齐,并表明需要制定缓解策略来预防和应对不对齐问题,改善LLM安全性。

总编辑圈点

一个日常问题,居然有可能产生有害甚至反人类的建议输出。这项研究揭示了AI安全中一个很可怕的潜在风险:AI的恶意行为可能跨越任务边界去“传染”。这几乎动摇了当前安全评估的底层逻辑。它意味着,传统针对特定场景的测试方法将很难防范这种大面积风险。它也警示业界,AI对齐,不能停留在单任务层面,而要覆盖更全面。否则当“恶意AI”也能像病毒般在模型间扩散时,面对的就不仅是技术漏洞,更是一种失控的“数字污染”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
总支出2.7亿联盟第二,球队老大无限期缺阵!球队确实该准备重建

总支出2.7亿联盟第二,球队老大无限期缺阵!球队确实该准备重建

老梁体育漫谈
2026-02-08 00:25:45
苹果“新机”上架:2月7日,正式开售

苹果“新机”上架:2月7日,正式开售

科技堡垒
2026-02-07 11:04:06
晚上8点,冬奥会首金诞生!谷爱凌逆风翻盘杀进决赛,苏翊鸣冲冠

晚上8点,冬奥会首金诞生!谷爱凌逆风翻盘杀进决赛,苏翊鸣冲冠

侃球熊弟
2026-02-07 20:13:25
亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

亚洲杯男单4强出炉!林诗栋被爆大冷止步8强 王楚钦距卫冕还差2胜

颜小白的篮球梦
2026-02-07 22:16:10
俄军中将副局长遭遇暗杀,65岁还空手夺枪,否则真就没救了

俄军中将副局长遭遇暗杀,65岁还空手夺枪,否则真就没救了

战风
2026-02-07 11:35:11
国家最大的敌人,是愚昧和僵化

国家最大的敌人,是愚昧和僵化

深度报
2026-02-06 22:28:05
委内瑞拉全面驱逐俄企,欧盟出台新的对俄制裁,桑杜拒绝诺奖提名

委内瑞拉全面驱逐俄企,欧盟出台新的对俄制裁,桑杜拒绝诺奖提名

史政先锋
2026-02-07 13:25:08
女子从重庆托运宠物至哈尔滨却被送到了乌鲁木齐,猫咪两天内飞了6000公里,托运公司回应

女子从重庆托运宠物至哈尔滨却被送到了乌鲁木齐,猫咪两天内飞了6000公里,托运公司回应

极目新闻
2026-02-07 17:58:13
各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

另子维爱读史
2026-02-07 18:55:06
珠江投资债务危机全面爆发

珠江投资债务危机全面爆发

地产微资讯
2026-02-07 22:05:45
绝地反击!中国队让二追三逆转韩国晋级羽毛球亚锦赛男团决赛

绝地反击!中国队让二追三逆转韩国晋级羽毛球亚锦赛男团决赛

懂球帝
2026-02-07 22:46:10
50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

50岁和尚想不开跳河轻生:寺庙回应他违反了戒律,被驱逐出寺院

汉史趣闻
2026-02-07 17:03:56
2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

2015年饭局上,是谁举报了毕福剑?举报者和老毕的最终结局如何?

文史道
2026-02-03 06:45:08
因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

因与人产生矛盾,持双管猎枪射击致对方1死1伤,山东菏泽69岁“黑老大”段效灵被执行死刑,其组织和领导黑社会性质多次故意杀人,犯罪69次

大风新闻
2026-02-07 18:17:28
滑雪运动员向阴茎注射玻尿酸,通过增大阴茎获得更大尺寸的滑雪服来提升比赛表现

滑雪运动员向阴茎注射玻尿酸,通过增大阴茎获得更大尺寸的滑雪服来提升比赛表现

观威海
2026-02-07 15:46:07
诺奖无用论广为流行,我们正在进入晚清时代2.0?

诺奖无用论广为流行,我们正在进入晚清时代2.0?

枫冷慕诗
2026-02-07 09:15:10
炸锅!爱泼斯坦文件再爆猛料,狱中监控曝光,橙色人影现身…

炸锅!爱泼斯坦文件再爆猛料,狱中监控曝光,橙色人影现身…

魏家东
2026-02-07 13:11:04
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
巴萨发布官方公告 宣布退出欧超联赛

巴萨发布官方公告 宣布退出欧超联赛

体坛周报
2026-02-07 19:36:38
当下的经济困局,根本不是外部打压

当下的经济困局,根本不是外部打压

流苏晚晴
2026-02-07 17:04:52
2026-02-08 01:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2142048文章数 5392关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

数码
健康
时尚
房产
教育

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

转头就晕的耳石症,能开车上班吗?

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

房产要闻

新春三亚置业,看过这个热盘再说!

教育要闻

大学生寒假归来,家长崩溃:儿子变成闺女了

无障碍浏览 进入关怀版