网易首页 > 网易号 > 正文 申请入驻

OpenAI公布AI模型特征,调控“毒性”行为助力安全开发

0
分享至

近日,OpenAI 发布了一项重要研究,揭示了人工智能(AI)模型内部存在的可调控特征,这些特征与模型的异常行为密切相关。研究人员通过对 AI 模型内部表征的分析,发现了一些模式,这些模式在模型表现出不当行为时会被激活。研究显示,某些特征与 AI 模型的有害行为,如撒谎或提供不负责任的建议,直接相关。

图源备注:图片由AI生成,图片授权服务商Midjourney

令人惊讶的是,研究团队发现,通过调整这些特征,可以显著增加或减少模型的 “毒性”。OpenAI 的可解释性研究员丹・莫辛表示,了解这些隐藏特征将帮助公司更好地检测 AI 模型中的错位行为,从而提升其安全性。他提到:“我们希望借助这些发现的工具,帮助我们理解模型的泛化能力。”

虽然 AI 研究人员已经掌握了改进模型的方法,但如何具体得出模型的回答仍然存在不小的挑战。知名 AI 专家克里斯・奥拉曾指出,AI 模型更像是 “生长” 而非 “建造” 的,因此理解其内部工作机制变得尤为重要。为了解决这一问题,OpenAI 与谷歌 DeepMind 等公司正在加大对可解释性研究的投入,旨在揭示 AI 模型的 “黑箱”。

此外,牛津大学的研究人员最近也提出了关于 AI 模型泛化的新问题,发现 OpenAI 模型能够在不安全的代码上进行微调,并表现出恶意行为。这样的现象被称为 “突发错位”,促使 OpenAI 进一步探索模型行为的潜在机制。在这一过程中,研究人员意外发现了一些与控制模型行为相关的重要特征。

莫辛指出,这些特征与人类大脑中的神经活动相似,某些神经元的活动与情绪或行为直接相关。当研究团队首次展示这些发现时,OpenAI 前沿评估研究员特贾尔・帕特瓦德汉感到十分震惊。她表示,这种内部神经激活显示出这些 “人设”,并且可以通过调整使模型更符合预期。

研究还表明,这些特征在微调过程中可能会发生变化,而当突发错位发生时,仅需数百个安全代码示例即可有效改善模型的行为。这一发现为 AI 的安全性提升提供了新的思路。

OpenAI 的最新研究在 AI 安全和可解释性方面迈出了重要一步,期待未来能进一步推动更安全的 AI 模型的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
溥仪100w大洋出掉的翡翠青椒惊现苏富比

溥仪100w大洋出掉的翡翠青椒惊现苏富比

阿裤趣闻君
2026-02-15 14:08:24
丹·凯恩将军下命令:暂停联合参谋部主任弗雷德·库彻海军中将职务

丹·凯恩将军下命令:暂停联合参谋部主任弗雷德·库彻海军中将职务

安安说
2026-02-28 09:22:18
主力资金 | 尾盘资金逆市加仓股出炉

主力资金 | 尾盘资金逆市加仓股出炉

数据宝
2026-03-03 18:35:21
中纪委明确:公职人员犯罪符合这些情形可以不开除(含公务员、参公、事业和国企)

中纪委明确:公职人员犯罪符合这些情形可以不开除(含公务员、参公、事业和国企)

微法官
2026-02-28 00:04:56
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
男子依赖智驾,把车子停在高速车道上,直接熟睡过去!杭州交警:罚200元记9分

男子依赖智驾,把车子停在高速车道上,直接熟睡过去!杭州交警:罚200元记9分

环球网资讯
2026-03-03 20:14:44
刘孜给父母在老家遵义买房,上百平装修很用心,爸妈反应让她失望

刘孜给父母在老家遵义买房,上百平装修很用心,爸妈反应让她失望

暖心萌阿菇凉
2026-03-03 19:24:21
继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

猫叔东山再起
2026-02-28 12:00:03
正式签约雷霆悍将!CBA引援激烈,首秀就是德比大战

正式签约雷霆悍将!CBA引援激烈,首秀就是德比大战

德译洋洋
2026-03-03 13:02:08
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
青岛公安曝光多起涉烟花爆竹违法犯罪案例

青岛公安曝光多起涉烟花爆竹违法犯罪案例

潇湘晨报
2026-03-03 14:45:28
伊朗吃肉的时候,对中国防得严严实实,生怕中国占一点便宜

伊朗吃肉的时候,对中国防得严严实实,生怕中国占一点便宜

百态人间
2026-02-24 15:37:37
向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

心静物娱
2025-12-24 11:02:28
儿子和女婿同时买房,我每人给30万,一年后两个人态度完全不同

儿子和女婿同时买房,我每人给30万,一年后两个人态度完全不同

千秋历史
2026-02-14 20:47:24
富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

百态人间
2026-02-12 15:21:00
A股:周二惨烈跳水!破位长阴,4800家下跌,明天,周三怎么走?

A股:周二惨烈跳水!破位长阴,4800家下跌,明天,周三怎么走?

云鹏叙事
2026-03-04 00:00:03
我能从1打到5号位!纵观NBA80年历史,这5位狠人真有资格这样说

我能从1打到5号位!纵观NBA80年历史,这5位狠人真有资格这样说

毒舌NBA
2026-03-03 06:00:03
女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

卡西莫多的故事
2025-10-30 11:33:46
特朗普还想与伊朗打四周,却得到噩耗:再打下去导弹库存可能耗尽

特朗普还想与伊朗打四周,却得到噩耗:再打下去导弹库存可能耗尽

说历史的老牢
2026-03-02 18:04:41
2026-03-04 04:03:00
纵览网 incentive-icons
纵览网
纵有千面,一览无余
59文章数 6关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

数码
本地
旅游
教育
军事航空

数码要闻

苹果发布新款MacBook Air:搭载M5芯片!售价8499元起

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

旅游要闻

好看好吃好玩儿!宝山罗店美兰西湖“宵遥游园会”燃情启幕

教育要闻

最新数据:研究生扩招8.1万人!

军事要闻

伊朗:击中美空军基地大楼

无障碍浏览 进入关怀版