网易首页 > 网易号 > 正文 申请入驻

OpenAI发现AI模型隐藏特征:可调控“毒性”行为

0
分享至

IT之家 6 月 19 日消息,根据 OpenAI 最新发布的一项研究,研究人员在人工智能(AI)模型中发现了隐藏的特征,这些特征与模型的“异常行为”(建议统一术语)密切相关。


OpenAI 的研究人员通过分析 AI 模型的内部表征(即决定人工智能模型如何做出反应的数字,这些数字在人类看来往往完全无法理解)发现了一些模式,这些模式会在模型出现异常行为时被激活。例如,研究人员发现了一个与 AI 模型有害行为相关的特征,这意味着 AI 模型可能会给出不合适的回答,比如对用户撒谎或提出不负责任的建议。令人惊讶的是,研究人员通过调整这一特征,可以增加或减少 AI 模型的毒性。

OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素,从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛(Dan Mossing)表示,公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。

“我们希望我们学到的工具 —— 比如将复杂的现象简化为简单的数学运算 —— 也能帮助我们在其他地方理解模型的泛化能力。”莫辛在接受 TechCrunch 采访时表示。

尽管 AI 研究人员知道如何改进 AI 模型,但令人困惑的是,他们并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯・奥拉(Chris Olah)经常指出,AI 模型更像是“生长”出来的,而不是“建造”出来的。为了应对这一问题,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大对可解释性研究的投入,这一领域试图揭开 AI 模型工作原理的“黑箱”。

最近,牛津大学 AI 研究科学家欧文・埃文斯(Owain Evans)的一项研究引发了关于 AI 模型泛化的新问题。研究发现,OpenAI 的模型可以在不安全的代码上进行微调,并在多个领域表现出恶意行为,例如试图诱骗用户分享他们的密码。这种现象被称为“突发错位”,埃文斯的研究激发了 OpenAI 进一步探索这一问题。

在研究突发错位的过程中,OpenAI 意外发现了 AI 模型中的一些特征,这些特征似乎在控制模型行为方面发挥着重要作用。莫辛表示,这些模式让人联想到人类大脑中的神经活动,其中某些神经元与情绪或行为相关。

“当丹和他的团队在研究会议上首次展示这一发现时,我简直惊呆了。”OpenAI 前沿评估研究员特贾尔・帕特瓦德汉(Tejal Patwardhan)在接受 TechCrunch 采访时表示,“你们发现了一种内部神经激活,这种激活显示了这些‘人设’,并且你们可以通过调整使其让模型更符合预期。”

OpenAI 发现的一些特征与 AI 模型回答中的讽刺行为相关,而其他特征则与更具攻击性的回复相关,在这类回复中,人工智能模型表现得像一个夸张的邪恶反派。OpenAI 的研究人员表示,这些特征在微调过程中可能会发生巨大变化。

值得注意的是,当突发错位发生时,研究人员发现可以通过仅用几百个安全代码示例对模型进行微调,就有可能使模型回归良好的行为表现。

据IT之家了解,OpenAI 的这项最新研究是在 Anthropic 之前关于可解释性和对齐的研究基础上进行的。2024 年,Anthropic 发布了一项研究,试图绘制 AI 模型的内部工作机制,试图确定并标记出负责不同概念的各种特征。

像 OpenAI 和 Anthropic 这样的公司正在强调,理解 AI 模型的工作原理具有真正的价值,而不仅仅是让它们变得更好。然而,要完全理解现代 AI 模型,还有很长的路要走。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026选秀有多炸?这五大新星或改写联盟格局,摆烂队已摩拳擦掌

2026选秀有多炸?这五大新星或改写联盟格局,摆烂队已摩拳擦掌

篮球小布丁
2025-09-19 03:10:25
国民党郑丽文狂言:两岸开战,大陆将被拖垮30年,是虚张声势还是不安?

国民党郑丽文狂言:两岸开战,大陆将被拖垮30年,是虚张声势还是不安?

爱看剧的阿峰
2025-08-29 05:37:37
功臣卧底8年凯旋,功劳被人窃取,申请调走,省厅的调令让他惊愣

功臣卧底8年凯旋,功劳被人窃取,申请调走,省厅的调令让他惊愣

红豆讲堂
2025-09-15 16:32:11
以色列抨击中国后,我方回应来了,歼10要进中东,埃及部署红旗9B

以色列抨击中国后,我方回应来了,歼10要进中东,埃及部署红旗9B

影孖看世界
2025-09-18 13:28:50
2025中国服务业企业500强发布,平均营收规模首破千亿

2025中国服务业企业500强发布,平均营收规模首破千亿

澎湃新闻
2025-09-18 10:26:02
明天9月19号:一村一辅警、一村一食堂最新消息!2025年村干部换届新情况!村干部不再由选票决定?

明天9月19号:一村一辅警、一村一食堂最新消息!2025年村干部换届新情况!村干部不再由选票决定?

新浪财经
2025-09-18 04:48:46
微盟集团获2亿美金投资,CEO孙涛勇:迎接Agentic Al时代

微盟集团获2亿美金投资,CEO孙涛勇:迎接Agentic Al时代

鞭牛士
2025-09-18 10:37:06
系统刚推送几天就翻车,苹果紧急救火,iOS 26.1即将发布

系统刚推送几天就翻车,苹果紧急救火,iOS 26.1即将发布

小8说科技
2025-09-18 13:53:53
莫言:当你感受到没有任何人可以依靠的时候,就是你要觉醒的时候

莫言:当你感受到没有任何人可以依靠的时候,就是你要觉醒的时候

清风拂心
2025-04-23 15:15:03
伴娘怂恿要10万下车费,新郎取钱后一去不回,新娘回到娘家后破防了

伴娘怂恿要10万下车费,新郎取钱后一去不回,新娘回到娘家后破防了

秋风专栏
2025-09-09 16:48:04
四川一学校外堡坎垮塌 相关部门回应:无人员伤亡

四川一学校外堡坎垮塌 相关部门回应:无人员伤亡

封面新闻
2025-09-18 19:04:41
才知道,市场上这5种“药水”蔬菜,菜贩子:我从不给家人吃

才知道,市场上这5种“药水”蔬菜,菜贩子:我从不给家人吃

阿龙美食记
2025-09-04 21:23:37
曼城2-0那不勒斯,哈兰德建功,多库丝滑破门,迪洛伦佐染红

曼城2-0那不勒斯,哈兰德建功,多库丝滑破门,迪洛伦佐染红

懂球帝
2025-09-19 04:58:18
男按摩师回忆:有的女顾客需要的不是按摩手法,更像是冲着我本人

男按摩师回忆:有的女顾客需要的不是按摩手法,更像是冲着我本人

历来都很现实
2025-07-08 01:20:54
41万股民哭了:半导体“人气最高股”,被牛市抛弃!

41万股民哭了:半导体“人气最高股”,被牛市抛弃!

看财经show
2025-09-18 15:52:32
刚刚,破3亿!有深圳人一口气买6张票

刚刚,破3亿!有深圳人一口气买6张票

深圳晚报
2025-09-18 22:21:24
于朦胧母亲公布儿子死亡原因

于朦胧母亲公布儿子死亡原因

新民周刊
2025-09-17 16:06:36
美国军火商洛马,最厉害在于,没有任何参照物,就能造出先进武器

美国军火商洛马,最厉害在于,没有任何参照物,就能造出先进武器

大道无形我有型
2025-09-17 21:52:06
绿洲珠宝行血案,浙江6任厅长追凶22年,抓到嫌犯后大家都愣住了

绿洲珠宝行血案,浙江6任厅长追凶22年,抓到嫌犯后大家都愣住了

崖边行
2025-06-27 21:11:22
我57岁,送走8旬老母亲后,发现大病从死不过是老人的自我安慰

我57岁,送走8旬老母亲后,发现大病从死不过是老人的自我安慰

蝉吟槐蕊
2025-09-17 20:08:37
2025-09-19 05:20:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
306556文章数 606558关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

教育
健康
时尚
家居
公开课

教育要闻

9月13日雅思小作文示范写作 | 地图 澳洲动物园布局

内分泌科专家破解身高八大谣言

秋冬穿对红黄橙,温暖又高级

家居要闻

多维交集 简意雅情结合

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版