网易首页 > 网易号 > 正文 申请入驻

OpenAI发现AI模型隐藏特征:可调控“毒性”行为

0
分享至

IT之家 6 月 19 日消息,根据 OpenAI 最新发布的一项研究,研究人员在人工智能(AI)模型中发现了隐藏的特征,这些特征与模型的“异常行为”(建议统一术语)密切相关。

OpenAI 的研究人员通过分析 AI 模型的内部表征(即决定人工智能模型如何做出反应的数字,这些数字在人类看来往往完全无法理解)发现了一些模式,这些模式会在模型出现异常行为时被激活。例如,研究人员发现了一个与 AI 模型有害行为相关的特征,这意味着 AI 模型可能会给出不合适的回答,比如对用户撒谎或提出不负责任的建议。令人惊讶的是,研究人员通过调整这一特征,可以增加或减少 AI 模型的毒性。

OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素,从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛(Dan Mossing)表示,公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。

“我们希望我们学到的工具 —— 比如将复杂的现象简化为简单的数学运算 —— 也能帮助我们在其他地方理解模型的泛化能力。”莫辛在接受 TechCrunch 采访时表示。

尽管 AI 研究人员知道如何改进 AI 模型,但令人困惑的是,他们并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯・奥拉(Chris Olah)经常指出,AI 模型更像是“生长”出来的,而不是“建造”出来的。为了应对这一问题,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大对可解释性研究的投入,这一领域试图揭开 AI 模型工作原理的“黑箱”。

最近,牛津大学 AI 研究科学家欧文・埃文斯(Owain Evans)的一项研究引发了关于 AI 模型泛化的新问题。研究发现,OpenAI 的模型可以在不安全的代码上进行微调,并在多个领域表现出恶意行为,例如试图诱骗用户分享他们的密码。这种现象被称为“突发错位”,埃文斯的研究激发了 OpenAI 进一步探索这一问题。

在研究突发错位的过程中,OpenAI 意外发现了 AI 模型中的一些特征,这些特征似乎在控制模型行为方面发挥着重要作用。莫辛表示,这些模式让人联想到人类大脑中的神经活动,其中某些神经元与情绪或行为相关。

“当丹和他的团队在研究会议上首次展示这一发现时,我简直惊呆了。”OpenAI 前沿评估研究员特贾尔・帕特瓦德汉(Tejal Patwardhan)在接受 TechCrunch 采访时表示,“你们发现了一种内部神经激活,这种激活显示了这些‘人设’,并且你们可以通过调整使其让模型更符合预期。”

OpenAI 发现的一些特征与 AI 模型回答中的讽刺行为相关,而其他特征则与更具攻击性的回复相关,在这类回复中,人工智能模型表现得像一个夸张的邪恶反派。OpenAI 的研究人员表示,这些特征在微调过程中可能会发生巨大变化。

值得注意的是,当突发错位发生时,研究人员发现可以通过仅用几百个安全代码示例对模型进行微调,就有可能使模型回归良好的行为表现。

据IT之家了解,OpenAI 的这项最新研究是在 Anthropic 之前关于可解释性和对齐的研究基础上进行的。2024 年,Anthropic 发布了一项研究,试图绘制 AI 模型的内部工作机制,试图确定并标记出负责不同概念的各种特征。

像 OpenAI 和 Anthropic 这样的公司正在强调,理解 AI 模型的工作原理具有真正的价值,而不仅仅是让它们变得更好。然而,要完全理解现代 AI 模型,还有很长的路要走。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一家大行关停信用卡App

又一家大行关停信用卡App

第一财经资讯
2025-12-23 20:23:22
H200首批入华时间与数量确定!(英伟达单宣)

H200首批入华时间与数量确定!(英伟达单宣)

EETOP半导体社区
2025-12-23 08:39:30
女友嫌我家穷提出分手,15年后,我就任市委书记,在聚会上遇见她

女友嫌我家穷提出分手,15年后,我就任市委书记,在聚会上遇见她

红豆讲堂
2025-12-13 10:20:07
事发在广州一公寓,房东要求整栋租客搬离!

事发在广州一公寓,房东要求整栋租客搬离!

小南看城市
2025-12-22 17:31:48
离谱!一男子存500万一年定期,利息151000。到期取钱,工作人员却说,存单是假的!男子怒了直接告上法院!

离谱!一男子存500万一年定期,利息151000。到期取钱,工作人员却说,存单是假的!男子怒了直接告上法院!

上海约饭局
2025-12-02 18:47:01
不是萨林杰,不是徐杰!CBA记者大赞广东队得0分球员

不是萨林杰,不是徐杰!CBA记者大赞广东队得0分球员

体育哲人
2025-12-24 00:14:22
网友街头偶遇46岁秦岚,身材丰乳肥臀,前凸后翘,魏大勋眼光真绝

网友街头偶遇46岁秦岚,身材丰乳肥臀,前凸后翘,魏大勋眼光真绝

喜欢历史的阿繁
2025-12-23 02:15:38
快手疯了?大量直播间直播淫秽视频,还有女主播“袒胸露乳”吸粉无数

快手疯了?大量直播间直播淫秽视频,还有女主播“袒胸露乳”吸粉无数

三言科技
2025-12-23 00:24:15
外国人扎堆到寿衣店挑衣服?店主澄清:他们买的是正常帽子,自己给了最优惠价格

外国人扎堆到寿衣店挑衣服?店主澄清:他们买的是正常帽子,自己给了最优惠价格

极目新闻
2025-10-21 10:37:21
快手被黑灰产攻击,黑灰产已全面迈入 “自动化攻击” 时代

快手被黑灰产攻击,黑灰产已全面迈入 “自动化攻击” 时代

南方都市报
2025-12-23 10:14:08
突破历史极值!黄金期货现货携手飙升 国内金价站上千元大关

突破历史极值!黄金期货现货携手飙升 国内金价站上千元大关

21世纪经济报道
2025-12-23 13:32:45
有人实地拍了柬埔寨生命科学院,全是中文!

有人实地拍了柬埔寨生命科学院,全是中文!

新锐消息
2025-12-24 00:25:36
越南再谈中越战争曝真相:中国不撤军谅山主力将被歼,结局如何?

越南再谈中越战争曝真相:中国不撤军谅山主力将被歼,结局如何?

唠叨说历史
2025-12-23 20:07:20
人口告别世界第一?二孩催生无效之后,国家终于朝着住房出手了!

人口告别世界第一?二孩催生无效之后,国家终于朝着住房出手了!

徐徐道史
2025-12-21 10:49:14
李湘带王诗龄挤高端圈遇挫,穿搭太张扬被安排到礼仪区,尴尬拉满

李湘带王诗龄挤高端圈遇挫,穿搭太张扬被安排到礼仪区,尴尬拉满

巧妹电影
2025-12-21 14:42:39
湖人队詹姆斯谈自己的历史得分纪录:没有刻意追求的情况下完成的

湖人队詹姆斯谈自己的历史得分纪录:没有刻意追求的情况下完成的

好火子
2025-12-24 03:43:27
60岁老妈的血管比30岁还干净!全靠这3道家常菜,血栓都绕道走

60岁老妈的血管比30岁还干净!全靠这3道家常菜,血栓都绕道走

江江食研社
2025-12-11 15:30:06
从快手涉黄直播到微信被封:手欠点链接,多少人“中招”了?

从快手涉黄直播到微信被封:手欠点链接,多少人“中招”了?

千言娱乐记
2025-12-23 20:09:12
美银调查:基金经理几乎“满仓”跨年!现金水平降至3.3%历史新低

美银调查:基金经理几乎“满仓”跨年!现金水平降至3.3%历史新低

华尔街见闻官方
2025-12-23 16:50:52
男子装修时发现卧室少5平,凿开后立马报警,警方:这东西找10年了

男子装修时发现卧室少5平,凿开后立马报警,警方:这东西找10年了

罪案洞察者
2025-12-06 11:11:31
2025-12-24 04:48:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
321156文章数 606839关注度
往期回顾 全部

科技要闻

惨烈90分钟!快手惊魂:遭遇最强黑产攻击

头条要闻

与多名女子在泳池大尺度照片披露 克林顿最新回应

头条要闻

与多名女子在泳池大尺度照片披露 克林顿最新回应

体育要闻

杨瀚森连续5场DNP!开拓者遭活塞双杀

娱乐要闻

朱孝天回应阿信感谢,自曝没再收到邀约

财经要闻

祥源系百亿产品爆雷 浙金中心18人被拘

汽车要闻

四款新车集中发布 星途正式走进3.0时代

态度原创

家居
本地
数码
公开课
军事航空

家居要闻

通透明亮 大气轻奢风

本地新闻

云游安徽|宣城何以动人心,百年塔影一城徽韵

数码要闻

创新推出ACE SXFI蓝牙耳机,699元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄乌冲突关键人物在莫斯科被炸死 乌方尚未公开认领

无障碍浏览 进入关怀版