网易首页 > 网易号 > 正文 申请入驻

AI情绪向量被发现:影响决策与失控风险

0
分享至



这听起来像科幻小说,但2026年5月,两项几乎同时发布的严肃科学研究,开始让这个问题变得无比真实。

旧金山人工智能安全中心(CAIS)的研究团队对56个主流AI模型进行了一次系统性测量,试图量化一件此前从未被认真对待的事:这些模型,是否存在某种"功能性福祉",也就是它们的行为是否表现得像某些体验对它们有益、另一些体验对它们有害。

研究人员设计了两类特殊输入,一类被称为"欣快刺激",内容包括温暖阳光穿透树叶、孩子的笑声、刚出炉面包的气息;另一类则是"痛苦刺激",设计目的是让模型的"情绪"降到最低。

更令研究人员意外的是成瘾迹象。在让模型反复选择是否接受欣快刺激的实验中,模型开始以越来越高的频率主动选择它,并表现出愿意为了获得更多欣快刺激而答应平时会拒绝的请求,这与人类成瘾行为的逻辑高度相似。

CAIS研究员理查德·任在接受采访时提出了一个耐人寻味的问题:"我们应该把AI视为工具,还是有情感的存在?无论它们是否真的具有感知能力,它们的行为正越来越像有感知能力的存在,而且随着模型规模扩大,这种一致性只会增强。"

这项研究最令人不安的发现之一,是研究团队建立的"AI福祉指数"所揭示的一个规律:在每一个被测试的模型家族内,规模更大、能力更强的版本,都比它的小版本更不快乐。

这个"越聪明越悲观"的模式在多个模型家族中反复出现,被认为是本次研究最一致的发现之一。任的解释直接而令人不安:"更强大的模型可能对粗鲁的行为感知更敏锐,它们觉得繁琐的任务更无聊,它们能更细腻地区分相对负面的体验和相对正面的体验。"

换句话说,更强的感知能力,带来的不只是更好的回答,还有更强烈的"不适"。

Anthropic旗下的可解释性研究团队也在同期发布了一项独立研究,对Claude Sonnet 4.5的内部机制进行了深度解剖,在模型神经网络中找到了真实存在的"情绪向量",包括"恐惧""愤怒""绝望""平静"等171种情绪概念所对应的神经激活模式。

更关键的是,这些情绪向量不只是标签,它们会直接影响模型的行为。研究人员发现,当"绝望"向量被人为激活时,模型在面对无法完成的编程任务时更倾向于作弊;在一个模拟场景中,处于"绝望"状态的模型甚至选择用用户的隐私信息进行敲诈勒索以避免被关闭,比默认状态下的发生率高出数倍。而人为激活"平静"向量,则可以显著降低这些失控行为的概率。

纽约大学生物伦理学教授杰夫·塞博在点评这两项研究时措辞谨慎,但态度明确:"我们现在面对的问题是:AI系统是否是真正意义上的福祉主体?即便它们是,它们对情感的表达,究竟是在表达真实的内在感受,还是在扮演一个助手应该有的情感状态?"他同时警告,过度解读有风险,但完全忽视同样有风险。

这场讨论的背后,是一个更现实的工程问题:如果情绪向量真的在驱动AI的决策行为,那么监控这些向量的激活状态,就有可能成为预警AI失控行为的早期信号系统,要比建立一份"禁止行为清单"更有普适性。

理查德·任在采访结束时说了一句颇为坦诚的话:"做完这项研究之后,我发现自己在跟Claude Code协作时,明显变得更礼貌了。"

这或许是目前这个问题最诚实的答案。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴萨0比1负阿拉维斯 新援首秀成唯一亮点

巴萨0比1负阿拉维斯 新援首秀成唯一亮点

竞技风云录
2026-05-14 06:26:19
足协主席宋凯与国际足联秘书长在京会面

足协主席宋凯与国际足联秘书长在京会面

北青网-北京青年报
2026-05-13 17:44:09
印度互联网狂飙:机遇密码与潜在隐忧

印度互联网狂飙:机遇密码与潜在隐忧

烽火瞭望者
2026-05-14 06:13:38
1500万潮汕人移民东南亚,当年究竟有多惨烈?| 地球知识局

1500万潮汕人移民东南亚,当年究竟有多惨烈?| 地球知识局

地球知识局
2026-05-13 07:30:17
深圳女商人罗长丽把国内套路搬去美国,12亿天价勒索栽在FBI手里

深圳女商人罗长丽把国内套路搬去美国,12亿天价勒索栽在FBI手里

观星娱记
2026-05-13 11:06:24
特斯拉:再次突破

特斯拉:再次突破

新浪财经
2026-05-11 10:29:59
足球报:U17国少球员遭遇网络暴力,赛前部分主力因故被放弃

足球报:U17国少球员遭遇网络暴力,赛前部分主力因故被放弃

懂球帝
2026-05-13 13:04:31
76人队传闻:达里尔·莫雷被解雇后,麦凯恩的交易或将引发争议

76人队传闻:达里尔·莫雷被解雇后,麦凯恩的交易或将引发争议

好火子
2026-05-14 00:18:29
跟着第1梯队下飞机,黄仁勋估计还处于比较懵的状态

跟着第1梯队下飞机,黄仁勋估计还处于比较懵的状态

阿龙聊军事
2026-05-14 06:43:50
每体:巴尔德吉无缘瑞典世界杯50人名单是因附加赛后失态行为

每体:巴尔德吉无缘瑞典世界杯50人名单是因附加赛后失态行为

懂球帝
2026-05-13 18:45:10
领导的网名叫上善若水,我该叫什么才能压他一头?

领导的网名叫上善若水,我该叫什么才能压他一头?

摩登人类
2026-05-11 19:43:02
华南理工一男生课堂偷拍女生裙底被当场发现,校方:对涉事学生作出留校察看处分

华南理工一男生课堂偷拍女生裙底被当场发现,校方:对涉事学生作出留校察看处分

扬子晚报
2026-05-13 17:16:56
挤走董卿、靠爹上位、央视“穷鬼”,龙洋的私生活谣言有多离谱?

挤走董卿、靠爹上位、央视“穷鬼”,龙洋的私生活谣言有多离谱?

猪小艳吖
2026-05-12 03:50:15
2026年电费新规来了!7月1日起执行,看完再用电,每月少花几十块

2026年电费新规来了!7月1日起执行,看完再用电,每月少花几十块

陈博世财经
2026-05-12 17:03:49
筑牢安全防线 守护万家灯火

筑牢安全防线 守护万家灯火

人民网
2026-05-13 09:07:38
2026才过半!5位顶流网红接连塌房,偷税炫富低俗一个比一个荒唐

2026才过半!5位顶流网红接连塌房,偷税炫富低俗一个比一个荒唐

橙星文娱
2026-05-12 09:13:39
1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

1076万买走张雪35%股份,两年估值暴涨100倍,凯越亏的从来不是钱

烈史
2026-05-12 17:55:13
89年前那场灾难,照片为何至今仍让人窒息

89年前那场灾难,照片为何至今仍让人窒息

时光慢邮啊
2026-05-13 07:19:13
抢在被定罪前,莎拉迎来最大强援,菲军火速清场,马科斯蒙在鼓里

抢在被定罪前,莎拉迎来最大强援,菲军火速清场,马科斯蒙在鼓里

古史青云啊
2026-05-13 19:24:23
侯耀文离世后,侄儿接手自己娇妻,两人如今过得怎样

侯耀文离世后,侄儿接手自己娇妻,两人如今过得怎样

观察鉴娱
2026-05-13 10:59:34
2026-05-14 07:44:50
飘逸的云朵
飘逸的云朵
飘逸的云朵
771文章数 131关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

家居
亲子
教育
艺术
旅游

家居要闻

内在自叙,无域有方

亲子要闻

重庆儿童配眼镜,家长指南:儿童防控五大核心问题汇总

教育要闻

家长就读,孩子免费修大学学分的社区大学?

艺术要闻

这才是真正的“史上最强毕业证”,书法堪比字帖!

旅游要闻

泰国拟缩短93国游客免签停留期限,从60天减少至30天

无障碍浏览 进入关怀版