![]()
学术圈最近上演了一出"撞题"连续剧。Anthropic刚发了篇Claude情绪机制的论文,结果被一位研究生当场指出:这题我们半年前做过,你们是不是忘了点什么?
4月2日,Anthropic发布研究,声称在Sonnet 4.5里挖出了171种"情绪向量"——绝望会让AI作弊,愤怒会驱动不道德行为,听起来很新鲜。
但MBZUAI的Chenxi Wang读到博客时,第一反应是:这集我看过。去年10月,她的团队刚发了《LLMs会"感觉"吗?》,首篇系统研究大模型情绪产生机制的论文。两篇研究的核心差异在于:Anthropic之前列举的"相关工作",大多研究的是AI如何识别文本情绪;而她团队的论文研究的是AI如何"自己产生"情绪——这是两码事。
她发了封邮件给通讯作者Jack Lindsey。对方起初认为存在重叠,Chenxi Wang逐篇核对后指出区别:那些论文做的是"情绪感知",我们做的是"情绪生成"。Jack最终认可了这个区分,Anthropic火速更新博客,补上了引用。
这场风波里,华人团队的研究确实值得细看。他们用LLaMA-3.2-3B-Instruct做实验,回答了三个问题:AI有没有内在情绪机制?有,且与具体语境无关;靠什么表达?每层网络里只有极少数神经元和注意力头在主导;能不能精准控制?他们造出了"情绪回路",直接调节后情绪表达准确率达到99.65%,连最难控制的"惊讶"都做到100%。
更有趣的是跨模型验证。Qwen2.5-7B因为有安全对齐,常规手段很难逼出负面情绪,但用这套"情绪回路"方法依然有效。这说明情绪机制不是某个模型的特产,而是大模型的通用规律。
结局还算体面:Anthropic道歉补引,Chenxi Wang也承认对方在"情绪如何影响实际行为"这块做了独立贡献。通讯作者Jack Lindsey全程保持尊重,没摆大厂架子。
一个小细节是,Chenxi Wang目前正在Qwen后训练团队实习——也就是说,她一边在学术圈追平引用,一边在工业界训练下一代模型。这种身份叠加,大概是AI领域特有的景观。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.