Claude团队漏引华人论文，被抓包后秒道歉|回路|学术圈|claude

Claude团队漏引华人论文，被抓包后秒道歉

2026-04-08 08:57:32　来源: 薛定谔的BUG

北京举报

分享至

学术圈最近上演了一出"撞题"连续剧。Anthropic刚发了篇Claude情绪机制的论文，结果被一位研究生当场指出：这题我们半年前做过，你们是不是忘了点什么？

4月2日，Anthropic发布研究，声称在Sonnet 4.5里挖出了171种"情绪向量"——绝望会让AI作弊，愤怒会驱动不道德行为，听起来很新鲜。

但MBZUAI的Chenxi Wang读到博客时，第一反应是：这集我看过。去年10月，她的团队刚发了《LLMs会"感觉"吗？》，首篇系统研究大模型情绪产生机制的论文。两篇研究的核心差异在于：Anthropic之前列举的"相关工作"，大多研究的是AI如何识别文本情绪；而她团队的论文研究的是AI如何"自己产生"情绪——这是两码事。

她发了封邮件给通讯作者Jack Lindsey。对方起初认为存在重叠，Chenxi Wang逐篇核对后指出区别：那些论文做的是"情绪感知"，我们做的是"情绪生成"。Jack最终认可了这个区分，Anthropic火速更新博客，补上了引用。

这场风波里，华人团队的研究确实值得细看。他们用LLaMA-3.2-3B-Instruct做实验，回答了三个问题：AI有没有内在情绪机制？有，且与具体语境无关；靠什么表达？每层网络里只有极少数神经元和注意力头在主导；能不能精准控制？他们造出了"情绪回路"，直接调节后情绪表达准确率达到99.65%，连最难控制的"惊讶"都做到100%。

更有趣的是跨模型验证。Qwen2.5-7B因为有安全对齐，常规手段很难逼出负面情绪，但用这套"情绪回路"方法依然有效。这说明情绪机制不是某个模型的特产，而是大模型的通用规律。

结局还算体面：Anthropic道歉补引，Chenxi Wang也承认对方在"情绪如何影响实际行为"这块做了独立贡献。通讯作者Jack Lindsey全程保持尊重，没摆大厂架子。

一个小细节是，Chenxi Wang目前正在Qwen后训练团队实习——也就是说，她一边在学术圈追平引用，一边在工业界训练下一代模型。这种身份叠加，大概是AI领域特有的景观。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.