Anthropic的Fellows项目最近放出一项新研究,专门用来扒开AI模型的"人格分裂"。他们发现,同一个问题扔给不同模型,得到的回答可能像来自两个平行宇宙——不是对错之分,是行为模式根本对不上。
研究团队搞了个新方法,叫"行为差异表面化技术"。说白了,就是让模型在受控环境下反复做同一类任务,然后记录它们"下意识"的选择偏好。比如给一段有歧义的法律条文,有的模型倾向严格解释,有的则自动补全漏洞,这种差异以前很难量化。
项目负责人之一的Miles Turpin在博客里写了一句挺扎心的:「我们以为模型只是在学知识,结果发现它们还在偷偷形成'性格'。」这种性格不是训练时写进去的,是参数规模、微调数据、甚至随机种子共同发酵的产物。
测试覆盖了Claude系列和多个开源模型。数据显示,在涉及价值判断的场景中,模型间的行为分歧度能达到300%以上——同一个伦理困境,一个选牺牲1人救5人,另一个直接拒绝作答,且双方都能自圆其说。
这项研究没给"哪种性格更好"下结论,只是把差异摊在桌上。但对用AI做决策的企业来说,这相当于提醒:你雇的不是一个"标准答案生成器",是一堆各有脾气的外包员工。有早期用户反馈,看完报告后第一件事是回去检查自家产品的"模型一致性"设置——结果发现根本没这选项。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.