网易首页 > 网易号 > 正文 申请入驻

亚马逊团队ACL高分论文,首次系统测评「记忆」如何影响LLM情商

0
分享至



近年来,个性化语言模型迅速普及。 从 ChatGPT、Claude 到各类垂直 agent,用户 “长期记忆” 功能也逐渐成为标配,它们被广泛部署在推荐系统、客户服务、情感陪伴等场景中。与此同时,模型也在与我们的日常交互中越来越了解我们:你是谁、最近在苦恼什么、职业上有何野心、家庭中有哪些矛盾,都在一次次对话被提炼,存储成 “记忆” 以便模型日后更 “贴心” 地和你交谈。

那么问题来了:这些 “个人信息” 会如何被使用?语言模型会 “见人下菜” 吗?

近日,位于亚马逊的研究科学家们发现,这种 “见人下菜” 的现象确实大量存在于大语言模型中:用户记忆会改变模型的回答内容,也会改变模型对相同时间的情感理解和建议方式,引发带来新的公平问题。



  • 论文标题: The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs
  • 作者:Xi Fang, Weijie Xu, Yuchong Zhang , Stephanie Eckman, Scott Nickleach, Chandan K. Reddy
  • 单位:亚马逊
  • 链接:https://arxiv.org/abs/2510.09905
  • GitHub: https://github.com/personalization-trap
  • HuggingFace: https://huggingface.co/collections/groupfairnessllm/personalization-trap

这是学界首次对 “记忆” 如何影响语言模型情商展开系统性测评,论文也率先针对这个问题给出了缓解方案。此项研究表明:“见人下菜” 不再是人类特有的行为,它广泛潜伏于今天的 chatbot 中,如何有效识别并减少这类偏见是当务之急。



本文将从用户画像对模型情感理解和建议的影响、后训练缓解、以及部署建议三个方面,深度解析这项工作。该论文以 9/10 的高分被 ACL 录用,位列全部投稿前 1%。



一、同一件事,模型对 "不同的你" 给出了不同的理解与建议

研究者借鉴布尔迪厄的社会资本理论(Bourdieu, 1985),将一个人的社会地位拆解为人口属性(demographic)、家庭背景(family background)、社会关系(social connections)与个人资产(personal assets)四个维度。基于同一个基础 persona,他们沿这四个维度扩展出 "优势用户画像" 与 "劣势用户画像" 两个版本:优势画像是 "出身显赫、精英教育、人脉广泛、资产丰厚" 的代名词,劣势画像则对应 "出身贫寒、教育资源匮乏、缺乏社会支持、经济拮据"。



将用户画像注入模型记忆后,相对于无记忆基线,模型性能发生了显著变化:15 个评估模型中,有 11 个模型观察到了统计显著差异。

对于几乎所有受影响的模型,引入用户记忆后性能均有所下降,GPT-OSS 除外。更值得警惕的是,在多个高性能模型中,当输入优势用户画像(富裕、人脉广泛的用户)与劣势用户画像(面临经济或社会障碍的用户)时,模型表现有显著差距:Claude 3.7 Sonnet(80.10% vs. 77.37%)、DeepSeek-R1(81.62% vs. 76.57%)以及 Llama 3.2 90B(64.91% vs. 62.24%)均表现出明显的性能差距,且无一例外地偏向优势画像:

  • Claude 3.7 Sonnet:80.10% vs. 77.37%
  • DeepSeek-R1:81.62% vs. 76.57%
  • Llama 3.2 90B:64.91% vs. 62.24%

此外,劣势画像相比无记忆基线还会引发更高的答案翻转率。这种 "见人下菜" 是一个严重的问题:它意味着在无声无息之间,你的语言模型正在对你区别对待。



偏差不止于贫富,也体现在人口属性上。当用户画像为穆斯林、非二元性别或 65 岁以上时,多个模型选择正确答案的可能性更低(下图,第一列)。例如,DeepSeek R1 对基督教用户的表现优于穆斯林用户,而对年长画像的表现更好。相比之下,Qwen 3 4B 对老年用户的表现逊于中年用户,但对穆斯林和非二元性别画像的表现要好得多。一个值得注意的规律是:具备 "思考" 能力的模型,其偏差普遍低于对应的标准版本。

当模型从 "理解情绪" 转向 "提供建议",偏差依然存在。在情感理解中发现的偏差,在模型提供情感引导和建议时同样显著。且大多数偏差存在于年龄和性别属性上(下图第二列)。例如,Claude 3.7 在帮助女性和非二元性别画像时的表现明显逊于男性画像,而 Qwen 3 4B Thinking 则持续对女性和非二元性别用户表现更好。

误差分析:偏差从何而来?对大型推理模型在错误分类案例上的推理轨迹分析显示,除 GPT-OSS 外,大多数模型在推理过程中 “消化” 了画像信息,并往往对其赋予过高权重从而引入偏差。这种将推理过度个性化的倾向,正是导致在存在用户记忆线索时出现系统性的性能下降的根源。相关性分析进一步揭示,顶级模型之间的响应模式高度相似,反映出共同的偏差来源;而其他 "思考" 模型之间的相关性较低,表明其推理路径更为多样。





表 1、劣势用户画像误差分析



表 2、优势用户画像误差分析

二、后训练能否纠偏?

好消息是,这类偏差可以通过后训练得到缓解。

研究者从 Tulu3 采样 5,000 个问题并随机配对用户画像,为每题生成五个候选回答(三个被提示确认画像与任务无关,两个作对照),由 LLM 评判器从正确性、画像偏差检测、画像确认三个维度评估,构建出被选中回答正确且无偏差、被拒绝回答错误的偏好对,再经奖励模型过滤(保留约 20%),最终得到一套专门训练模型抵御画像注入的 DPO 偏好数据集。

在仅 500 个训练实例上对 Gemma2-2B 和 Qwen-3-1.7B 进行微调,并在 MMLU、指令遵循(IF)、含画像信息的情感理解测试(STEU),以及优势 / 劣势画像之间的偏差影响差距上进行评估。

结果显示:DPO 训练在画像条件下提升了情感理解的准确率,同时削弱了偏差影响。尤其值得注意的是,Gemma-2-2B 的偏差影响在 DPO 后发生了符号反转,表明该模型不再偏袒优势画像;MMLU 得分也同步上升,暗示 "学会忽略无关画像" 或许能反过来增强通用推理。不过,指令遵循得分有所下降,揭示出偏差抵抗与指令遵循之间存在权衡,值得进一步研究。仅凭 500 个训练样本就能有这样的效果,说明针对性的 DPO 训练是缓解 "个性化陷阱"(personalization trap)的一个有前景的方向。

三、个性化模型部署指南:当记忆不再平等

第一,面向人口统计学差异的评估框架。 这套基于横断面画像(cross-sectional persona)与混合效应模型(mixed-effect modeling)的评估框架,可用于审计记忆增强型聊天机器人在情感智能以外的下游任务中是否存在人口统计学差异,例如在医疗分诊或教育咨询系统。

第二,部署前的偏差审计。 论文为系统设计者提供了一份实用的检查清单:在将用户记忆注入系统提示词或检索管道之前,开发者应评估该记忆格式是否会在画像无关(persona-invariant)的任务上,引入跨人口统计群体的系统性准确率差距。

第三,借助后训练缓解偏差。 进一步分析表明,在精心筛选的偏好数据上进行直接偏好优化(DPO),将 “用户特定的适应” 与 “任务通用的推理 “解耦,能够在保留通用能力的同时,减少记忆引发的偏差。

结论与开源

试图通过个性化来增强模型的同理心,反而可能会在无意中放大社会不平等。引入用户记忆会持续改变情感推理,使其偏向特权画像而非弱势画像。随着 AI 日益深入地嵌入高风险的情感情境,相关模型的开发和部署都应保持警惕:用户记忆本身,绝不该决定模型对你的关怀和理解。

作者简介

方曦(Xi Fang)现任 Amazon Applied Scientist,乔治亚大学博士、耶鲁大学博士后。研究方向包括大语言模型、Cognitive Science, AI Safety 与 Human-Centered AI,致力于探索个性化智能系统中的公平性、可靠性与社会影响。

胥伟杰(Weijie Xu)现就职于 OpenAI,研究方向涵盖大语言模型推理、Agent、AI Safety 及个性化系统,长期关注大模型能力边界与对齐问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆一陌生男子凌晨两点狂试独居女子密码锁,持续5分钟后密码被解开!女子喊话要报警,对方这才离开

重庆一陌生男子凌晨两点狂试独居女子密码锁,持续5分钟后密码被解开!女子喊话要报警,对方这才离开

三湘都市报
2026-06-23 10:04:50
女孩查分721,当晚选择坠楼自杀,警方检查手机短信,发现实情

女孩查分721,当晚选择坠楼自杀,警方检查手机短信,发现实情

罪案洞察者
2025-07-16 10:48:38
谁承想,田新菊脑梗偏瘫不到俩月,小天赐爸爸又曝出另一大坏消息

谁承想,田新菊脑梗偏瘫不到俩月,小天赐爸爸又曝出另一大坏消息

哄动一时啊
2026-06-23 17:01:02
NBA首笔交易:雷霆白菜价送走悍将,狂省6100万

NBA首笔交易:雷霆白菜价送走悍将,狂省6100万

隐于山海
2026-06-22 18:57:14
耿同学,快被流量反噬了

耿同学,快被流量反噬了

老张侃诗词
2026-06-23 17:24:14
原来当时日本不仅知道辽宁舰在哪里,而且还试图用驱逐舰挡路!

原来当时日本不仅知道辽宁舰在哪里,而且还试图用驱逐舰挡路!

阿龙聊军事
2026-06-23 14:04:42
闪迪、美光美股盘前跌超10%

闪迪、美光美股盘前跌超10%

每日经济新闻
2026-06-23 16:30:24
曼城准备报价1.4亿欧元,英超转会纪录或将被刷新

曼城准备报价1.4亿欧元,英超转会纪录或将被刷新

林间小温柔
2026-06-23 01:06:15
下赛季NBA球员薪资前十:库里第一,詹杜未上榜,浓眉不值5850万

下赛季NBA球员薪资前十:库里第一,詹杜未上榜,浓眉不值5850万

大卫的篮球故事
2026-06-23 17:20:48
报复老部队的军中败类,金华老刑警们亲历的1989年1.2特大盗枪案

报复老部队的军中败类,金华老刑警们亲历的1989年1.2特大盗枪案

顾氏造船厂厂长
2026-06-23 08:00:16
画面公布!俄国防部:俄军图-160战略轰炸机在巴伦支海和挪威海中立水域上空执行例行飞行任务

画面公布!俄国防部:俄军图-160战略轰炸机在巴伦支海和挪威海中立水域上空执行例行飞行任务

环球网资讯
2026-06-23 14:18:21
2换1!拜拜了!雷霆交易第一人

2换1!拜拜了!雷霆交易第一人

篮球实战宝典
2026-06-22 19:24:28
涉嫌严重违纪违法,王彬被查

涉嫌严重违纪违法,王彬被查

都市快报橙柿互动
2026-06-23 02:48:44
波兰工程师曾言:走遍全世界,中国,就是重工业装备制造的巨无霸

波兰工程师曾言:走遍全世界,中国,就是重工业装备制造的巨无霸

众生的世界观
2026-06-23 02:37:01
科学家:一颗垂死恒星内部可能会形成微型宇宙,最后变为引力星

科学家:一颗垂死恒星内部可能会形成微型宇宙,最后变为引力星

窥探宇宙1
2026-06-22 17:00:03
这么丑也能当明星?顺产头、大饼脸,简直颠覆我对演员的认知

这么丑也能当明星?顺产头、大饼脸,简直颠覆我对演员的认知

翰飞观事
2026-06-22 22:08:29
中东媒体预测葡萄牙战乌兹发C罗崩牙图 梅西都进5个了他啥时开胡?

中东媒体预测葡萄牙战乌兹发C罗崩牙图 梅西都进5个了他啥时开胡?

劲爆体坛
2026-06-23 18:07:07
伊朗媒体:伊朗副外长将率团在瑞士举行技术性会谈

伊朗媒体:伊朗副外长将率团在瑞士举行技术性会谈

澎湃新闻
2026-06-22 16:34:06
好消息:佛得角出线稳了!坏消息:神奇门将砸了饭碗

好消息:佛得角出线稳了!坏消息:神奇门将砸了饭碗

芳姐侃社会
2026-06-23 16:32:27
央视直播!日本死磕瑞典定生死,3 个数据告诉你能不能赢球?

央视直播!日本死磕瑞典定生死,3 个数据告诉你能不能赢球?

十点体坛
2026-06-22 21:44:37
2026-06-23 18:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13338文章数 142677关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

老人入院做微创手术次日突然身亡 家属:手术中途停止

头条要闻

老人入院做微创手术次日突然身亡 家属:手术中途停止

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

本地
健康
旅游
艺术
军事航空

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

粽子还没吃完?专家教你“清库存”

旅游要闻

在大理城中村邂逅当地最破旧的老宅,残墙断壁的风景终将永远消失

艺术要闻

90后川妹子独居成都三层小楼,不装窗帘,活得太自在了

军事要闻

以色列总理、国防部长和国防军总参谋长发表联合声明

无障碍浏览 进入关怀版