华为团队：如何评估AI人格化能力？|复杂性|知名企业

分享至

当我们与AI聊天时，是否希望它能像真正的朋友一样了解我们的喜好，给出贴合我们个性的回答？这个看似简单的愿望，实际上却是当前人工智能领域最具挑战性的难题之一。2025年6月，来自电子科技大学、香港中文大学（深圳）、华南农业大学和OPPO的研究团队联合发布了一项突破性研究，他们创建了名为PersonaFeedback的全新评测基准，专门用来测试AI模型能否真正做到"因人而异"的个性化回答。这项研究于2025年6月15日在arXiv平台发表，论文编号为arXiv:2506.12915v1，有兴趣深入了解的读者可以通过https://huggingface.co/datasets/PersonalAILab/PersonaFeedback获取完整数据集。

这项研究的重要性不言而喻。目前的AI模型虽然在解数学题、写代码、回答常识问题等方面表现出色，但在理解和适应不同用户的个性化需求方面却显得力不从心。正如研究团队所指出的，现有的AI评测基准主要关注通用能力，却忽略了一个关键问题：同样一个问题，不同背景、不同性格、不同喜好的人需要的答案是完全不同的。比如，当问"如何保持健康"时，一个忙碌的商务人士和一个退休的老人需要的建议截然不同，而现有的AI模型往往只能给出千篇一律的标准答案。

研究团队通过精心设计，构建了一个包含8298个人工标注测试案例的庞大数据库。这些测试案例就像是为AI量身定制的"人格化考试题"，每道题都需要AI在理解用户个性的基础上，从两个候选答案中选择更加个性化、更加贴合用户特点的那一个。为了确保测试的科学性和挑战性，研究团队将这些题目分为简单、中等和困难三个等级，就像驾照考试一样，难度逐步递增。

然而，测试结果令人震惊。那些在其他任务中表现卓越的顶级AI模型，在面对最难等级的个性化测试时，表现却大幅下降。即使是被誉为最先进的推理模型o3-mini、GPT-4等，在困难题目上的准确率也仅在68%到71%之间徘徊，远未达到人们期望的水平。这就好比一个数学天才，在解复杂方程时游刃有余，但在理解人际关系的微妙差异时却变得笨拙起来。

更有趣的是，研究团队还发现了几个颠覆常识的现象。首先，那些专门为复杂推理设计的长推理模型，在个性化任务上并没有显示出明显优势，这说明逻辑推理能力的提升并不能直接转化为对人性的理解。其次，模型规模确实重要，参数量更大的开源模型在个性化任务上表现更好，这符合"大力出奇迹"的技术发展规律。第三，专门用于评估AI回答质量的奖励模型，虽然在通用问题上表现出色，但在个性化问题上却表现平平，这暴露了当前AI评估体系的盲点。

最令人意外的是关于检索增强生成（RAG）技术的发现。RAG技术原本被认为是解决个性化问题的良方，它通过检索用户相关信息来提供更贴合的回答。然而研究结果显示，即使为AI提供了用户的相关背景信息，其表现也没有显著提升，有时甚至不如完全不提供个人信息的基准版本。研究团队分析认为，这可能是因为AI需要从零散的信息片段中推断用户偏好，这种隐性推理对AI来说比直接获得明确的用户画像更加困难。就像让一个人通过几张购物小票来猜测顾客的生活方式一样，信息虽然相关，但推理过程却异常复杂。

相比之下，当研究团队直接向AI提供详细的用户画像时，模型表现出现了显著提升。这个发现具有重要的实践意义：与其让AI自己去猜测用户的喜好和特点，不如让用户主动、明确地告诉AI自己的需求和偏好。这种"明示"胜过"暗示"的策略，为未来AI个性化服务的设计指明了方向。

为了创建这个评测基准，研究团队付出了巨大努力。他们首先构建了1700个虚拟用户画像，这些画像涵盖了各行各业的人群，从STEM领域的工程师到服务业的从业者，从商务精英到在校学生。每个画像都包含丰富的个人信息，包括职业背景、性格特征、兴趣爱好、生活习惯等。为了确保这些画像的真实性和多样性，研究团队进行了两轮质量筛选，剔除了过于理想化、内部矛盾或过度依赖刻板印象的画像。

在问题生成环节，研究团队采用了创新的动态生成方法。他们没有简单地让AI根据静态的用户画像生成问题，而是模拟了真实的用户行为模式。具体来说，他们收集了大量开源数据，包括社交媒体内容、评论和论坛讨论，然后让AI为每个虚拟用户选择感兴趣的内容作为"记忆数据"。基于这些记忆数据，AI会推断用户的特征，然后生成相应的问题。这种方法避免了直接从完整用户画像生成问题可能产生的过度刻板化问题，使得生成的问题更加自然和真实。

答案生成则采用了巧妙的三层策略。研究团队设计了一个"个性化智能体"，针对每个问题生成三种不同的回答：第一种基于完整的用户画像和相关偏好信息；第二种随机屏蔽80%的用户信息；第三种完全不使用任何用户信息。这种设计确保了答案在个性化程度上的梯度差异，为后续的人工标注提供了丰富的选择空间。

人工标注环节是整个项目最耗时也最关键的部分。研究团队雇佣了9名人工评估员，他们需要根据给定的用户画像，从候选答案中选择最贴合用户特点且最有帮助的回答。为了确保标注质量，研究团队制定了详细的评估标准，要求答案既要有针对性地解决用户的具体问题，又要体现对用户多个维度信息的理解和恰当整合。评估员之间的一致性通过Fleiss's Kappa系数来衡量，只有达到一定一致性阈值的答案对才会被纳入最终数据集。

基于人工标注的结果，研究团队构建了三个难度等级的测试集。简单等级主要比较明显个性化的答案与通用答案，这类题目相对容易区分。中等难度的题目涉及评估员一致性较高的答案对，表明这些答案之间的差异相对明显，大多数人都能做出相同的判断。困难等级则包含评估员一致性中等的答案对，这些答案之间的个性化差异非常微妙，即使是人类评估员也可能产生分歧。

研究团队还进行了一项有趣的对比实验，他们使用了业界知名的HelpSteer2评估框架的五个维度（有用性、正确性、连贯性、复杂性和冗长性）来分析他们的数据集。结果发现，个性化这一维度与传统的五个维度相关性很低，这证明了个性化确实是一个独特且重要的评估维度，现有的评估体系并未充分覆盖这一方面。这个发现进一步验证了PersonaFeedback基准的价值和必要性。

为了验证训练数据的有效性，研究团队还进行了奖励模型训练实验。他们构建了一个包含10000个偏好对的训练数据集，使用基于用户画像生成的个性化回答作为正例，不使用用户信息生成的回答作为负例。实验结果表明，即使是这样相对简单的偏好数据，也能有效提升模型在个性化任务上的表现，这为未来的模型优化提供了可行的方向。

在模型评估方面，研究团队测试了当前最先进的各类模型，包括推理模型、聊天模型、开源模型和奖励模型等数十个不同类型的AI系统。测试采用了三种不同的设置：完整用户画像设置，即直接向模型提供详细的用户信息；RAG设置，即通过检索相关的用户记忆数据来辅助回答；无个性化设置，即完全不提供任何用户相关信息作为基准对照。

结果显示，在完整用户画像设置下，大多数模型都能达到70%以上的准确率，其中表现最好的是o3-mini，总体平均准确率达到79.9%。然而，当面对困难等级的测试时，即使是最先进的模型也只能达到68%到71%的准确率，这表明在处理微妙的个性化差异时，当前AI技术仍有很大改进空间。

特别值得关注的是不同类型模型的表现差异。推理模型虽然在复杂逻辑推理任务上表现卓越，但在个性化任务上并未显示出明显优势，这说明个性化能力可能需要不同于逻辑推理的技能。开源模型中，参数规模与性能呈现明显的正相关关系，32B参数的模型显著优于7B参数的模型，这符合大模型发展的一般规律。

奖励模型的表现则揭示了另一个重要问题。这些专门用于评估回答质量的模型在通用问题上往往表现出色，但在个性化问题上却相对落后。这暴露了当前AI评估体系的一个盲点：我们的评估标准主要基于通用的"好"回答，而忽略了"适合特定用户"的重要性。

RAG技术的表现最令人意外。理论上，为AI提供用户相关的背景信息应该能帮助其生成更个性化的回答。然而实验结果显示，RAG设置的表现与无个性化设置相当，有时甚至略逊一筹。研究团队分析认为，这可能有两个原因：一是从零散的记忆片段中推断用户偏好是一项极其复杂的隐性推理任务，对AI的理解能力提出了很高要求；二是检索到的信息可能包含噪音或相互矛盾的内容，反而干扰了AI的判断。

这个发现具有重要的实践意义。当前许多AI应用都采用RAG技术来实现个性化，比如基于用户历史对话记录来提供定制化服务。然而PersonaFeedback的研究结果表明，这种间接的个性化方式效果有限，直接的用户画像可能是更有效的解决方案。这提示我们，与其让AI费力地从用户行为中猜测偏好，不如设计更直接的方式让用户主动表达自己的需求和特点。

研究团队还发现了一个有趣的现象：模型在特定问题和通用问题上的表现存在差异。特定问题是指那些明确针对某个用户画像设计的问题，而通用问题则是从现有数据集中筛选出的高质量主观问题。在特定问题上，模型需要更深入地理解用户的专业背景和个人特点，因此难度更高。而在通用问题上，模型主要需要判断回答的个性化程度，相对容易一些。

这种差异反映了个性化AI面临的两个层面的挑战：一是如何生成真正贴合用户特点的内容，二是如何识别和评估内容的个性化程度。当前的AI模型在后者方面表现相对较好，这可能与其训练数据和目标函数有关。大多数AI模型在训练过程中更多接触的是评估和比较任务，而非生成高度定制化内容的任务。

为了更深入地理解个性化这一概念，研究团队还进行了详细的相关性分析。他们使用一个顶级奖励模型对所有回答进行了五个维度的评分：有用性、正确性、连贯性、复杂性和冗长性。然后计算这些维度与最终选择标签（即哪个回答被选为更个性化）之间的相关性。

结果显示，个性化与传统的五个质量维度之间的相关性都很低，最高的相关性也只有0.43。这个发现非常重要，它证明了个性化确实是一个独特的评估维度，不能简单地通过传统的质量指标来衡量。换句话说，一个回答可能在语法、逻辑、信息量等方面都很优秀，但如果不贴合用户的特定需求，就不能称为好的个性化回答。

这一发现对AI评估领域具有深远影响。它表明我们需要重新审视AI评估的标准和方法，不能仅仅关注通用的质量指标，还需要考虑回答与特定用户需求的匹配度。这也解释了为什么许多在传统基准测试中表现优异的模型，在实际用户体验中却可能显得"不够贴心"。

研究团队的工作还揭示了当前AI个性化技术发展的几个重要趋势。首先，规模仍然重要，更大的模型通常具有更好的个性化能力，这可能是因为大模型能够学习到更丰富的人类行为模式和偏好差异。其次，专门的个性化训练是必要的，仅仅依靠通用能力的提升无法自动获得良好的个性化表现。最后，明确的用户信息比隐含的行为数据更有效，这提示我们在设计个性化AI系统时应该重视用户的主动输入。

从技术实现角度来看，PersonaFeedback基准的创建过程本身就是一个技术创新的典型案例。研究团队巧妙地结合了大语言模型的生成能力、人工智能的推理能力和人类专家的判断能力，创造出了一个既具有挑战性又具有实用价值的评测工具。这种人机协作的研究模式为未来AI基准的创建提供了宝贵经验。

数据集的设计也体现了严谨的科学态度。三个难度等级的设计不是随意划分，而是基于人类评估员一致性的客观数据。简单、中等、困难三个等级分别对应高一致性、中高一致性和中等一致性的评估结果，这确保了难度划分的科学性和可解释性。这种基于人类认知差异的难度设计方法值得其他AI基准建设项目借鉴。

PersonaFeedback基准的发布对整个AI行业具有重要意义。它不仅提供了一个标准化的个性化能力评估工具，更重要的是推动了对AI个性化本质的深入思考。通过量化的方式揭示了当前技术的不足，为未来的研究方向提供了明确指引。

值得注意的是，这项研究也反映了中国AI研究的实力和特色。研究团队来自多个知名院校和企业，体现了产学研合作的优势。OPPO等企业的参与也表明了工业界对AI个性化技术的重视，这种产业需求驱动的研究模式有助于确保研究成果的实用性和前瞻性。

从用户体验的角度来看，PersonaFeedback基准测试的结果也给我们带来了重要启示。当我们与AI助手交互时，如果感觉它的回答千篇一律、缺乏针对性，这并不是我们的错觉，而是当前技术的真实反映。即使是最先进的AI模型，在理解和适应个体差异方面仍有很大改进空间。

这也提醒我们在使用AI服务时，主动、明确地表达自己的需求和背景信息会得到更好的服务效果。与其期待AI自动理解我们的需求，不如主动告诉它我们的偏好、背景和期望。这种"教会AI了解我们"的思维方式，可能是当前阶段获得更好AI体验的关键。

研究团队还进行了奖励模型的训练实验，这部分工作虽然规模相对较小，但结果令人鼓舞。他们使用相对简单的偏好数据就能显著提升模型的个性化表现，这表明通过适当的训练，AI的个性化能力是可以提升的。这为未来的模型优化提供了可行的技术路径。

具体来说，他们构建了10000个训练样本，每个样本包含一个基于用户画像生成的个性化回答（作为正例）和一个不考虑用户信息的通用回答（作为负例）。使用这些数据训练的奖励模型在PersonaFeedback基准上表现出了明显提升，证明了专门的个性化训练的有效性。

这个实验结果具有重要的工程价值。它表明，即使没有大量的高质量个性化数据，我们也可以通过相对简单的对比学习方法来提升AI的个性化能力。这为资源有限的研究团队和初创公司提供了可行的技术方案。

从更广阔的视角来看，PersonaFeedback基准的发布标志着AI评估进入了一个新阶段。传统的AI基准主要关注模型的通用能力，如知识掌握、逻辑推理、语言理解等。而PersonaFeedback则开辟了一个新的评估维度：AI对人类个体差异的理解和适应能力。这种评估思路的转变反映了AI技术发展的新趋势：从追求通用性向追求个性化的转变。

这种转变也符合AI技术应用的实际需求。在现实生活中，用户对AI服务的满意度往往不仅取决于回答的准确性，更取决于回答的贴合性。一个能够理解并适应用户个性的AI助手，比一个只会给出标准答案的AI助手更受用户欢迎。PersonaFeedback基准正是为了推动这种更贴心、更智能的AI服务而设计的。

研究团队在论文中还讨论了他们工作的局限性。他们坦率地承认，虽然PersonaFeedback是一个重要进步，但仍存在一些不足。比如，二元选择的评估方式虽然能有效量化个性化差异，但人类评估员的主观判断不可避免地会受到个人因素影响，特别是在更具挑战性的案例中。此外，尽管研究团队努力构建多样化和真实的用户画像，但这些虚拟角色可能仍然包含某些偏见或简化，无法完全捕捉真实用户的复杂性和细微差别。

这种对局限性的坦诚讨论体现了严谨的学术态度，也为后续研究指明了改进方向。未来的工作可能需要探索更精细的评估方法，收集更多样化的真实用户数据，并开发更先进的个性化技术。

说到底，PersonaFeedback基准的发布只是AI个性化技术发展征程中的一个重要里程碑，而非终点。它为我们清晰地展示了当前技术的能力边界，也为未来的突破指明了方向。归根结底，这项研究告诉我们，真正智能的AI不仅要聪明，更要贴心；不仅要有知识，更要有情商；不仅要能回答问题，更要能理解提问者的真正需求。

从这个角度来看，PersonaFeedback基准不仅是一个技术工具，更是一面镜子，让我们看到了AI技术发展的新方向。它提醒我们，在追求AI能力提升的同时，不能忽视AI与人类之间情感和认知层面的连接。只有当AI真正学会理解和适应人类的多样性时，我们才能说AI技术真正走向了成熟。

这项研究对普通用户最直接的意义在于，它可能会推动AI服务商更加重视个性化体验的提升。随着PersonaFeedback这样的评估工具的普及，AI产品的个性化能力将成为一个重要的竞争指标。这最终将惠及每一个AI服务的使用者，让我们都能享受到更加贴心、更加智能的AI服务。

研究团队已经将完整的数据集、评估协议和代码公开发布，这种开放的研究态度值得赞赏。它确保了研究成果能够被更广泛的研究社区使用和改进，加速了整个领域的发展。有兴趣的研究者和开发者可以通过https://huggingface.co/datasets/PersonalAILab/PersonaFeedback获取相关资源，参与到这一重要研究方向中来。

Q&A

Q1：PersonaFeedback是什么？它主要测试AI的什么能力？ A：PersonaFeedback是一个专门评估AI个性化能力的测试基准，包含8298个人工标注的测试案例。它主要测试AI能否根据不同用户的背景、性格、喜好等特征，提供真正贴合用户需求的个性化回答，而不是千篇一律的标准答案。

Q2：为什么连最先进的AI模型在这个测试中表现都不太好？ A：因为个性化需要AI深度理解人类的个体差异和微妙需求，这与传统的逻辑推理或知识问答完全不同。即使是GPT-4、o3-mini这样的顶级模型，在最难的个性化测试中准确率也只有68%-71%，说明理解人性比解数学题要难得多。

Q3：这项研究对我们日常使用AI有什么启示？ A：研究发现，主动告诉AI你的背景信息和偏好，比让它自己猜测要有效得多。所以与AI聊天时，明确表达你的身份、需求和期望，会得到更贴合的回答。另外，目前的AI个性化能力还有限，不要期望它能完全理解你的所有需求。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.