阿联酋研究团队打造AI"读心术"：从照片和文字中破解人格密码|算法|翻译|模态|维度|深度思考模型

分享至

（来源：科技行者）

你是否曾经看着某个人的照片，就能直觉地感受到这个人的性格特征？或者从某人的说话方式中，隐约察觉到他们的内在品质？这种看似神秘的能力，现在被来自阿联酋的科学家们用人工智能技术实现了。这项由阿联酋穆罕默德·本·扎耶德人工智能大学的研究团队发表于2025年1月的研究，首次创建了能够同时分析面部特征、个人背景和AI生成的行为特征描述的大型数据库。有兴趣深入了解的读者可以通过论文标题"PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits"在学术数据库中找到完整研究。

这项突破性研究就像是给AI装上了一双"慧眼"，让机器能够像人类心理学家一样，通过观察外在表现来推断内在性格。研究团队由Li Loka和Wong Yu Kang等多位来自不同机构的专家组成，他们来自阿联酋穆罕默德·本·扎耶德人工智能大学、美国卡内基梅隆大学、加州大学圣地亚哥分校以及澳大利亚国立大学。这个国际化的团队就像是一支由不同专业背景组成的"性格侦探队"，每个成员都带来了独特的专业技能。

研究的核心创新在于创建了两个前所未有的数据库：一个包含9444名知名人士的CelebPersona数据集，另一个包含4181名职业运动员的AthlePersona数据集。这就好比建立了两个巨大的"性格档案库"，每个档案都包含三个关键信息：这个人的照片、基本背景资料，以及由三个不同的AI语言模型分析得出的性格特征描述。

为了确保分析的准确性，研究团队采用了"三重保险"的策略。他们让ChatGPT、Gemini和Llama这三个顶级AI模型同时对每个人进行性格分析，然后将结果进行综合比较。这就像是请三位不同的心理学专家同时为同一个人做性格测试，最后取他们意见的交集作为最终结论。这种做法大大提高了分析结果的可靠性。

更令人惊讶的是，研究团队还开发了一套全新的分析框架，能够从两个不同层面来理解人格特征。第一个层面就像是传统的统计学方法，通过大量数据找规律。第二个层面则更加高级，它能够发现不同信息之间的因果关系，就像是能看透表面现象找到深层原因的"透视镜"。

一、数据收集：打造史上最全面的性格数据库

想要让AI学会"读心术"，首先需要大量的训练素材。研究团队面临的挑战就像是要建造一座图书馆，但这座图书馆收藏的不是普通书籍，而是数万人的"性格档案"。

团队选择了两个截然不同的群体作为研究对象。第一个群体是娱乐界和各行各业的知名人士，包括演员、歌手、商界领袖等9444个人。第二个群体是职业体育界的精英运动员，涵盖篮球、足球、网球、高尔夫等七个主要联盟的4181名男性运动员。选择这两个群体的原因很实际：他们都是公众人物，有足够多的公开信息供AI学习分析。

对于每个人，研究团队都收集了三类信息。第一类是基本的生物统计信息，包括出生日期、身高体重、国籍等，就像是身份证上的基本资料。第二类是面部照片，这些照片会被转换成1024维的数字特征向量，相当于用数字来描述一个人的面部特征。第三类是最关键的性格分析，这部分完全由AI来完成。

为了确保AI分析的质量，研究团队进行了一场"AI选秀大赛"。他们测试了10个不同的大语言模型，包括我们熟悉的ChatGPT、Gemini、Llama等。测试标准包括生成速度、准确率、一致性等8个方面。最终，ChatGPT-4o、Gemini-2.5-Pro和Llama-4-Maverick这三个模型脱颖而出，成为了"性格分析三剑客"。

每个AI模型都会根据收集到的公开信息，对每个人进行详细的性格分析。这个分析过程就像是让AI扮演心理学家的角色，根据一个人的公开言论、行为表现、职业选择等信息，来推断这个人在开放性、责任心、外向性、亲和性和神经质这五个维度上的特征。每个维度都会得到一个从0到3的评分，0表示信息不足，1表示该特征不明显，2表示中性，3表示该特征很明显。

为了保护隐私，研究团队采取了严格的数据处理措施。所有的原始照片和文字描述都被转换成数字向量，并进行了额外的加密处理，确保无法逆向还原出原始信息。这就像是把所有的个人信息都装进了一个密码箱，只保留分析所需的数字特征。

二、AI模型选择：寻找最可靠的"性格分析师"

选择合适的AI模型来进行性格分析，就像是在众多心理学家中挑选最可靠的专家。研究团队设计了一套严格的评估体系，从多个角度考察每个AI模型的表现。

生成速度是第一个考量因素。在实际应用中，没有人愿意等待几分钟才得到一个性格分析结果。团队测试发现，不同模型的速度差异巨大，最快的只需要2-4秒，最慢的则需要40秒左右。ChatGPT和Gemini在速度方面表现优异，而一些较新的模型如DeepSeek虽然功能强大，但速度相对较慢。

准确性是更重要的评判标准。研究团队设计了一个巧妙的测试方法：让四个不同的AI模型来评判其他模型生成的性格分析是否准确和一致。这就像是让不同的专家互相检查对方的工作质量。结果显示，ChatGPT-4o在准确性方面表现最佳，几乎所有的分析都能通过其他模型的检验。

一致性测试更加严格。研究团队让同一个模型对同一个人进行多次分析，然后比较结果的一致性。如果一个模型今天说某人很外向，明天又说这个人很内向，那显然不够可靠。测试结果表明，Llama-4-Maverick在一致性方面表现最佳，其分析结果的标准差通常低于0.2，意味着多次分析的结果基本一致。

更有趣的是关于评分方式的研究。团队测试了不同的评分系统，包括3级评分（不同意-中性-同意）和5级评分（强烈不同意-不同意-中性-同意-强烈同意），还测试了数字评分和文字评分的差异。结果出人意料：简单的3级数字评分系统反而比复杂的5级系统更加稳定可靠。这说明有时候简单反而更有效。

基于这些综合评估，研究团队最终选定了三个最优模型作为"黄金组合"：ChatGPT-4o负责主要分析，Gemini-2.5-Pro提供补充视角，Llama-4-Maverick确保结果稳定性。这三个模型就像是三位不同专长的心理学家，通过集体讨论得出最终的性格判断。

三、两层分析框架：从表面规律到深层因果

拥有了高质量的数据库之后，如何从中挖掘有价值的信息成为了关键问题。研究团队开发了一个双层分析框架，就像是配备了两种不同功率的显微镜来观察同一个样本。

第一层分析采用传统的统计学方法，主要目的是找出不同特征之间的关联性。研究团队使用了五种不同的独立性检验方法，包括卡方检验、G方检验等传统方法，以及基于核函数的现代方法如RCIT、HSIC和KCI。这就像是用不同的工具来测量同一个物体的尺寸，如果多个工具都给出相似的结果，那就说明测量结果是可信的。

在CelebPersona数据集的分析中，研究团队发现了一些有趣的规律。性别和职业与几乎所有性格特征都存在显著关联，这并不意外，因为不同性别和职业的人确实可能表现出不同的性格倾向。更有趣的是，面部特征如尖鼻子、拱形眉毛等与某些性格特征存在关联，这验证了"相由心生"这一古老观念可能确实有一定科学依据。

在AthlePersona数据集中，规律有所不同。运动员的性格特征更多地与他们所属的联盟和出生年份相关，而与身高体重等身体特征的关联相对较弱。这可能反映了不同运动项目对性格的不同要求，比如团队运动可能更需要合作性强的性格，而个人运动可能更偏爱独立性强的性格。

第二层分析更加深入，它不满足于仅仅找到关联性，而是要探究因果关系。这就像是不仅要知道"雷声总是跟着闪电出现"这个现象，还要理解"闪电导致雷声"这个因果机制。

为了实现因果分析，研究团队开发了一套专门针对多模态数据的因果表示学习算法。这个算法的核心思想是将复杂的观察数据（如照片、文字）转换为简化的潜在变量，然后分析这些潜在变量之间的因果关系。这个过程就像是把一个复杂的机器拆解成基本零件，然后研究这些零件是如何相互作用的。

算法的设计基于几个重要的理论假设。首先，真实世界中存在一些我们无法直接观察的潜在因素，这些因素影响着我们能看到的表面现象。其次，不同模态的数据（如图像和文本）可能共享某些潜在因素，同时也有各自独特的因素。最后，这些潜在因素之间存在因果关系，理解这些关系有助于更好地预测和解释观察到的现象。

四、合成实验验证：用已知答案检验算法

在将算法应用到真实数据之前，研究团队首先进行了一系列合成实验来验证算法的有效性。这就像是在真正的手术之前，先在模拟人体上练习操作技巧。

团队创建了一个基于MNIST数字识别数据集的合成测试环境。他们构造了两种不同的"模态"：彩色MNIST和时尚MNIST。在彩色MNIST中，数字的水平位置会影响图像的透明度；在时尚MNIST中，服装的垂直位置会影响图像的灰度。更重要的是，他们设计了跨模态的因果关系：彩色MNIST中的水平位置会影响时尚MNIST中的垂直位置。

这个设计看似简单，但实际上包含了复杂的因果结构。算法需要同时处理模态内的因果关系（位置影响透明度）和模态间的因果关系（一个模态的位置影响另一个模态的位置），还要区分共享因素和模态特定因素。

实验结果令人鼓舞。研究团队的算法在R?（决定系数）方面达到了0.96，在MCC（马修斯相关系数）方面达到了0.92，明显超过了其他对比算法。特别是与最接近的竞争算法MMCRL相比，提升幅度达到了6-7个百分点。这说明新算法在识别和学习因果关系方面确实具有显著优势。

更重要的是，算法成功地识别出了预设的因果结构。它能够正确区分哪些变量属于共享因素，哪些属于模态特定因素，以及这些因素之间的因果关系方向。这就像是在一个复杂的拼图游戏中，算法不仅能找到正确的拼图块，还能理解它们应该如何组合在一起。

五、真实数据分析：揭示隐藏的性格因果网络

经过合成数据的验证后，研究团队将算法应用到了真实的PersonaX数据集上。这就像是从实验室走向了真实世界的考验。

在AthlePersona数据集的分析中，算法识别出了一个包含12个潜在变量的因果网络。这些变量被分为三类：两个共享变量代表所有运动员都具备的共同特征，五个图像相关变量反映面部照片中的信息，五个行为特征变量对应性格分析的结果。

最引人注目的是这些变量的具体含义。研究团队通过与独立性检验结果的对比，给每个潜在变量赋予了现实意义。两个共享变量被解释为"心态"和"文化背景"，这确实是所有运动员都可能具备的基础特征。图像相关变量包括肤色、修饰程度、面部表情、吸引力和面部结构，这些都是照片中能够观察到的特征。行为特征变量则包括自信心、成就导向、情绪稳定性、自我认知和积极性。

更有价值的是发现的因果关系。比如，自信心（行为特征）会影响面部表情（图像特征），这符合我们的直觉理解。情绪稳定性会影响修饰程度，可能反映了情绪稳定的人更注重外在形象管理。在图像特征内部，也存在因果链：肤色影响吸引力，吸引力影响面部表情，形成了一个合理的因果序列。

在CelebPersona数据集的分析中，因果网络更加复杂。算法识别出了18个潜在变量，包括3个共享变量、10个图像变量和5个行为特征变量。共享变量被解释为教育背景、文化背景和成长环境，这些确实是影响所有名人的重要因素。

特别有趣的是跨模态因果关系的发现。比如，表达能力（行为特征）会影响亲和力（图像特征），说明一个人的表达能力可能通过面部表情等方式体现出来。在图像特征内部，事件背景和光照条件会影响发型，发型进而影响面部可见度、整体风格和外貌吸引力，这反映了形象管理的复杂策略。

六、理论基础：为什么这套方法是可信的

研究团队不仅提供了实用的算法，还建立了坚实的理论基础来保证方法的科学性。这就像是为一座大楼打下了牢固的地基，确保上层建筑的稳定性。

核心理论基于三个逐步深入的定理。第一个定理解决的是"子空间可识别性"问题。简单来说，就是证明在满足某些条件的情况下，算法能够准确地识别出每个模态对应的潜在变量空间。这就像是证明了一个翻译系统能够准确地将不同语言的文本翻译成统一的内部表示。

第二个定理进一步证明了"共享子空间可识别性"。在多模态数据中，不同模态可能共享某些潜在因素。这个定理证明了算法能够准确识别出这些共享因素，而不会将模态特定因素误认为是共享因素。这就像是在一个多语言会议中，翻译系统能够识别出所有语言都在讨论的共同话题。

第三个定理是最强的结果，证明了"组件级可识别性"。这意味着算法不仅能识别潜在变量的整体结构，还能将每个潜在变量准确地分解为独立的组件。这就像是不仅能理解一首交响乐的整体结构，还能识别出其中每个乐器的独立贡献。

这些理论结果的重要性在于，它们为算法的可靠性提供了数学保证。在满足一定条件的情况下，算法的输出不是随机的猜测，而是对真实因果结构的准确估计。这些条件包括数据分布的良好性质、模态变异性、测量变化条件和可微性要求，都是在实际应用中可以验证或近似满足的。

理论分析还揭示了多模态信息的独特价值。与传统的单模态方法相比，多模态方法能够利用不同模态之间的互补信息来增强识别能力。共享潜在因素就像是连接不同模态的桥梁，通过分析这些桥梁，算法能够获得比单独分析每个模态更丰富的信息。

七、实际应用价值：从学术研究到现实世界

这项研究的价值远不止于学术层面，它开辟了多个实际应用的可能性。就像是发现了一种新的"透视镜"，让我们能够以全新的方式理解人类行为和性格。

在人力资源领域，这项技术可能革命性地改变招聘和人才评估的方式。传统的招聘过程主要依赖简历、面试和心理测试，但这些方法都存在主观性强、成本高、效率低等问题。基于PersonaX的技术可以通过分析候选人的照片和公开信息，快速提供性格特征的初步评估，帮助HR专业人士更有效地筛选和匹配人才。

在教育领域，这项技术可以帮助教育工作者更好地理解学生的个性特征，从而提供更个性化的教学方案。比如，对于识别出具有高开放性特征的学生，可以提供更多创新性和探索性的学习机会；对于具有高责任心特征的学生，可以赋予更多自主学习的责任。

在医疗健康领域，性格特征与心理健康状况有着密切的关联。这项技术可以作为心理健康筛查的辅助工具，帮助医护人员早期识别可能存在心理健康风险的个体。当然，这种应用需要格外谨慎，必须在专业医护人员的指导下进行。

在市场营销和用户体验设计方面，理解用户的性格特征有助于提供更精准的个性化服务。比如，电商平台可以根据用户的性格特征调整商品推荐策略，社交媒体可以优化内容分发算法，让用户看到更符合自己性格偏好的内容。

研究团队特别强调了数据使用的伦理规范。所有数据都来自公开、合法的渠道，并且采取了严格的隐私保护措施。更重要的是，他们制定了明确的使用指南，禁止将这项技术用于高风险决策场景，如保险理赔或放贷审批。这种负责任的态度为AI技术的健康发展树立了良好的榜样。

研究团队还认识到当前数据集的局限性。AthlePersona目前只包含男性运动员，CelebPersona主要关注高知名度的公众人物，这些群体可能不能完全代表普通人群。团队计划在未来扩展数据集的覆盖范围，包括更多样化的人群和更长时间跨度的数据，以提高技术的普适性和可靠性。

说到底，这项研究为我们打开了一扇理解人类性格的新窗口。它不是要取代传统的心理学研究方法，而是要为这个古老的领域注入新的科技动力。就像望远镜帮助我们看到了更遥远的星系，这项技术帮助我们以全新的视角审视人类内心世界的复杂性。归根结底，技术的价值在于服务人类，这项研究最终的目标是促进人与人之间更好的理解与沟通，推动社会的和谐发展。

对于普通人来说，这项研究提醒我们，我们的外在表现确实在某种程度上反映了内在性格，但这种反映是复杂和多层次的。我们不应该简单地根据第一印象来判断他人，而应该用更加科学和理解的态度来看待人与人之间的差异。同时，这项研究也让我们意识到，在数字时代，我们的各种信息都可能被用来推断我们的性格特征，这提醒我们要更加谨慎地管理自己的数字足迹和隐私保护。

有兴趣深入了解这项研究的读者，可以通过搜索"PersonaX Multimodal Datasets LLM-Inferred Behavior Traits"找到完整的研究论文，其中包含了更详细的技术细节和实验结果。这项研究代表了AI技术在理解人类行为方面的重要进展，值得我们持续关注其后续发展和应用。

Q&A

Q1：PersonaX数据库包含哪些人群？它是如何收集这些数据的？

A：PersonaX包含两个数据库：CelebPersona收录了9444名知名人士（包括演员、歌手、商界领袖等），AthlePersona收录了4181名来自NBA、NFL、英超等七大联盟的职业男性运动员。数据来源都是公开合法的渠道，包括官方网站、维基百科等，研究团队严格遵循了各平台的使用条款。

Q2：AI如何从照片和背景信息中分析出人的性格特征？

A：研究团队让ChatGPT、Gemini和Llama三个顶级AI模型同时分析每个人的公开信息，包括访谈言论、行为表现、职业选择等，然后在开放性、责任心、外向性、亲和性和神经质五个维度上进行评分。三个模型的结果会进行综合比较，就像请三位心理学专家同时做诊断然后取交集。

Q3：这项研究发现了哪些有趣的性格与外貌或职业的关联？

A：研究发现面部特征如尖鼻子、拱形眉毛等与某些性格特征存在关联，验证了"相由心生"的观念。在运动员群体中，不同联盟的运动员表现出不同的性格倾向，团队运动可能更需要合作性强的性格。名人群体中，表达能力强的人通常看起来更亲和，文化背景会影响语言使用风格。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.