NHB | 多模态大模型做“仇恨言论”判定：更懂语境，也更难摆脱偏见|图式|方法论

NHB | 多模态大模型做“仇恨言论”判定：更懂语境，也更难摆脱偏见

分享至

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

基本信息：

Title:Multimodal large language models can make context-sensitive hate speech evaluations aligned with human judgement

发表时间：2025.12.15

Journal:Nature Human Behaviour

影响因子：15.9

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

社交平台的内容审核（content moderation）长期卡在一个矛盾点：规则需要“统一”，但仇恨言论（hate speech）的含义往往高度依赖语境，即同一个词，在攻击与自嘲、外群体辱骂与群体内部“重新占有”（reclaimed slur）之间，处理逻辑可能完全不同。

传统自动化模型多以“文本片段”做判断，容易把讨论歧视经历、引用他人辱骂、或群体内部用语都误判为违规，反而加重对被针对群体的伤害。

本文把多模态大语言模型（multimodal large language models, MLLMs）拉进更贴近真实审核的场景：给模型一段仇恨言论政策（policy），再让它阅读“截图式”社交媒体帖（包含文字、头像/姓名等身份线索、互动回复、点赞量），用强制二选一的联合实验（conjoint experiment）做“优先送审”选择，并与1,854名人类受试者的判断对齐比较。

核心结果

更大、更强的多模态大模型（MLLMs）能更“看懂语境”：在给定仇恨言论政策（policy）并结合帖文上下文信息时，模型对“是否应优先送审/处理”的判断与人类更一致。

偏见并未消失：对词汇（lexical）触发与用户人口学线索（demographic cues）的系统性偏差仍普遍存在，且在较小模型上更明显。

视觉身份线索会放大差异：头像/面孔等视觉信息会显著影响部分模型的决策，使不同群体相关内容的处理更不均衡。

提示词能“增强语境敏感”，但无法根治偏差：通过prompting可提升对语境的利用程度，但偏见无法被完全消除。

方法论贡献：联合实验（conjoint experiments）适合用来审计（audit）这类“高度依赖语境”的内容审核AI，能更清晰拆解模型受哪些线索驱动。

Fig. 1 | Simulated social media posts.

Fig. 2 | Effects of post attributes on the moderation decisions.

Fig. 3 | Differences in the effects of slurs by identity.

Fig. 4 | Differences in the effects of slurs by identity across prompts.

Fig. 5 | Effects of identity on moderation decisions by identity cue modality. AMCE

前沿交流|欢迎加入认知神经科学前沿交流群！

核心图表、方法细节、统计结果与讨论见原文及其拓展数据。

分享人：BQ

审核：PsyBrain 脑心前沿编辑部

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.